Possiamo definire un data warehouse come una base di dati di grande dimensione separata da quella operativa dell’azienda e usata per il supporto alle decisioni.
A cosa serve un secondo database di grande dimensione a una azienda? La risposta a questa domanda è importantissima.
Ogni azienda tiene delle informazioni sulle sue attività per offrire i suoi servizi in modo efficace. Per usufruire al meglio di questa informazione, le aziende si creano un secondo database (il data warehouse) che poi usano per analisi, archivio, sicurezza e anche supporto alle decisioni.
Le informazioni tratti da un data warehouse sono poi usati dai manager delle aziende per fare per esempio delle valutazioni tecnico-economiche sull’andamento dell’azienda.
Al crescere del database transazionale, il data warehouse di un azienda è aggiornato.
In quest’articolo, analizzeremo gli elementi di un data warehouse, la sua architettura e in fine vedremmo qualche sua applicazione.
Elementi di un data warehouse
Dalla creazione all’uso di un data warehouse, i dati seguono un flusso ben determinato. Dati provenendo da fonti diverse sono estratti e trasformati secondo regole ben stabiliti e salvati nel data warehouse usando server dedicati. Dopo di che ci sono applicazioni ad hoc che estraggono i dati dalla data warehouse usando dei query o altri metodi per analizzare i dati.
Gli elementi sono quindi in modo generale le fonti di dati, i data warehouse (con o senza data mart), i servers strumenti di analisi e i metadati.
Fonti
Le fonti possono essere di diversi tipi dal file testo fino a un database vero e proprio. Possono essere interni (il database OLTP dell’azienda) o esterni (dati provenienti da un'altra azienda.)
Per integrare questi dati, si usa il processo ETL (Extracting, Transformation, Loading) che deve estrarre i dati dalle fonti, ripulirli da errori o inconsistenze e finalmente trasformarli in un formato adatto per il data warehouse.
Data warehouse e data mart
Un data mart può essere pensato come la restrizione della data warehouse a un solo dipartimento (Vendite ad esempio) dell’azienda.
A questo punto si può dire che un data warehouse è un insieme di data mart. Ci sono aziende che costruiscono il proprio data warehouse in modo graduale aggiungendo un data mart alla volta. Gli altri invece partono da tutti i data mart (prende più tempo).
Strumenti di analisi
Gli strumenti di analisi sono degli strumenti destinati agli utenti che potranno per analizzare i dati.
Ce ne sono ad esempio quelli per fare delle relazioni su vari argomenti, quelli per eseguire delle query e avere i dati che servono a loro rappresentati in vari modi. Le applicazioni per le query sono fatti ad hoc nel senso che non si può sapere a priori quali informazioni servono agli utenti.
Servers
Due tipi di servers sono usati rispetto alla densità dei dati.
Server Relational OLAP
Si usano i server dei DBMS tradizionali estesi per operazioni aggregati.
Server Multidimensional OLAP
Sono server rappresentati da matrici multidimensionali dove ogni dimensione è un elemento
del data warehouse.
I meta dati
I metadati sono dei dati che documentano ogni parte del processo.
Ci sono dei metadati per La fase ETL, ci sono dei metadati per il dati contenuti nel data warehouse e infine dei metadati per le query fate.
Architettura
Ci sono tre architetture di cui la prima è sconsigliata.
La prima è quella a un solo livello. Si usa lo stesso database per operazioni transazionali e quelli analitiche. Le operazioni analitiche appesantiranno la velocità delle operazioni transazionali che a loro volta sovrascriveranno dati importanti per l’analisi storica dell’azienda.
La seconda architettura è quella a due livelli in cui il database OLTP e il data warehouse sono separati.
Il primo strato è costituito dalle fonti di dati. Il problema maggiore con quest’architettura è che il processo di ETL non è fattibile in pratica con la dimensione di dati da dover estrarre.
Il che ci porta alla terza architettura che aggiunge fra il primo strato e l’ultimo, un nuovo strato che permette di alleggerire le operazioni ETL faccendoni per la più grande su macchine predisposte a questo scopo nel secondo strato.
Applicazioni
Le applicazioni della data warehousing sono varie, in seguito solo una piccola lista:
Negozi: Comportamento del cliente
Assicurazione: Antifrode
Telecomunicazione: Analisi chiamate, antifrode
Salute: Analisi del servizio e salute
Aspettavo l’ultimo per la fine, La pubblicità mirata in tante azienda usa le informazioni sui clienti per capire meglio i loro gusti.
Glossario:
OLTP: On-Line Transaction Processing usato nei processi transazionali in un DBMS
OLAP: On-Line Analytical Processing usato nei processi di analisi in un data warehouse
Fonti e approfondimenti:
Slide del Prof Luca Cabbibo
Slide del Prof Elena Baralis (Polito)
Wikipedia
http://www.wisegeek.com/
http://www.eccellere.com/
http://www.dwinfocenter.org/getstart.html
http://www.tech-faq.com/
Image: renjith krishnan / FreeDigitalPhotos.net
0 commentaires:
Posta un commento
Ti è piaciuto l'articolo? Lascia un commento,fammi una domanda se hai dubbi o ambiguità.
Grazie!