Benvenuto caro Lettore!

UF è un blog di ingegneria informatica pieno di articoli più o menoo tecnici. Iscriviti per rimanere aggiornato all'uscità dei prossimi articoli.

Ad Ad ads ads

Ricerca

8 gen 2012

Tutto quello che devi sapere sui Data warehouse.


 Possiamo definire un data warehouse come una base di dati di grande dimensione separata da quella operativa dell’azienda e usata per il supporto alle decisioni.
A cosa serve un secondo database di grande dimensione a una azienda? La risposta a questa domanda è importantissima.
Ogni azienda tiene delle informazioni sulle sue attività per offrire i suoi servizi in modo efficace.  Per usufruire al meglio di questa informazione, le aziende si creano un secondo database (il data warehouse) che poi usano per analisi, archivio, sicurezza e anche supporto alle decisioni.
Le informazioni tratti da un data warehouse sono poi usati dai manager delle aziende per fare per esempio delle valutazioni tecnico-economiche sull’andamento dell’azienda.
Al crescere del database transazionale, il data warehouse di un azienda è aggiornato.
In quest’articolo, analizzeremo gli elementi di un data warehouse, la sua architettura e in fine vedremmo qualche sua applicazione.

Elementi di un data warehouse






Dalla creazione all’uso di un data warehouse, i dati seguono un flusso ben determinato. Dati provenendo da fonti diverse sono estratti e trasformati secondo regole ben stabiliti e salvati nel data warehouse usando server dedicati.  Dopo di che ci sono applicazioni ad hoc che estraggono i dati dalla data warehouse usando dei query o altri metodi per analizzare i dati.
Gli elementi sono quindi in modo generale le fonti di dati, i data warehouse (con o senza data mart), i servers strumenti di analisi e i metadati.

Fonti

Le fonti possono essere di diversi tipi dal file testo fino a un database vero e proprio. Possono essere interni (il database OLTP dell’azienda) o esterni (dati provenienti da un'altra azienda.)
Per integrare questi dati, si usa il processo ETL (Extracting, Transformation, Loading) che deve estrarre i dati dalle fonti, ripulirli da errori o inconsistenze e finalmente trasformarli in un formato adatto per il data warehouse.

Data warehouse e data mart

Un data mart può essere pensato come la restrizione della data warehouse a un solo dipartimento (Vendite ad esempio) dell’azienda.
A questo punto si può dire che un data warehouse è un insieme di data mart. Ci sono aziende che costruiscono il proprio data warehouse in modo graduale aggiungendo un data mart alla volta. Gli altri invece partono da tutti i data mart (prende più tempo).

Strumenti di analisi


Gli strumenti di analisi sono degli strumenti destinati agli utenti che potranno per analizzare i dati.
Ce ne sono ad esempio quelli per fare delle relazioni su vari argomenti, quelli per eseguire delle query e avere i dati che servono a loro rappresentati in vari modi. Le applicazioni per le query sono fatti ad hoc nel senso che non si può sapere a priori quali informazioni servono agli utenti.

Servers
Due tipi di servers sono usati rispetto alla densità dei dati.
Server Relational OLAP
Si usano i server dei DBMS tradizionali estesi per operazioni aggregati.

Server Multidimensional OLAP
Sono server rappresentati da matrici multidimensionali dove ogni dimensione è un elemento
del data warehouse.



I meta dati

I metadati sono dei dati che documentano ogni parte del processo.
Ci sono dei metadati per La fase ETL, ci sono dei metadati per il dati contenuti nel data warehouse e infine dei metadati per le query fate.

Architettura

Ci sono tre architetture di cui la prima è sconsigliata.
La prima è quella a un solo livello. Si usa lo stesso database per operazioni transazionali e quelli analitiche. Le operazioni analitiche appesantiranno la velocità delle operazioni transazionali che a loro volta sovrascriveranno dati importanti per l’analisi storica dell’azienda.
La seconda architettura è quella a due livelli in cui il database OLTP e il data warehouse sono separati.
Il primo strato è costituito dalle fonti di dati. Il problema maggiore con quest’architettura è che il processo di ETL non è fattibile in pratica con la dimensione di dati da dover estrarre.
Il che ci porta alla terza architettura che aggiunge fra il primo strato e l’ultimo, un nuovo strato che permette di alleggerire le operazioni ETL faccendoni per la più grande su macchine predisposte a questo scopo nel secondo strato.

Applicazioni

Le applicazioni della data warehousing sono varie, in seguito solo una piccola lista:
Negozi: Comportamento del cliente
Assicurazione: Antifrode
Telecomunicazione: Analisi chiamate, antifrode
Salute: Analisi del servizio e salute
Aspettavo l’ultimo per la fine, La pubblicità mirata in tante azienda usa le informazioni sui clienti per capire meglio i loro gusti.

Glossario:

OLTP: On-Line Transaction Processing usato nei processi transazionali in un DBMS
OLAP: On-Line Analytical Processing usato nei processi di analisi in un data warehouse

Fonti e approfondimenti:


Slide del Prof Luca Cabbibo
Slide del Prof  Elena Baralis (Polito)
Wikipedia
http://www.wisegeek.com/
http://www.eccellere.com/
http://www.dwinfocenter.org/getstart.html
http://www.tech-faq.com/
Image: renjith krishnan / FreeDigitalPhotos.net


Ti è piaciuto l'articolo..?

Ricevi gli aggiornamenti via mail:

Seguici!

0 commentaires:

Posta un commento

Ti è piaciuto l'articolo? Lascia un commento,fammi una domanda se hai dubbi o ambiguità.
Grazie!

Siamo su Facebook

Google+