La capacità di analizzare e comprendere il valore dei dati – e a maggior ragione dei big data – richiede l’utilizzo di strutture informative articolate ma organizzate, come racconta Gian Franco Stucchi in questo Caffè Sospeso. Non è certo una novità, ma una necessità che risale, almeno, al 2300 a.C.
Nell’estate del 1964, Paolo Matthiae , un giovanissimo archeologo italiano dell’Università di Roma che operava in Siria, intraprese alcuni scavi nella località di Tell Mardikh, una zona allora semisconosciuta situata nella Siria settentrionale, vicino ad Aleppo. I primi reperti mostrarono subito l’eccezionalità del sito. Si era in presenza di un complesso che in passato costituiva certamente un centro politico e commerciale molto importante: la città di Ebla.
Gli scavi della spedizione italiana proseguirono senza sosta, incoraggiati dai continui ritrovamenti. Nel 1975 si verificò una scoperta sensazionale: in un locale vennero alla luce 1.727 tavolette d’argilla intere, 4.713 larghi frammenti e diverse migliaia di scaglie, il tutto in perfetto stato di conservazione e risalente al XXIV secolo a.C. L’interpretazione dei caratteri cuneiformi non fece altro che confermare l’enorme importanza della scoperta: le tavolette comprendevano rendiconti mensili “in entrata” di tessuti, preziosi e rame; registrazioni di oggetti in oro e in argento “in uscita”; ordinanze reali; trattati politici; verbali processuali; testi rituali per i matrimoni; rendiconti amministrativi dell’attività agricola e pastorale.
Praticamente le tavole di Ebla costituivano un insieme di dati strutturati che rappresentava e sosteneva la gestione economica, politica e logistica dell’antichissima città-stato. Erano un vero e proprio database, forse il primo della storia, nucleo portante di un protosistema informativo.
I dati, dal latino “datum”, sono frutto dell’osservazione del mondo reale – che, appunto, li dona, li dà – e costituiscono la materia prima con la quale, attraverso opportune elaborazioni, si producono informazioni, cioè una maggiore conoscenza dell’ambiente in cui si opera e la possibilità di controllarlo, modificarlo e dirigerlo.
Il concetto di “dato” si è evoluto notevolmente nel corso dei vari decenni della storia dell’informatica, passando da un’accezione esclusivamente numerica (espressione di quantità misurabili) ad identificare entità rappresentabili con strutture alfanumeriche organizzate in formati standard, costituiti generalmente da liste o da tabelle (dati anagrafici, ordini, etc.).
Ulteriori estensioni si sono rese necessarie quando, grazie ai progressi e alle economie permesse dall’evoluzione tecnologica di base, è stato possibile elaborare documenti a testo libero, forme figurative (disegni, immagini o grafici), filmati e suoni.
La disponibilità di strumenti hardware e software sempre più accessibili e potenti ha permesso alle persone e alle imprese di raccogliere e memorizzare quantità sempre maggiori di dati di dettaglio. Questa possibilità spinge le organizzazioni commerciali, che dispongono di informazioni sempre più accurate sui clienti, sulle vendite di prodotti e sul consumo dei servizi, verso la realizzazione di sistemi decisionali orientati ai modelli per trasformare i dati “grezzi” in conoscenze in grado di supportare e potenziare l’efficacia delle leve d’azione concepite per acquisire e mantenere un vantaggio competitivo sulla concorrenza.
L’utilizzo di tali sistemi, che non sono solo strumenti di mera reportistica ma permettono di condurre analisi anche molto sofisticate, consente di ottenere una migliore conoscenza dei clienti, dei loro bisogni e delle loro attese, e quindi di migliorare l’efficienza e la profittabilità di un sistema-impresa fornendo prodotti a prezzi più bassi, con un livello qualitativo più elevato, più servizi, più personalizzazioni e una maggiore flessibilità logistico-produttiva.
Per cogliere questi obiettivi è necessario un processo di sintesi e di valutazione dei dati che scaturisca da uno sforzo congiunto da parte dell’ICT – che ha il compito di fornire i dati e la tecnologia per potervi accedere (data warehouse, data mart, strutture informative complesse) – e dai responsabili dei diversi processi di business (i knowledge worker), che “scavano” con saggezza e competenza (almeno si spera!) nella miniera dei dati, alla scoperta di informazioni potenzialmente utili, impiegando sofisticati strumenti di esplorazione e di modellizzazione
La capacità di analizzare massicci quantitativi di dati e di estrarne le potenziali informazioni non ha ancora raggiunto il livello delle tecniche sviluppate nel corso degli anni per la raccolta e la registrazione delle stesse. Tuttavia, qualunque sia il contesto nel quale si opera (un’area di business, un settore della medicina, della scienza, dell’ingegneria, del management e – perché no? – dell’arte o delle discipline umanistiche o sociali), i dati, nella loro “forma fredda”, non contengono che una minima quantità di informazione.
Per esempio, il database che rappresenta il mercato di un’azienda che si occupa di vendita di beni di consumo può mettere in evidenza la correlazione tra alcuni prodotti e certi gruppi demografici; questa correlazione potrebbe giustificare l’attivazione di campagne di marketing focalizzate, con un ritorno finanziario sicuramente superiore rispetto a una campagna generalizzata. I database si possono dunque definire come una risorsa informativa potenziale ma “dormiente” che, solo se utilizzata correttamente, può fornire benefici sostanziali.
Tradizionalmente l’analisi dei dati è stata un processo in gran parte manuale. L’analista, una volta entrato in familiarità con la base dei dati, si occupava di comprenderne la struttura e di generare una serie di resoconti comportandosi come un vero e proprio query processor umano. Questo approccio decadde rapidamente in termini di efficacia non appena la quantità e la varietà dei dati cominciarono a crescere: non è possibile, infatti, arrivare a “comprendere” milioni o miliardi di registrazioni di valori relativi a fatti o eventi ritenuti significativi, ognuno dei quali potrebbe essere specificato, in termini strutturali, da migliaia di campi (o attributi), e nemmeno tenere il passo, ove anche l’analisi manuale fosse realizzabile, con la velocità con cui l’informazione aumenta di volume e si modifica.
L’attività di attribuzione di un significato ai dati (o valutazione semantica dei dati) è descritta in termini differenti a seconda della comunità di ricerca che se ne occupa (per esempio, termini spesso ricorrenti sono: knowledge extraction, information harvesting, data archeology, data pattern processing). Il termine Data Mining è utilizzato per lo più dai progettisti di database in ambito statistico e, solo recentemente, in campo economico. L’acronimo KDD è utilizzato per riferirsi a un processo generale che mira a scoprire informazione utile dai dati.
Il Data Mining rappresenta solo una fase particolare in questo processo, cioè la fase in cui si attua l’applicazione di algoritmi specifici per estrarre modelli significativi dai dati. Sono gli altri passi del processo KDD, come la preparazione, la selezione, la pulizia dei dati, la fusione di appropriate informazioni antecedenti e la corretta interpretazione dei risultati del mining, che assicurano che l’informazione sia significativa.
Un’applicazione superficiale dei metodi di Data Mining può essere un’attività pericolosa, che conduce sovente alla scoperta di modelli privi di senso (non a caso, un tempo, la letteratura statistica definiva come “drogati” i risultati di questi approcci rozzi e superficiali).
Il KDD si è evoluto (e sta evolvendo) grazie alla confluenza delle ricerche provenienti dai campi più disparati, quindi non solo dal settore che si occupa dello studio e della progettazione di database, ma anche da settori apparentemente più distanti, quali quelli che si interessano di intelligenza artificiale, di statistica, di modellistica, di sistemi esperti, di metodi di reporting, di tecniche per il recupero dei dati e di modelli per accrescere la velocità di calcolo e l’affidabilità (High Performance Computing). I sistemi software di KDD incorporano perciò teorie, algoritmi e metodologie derivate da un elevato numero di settori di indagine.
La Data Science , che studia la progettazione e l’implementazione di strutture dati e di applicazioni collegate provvede a creare le architetture necessarie alla memorizzazione, all’accesso e alla manipolazione dell’informazione. Il Data Mining richiede degli strumenti preconfezionati, che permettano di effettuare analisi in profondità, su quantità di dati di dettaglio che possono essere molto grandi (tipicamente da 100 megabyte a 10 terabyte come i big-data) e che consentono di estrarre rapidamente le informazioni richieste: per facilitare questo compito sono necessarie delle operazioni di elaborazione a monte, tipiche di chi opera con i data warehouse.
Il Data Warehousing è un termine in auge ormai da tempo e si riferisce alla tendenza delle attuali attività di business di raccogliere, convalidare e ripulire dati transazionali in modo da renderli disponibili ad analisi in tempo reale e all’attività di supporto decisionale. Un processo di Data Warehousing potrebbe essere visto come un navigatore in grado di navigare nel mare di informazioni acquisito nel corso degli anni. Questo processo, da un lato, crea un’architettura mirata ai servizi di Business Intelligence, dall’altro contempla, attraverso i processi di estrazione e trasformazione dei dati, ogni aspetto riguardante l’utilizzo delle informazioni.
Il cuore dell’architettura è un deposito di dati, il cosiddetto Data Repository, che molto spesso si identifica nel Data Warehouse stesso, nel quale le informazioni sono archiviate in un modello integrato e consolidato.
Le sue caratteristiche sono espresse dagli “assiomi” seguenti
Il Data Warehouse è tipicamente costruito attorno a dei soggetti. I soggetti sono, per esempio, argomentazioni di business di particolare rilievo come le vendite o la fascia di mercato. La struttura di un soggetto è determinata dal livello e dalla natura dell’informazione così come è richiesta dall’utente di business.
Il Data Repository è distinto dal sistema che gestisce i processi transazionali (OLTP), in modo tale da non interferire con esso. Questo indica che l’informazione è strutturata per soddisfare le esigenze di business e non i requisiti del sistema transazionale.
Il Data Warehouse è integrato. Tutte le informazioni preziose dovrebbero essere integrate nella definizione del soggetto. Le eventuali discrepanze nei dati provenienti dal sistema transazionale devono essere corrette prima del loro caricamento.
Il Data Warehouse non è volatile e fornisce un’unica fonte di verità. Ciò significa che nel momento in cui due persone richiedono la stessa informazione, otterranno la stessa risposta e il dato non cambierà durante il processo di analisi.
Il Data Warehouse fornisce una prospettiva storica di un’area di business. Il dato è archiviato in forma sommarizzata e “vive” per alcuni anni. Questo permette di ottenere dei trend per analisi statistiche e previsionali.
La distribuzione delle informazioni è l’elemento chiave per la costruzione di un Data Warehouse di successo, in quanto essa deve fornire le basi per il processo decisionale. Le aziende hanno archiviato i dati di business per molti anni, ma lo sfruttamento incompleto del loro potenziale ha da sempre costituito un problema insoluto. Ecco quindi come, un ambiente di distribuzione delle informazioni così strutturato, mira alla risoluzione di questo problema.
Le iterazioni iniziali di un processo di Data Warehousing, sono usualmente impegnate proprio a risolvere problematiche di business già esistenti.
Nelle iterazioni successive, si tende invece ad assumere un atteggiamento più propositivo, ricercando il valore reale all’interno dell’informazione. Il suo maggior punto di forza è che facilita le query ad hoc e le esplorazioni di dati non previste. Vi è quindi la libertà di analizzare in modo differente i propri dati, piuttosto che essere limitati in un insieme predefinito di report.
Nelle situazioni in cui viene verificata una serie significativa di query, la creazione di un livello Data Mart può costituire una soluzione per ottimizzare i tempi di risposta di interrogazione.
In un Data Warehousing di successo è assolutamente necessario poter disporre di validi strumenti per il supporto decisionale (DSS) per poterne sfruttare a pieno la struttura. Questo è possibile solo se gli strumenti di analisi sono compatibili con quelli usati per caricare e mantenere le informazioni.
I dati dunque sono la materia prima per costruire dei sistemi di supporto decisionale, o almeno la componente più diffusa di questa specie d’applicazioni che, per quanto riguarda la tassonomia, è pervasa da una certa confusione terminologica. Seppure datata, una classificazione delle varie realizzazioni di sistemi di supporto decisionale opera una distinzione tra i diversi tipi in base al grado di complessità della realizzazione e al livello di ausilio che possono offrire ai decisori. Secondo questa visione, i DSS si possono ripartire in tre grandi famiglie: orientati ai dati, orientati ai modelli e di natura logica. Questa classificazione – che incorporava di fatto i sistemi di Business Intelligence nei DSS, pur non prevedendoli esplicitamente dato che allora non erano ancora stati “battezzati” – venne successivamente sostituita da un’altra, che postulava la prevalenza della BI sui DSS e che gli strumenti di BI potessero essere suddivisi in due gruppi distinti: EIS (Executive Information System) e DSS.
Secondo questa interpretazione, gli strumenti EIS creavano applicazioni destinate sostanzialmente come supporto decisionale a responsabili aziendali, privi di particolari competenze tecniche, che avevano bisogno di esplorare i dati a vari livelli di dettaglio ed analizzare dati riassuntivi. Essi venivano solitamente eseguiti su mainframe o server “corposi”, erano costosi e di proprietà esclusiva della direzione aziendale. Gli strumenti DSS, destinati invece a knowledge worker più tecnici, supportavano l’accesso ai dati strutturati ad hoc, rendevano disponibili delle tecniche di data analysis piuttosto avanzate ed erano relativamente a buon mercato.
La divisione tra strumenti EIS e DSS venne via sfumando per una serie di cambiamenti verificatisi nel mercato come risultato di tendenze tecnologiche ed organizzative complementari, quali la diffusione dei modelli di elaborazione distribuita e l’appiattimento delle strutture gerarchiche aziendali, con la successiva comparsa di unità organizzative autonome, responsabili dei propri risultati e, per questo, con un potere decisionale anche notevole.
Manager aziendali e knowledge worker oggi richiedono un accesso diretto ed immediato ai dati aziendali per poter aumentare l’efficacia del proprio agire e la competitività delle proprie unità organizzative, esattamente come l’alta direzione aveva bisogno di informazioni per l’assunzione di decisioni strategiche per l’intera azienda (necessità che ovviamente permane). Inoltre, per restare competitivi, gli strumenti di supporto decisionale sono stati adattati per essere eseguiti anche su architetture distribuite e, in seguito, in ambienti web, con una conseguente riduzione dei costi.
Non sorprende dunque che gli strumenti EIS/DSS e gli strumenti di query/reporting si siano evoluti separatamente in una nuova classe di prodotti in grado d’offrire sia funzionalità analitiche che di reporting, replicando un fenomeno biologico noto con il nome di “evoluzione convergente”. Comunque sia, la possibilità d’essere eseguiti via web e la facilità di utilizzo sono oggi gli aspetti fondamentali – e determinanti in fase di selezione – per tutte le classi di prodotto.