Coffe Time oggi vuole approfondire il tema dei Big Data e, grazie a Luca Ferri, Head of Business Intelligence and Big Data di Sopra Steria, fare luce sulle opportunità derivanti dai Big Data, in crescita inarrestabile ormai da anni.
Il 2016 si è rivelato un anno cruciale, un anno che ha visto le organizzazioni sempre più impegnate a memorizzare, elaborare ed estrarre valore dai dati in tutte le forme e su qualsiasi infrastruttura. I dati presentati a fine novembre durante il Big Data Analytics & Business Intelligence, l’Osservatorio promosso dalla School of Management del Politecnico di Milano e sponsorizzato da Sopra Steria, valutano il mercato degli Analytics nel 2016 in Italia in crescita del 15%, per un valore complessivo di 905 milioni di euro.
Se la Business Intelligence fa ancora la parte del leone in termini di volumi, con un valore di 722 milioni di euro (+9% in un anno), sono proprio i Big Data, seppur ancora marginali come valore (183 milioni di euro), ad affermarsi come la componente che sta affrontando la crescita più significativa (+44%). Secondo la definizione di Gartner, tre gli aspetti principali – le 3 V – caratterizzano i Big Data: il Volume elevato, l’alta Velocità e la Varietà del patrimonio informativo.
Appena tre anni fa, una ricerca di Sopra Steria aveva evidenziato come tutti e tre questi aspetti non fossero ritenuti dalle aziende europee una grande sfida: la scalabilità era un problema solo per l’8% delle aziende, la velocità per il 9% e la varietà addirittura era considerata una variabile interessante solo per il 4% degli intervistati. L’era dei Big Data doveva ancora arrivare. Oggi, al contrario, l’attenzione ai tre aspetti è costante nelle aziende, e, addirittura, è proprio la varietà a rivelarsi il fattore principale capace di guidare gli investimenti in Big Data.
La varietà è fondamentale perché i Big Data in azienda oggi non comprendono più solo dati strutturati, forniti in prevalenza dai database aziendali e dalle transazioni, ma soprattutto dati non strutturati come immagini, email, tweet, log file, audio, dati GPS, informazioni provenienti dalle interazioni sui social e streaming data, cioè dati ricevuti dai sensori e altri dispositivi collegati alla rete aziendale (IoT).
Oggi le imprese cercano di integrare più fonti e concentrarsi sulla “coda lunga” dei Big Data e per farlo, nel 2017, si affideranno a piattaforme di analisi valutate anche in base alla capacità di offrire una connettività diretta dal vivo a queste fonti disparate. Strutturare e analizzare in un tempo “utile” questa enorme quantità di “diverse” informazioni permette di migliorare l’esperienza del cliente, soprattutto perché i Big Data possono dimostrare di essere il modo corretto di misurare la customer experience e quindi la via migliore per ottimizzarla. L’obiettivo in questo senso è uno solo: portare sul mercato più rapidamente prodotti e servizi “giusti” grazie alla capacità di sfruttare tutti i canali per conoscere le preferenze e le esigenze dei propri clienti. In questo contesto, Sopra Steria investe costantemente in innovazione nel proprio Digilab per integrare gli aspetti emozionali dell’esperienza dei clienti in sistemi che permettano di accrescere la reputazione online e comprendere a fondo le interazioni con i clienti.
La certezza è che nel 2017 il mercato crescerà ancora insieme alla consapevolezza delle aziende delle opportunità che i Big Data offrono non solo per ottimizzare i processi, ma anche come leva innegabile per la crescita e la competitività. Dal punto di vista delle tecnologie, aumenteranno i sistemi che supportano grandi volumi di dati strutturati e non strutturati e la richiesta di piattaforme integrate che aiutino a governare e proteggere i Big Data consentendo agli utenti finali di analizzarli e generare valore a partire da essi. Nel corso dell’anno sono attesi nuovi sistemi per l’analisi dei dati che permetteranno di diminuire il tempo passato ad analizzare i dataset. Si tratta di uno scenario tecnologico in profonda trasformazione, dove l’evoluzione dell’open source e di Hadoop come ecosistema di gestione dei dati praticabile su larga scala ha creato un nuovo mercato del software, che sta trasformando profondamente il settore della BI e delle Analytics.
Tutto questo renderà sempre più urgente anche la ricerca di professionisti dei dati, capaci di districarsi non solo tra le tante tecnologie emergenti ma anche di comprendere l’orizzonte del business e rendere tutto questo enorme patrimonio informativo un vero valore per l’azienda. Queste professionalità risulteranno tra le figure più richieste nel mondo del lavoro nel 2017. Se lo scorso anno l’Osservatorio del Politecnico aveva dimostrato la necessita di affiancare alla capacita di estrarre insight dai dati la definizione di una strategia di business per il loro utilizzo, a distanza di un anno, la Ricerca ha rilevato importanti passi in avanti, che si concretizzano in una maggiore attenzione da parte del Top Management e in un investimento crescente nel mercato.
Ma in questo Coffee Time oltre ad analizzare lo stato dell’arte voglio parlare di consapevolezza e, da questo punto di vista, il processo di maturazione è ancora lungo. Se è vero infatti che in Italia il 39% dei CIO ritiene che la Business Intelligence, i Big Data e gli Analytics saranno una priorità di investimento nel 2017, solo l’8% di essi dichiara di aver raggiunto un buon livello di maturazione, e solo il 26% ha appena intrapreso questo lungo percorso.
In sintesi, ritengo che il 2017 potrà dimostrarsi l’anno della svolta nel mondo dei Big Data, segnando un passaggio fondamentale nella loro comprensione e adozione. Ritengo tuttavia che il percorso evolutivo che porta l’organizzazione a raggiungere la configurazione di “Data Driven Company” debba ancora prevedere una maturazione complessiva più lunga, che prenda in considerazione variabili sia di tipo tecnologico che organizzativo, per la necessità di integrare le competenze, definire i modelli di governo delle iniziative di Analytics e accrescere la conoscenza delle concrete opportunità che derivano dalle nuove tecnologie legate alla gestione dei Big Data.
A cura di Luca Ferri, Head of Business Intelligence and Big Data di Sopra Steria
Data Driven Innovation | Rome 2016 Open Summit, dal 20 al 21 maggio a Roma, è il primo evento dedicato alla Data Driven Innovation. Il summit di tre giorni sarà una conferenza per discutere dell’innovazione e delle sfide tecnologiche, economiche e sociali determinate dai Big Data e della Data Driven Innovation.
La Data Driven Innovation è un fenomeno dirompente e fondamentale per la crescita economica, politica e sociale di un Paese perché ne migliora la produttività e la competitività. I dati sono indispensabili per prendere decisioni e creare strategie. Ci aiutano ad accelerare le diagnosi mediche, a individuare il sito perfetto per installare un parco eolico, a migliorare le performance energetiche di uno stato, a evitare gli imbottigliamenti nel traffico, a prevedere i raccolti agricoli, a studiare gli avversari nello sport fino a prevedere i disastri ambientali.
La kermesse romana è co-organizzata da Università Roma TRE, Codemotion e Fondazione “Centro di iniziativa giuridica Piero Calamandrei”. L’evento è sostenuto da IBM, Google, TIM #WCAP Accelerator e Cerved. Patrocinano la conferenza l’Autorità Garante della Concorrenza e del Mercato, l’Autorità per le Garanzie nelle Comunicazioni e il Garante per la protezione dei dati personali.
Ford ha annunciato la nascita della controllata Ford Smart Mobility LLC, società interamente dedicata alla ricerca, allo sviluppo e alla definizione di modelli di business per i servizi di mobilità integrata.
Alla guida di Ford Smart Mobility LLC, che opererà a Palo Alto, California, e a Dearborn, Michigan, ci sarà Jim Hackett, in precedenza componente del consiglio di amministrazione di Ford Motor Co., che riporterà a Mark Fields, Presidente e CEO di Ford Motor Company.
Ford Smart Mobility LLC sarà uno dei componenti chiave nella trasformazione di Ford Motor Company e nella transizione da costruttore d’auto a provider di mobilità. Nel continuare a portare avanti l’attività più tradizionale, la ricerca, lo sviluppo, la produzione e la vendita di vetture e veicoli commerciali, l’Ovale Blu integrerà all’interno del proprio business una serie di attività per conquistare la leadership e puntare a nuove opportunità in settori emergenti come i servizi di mobilità alternativa.
“Con la smart mobility espandiamo il ventaglio della nostra offerta, entrando in un mercato che offre significative opportunità di crescita”, ha dichiarato Mark Fields. “Il nostro obiettivo è far parte di uno scenario, quello dei servizi di trasporto, che già oggi, in generale produce ricavi per 5,4 migliaia di miliardi di dollari. Jim Hackett è un leader con grande esperienza sia del settore auto che del design, ed è la persona giusta per guidare questa nuova entità e sostenerci nell’affacciarci su mercato e servizi del futuro”.
Ford Smart Mobility LLC collaborerà con i reparti Ford sia sul fronte tradizionale, come lo sviluppo prodotti, sia su quello orientato alle nuove opportunità, come i laboratori di ricerca dell’Ovale Blu, già presenti nella Silicon Valley. La nuova società è stata concepita per avere la flessibilità di una startup e dialogherà con interlocutori hi-tech di rilievo in questo scenario per sviluppare un proprio portafoglio di prodotti e servizi.
“Assicurare a tutti la libertà di spostarsi in futuro vuol dire essere in grado di prevedere oggi quale sarà il concetto di mobilità che caratterizzerà le prossime generazioni, partendo da un analisi delle necessità”, ha dichiarato Bill Ford, Executive Chairman di Ford Motor Company. “Questa nuova controllata ci aiuterà a creare soluzioni di mobilità che accompagneranno la rapida trasformazione del sistema globale dei trasporti in un mondo che presenta sfide sempre più immediate”.
La nascita di Ford Smart Mobility LLC si inserisce nell’ambito dello Smart Mobility Plan, la strategia per anticipare i bisogni di mobilità dei consumatori e trasformare l’esperienza di chi si sposta mediante l’implementazione di tecnologie cloud e di connettività, l’elaborazione di ‘big data’ e l’analisi degli scenari di mobilità, che nel prossimo futuro saranno alla base dello sviluppo della guida autonoma.
Coffee Time oggi parla del progetto europeo NADINE in grado di creare algoritmi e metodi per analizzare le attività online al fine di individuare le relazioni tra soggetti, paesi e persino beni di scambio
Internet è attualmente formato da oltre 50 miliardi di pagine collegate tra loro in modo tale da formare un vasto paesaggio virtuale. Ogni interazione fornisce dati che, quando vengono scomposti e analizzati, permettono di osservare e capire un’ampia gamma di attività umane, da quelle culturali a quelle economiche. Per questo motivo è stato attivato, nell’ambito dello schema “Tecnologie Future ed Emergenti” dell’UE, il progetto NADINE New tools and Algorithms for DIrected NEtwork analysis) che contribuisce allo sviluppo di nuovi tipi di motori di ricerca, ponendo l’Europa al vertice in questo importante settore.
“Stiamo cercando di mappare la rete per mostrare come le pagine sono collegate tra loro e come le persone usano questi collegamenti nei loro viaggi attraverso la rete,” ha affermato il coordinatore del progetto NADINE, Dima Shepelyansky, direttore della ricerca presso il Laboratoire de Physique Théorique, CNRS Toulouse. Il progetto usa vari strumenti, alcuni dei quali forniti da Google, per mostrare quante pagine sono collegate tra di loro. In questo modo si possono determinare, per esempio, le probabilità che siano visitati determinati siti, che siano effettuate certe scelte, che si acquistino oggetti o si voti in un certo modo.
Per sviluppare e testare le loro metodologie, i ricercatori hanno osservato gli articoli biografici di Wikipedia, valutando la possibilità di catalogare le persone consultate in ordine di influenza. Essi hanno analizzato i contributi redatti in 24 lingue principali, considerando il numero di articoli che rimandano a singoli individui secondo il sistema PageRank di Google, che ritiene una pagina “importante” se ad essa rimandano altre pagine importanti.
Questo processo ha fatto emergere un caso curioso ed interessante: il personaggio più referenziato risultava essere lo scienziato Carl Nilsson Linnaeus (noto agli italiani come Linneo), un medico, botanico e naturalista svedese considerato il padre della moderna classificazione scientifica degli organismi viventi. Proprio per questa sua opera scientifica sono stati stabiliti numerosi collegamenti indirizzati verso la sua pagina e provenienti da ogni pagina di Wikipedia dedicata a piante e animali (e questo riscontro ha alterato i risultati). I ricercatori hanno quindi deciso di introdurre il CheiRank, che calcola l’importanza di una pagina in base al numero di collegamenti in uscita. Integrando i due sistemi citati, i ricercatori hanno definito un modo scientifico accettabile per misurare l’importanza di una pagina. I metodi sviluppati possono anche rilevare le comunità web auto-organizzate e collegate.
Esaminando le modalità con le quali i collegamenti (verso e da una pagina) possono mostrare come vengono scambiate le informazioni, il progetto ha applicato i nuovi risultati all’analisi dei flussi commerciali. Dima Shepelyansky ha spiegato che “NADINE ha usato la banca dati del commercio mondiale delle Nazioni Unite, che contiene i dati degli ultimi 50 anni. Abbiamo sviluppato un nuovo modo di analizzare lo scambio commerciale di 61 prodotti tra i paesi dell’ONU, determinando la sensibilità dell’equilibrio commerciale alle variazioni di prezzo”.
NADINE è un’iniziativa che riunisce in partnership un gruppo di fisici teorici, matematici e informatici di Francia, Italia, Paesi Bassi e Ungheria, quindi il finanziamento transnazionale dell’UE è stato indispensabile per costituire un’equipe di scienziati provenienti da discipline e paesi così diverse.
Di Redazione ViralCaffè
Coffee Time oggi è in compagnia di Sandro Billi per parlare di turismo, il campo che più usa e si è innovato con la rete. Anche per il turismo la ricerca di informazioni rapide ed aggiornate sull’andamento del settore e sul cliente ha sviluppato tecnologie e metodologie che sfruttano l’interconnessione. Tuttavia la potenziale disponibilità di dati in tempi rapidi non basta a dare informazioni complete, reali e utili. I problemi non sono cambiati e devono essere messi in campo sistemi più complessi per sviluppare l’informazione, sia al pubblico che al privato.
I dati che il turismo cerca sono di due tipi: qualitativi – riferiti all’andamento della stagione in generale, di interesse più pubblico che privato – e qualitativi – riferiti al profilo del cliente e alla sua soddisfazione si interesse più privato che pubblico.
I risultati delle stagioni sono un momento di gloria o di pena per gli amministratori pubblici che operano nel settore. Ancora oggi i (presunti) sorpassi di Cina o di Spagna all’Italia in termini di numeri dai vari aspetti, sono vissuti come momenti da vendicare sul terreno delle patrie possibilità o come postume autocritiche sulle mille potenzialità nazionali di un Paese da trasformare in un esercito di ristoratori ed albergatori. Dati che si rivelano poco utili alle strategie private perché tardivi, lasciando le imprese a fare riferimento al solo andamento aziendale: come una analisi del sangue che arriva dopo il trapasso del degente.
Il settore pubblico ha necessità di rilevare i dati del turismo per disegnare le strategie e per valutare l’impegno delle destinazioni dal punto di vista della gestione dell’apparato. Impegno in termini di misura delle reali risorse da impiegare in molte delle sue funzioni. Il visitatore è un residente temporaneo che utilizza il territorio e i servizi, quindi la loro gestione deve essere basata su un valore che supera il semplice numero degli abitanti. Il loro dimensionamento deve essere “allargato” anche al residente temporaneo. Ma i dati che ad oggi sono rilevati non vanno oltre agli ospiti delle strutture ricettive e non comprendono proprietari o affittuari di seconde case, o gli ospiti del territorio per un solo giorno che “pesano” molte volte di più di quelli che frequentano le strutture ricettive.
Per la valutazione dei fatti turistici è necessario a livello pubblico sviluppare una maggiore connessione per la raccolta di dati secondari aggiornati dalle fonti territoriali, in forma rapida ed automatica, per fornire segnali e valori che permettano di sviluppare strategie a breve e fare fronte alle emergenze.
Per i dati qualitativi l’informatizzazione delle imprese, la diffusione del Web Booking e delle App con il relativo contorno di giudizi e pareri, ha fatto nascere opportunità legate alla analisi dei fatti turistici, che tuttavia non esulano dai problemi riscontrati generalmente per il Data Mining e per l’uso dei Big Data. Si potrebbe però dire che, a livello di singole imprese, il problema è anche quello dello “Small Data” ossia l’analisi di valutazioni su pochi elementi fatte da pochi ospiti.
La soddisfazione dell’ospite è un aspetto importante per la gestione delle imprese ma riguarda anche i soggetti pubblici in un equilibrio che deve tenere conto però del lato “residenti”.
La tecnologia, l’interconnessione e l’uso dei social hanno fatto nascere molti strumenti di analitic e reputation. Anche in Italia software house specializzate o iniziative specifiche hanno sviluppato prodotti in grado di monitorare l’immagine delle imprese e dei territori, con sistemi articolati di valutazione e suggerimenti che vanno dalla struttura del web site alle carenze gestionali, incluso la “pulizia dei dati” da fattori ipotizzati inquinanti come le valutazioni non vere.
Gli strumenti messi in campo ad oggi permettono di superare alcuni problemi, in particolare quelli della tempistica. Un fattore sicuramente importante ma questi stessi strumenti non sembrano risolvere ancora i vizi e i difetti della raccolta e della analisi tradizionale del dato. Anzi, specialmente nella valutazione della customer satisfaction, possono portare a informazioni che traggono in inganno. La possibilità di utilizzare la tecnologia sembra avere fatto dimenticare la “teoria” statistica e i reali obiettivi delle ricerche.
Dal punto di vista quantitativo la possibilità di attingere i dati direttamente alla fonte collegandosi ai gestionali delle strutture continua a fornire solamente una parte del quadro, quello dei flussi nelle strutture ricettive, spesso tagliando tutta la parte delle microimprese che non utilizzano strumenti informatici in fase di booking o di gestione.
Dal punto di vista qualitativo le riserve sull’utilizzo di questi strumenti non è nuova. I risultati non comprendono chi utilizza in modo sporadico i social, chi si è stancato di compilare form on line – spesso i “frequent traveller” bombardati ad ogni cambio di albergo dalla richiesta di valutazione – e non possono valutare l’umore di chi risponde o gli effetti di un disservizio scollegato dalle volontà della impresa sotto analisi. Ed inoltre una corretta analisi di customer satisfaction non può sottrarsi ad un confronto con le aspettative del cliente e delle sue abitudini, quello che è abituato ad avere o dalla valutazione della sua situazione economica e del conseguente livello dei prezzi. Non secondario il problema del tasso di risposta agli stimoli di fornitura delle informazioni, elemento che può rendere estremamente parziale la fotografia della situazione e portare ad una valutazione sbagliata dei risultati del lavoro svolto.
A livello di territori occorre ampliare l’indagine ad altri dati, ai fenomeni indotti che permettano di stimare il valore completo dei flussi. A livello di imprese occorre prestare maggiore attenzione al profilamento del cliente, alla valutazione della corrispondenza tra target ipotizzato e target reale, al rapporto tra aspettativa e percezione. Non ultimo allo sviluppo della consapevolezza dell’uso degli strumenti, della sua utilità, del modo di valutarlo. E forse quest’ultima è una grande azione ancora da svolgere.
Sandro Billi – Consulente in Destination Marketing e strategie di sviluppo per il turismo.
La capacità di analizzare e comprendere il valore dei dati – e a maggior ragione dei big data – richiede l’utilizzo di strutture informative articolate ma organizzate, come racconta Gian Franco Stucchi in questo Caffè Sospeso. Non è certo una novità, ma una necessità che risale, almeno, al 2300 a.C.
Nell’estate del 1964, Paolo Matthiae , un giovanissimo archeologo italiano dell’Università di Roma che operava in Siria, intraprese alcuni scavi nella località di Tell Mardikh, una zona allora semisconosciuta situata nella Siria settentrionale, vicino ad Aleppo. I primi reperti mostrarono subito l’eccezionalità del sito. Si era in presenza di un complesso che in passato costituiva certamente un centro politico e commerciale molto importante: la città di Ebla.
Gli scavi della spedizione italiana proseguirono senza sosta, incoraggiati dai continui ritrovamenti. Nel 1975 si verificò una scoperta sensazionale: in un locale vennero alla luce 1.727 tavolette d’argilla intere, 4.713 larghi frammenti e diverse migliaia di scaglie, il tutto in perfetto stato di conservazione e risalente al XXIV secolo a.C. L’interpretazione dei caratteri cuneiformi non fece altro che confermare l’enorme importanza della scoperta: le tavolette comprendevano rendiconti mensili “in entrata” di tessuti, preziosi e rame; registrazioni di oggetti in oro e in argento “in uscita”; ordinanze reali; trattati politici; verbali processuali; testi rituali per i matrimoni; rendiconti amministrativi dell’attività agricola e pastorale.
Praticamente le tavole di Ebla costituivano un insieme di dati strutturati che rappresentava e sosteneva la gestione economica, politica e logistica dell’antichissima città-stato. Erano un vero e proprio database, forse il primo della storia, nucleo portante di un protosistema informativo.
I dati, dal latino “datum”, sono frutto dell’osservazione del mondo reale – che, appunto, li dona, li dà – e costituiscono la materia prima con la quale, attraverso opportune elaborazioni, si producono informazioni, cioè una maggiore conoscenza dell’ambiente in cui si opera e la possibilità di controllarlo, modificarlo e dirigerlo.
Il concetto di “dato” si è evoluto notevolmente nel corso dei vari decenni della storia dell’informatica, passando da un’accezione esclusivamente numerica (espressione di quantità misurabili) ad identificare entità rappresentabili con strutture alfanumeriche organizzate in formati standard, costituiti generalmente da liste o da tabelle (dati anagrafici, ordini, etc.).
Ulteriori estensioni si sono rese necessarie quando, grazie ai progressi e alle economie permesse dall’evoluzione tecnologica di base, è stato possibile elaborare documenti a testo libero, forme figurative (disegni, immagini o grafici), filmati e suoni.
La disponibilità di strumenti hardware e software sempre più accessibili e potenti ha permesso alle persone e alle imprese di raccogliere e memorizzare quantità sempre maggiori di dati di dettaglio. Questa possibilità spinge le organizzazioni commerciali, che dispongono di informazioni sempre più accurate sui clienti, sulle vendite di prodotti e sul consumo dei servizi, verso la realizzazione di sistemi decisionali orientati ai modelli per trasformare i dati “grezzi” in conoscenze in grado di supportare e potenziare l’efficacia delle leve d’azione concepite per acquisire e mantenere un vantaggio competitivo sulla concorrenza.
L’utilizzo di tali sistemi, che non sono solo strumenti di mera reportistica ma permettono di condurre analisi anche molto sofisticate, consente di ottenere una migliore conoscenza dei clienti, dei loro bisogni e delle loro attese, e quindi di migliorare l’efficienza e la profittabilità di un sistema-impresa fornendo prodotti a prezzi più bassi, con un livello qualitativo più elevato, più servizi, più personalizzazioni e una maggiore flessibilità logistico-produttiva.
Per cogliere questi obiettivi è necessario un processo di sintesi e di valutazione dei dati che scaturisca da uno sforzo congiunto da parte dell’ICT – che ha il compito di fornire i dati e la tecnologia per potervi accedere (data warehouse, data mart, strutture informative complesse) – e dai responsabili dei diversi processi di business (i knowledge worker), che “scavano” con saggezza e competenza (almeno si spera!) nella miniera dei dati, alla scoperta di informazioni potenzialmente utili, impiegando sofisticati strumenti di esplorazione e di modellizzazione
La capacità di analizzare massicci quantitativi di dati e di estrarne le potenziali informazioni non ha ancora raggiunto il livello delle tecniche sviluppate nel corso degli anni per la raccolta e la registrazione delle stesse. Tuttavia, qualunque sia il contesto nel quale si opera (un’area di business, un settore della medicina, della scienza, dell’ingegneria, del management e – perché no? – dell’arte o delle discipline umanistiche o sociali), i dati, nella loro “forma fredda”, non contengono che una minima quantità di informazione.
Per esempio, il database che rappresenta il mercato di un’azienda che si occupa di vendita di beni di consumo può mettere in evidenza la correlazione tra alcuni prodotti e certi gruppi demografici; questa correlazione potrebbe giustificare l’attivazione di campagne di marketing focalizzate, con un ritorno finanziario sicuramente superiore rispetto a una campagna generalizzata. I database si possono dunque definire come una risorsa informativa potenziale ma “dormiente” che, solo se utilizzata correttamente, può fornire benefici sostanziali.
Tradizionalmente l’analisi dei dati è stata un processo in gran parte manuale. L’analista, una volta entrato in familiarità con la base dei dati, si occupava di comprenderne la struttura e di generare una serie di resoconti comportandosi come un vero e proprio query processor umano. Questo approccio decadde rapidamente in termini di efficacia non appena la quantità e la varietà dei dati cominciarono a crescere: non è possibile, infatti, arrivare a “comprendere” milioni o miliardi di registrazioni di valori relativi a fatti o eventi ritenuti significativi, ognuno dei quali potrebbe essere specificato, in termini strutturali, da migliaia di campi (o attributi), e nemmeno tenere il passo, ove anche l’analisi manuale fosse realizzabile, con la velocità con cui l’informazione aumenta di volume e si modifica.
L’attività di attribuzione di un significato ai dati (o valutazione semantica dei dati) è descritta in termini differenti a seconda della comunità di ricerca che se ne occupa (per esempio, termini spesso ricorrenti sono: knowledge extraction, information harvesting, data archeology, data pattern processing). Il termine Data Mining è utilizzato per lo più dai progettisti di database in ambito statistico e, solo recentemente, in campo economico. L’acronimo KDD è utilizzato per riferirsi a un processo generale che mira a scoprire informazione utile dai dati.
Il Data Mining rappresenta solo una fase particolare in questo processo, cioè la fase in cui si attua l’applicazione di algoritmi specifici per estrarre modelli significativi dai dati. Sono gli altri passi del processo KDD, come la preparazione, la selezione, la pulizia dei dati, la fusione di appropriate informazioni antecedenti e la corretta interpretazione dei risultati del mining, che assicurano che l’informazione sia significativa.
Un’applicazione superficiale dei metodi di Data Mining può essere un’attività pericolosa, che conduce sovente alla scoperta di modelli privi di senso (non a caso, un tempo, la letteratura statistica definiva come “drogati” i risultati di questi approcci rozzi e superficiali).
Il KDD si è evoluto (e sta evolvendo) grazie alla confluenza delle ricerche provenienti dai campi più disparati, quindi non solo dal settore che si occupa dello studio e della progettazione di database, ma anche da settori apparentemente più distanti, quali quelli che si interessano di intelligenza artificiale, di statistica, di modellistica, di sistemi esperti, di metodi di reporting, di tecniche per il recupero dei dati e di modelli per accrescere la velocità di calcolo e l’affidabilità (High Performance Computing). I sistemi software di KDD incorporano perciò teorie, algoritmi e metodologie derivate da un elevato numero di settori di indagine.
La Data Science , che studia la progettazione e l’implementazione di strutture dati e di applicazioni collegate provvede a creare le architetture necessarie alla memorizzazione, all’accesso e alla manipolazione dell’informazione. Il Data Mining richiede degli strumenti preconfezionati, che permettano di effettuare analisi in profondità, su quantità di dati di dettaglio che possono essere molto grandi (tipicamente da 100 megabyte a 10 terabyte come i big-data) e che consentono di estrarre rapidamente le informazioni richieste: per facilitare questo compito sono necessarie delle operazioni di elaborazione a monte, tipiche di chi opera con i data warehouse.
Il Data Warehousing è un termine in auge ormai da tempo e si riferisce alla tendenza delle attuali attività di business di raccogliere, convalidare e ripulire dati transazionali in modo da renderli disponibili ad analisi in tempo reale e all’attività di supporto decisionale. Un processo di Data Warehousing potrebbe essere visto come un navigatore in grado di navigare nel mare di informazioni acquisito nel corso degli anni. Questo processo, da un lato, crea un’architettura mirata ai servizi di Business Intelligence, dall’altro contempla, attraverso i processi di estrazione e trasformazione dei dati, ogni aspetto riguardante l’utilizzo delle informazioni.
Il cuore dell’architettura è un deposito di dati, il cosiddetto Data Repository, che molto spesso si identifica nel Data Warehouse stesso, nel quale le informazioni sono archiviate in un modello integrato e consolidato.
Le sue caratteristiche sono espresse dagli “assiomi” seguenti
Il Data Warehouse è tipicamente costruito attorno a dei soggetti. I soggetti sono, per esempio, argomentazioni di business di particolare rilievo come le vendite o la fascia di mercato. La struttura di un soggetto è determinata dal livello e dalla natura dell’informazione così come è richiesta dall’utente di business.
Il Data Repository è distinto dal sistema che gestisce i processi transazionali (OLTP), in modo tale da non interferire con esso. Questo indica che l’informazione è strutturata per soddisfare le esigenze di business e non i requisiti del sistema transazionale.
Il Data Warehouse è integrato. Tutte le informazioni preziose dovrebbero essere integrate nella definizione del soggetto. Le eventuali discrepanze nei dati provenienti dal sistema transazionale devono essere corrette prima del loro caricamento.
Il Data Warehouse non è volatile e fornisce un’unica fonte di verità. Ciò significa che nel momento in cui due persone richiedono la stessa informazione, otterranno la stessa risposta e il dato non cambierà durante il processo di analisi.
Il Data Warehouse fornisce una prospettiva storica di un’area di business. Il dato è archiviato in forma sommarizzata e “vive” per alcuni anni. Questo permette di ottenere dei trend per analisi statistiche e previsionali.
La distribuzione delle informazioni è l’elemento chiave per la costruzione di un Data Warehouse di successo, in quanto essa deve fornire le basi per il processo decisionale. Le aziende hanno archiviato i dati di business per molti anni, ma lo sfruttamento incompleto del loro potenziale ha da sempre costituito un problema insoluto. Ecco quindi come, un ambiente di distribuzione delle informazioni così strutturato, mira alla risoluzione di questo problema.
Le iterazioni iniziali di un processo di Data Warehousing, sono usualmente impegnate proprio a risolvere problematiche di business già esistenti.
Nelle iterazioni successive, si tende invece ad assumere un atteggiamento più propositivo, ricercando il valore reale all’interno dell’informazione. Il suo maggior punto di forza è che facilita le query ad hoc e le esplorazioni di dati non previste. Vi è quindi la libertà di analizzare in modo differente i propri dati, piuttosto che essere limitati in un insieme predefinito di report.
Nelle situazioni in cui viene verificata una serie significativa di query, la creazione di un livello Data Mart può costituire una soluzione per ottimizzare i tempi di risposta di interrogazione.
In un Data Warehousing di successo è assolutamente necessario poter disporre di validi strumenti per il supporto decisionale (DSS) per poterne sfruttare a pieno la struttura. Questo è possibile solo se gli strumenti di analisi sono compatibili con quelli usati per caricare e mantenere le informazioni.
I dati dunque sono la materia prima per costruire dei sistemi di supporto decisionale, o almeno la componente più diffusa di questa specie d’applicazioni che, per quanto riguarda la tassonomia, è pervasa da una certa confusione terminologica. Seppure datata, una classificazione delle varie realizzazioni di sistemi di supporto decisionale opera una distinzione tra i diversi tipi in base al grado di complessità della realizzazione e al livello di ausilio che possono offrire ai decisori. Secondo questa visione, i DSS si possono ripartire in tre grandi famiglie: orientati ai dati, orientati ai modelli e di natura logica. Questa classificazione – che incorporava di fatto i sistemi di Business Intelligence nei DSS, pur non prevedendoli esplicitamente dato che allora non erano ancora stati “battezzati” – venne successivamente sostituita da un’altra, che postulava la prevalenza della BI sui DSS e che gli strumenti di BI potessero essere suddivisi in due gruppi distinti: EIS (Executive Information System) e DSS.
Secondo questa interpretazione, gli strumenti EIS creavano applicazioni destinate sostanzialmente come supporto decisionale a responsabili aziendali, privi di particolari competenze tecniche, che avevano bisogno di esplorare i dati a vari livelli di dettaglio ed analizzare dati riassuntivi. Essi venivano solitamente eseguiti su mainframe o server “corposi”, erano costosi e di proprietà esclusiva della direzione aziendale. Gli strumenti DSS, destinati invece a knowledge worker più tecnici, supportavano l’accesso ai dati strutturati ad hoc, rendevano disponibili delle tecniche di data analysis piuttosto avanzate ed erano relativamente a buon mercato.
La divisione tra strumenti EIS e DSS venne via sfumando per una serie di cambiamenti verificatisi nel mercato come risultato di tendenze tecnologiche ed organizzative complementari, quali la diffusione dei modelli di elaborazione distribuita e l’appiattimento delle strutture gerarchiche aziendali, con la successiva comparsa di unità organizzative autonome, responsabili dei propri risultati e, per questo, con un potere decisionale anche notevole.
Manager aziendali e knowledge worker oggi richiedono un accesso diretto ed immediato ai dati aziendali per poter aumentare l’efficacia del proprio agire e la competitività delle proprie unità organizzative, esattamente come l’alta direzione aveva bisogno di informazioni per l’assunzione di decisioni strategiche per l’intera azienda (necessità che ovviamente permane). Inoltre, per restare competitivi, gli strumenti di supporto decisionale sono stati adattati per essere eseguiti anche su architetture distribuite e, in seguito, in ambienti web, con una conseguente riduzione dei costi.
Non sorprende dunque che gli strumenti EIS/DSS e gli strumenti di query/reporting si siano evoluti separatamente in una nuova classe di prodotti in grado d’offrire sia funzionalità analitiche che di reporting, replicando un fenomeno biologico noto con il nome di “evoluzione convergente”. Comunque sia, la possibilità d’essere eseguiti via web e la facilità di utilizzo sono oggi gli aspetti fondamentali – e determinanti in fase di selezione – per tutte le classi di prodotto.
Prima di addentrarci nel tema ICT security, BIG DATA, fissiamo alcuni punti fondamentali che ci permettono di comprendere meglio quando stiamo parlando veramente di BIG DATA o quando confondiamo questo termine con “Molti Dati”.
Quando si parla di BIG DATA le quantità dei dati si scrivono almeno in Petabyte, ExaByte o tra qualche anno in Zettabyte (miliardi di terabyte). I dati non sono obbligatoriamente strutturati.
I BIG DATA vengono fuori da fonti completamente non omogenee (testi, immagini, musica, email, GPS, e tutto quello che può essere digitale), l’integrazione complessa di tutte queste fonti viene analizzata da sofisticati algoritmi di analisi.
Le caratteristiche dei BIG DATA sono rappresentate dal volume che rappresenta la dimensione effettiva dell’insieme dei dati; dalla velocità di generazione dei dati e dalla eterogeneità riferita alle varie tipologie di dati provenienti da fonti diverse (strutturate e non).
Negli algoritmi di analisi non bisogna tralasciare caratteristiche come la complessità dei dati e la varietà del dato per arrivare ad avere un risultato finale vero e non falsificato da analisi scorrette o poco approfondite.
Nel momento in cui si affronta il tema della sicurezza informatica in un sistema contenente BIG DATA bisogna considerare almeno i 4 sotto-sistemi essenziali che lo compongono:
GLI UTENTI: bisogna sempre considerare che in un sistema dove ci sono BIG DATA ci sono anche numerosissimi utenti che ne fanno parte e che inseriscono i dati, li visualizzano, li elaborano e perché no, anche cercano di estrapolarli per motivi poco corretti: i Cyber Criminali.
TECNOLOGIA HARDWARE: composto da server sempre più performanti e ridondati geograficamente, firewall di ultima generazione, reti in fibra ottica.
LE APPLICAZIONI: sono sempre più articolate le applicazioni dietro ad un sistema complesso come quello dei BIG DATA, esse si dividono in 2 grandi gruppi: quelle con codice sorgente aperto (progetti open source con alle spalle intere community di sviluppatori) e quelle con codice sorgente proprietario (progetti commerciali realizzati da grandi software house).
DATI: in questo sotto-sistema confluiscono Data Base realizzati con i più moderni e performanti Database Management System (DBMS) e files organizzati in cartelle o integrati in un sistema più complesso realizzato con tecnologie Document Management System (DMS).
Dopo aver analizzato in maniera molto sintetica questi 4 sotto-sistemi soffermiamoci su alcune riflessioni.
Negli ultimi mesi la maggior parte dei Cyber Criminali hanno attaccato i sistemi informatici attraverso vulnerabilità intercettate sulle applicazioni; termini come OSINT (Open Source Intelligence) devono entrare a far parte del nostro bagaglio culturale perché riguardano la raccolta di informazioni mediante consultazioni di fonti pubbliche che diventa sempre più semplice e spinge a risultati di importanza straordinaria, infatti in rete si trovano in dettaglio le vulnerabilità delle applicazioni e soprattutto dei progetti Open Source. Mediante tali debolezze informatiche i Cyber Criminali sviluppano Exploit che sfruttando bug e vulnerabilità permettono di eseguire codice non previsto all’interno di un’applicazione, detti Exploit possono anche permettere l’acquisizione di diritti amministrativi sulla macchina dove è in esecuzione l’applicazione vulnerabile.
Il sotto-sistema degli utenti essendo composto da persone, è soggetto ad attacchi di Ingegneria Sociale; i Cyber Criminali studiano i comportamenti degli operatori che, attraverso l’utilizzo di applicazioni, si occupano di analisi dati o data entry, cercando così di intercettare eventuali vulnerabilità sociali. Alcune volte riescono, attraverso tecniche come il Phishing e Brute Force, ad ottenere accesso ad aree riservate di applicazioni importanti.
Le aziende che si occupano di analisi e data entry, molto spesso per motivi economici utilizzano utenti poco formati in campo security, rendendo in questo modo il lavoro dei criminali molto più semplice e veloce.
Una delle tecniche di ingegneria sociale più utilizzate è il Baiting, che consiste nell’immissione di software malevolo in gadget o dispositivi removibili tipo pendrive USB. E’ consuetudine nel mondo criminale regalare e spedire per posta dispositivi del genere camuffati con etichette accattivanti e rassicuranti, che incentivano l’utente ad introdurla nel proprio sistema, rischiando in questo modo, l’esecuzione del codice malevolo sulla propria workstation.
Di Massimo Chirivì – info@massimochirivi.net
Coffee Time, l’editoriale di approfondimento di ViralCaffè domani sarà in compagnia di Massimo Chirivì, consulente di sistemi informativi per importanti aziende italiane e seguitissimo relatore in convegni nazionali.
Massimo Chirivì affronterà con noi il tema dei Big Data e della security in campo ICT, partendo dall’analisi dei contenuti e del loro significato per affrontare poi il problema delle vere criticità dei Sistemi informatici e di come essi siano quotidianamente bersaglio di Cyber Criminali sempre più astuti e organizzati.
Un approfondimento interessante e necessario, su temi fondamentali per aziende e privati che devono preservare i loro dati ed il loro lavoro
L’Europa parla con una sola voce che grida innovazione digitale. Un salto nel futuro di cui abbiamo un estremo bisogno.
Nella scena di un film di fantascienza degli anni ottanta, la mente cibernetica di un super computer in preda ad un delirio di onnipotenza terrorizzava una famiglia tenendola prigioniera in casa, controllandone ogni uscita e ogni accesso esterno. Una tecnologia fuori controllo che toglieva all’uomo il dominio di se stesso e del suo ambiente. Dell’immaginario in cui le macchine prendono il sopravvento sull’umanità si sono nutrite generazioni. Per fortuna viviamo in un’epoca molto meno spaventosa, in cui abbiamo imparato ad apprezzare la tecnologia integrandola nella nostra vita quotidiana senza averne paura.
Per quanto ancora possa sembrare bizzarro grazie alla domotica il frigorifero di casa un giorno di un futuro non troppo lontano comunicherà con il nostro smartphone inviandoci dopo aver fatto un check la lista completa della spesa; la nostra automobile si guiderà da sola perché connessa a una rete stradale che gestisce in modo intelligente traffico e mobilità; le macchine industriali saranno capaci di usare solo l’energia di cui hanno bisogno dosandola per evitare sprechi; ogni oggetto sarà dotato di un dispositivo elettronico e un sensore in grado di raccogliere informazioni utili e inviarle comunicando ad altri oggetti, migliorandone i processi.
È l’Internet of Everything, presentato da Cisco Italia, evento che si è svolto dal 7 all’11 luglio a Venezia, una rete intelligente con un potenziale senza precedenti su tutti i settori economici vitali come il manifatturiero, l’energia, i trasporti, i servizi sanitari e applicazioni nel campo della domotica, nel monitoraggio in ambito industriale, biomedicale, Smart Grid e Smart Cities.
Micheal Mandel, Chief economic strategist del Progressive Policy Institute di Washington, ha spiegato:
“Il mondo degli oggetti che possediamo si animerà, si potranno combinare informazioni su oggetti di uso comune, processi, dati, per migliorarne le prestazioni e la vita delle persone. Prendiamo come esempio una goccia d’acqua: i sensori ambientali potranno rilevare la pioggia in arrivo, forniranno l’informazione alla rete, tutti quelli che sono connessi alla rete verranno informati sul cambiamento climatico, siano essi un sistema di rilevamento del traffico, una rete di illuminazione stradale, un sistema energetico o agricolo. Più cose connettiamo a Internet, più opportunità mettiamo a disposizione delle persone e dei sistemi economici, poiché miliardi e miliardi di cose comunicano, imparano e si aiutano tra di loro, non ci saranno limiti per l’innovazione”.
L’Internet of Everything è stato uno dei temi centrali della settimana che inaugura il semestre italiano di presidenza europea. 100 speaker e più di 30 iniziative tra interventi, workshops e laboratori, un’opportunità unica di approfondimento su esperienze e idee legate all’economia digitale: dalla fatturazione elettronica nella Pubblica Amministrazione al turismo dei Big Data, le innovazioni digitali che possono aiutare la crescita economica. Tra i partecipanti, riunitisi per tracciare la mappa di un’Agenda Digitale Europea congiunta, i massimi esponenti della politica e dell’industria, lo stesso premier Renzi assieme ai leader dell’innovazione. Una rivoluzione quella digitale a cui non possiamo più sottrarci.
Marco Camisani Calzolari, guru italiano del digitale imprenditore, studioso di business economy, docente universitario che in uno speech dal titolo provocatorio “Change or Die” ha sottolineato l’importanza di aumentare l’attenzione delle aziende sull’educazione digitale:
“Per dare un senso alla propria attività oggi bisogna avere una cultura digitale e saper affrontare i cambiamenti. Bisogna diventare degli esploratori digitali, affrontando la rivoluzione adeguandosi il prima possibile; anche nelle aziende di famiglia dove il sapere si tramanda di generazione in generazione, oggi servono più competenze e una solida cultura digitale e anche sui social media bisogna avere una strategia.” Stesso consiglio per le start up che per definizione devono innovare per non morire.
Microsoft ha lanciato SQL Server 2014 e le nuove soluzioni per una Business Intelligence sempre più olistica e pervasiva, confermando il proprio impegno per offrire un’efficace piattaforma per l’elaborazione e l’analisi dei dati in linea con gli attuali trend dei Big Data e dell’Internet of Things.
La SQL Server 2014 rappresenta una piattaforma dati ibrida che fa leva su tecnologie in-memory per garantire la gestione e l’analisi di enormi quantità di dati eterogenei in tempo reale e consente ad aziende di qualsiasi settore e dimensione di progettare e sviluppare in modo semplice e accessibile applicazioni mission-critical, soluzioni Big Data e strumenti di BI on premise o sulla cloud.
Con SQL Server 2014 Microsoft consolida la propria visione per una BI olistica nell’era dell’Internet of Things, in cui qualsiasi interazione tra persone e oggetti genera dati in quantità e a velocità esponenziali e solo trasformandoli in informazioni con un approccio integrato è possibile produrre valore.
Una recente ricerca commissionata da Microsoft ad IDC ha confermato, infatti, la correlazione tra maggiore competitività e decisioni di business più ragionate guidate da soluzioni di Big Data e Business Analytics e ha inoltre stimato che, adottando un approccio olistico ai dati, le organizzazioni potrebbero realizzare un ulteriore ROI del 60% sui propri data asset, capitalizzando a livello globale un “data dividend” di circa $1.600 miliardi, in termini di incremento di fatturato, riduzione dei costi e miglioramento della produttività, nell’arco dei prossimi quattro anni.
Le aziende pubbliche e private in grado di raggiungere risultati migliori, sono infatti quelle che fanno affidamento su diversi tipi di dati provenienti da molteplici fonti, su innovativi analytics e metriche e su un maggiore accesso a soluzioni Big Data e analytics da parte di più utenti e che investono in tecnologia in grado di abilitare la consultazione di dati aggiornati e l’elaborazione in tempo reale.
Sviluppata per rispondere alle sfide dei Big Data e dell’Internet of Things, la piattaforma di Microsoft, basata su persone, dati e analytics, comprende nuove funzionalità per consentire alle aziende di adottare un approccio integrato e di connettere, affinare e analizzare i propri dati, generando insight accessibili a chiunque e in qualunque momento. In questa logica la piattaforma dati di
Microsoft si arricchisce di nuove soluzioni, SQL Server 2014 in primis ma anche altri servizi:
• SQL Server 2014 – L’ultima versione della piattaforma per la gestione e l’analisi dei dati più sicura e utilizzata al mondo in grado di offrire analisi in tempo reale di terabyte e petabyte di dati grazie alla tecnologia in-memory integrata e di garantire scalabilità e disaster recovery affidandosi al public cloud di Microsoft Azure.
• Microsoft Azure Machine Learning – Il nuovo servizio di Azure, disponibile in public preview a partire da luglio, pensato per aiutare le aziende a creare soluzioni di analisi predittive guidate dai dati che, basandosi su serie storiche e sfruttando algoritmi pronti all’uso, riduce al minimo i costi di startup utilizzando strumenti visuali per supportare al meglio il lavoro dei Data Scientist e ottenere il massimo ritorno dell’investimento in ambito Big Data e Internet of Things.
• Analytics Platform System (APS) – Il nuovo sistema che combina il meglio del database di Microsoft SQL Server e della tecnologia Hadoop in un’offerta low-cost per offrire una soluzione “Big Data in a box”.
Le nuove soluzioni sono il frutto di 12 mesi di innovazione, durante i quali sono state perfezionate diverse applicazioni e funzionalità per offrire la più completa piattaforma dati in grado di garantire performance real time a partire da qualsiasi fonte d’informazione.
In questa logica nell’ultimo anno sono stati infatti lanciati anche: Power BI for Office 365, una soluzione cloud-based di Business Intelligence self service con funzionalità all’avanguardia per l’interpretazione del linguaggio naturale; Azure HDInsight per beneficiare in modo flessibile del framework Hadoop sulla cloud; PolyBase per riunire dati strutturati e non strutturati in un appliance di data warehouse; e Power Query for Excel, che rende più semplice per chiunque scoprire dati attraverso un tradizionale foglio di calcolo.
Un esempio concreto di un’azienda italiana che puntando sulla gestione dei dati è stata in grado di ottenere significativi vantaggi di business grazie a un migliore allineamento tra strategia ed esecuzione è quello del Gruppo Permasteelisa, leader mondiale nel settore della progettazione, produzione ed installazione di involucri architettonici, facciate continue e sistemi di interni, che, partendo dalla necessità di consolidare molteplici database e server a supporto di applicazioni mission critical, ha scelto di adottare il nuovo SQL Server 2014.