Data Science: la guida definitiva

Condividi
6 min lettura
Data

Si parla comunemente di Data Science, perché oggi i dati costituiscono un vantaggio competitivo per le aziende, ma cosa significa esattamente? Cercheremo di approfondire questo tema in questa guida essenziale.

data-science-innovation-school

Cos’è la Data Science

La Data Science, o scienza dei dati, è lo studio che riguarda il reperimento e l’analisi di set di dati, con l’obiettivo di individuare informazioni e corrispondenze nascoste nei dati non lavorati, definiti grezzi.

La Data Science, in altre parole è la scienza che combina capacità di programmazione e conoscenza di matematica e statistica per estrarre informazioni significative dai dati. La Data Science consiste nell’applicazione di algoritmi di machine learning a dati numerici, testuali, immagini, contenuti video e audio. Gli algoritmi eseguono quindi compiti specifici che riguardano l’estrazione, la pulizia e la elaborazione di dati, generando loro volta, dati che si trasformano in valore reale per ogni organizzazione.

 

Data Science e Business Analytics si equivalgono?

Spesso i termini Data Science e Business Analytics sono considerati sinonimi. Del resto sia l’attività di Business Analytics che di Data Science si occupano dei dati, della loro acquisizione, e dell’elaborazione di modelli e della elaborazione di informazioni.

Qual è allora la differenza tra Data Science e Business Analytics? Come suggerisce la denominazione, la Business Analytics è focalizzata sulla elaborazione di dati, aziendali o settoriali, per estrarre informazioni utili all’azienda, focalizzati sul proprio mercato e su quello dei competitori. La Data Science risponde invece a domande circa l’influenza del comportamento dei clienti sui risultati del business aziendale. La Data Science combina le potenzialità dei dati con la creazione di algoritmi e l’utilizzo della tecnologia per rispondere a una serie di domande. Recentemente le funzioni di machine learning e di intelligenza artificiale si sono evolute e porteranno la data science a livelli ancora difficili da immaginare. La Business Analytics, d’altra parte, continua a essere una forma di analisi dei dati aziendali con concetti statistici per ottenere soluzioni e approfondimenti mettendo in relazione i dati passati con quelli relativi al presente.

 

Perché avvalersi della Data Science

La Data Science si propone di individuare i dataset più significativi per rispondere alle domande poste dalle aziende, elaborarli per estrarre nuovi dati relativi a comportamenti, bisogni e tendenze che sono alla base delle decisioni data driven dei loro manager.

I dati così individuati possono aiutare un’organizzazione a contenere i costi, aumentare l’efficienza, riconoscere nuove opportunità di mercato e aumentare il vantaggio competitivo.

Possono i dati produrre altri dati utili? Certo che sì! La Data Science nasce per comprendere i dati e le loro relazioni, analizzarli, ma soprattutto per estrarre valore e far sì che, adeguatamente interrogati e correlati, generino informazioni utili non solo a comprendere i fenomeni, ma soprattutto ad orientarli.

La Data Science è indispensabile alle aziende alle prese con la trasformazione digitale, perché consente di orientare i prodotti o servizi aziendali verso il cliente, i suoi comportamenti di acquisto e rispondere ai suoi bisogni. Aziende leader del mercato globale, come Netflix, Amazon e Spotify impiegano applicazioni sviluppate dai Data Scientist che grazie all’intelligenza artificiale consentono di creare motori di raccomandation che suggeriscono cosa acquistare, cosa ascoltare e quale film vedere sulla base dei gusti del singolo utente. Questi algoritmi sono anche in grado di valutare quali sono stati i suggerimenti che non hanno colpito l’interesse dell’utente grazie al processo di machine learning, che permette di affinare sempre più le proposte e aumentare così le conversioni ottimizzando il ROI.

 

Il processo di Data Science

La Data Science viene utilizzata principalmente per fornire previsioni e tendenze e assumere decisioni facendo uso di strumenti per l’analisi predittiva, analisi prescrittiva e apprendimento automatico.

 

1) Analisi causale predittiva

Se la data analysis ha la finalità di ottenere una previsione sul fatto che in futuro si verifichi un determinato evento, è necessario applicare l’analisi causale predittiva. Supponiamo che una banca che eroga prestiti voglia prevedere la probabilità che i clienti restituiscano il finanziamento in futuro. La Data Science si avvale in questo caso dell’elaborazione di un modello che può eseguire analisi predittive sulla cronologia dei pagamenti del cliente per prevedere se i pagamenti futuri saranno onorati correttamente.

 

2) Analisi prescrittiva

Se invece si desidera realizzare un modello, o pattern, che applichi l’AI per assumere decisioni in autonomia e possa aggiornarsi costantemente con le funzioni di autoapprendimento dinamico, è certamente necessario realizzare un modello di analisi prescrittivo. Questo ambito relativamente recente della Data Science consiste nel fornire consigli o assumere direttamente comportamenti conseguenti. In altri termini, questo modello non solo è in grado di prevedere, ma suggerisce o applica una serie di azioni prescritte. Il miglior esempio di questo è l’auto a guida autonoma: i dati raccolti dai veicoli vengono infatti utilizzati per ottimizzare il software che conduce l’automobile senza intervento umano. Il modello sarà in grado di assumere decisioni in autonomia, stabilendo  quando voltare, quale percorso prendere,quando rallentare o frenare decisamente.

 

3) Machine learning per fare previsioni

Se si hanno a disposizione, ad esempio, dati transazionali di una società di carte di credito e si ha bisogno di costruire un modello per determinare la tendenza futura, è necessario avvalersi degli algoritmi di machine learning attraverso l’apprendimento supervisionato. Viene chiamato supervisionato perché si già hanno a disposizione i dati in base ai quali si può addestrare l’algoritmo. Un esempio può essere l’ottimizzazione continua del riconoscimento della voce degli assistenti vocali di Alexa o Google.

 

Le fasi principali del processo di Data Science

L’applicazione concreta della Data Science prevede una serie di fasi in sequenza, ormai codificate in una sorta di processo.

 

1) La conoscenza e analisi del problema

Prima di avviare un progetto di analisi, è indispensabile comprendere gli obiettivi, il contesto di riferimento, le priorità e il budget a disposizione. In questa fase il Data Scientist deve individuare le esigenze di chi commissiona l’analisi, le domande alle quali il progetto deve rispondere, i set di dati già disponibili e quelli da reperire per rendere il lavoro di analisi più efficace. Infine è necessario formulare le ipotesi iniziali, in un quadro di ricerca aperto alle risposte generate dal mettere in relazione i dati, le cui combinazioni possono riservare sorprese.

 

2) La preparazione dei dati

In questa fase si estraggono i dati provenienti da varie fonti, in genere disomogenee, e ne si effettua una pulizia per trasformarli in elementi analizzabili. In questa fase è necessaria una sandbox analitica in cui è possibile eseguire analisi per l’intera durata del progetto. Spesso ci si avvale di modelli in linguaggio R per la pulizia, la trasformazione e la visualizzazione dei dati. Questo aiuterà a individuare i valori anomali e stabilire una relazione tra le variabili. Una volta puliti e preparati i dati, è ora possibile effettuare l’attività di data analysis inserendoli in un data warehouse.

 

3) La pianificazione del modello

Si procede quindi a determinare i metodi e le tecniche per individuare le relazioni tra le variabili. Queste relazioni saranno alla base degli algoritmi che verranno implementati per quella funzione. In questa fase ci si avvale di R, che ha un set completo di funzionalità di modellazione e fornisce un buon ambiente per la costruzione di modelli interpretativi. Sono utili anche i servizi di analisi SQL che eseguono elaborazioni utilizzando funzioni di data mining e modelli predittivi di base. Sebbene sul mercato siano presenti molti strumenti, R è il linguaggio di programmazione più utilizzato per queste attività.

.

4) La  realizzazione del modello

Dopo aver approfondito la natura dei dati disponibili e progettati gli algoritmi da utilizzare, è il momento di applicare il modello. Questo viene testato con set di dati appositamente individuati e messi a disposizione per l’autoapprendimento dell’algoritmo. Si valuterà se gli strumenti esistenti saranno sufficienti per l’esecuzione dei modelli o si avrà bisogno di un’elaborazione più strutturata, quindi si passa all’ottimizzazione del modello e viene lanciata l’elaborazione.

 

5) Il comunicare i risultati

Ecco il momento in cui l’attività di Data Science è chiamata a rendere comprensibili le relazioni individuate tra i dati e le risposte alle domande previste nel progetto. In questa fase si valuta innanzitutto se è stato possibile raggiungere l’obiettivo dell’analisi. È necessario quindi elaborare uno o più report, destinati ai responsabili delle varie funzioni aziendali, rendendo i dati emersi dal processo di data science facilmente comprensibili, adottando elementi di visualizzazione grafica, come infografiche e grafici. Il testo sarà comprensibile anche a chi non ha troppa esperienza con i dati e semplificherà la loro interpretazione, utile chi si occupa di progettazione di prodotto, al responsabile marketing e ai top manager, che possono assumere decisioni data driven, basate sui dati.

 

Conclusioni

La Data Science sta rivoluzionando molti settori. Conoscere il proprio cliente, analizzare i suoi comportamenti individuando relazioni tra i dati che possono trasformarsi in risultati predittivi riguardo a tendenze e orientamenti del mercato. Il tutto in un’ottica orientata al cliente, tipica della digital transformation, che consente di progettare prodotti e servizi orientati alla soddisfazione dei bisogni, quindi più profittevoli, perché costruiti sulla base delle domande del mercato. Oggi siamo in una fase iniziale, che permette già di ottenere risultati, ma attraverso lo sviluppo dell’IoT, dei sensori e di altri strumenti per la raccolta dei dati saranno possibili sviluppi oggi solo immaginabili.