RapidMiner 8.1

Tra le novità più importanti di questa release c’è la funzionalità Auto Model, introdotta per migliorare la produttività dei Data Scientist.

RM Auto Model permette di valutare preventivamente i dati, le loro correlazioni, e di capire come e perché un modello funzioni. Successivamente quanto fatto diventa la base per mettere a punto la soluzione sul designer.

In sintesi, RM Auto Model:

  • accelera la preparazione dei dati (identificando dati irrilevanti, outliers, problemi di qualità più comuni)
  • automatizza la modellazione predittiva (generando e validando alcuni modelli)
  • evidenzia quali caratteristiche hanno il maggior impatto sull’obiettivo di business desiderato (evidenziando i fattori di influenza e le correlazioni più importanti).

Grazie alle visualizzazioni integrate e a un simulatore di modelli interattivo, i Data Scientist possono esplorare rapidamente il modello per vedere come funzioni in diverse condizioni.

Auto Model genera processi RM Studio dietro le quinte, in modo da

  • visualizzare istantaneamente le fasi di preparazione e modellazione dei dati end-to-end
  • ottimizzare selettivamente la messa a punto e testare i modelli prima di metterli in produzione.

Vediamo RM Auto Model in azione

Selezione dei dati

È possibile importare dal repository un qualsiasi dataset.

Per questo esempio è stato utilizzato il dataset SONAR, un dataset di esempio composto da 60 attributi numerici, che rappresentano lo stream di dati raccolti dalle boe e ci aiutano a rilevare se siamo di fronte ad una mina piuttosto che ad una roccia.

RapidMiner Auto Model Information

Selezione del Task

Selezionare una delle tre attività:

Previsione: Selezionare questa opzione se si desidera prevedere il valore di una variabile target. In seguito costruiremo un modello di apprendimento automatico che prevede i valori di questa colonna in base ai valori delle altre colonne.

Cluster: Selezionare questa opzione se si desidera trovare cluster o segmenti nei dati.

Outliers: Selezionare questa opzione se si desidera trovare punti insoliti nei dati. È utile se si vogliono identificare cose strane o inaspettate.

RM AM Task

Preparazione del Target

Nel nostro esempio, si vuole prevedere una colonna categorica.

È possibile specificare la classe di interesse.

A volte si desidera rinominare alcune classi oppure raggruppare diverse classi insieme e trattarle come una. È infatti possibile creare una mappatura che traduce una o più classi in nuovi valori. Le classi sono raggruppate insieme e trattate come una se le si mappa allo stesso valore.

Per fare questo attivare Map Classes to New Values. È così possibile definire nuovi valori per ogni classe.

RM AM Target

Selezione degli Input

Qui l’attenzione si concentra sulla qualità dei dati, in particolare la qualità di ogni colonna di dati.

Come si fa a sapere quali Attributi sono di valore e quali sono inutili? Una bolla di stato codificata con colori (rosso/giallo/verde) dà un indizio, e le barre di qualità associate forniscono i dettagli.

Ogni riga sullo schermo rappresenta un Attributo. È possibile deselezionare gli Attributi facendo clic su di essi individualmente o collettivamente facendo clic sul pulsante “Deseleziona rosso” o “Deseleziona giallo” nella parte superiore dello schermo.

RM AM Input

Selezione dei tipi di modello

Sulla base dei dati e delle nostre scelte, vediamo ora sullo schermo un elenco di modelli. È necessario selezionare almeno uno dei modelli prima di poter proseguire. Selezionando più di un modello, i risultati mostreranno un confronto tra le prestazioni di ciascuno.

È anche possibile scegliere di calcolare le correlazioni tra tutte le colonne o l’importanza globale delle colonne.

RM AM Modello

Risultati: classificazione

È la fase finale del Model Wizard, in cui è possibile ispezionare i modelli generati insieme ad altri risultati. L’output dipende dai dati e dalle scelte precedentemente effettuate. Alcuni risultati sono mostrati solo per alcuni tipi di problemi: il Lift Chart, ad esempio, è disponibili solo per problemi binari, ecc.

I risultati sono calcolati in background. È comunque possibile iniziare immediatamente a controllare i risultati non appena vengono completati o interrompere l’esecuzione. I calcoli non ancora completati al momento dell’interruzione non saranno disponibili. È possibile tornare indietro e apportare modifiche al termine dell’esecuzione o dopo averla interrotta.

Al termine è possibile aprire il processo che ha creato il modello e tutti i relativi passaggi. È possibile utilizzare quanto fatto per distribuire il modello o come punto di partenza per ulteriori ottimizzazioni.

I risultati proposti sono molti.

Per quanto riguarda l’analisi sugli attributi, segnaliamo Weights e Correlations.

RM AM Weights
RM AM Correlations

La figura seguente confronta l’accuratezza, l’errore, l’AUC, la precisione e molte altre misure, dei modelli con i rispettivi tempi di calcolo.

RM AM Overview

Per quanto riguarda il nostro caso, soffermandoci nei risultati del modello di regressione lineare abbiamo il calcolo dei vari coefficienti:

RM AM Logistic Regression - Model

Un simulatore permette un’analisi what-if agendo sui singoli attributi.

Simulator: fornisce un’interfaccia in tempo reale, facile da usare, per cambiare gli input in un modello e visualizzare l’output. Mostra previsioni, confidenze e spiegazioni per questi input.

RM AM Logistic Regression - Simulator

Utilizzando uno slider per modificare il valor medio di un attributo è immediatamente visibile la sua influenza nel determinare il risultato della classificazione.

RM AM Slider

Successivamente abbiamo la Confusion Matrix.

RM AM Confusion Matrix

Ed infine il Lift Chart.

RM AM Lift Chart

Conclusione

L’Auto Model si rivela quindi uno strumento utilissimo.

Naturalmente non è una “scatola magica”, non prescinde né sostituisce lo studio successivo da parte del Data Scientist ma sicuramente lo indirizza al meglio nel processo di modellazione.

Sicuramente una funzionalità unica, ben fatta e graficamente accattivante, che sottolinea ancora una volta lo sforzo di RapidMiner di voler attrarre i meno esperti all’utilizzo di questa piattaforma.