In questo tutorial usiamo i dati pubblici di Bay Area BikeShare per visualizzare i pattern dei viaggi in bicicletta e degli utenti, cosi’ da capire come la Bay Area si muove sulle due ruote. Hue shippa (scusate l'inglesismo) una Search Dashboard dinamica cosi’ come il nuovo Spark Notebook che utilizzeremo per arricchire i dati.
Raccomandiamo di partire con il dataset di http://www.bayareabikeshare.com/datachallenge ma per i piu’ impazienti abbiamo caricato un estratto dei dati pronto per essere indicizzato. Qui invece potete trovare i dati relativi al meteo che utilizzeremo in Spark.
Il Notebook Hue puo’ essere scaricato e importato o potete fare direttamente copia e incolla.
Questa demo assieme a Real-time Spark Streaming e’ stata presentata a conferenze come Hadoop Summit e Big Data Day LA.
Buona biciclettata!
Come al solito commentate pure sulla lista hue-user o su Twitter @gethue!
Snippetina salvavita
Un modo veloce per indicizzare i dati con Solr:
bin/solr create_collection -c bikes
URL=http://localhost:8983/solr
u="$URL/bikes/update?commitWithin=5000"
curl $u -data-binary @/home/test/index_data.csv -H 'Content-type:text/csv'