Analyse des données des “Velib” de San Francisco avec Solr Search et un Spark Notebook

Analyse des données des “Velib” de San Francisco avec Solr Search et un Spark Notebook

Dans ce tutoriel, nous utilisons les données publiques de Bay Area BikeShare afin de visualiser les déplacements en vélo des utilisateurs et ainsi mieux comprendre l’utilisation de la plate-forme. Nous utiliserons Hue qui fournit un tableau de bord dynamique pour chercher ainsi que son nouveau Spark Notebook pour enrichir les données.

Nous vous recommandons de commencer avec le jeu de données http://www.bayareabikeshare.com/datachallenge  mais pour les gens impatients, nous fournir un sous-ensemble des voyages  prêts à être indexées ainsi que les données météorologiques à traiter plus tard avec Spark. Le Notebook peut être téléchargé et importé ou tout simplement copie collé depuis ici.

 

Cette démo combinée avec la présentation en temps réel en streaming Spark ont été présentés à des conférences comme Hadoop Summit et Big Data Day LA .

Bon Vélo!


Video en Anglais, avec un accent Francais 😉

solr-bike-tableau de bord

 

Comme d’habitude hésitez pas à commenter sur la liste utilisateur ou  @gethue !

 

Conseil

Un moyen rapide pour indexer les données avec Solr:

bin/solr create_collection  -c  bikes

URL=http://localhost:8983/solr
u="$URL/bikes/update?commitWithin=5000"
curl $u --data-binary @/home/test/index_data.csv -H 'Content-type:text/csv'

0 Comments

Leave a reply

Your email address will not be published. Required fields are marked *

*

This site uses Akismet to reduce spam. Learn how your comment data is processed.