Analyse des données des “Velib” de San Francisco avec Solr Search et un Spark Notebook

Published on 08 July 2015 in - 1 minute read - Last modified on 04 February 2020

Dans ce tutoriel, nous utilisons les données publiques de Bay Area BikeShare afin de visualiser les déplacements en vélo des utilisateurs et ainsi mieux comprendre l'utilisation de la plate-forme. Nous utiliserons Hue qui fournit un tableau de bord dynamique pour chercher ainsi que son nouveau Spark Notebook pour enrichir les données.

Nous vous recommandons de commencer avec le jeu de données http://www.bayareabikeshare.com/datachallenge  mais pour les gens impatients, nous fournir un sous-ensemble des voyages  prêts à être indexées ainsi que les données météorologiques à traiter plus tard avec Spark. Le Notebook peut être téléchargé et importé ou tout simplement copie collé depuis ici.

 

Cette démo combinée avec la présentation en temps réel en streaming Spark ont été présentés à des conférences comme Hadoop Summit et Big Data Day LA .

Bon Vélo!

Video en Anglais, avec un accent Francais 😉

 

Comme d'habitude hésitez pas à commenter sur la liste utilisateur ou  @gethue !

 

Conseil

Un moyen rapide pour indexer les données avec Solr:


bin/solr create_collection  -c  bikes

URL=http://localhost:8983/solr
u="$URL/bikes/update?commitWithin=5000"
curl $u -data-binary @/home/test/index_data.csv -H 'Content-type:text/csv'


comments powered by Disqus

More recent stories

26 June 2024
Integrating Trino Editor in Hue: Supporting Data Mesh and SQL Federation
Read More
03 May 2023
Discover the power of Apache Ozone using the Hue File Browser
Read More