# 6 - Big Data

Dans ce notebook, nous allons utiliser cytoolz pour traiter les données de manière itérative.
L'objectif est de calculer quelques statistiques descriptives simples.

In [1]:
import cytoolz

On va travailler avec le jeu de données du mois de janvier complet, afin de travailler sur des **volumétries plus importantes, mais néanmoins calculables assez rapidement**.
Pour information, trip_data_1 (données générales sur le trajet du mois de janvier) fait quasiment 2.4 Go et trip_fare_1 (données sur les tarifs des courses) fait quasiment 1.5 Go.

D'après wikipedia, il y avait 13 605 medallion et 51 398 taximen en 2014 à NYC. Vérifions ces valeurs (nos données datent de 2013, on risque donc de trouver des valeurs légèrement différentes).

### Combien de taximen différents ont fait au moins une course en janvier ?
Commençons par le nombre de taximen différents qui on fait au moins une course :

In [2]:
file = open("C:\\Users\\Alexis\\Downloads\\projet\\donnees\\trip_fare_1.csv", 'r')
next(file) # on ignore la première ligne qui contient les intitulés des variables

ligne_list = cytoolz.map(lambda s: str.split(s,','),file)
hack_license = cytoolz.pluck(1,ligne_list) # la seconde colonne correspond à la variable 'hack_license' dans notre jeu de données
hack_license_unique = cytoolz.unique(hack_license)
nb_license = cytoolz.count(hack_license_unique)

In [3]:
nb_license

32224

C'est sensiblement moins que la valeur prévue. Cependant, on peut imaginer qu'une partie était en congés, en janvier par exemple.

### Quel est le nombre total de medallions
Poursuivons et calculons maintenant le nombre total de medallions :

In [5]:
# on remet le curseur au début du fichier
file = open("C:\\Users\\Alexis\\Downloads\\projet\\donnees\\trip_fare_1.csv", 'r')
next(file) # on ignore la première ligne qui contient les intitulés des variables

ligne_list = cytoolz.map(lambda s: str.split(s,','),file)
medallion = cytoolz.pluck(0,ligne_list) # la première colonne correspond à la variable 'medallion' dans notre jeu de données
medallion_unique = cytoolz.unique(medallion)
nb_medallion = cytoolz.count(medallion_unique)

In [6]:
nb_medallion

13426

C'est approximativement la valeur attendue.

### Quel est le prix moyen d'une course de taxi à New-York en 2013 ?
Enfin, calculons la somme totale des tarifs des courses, ainsi que la moyenne (ie. le prix moyen d'une course de taxi à NYC) :

In [7]:
# on remet le curseur au début du fichier
file = open("C:\\Users\\Alexis\\Downloads\\projet\\donnees\\trip_fare_1.csv", 'r')
next(file) # on ignore la première ligne qui contient les intitulés des variables

ligne_list = cytoolz.map(lambda s: str.split(s,','),file)
amount = cytoolz.pluck(10,ligne_list) # la dixième colonne correspond à la variable 'total_amount' dans notre jeu de données
amount_int = cytoolz.map(lambda v: float(v), amount)

from operator import add
total = cytoolz.reduce(add, amount_int)

# ensuite pour avoir la moyenne on compte le nombre de courses
# on remet le curseur au début du fichier
file = open("C:\\Users\\Alexis\\Downloads\\projet\\donnees\\trip_fare_1.csv", 'r')
next(file) # on ignore la première ligne qui contient les intitulés des variables
nb_lignes = cytoolz.count(file)

print('total des courses : ' + str(total))
print('nombre de courses : ' + str(nb_lignes))
print('tarif moyen par course : ' + str(total/nb_lignes))

total des courses : 206177887.41083822
nombre de courses : 14776615
tarif moyen par course : 13.95298499763567
