![alt text](https://github.com/callysto/callysto-sample-notebooks/blob/master/notebooks/images/Callysto_Notebook-Banner_Top_06.06.18.jpg?raw=true)

# Working With Open Data: Car Mileage Data Part 2

In this notebook we will be working with the same car mileage data set that we were in part one, however this time we will be demonstrating how to, and the power of data aggregation. In order to demonstrate this we will be introducing the idea of a pivot table in Pandas, as well as exploring different aggregation functions. Let's get started by first reimporting the libraries we need into this notebook, as well as downloading the data again. 

# Travailler avec des données ouvertes: données kilométriques pour voitures, partie 2

Dans ce cahier, nous travaillerons avec le même ensemble de données de kilométrage en voiture que celui indiqué dans la première partie. Cependant, cette fois-ci, nous montrerons comment et la puissance de l'agrégation de données. Afin de démontrer cela, nous allons introduire l'idée d'un tableau croisé dynamique dans les pandas et explorer différentes fonctions d'agrégation. Commençons par réimporter les bibliothèques dont nous avons besoin dans ce cahier, puis en téléchargeant à nouveau les données.

In [None]:
# This is the same as the previous notebook! We're just importing the data again
import pandas as pd
import matplotlib.pyplot as plt 

%matplotlib inline
url = 'https://data.opendatasoft.com/explore/dataset/us-vehicle-fuel-economy-data-1984-2017@kapsarc/download/?format=csv&timezone=America/Denver&use_labels_for_header=true'
car_data = pd.read_csv(url, sep=';')


# Aggregating Data For More Informative Plots

In a data set like the car mileage data we've been using which contains a temporal column (`year`) it is often elightening to observe changes as a function of time. Unfortunately, this data is not currently organized in a way which makes plotting this "out of the box" immediately obvious. Luckily with pandas we can use what's known as a pivot table to summarise and aggregate data for us quickly and easily. If you've used a pivot table in Excel before, then you should be familiar with their functionality, however piviot tables are used and manipulated differently within pandas. Let's work through a few examples and see if we can find anything more interesting within the data set using the additional functionality of a piviot table. 

## Making a Pivot table

In order to make a pivot table, we don't actually need to do anything much more complicated than what we've already seen. We won't have to do any extra work or write hundreds of lines of code, as you'll find with most things you want to do in Python and Pandas: there's already a function that does exactly what you want. In the cell below we define create pivot table from our `car_data` dataframe using the aptly named `pivot_table` function included within pandas.

# Agrégation de données pour des graphiques plus informatifs

Dans un ensemble de données tel que les données de kilométrage de voiture que nous avons utilisées et qui contient une colonne temporelle ("année"), il est souvent plus facile d'observer les changements en fonction du temps. Malheureusement, ces données ne sont actuellement pas organisées de manière à rendre immédiatement évident le tracé de cette opération. Heureusement, avec les pandas, nous pouvons utiliser ce qu’on appelle un tableau croisé dynamique pour résumer et rassembler les données rapidement et facilement. Si vous avez déjà utilisé un tableau croisé dynamique dans Excel, vous devez être familiarisé avec leurs fonctionnalités. Toutefois, les tableaux piviot sont utilisés et manipulés différemment dans les pandas. Examinons quelques exemples et voyons si nous pouvons trouver quelque chose de plus intéressant dans l'ensemble de données en utilisant les fonctionnalités supplémentaires d'un tableau de piviot.

## Faire un tableau croisé dynamique

Pour créer un tableau croisé dynamique, nous n’avons pas besoin de faire quelque chose de beaucoup plus compliqué que ce que nous avons déjà vu. Nous n'aurons pas à faire de travail supplémentaire ni à écrire des centaines de lignes de code, comme vous le constaterez dans Python et les pandas: il existe déjà une fonction qui fait exactement ce que vous voulez. Dans la cellule ci-dessous, nous définissons un tableau croisé dynamique à partir de notre structure de données `car _data` en utilisant la fonction bien nommée` pivot_ table` incluse dans les pandas.

In [None]:
'''
Here we're taking our car data data frame and aggregating it by year, below we explain what each argument does

1. car_data          : Here we're simply passing our source data frame into the piviot table

2. index = 'year'    : Here we're setting the index of our new piviot table. In essence this can be though of 
                       as both the 'index' i.e. what value labels each row uniquely, as well as the 'grouping'
                       term. In this case, we'll see each row labeled by year, and each data point will be 
                       aggregated by which unique year it appeard under

3. aggfunc = 'count' : This is our aggregation function. In this case we're simply choosing to count how many
                       entries happen each year. However, there is no reason that we coudn't aggregate by other
                       quantites such as the mean, median, mode, standard deviation and so on instead. 
                       
4. Special Note      : You may have also noticed that we're not explicitly mentioning what to do with those 'NaN'
                       values we noticed earlier. That is becasue our piviot table will automatically ignore any 
                       NaN values during the aggregation so we don't even have to think about it. Convenient!

'''

pd.pivot_table(car_data, 
                index = 'year',
                aggfunc = 'count')

In [None]:
'''
Nous prenons ici notre bloc de données de voiture et nous l'agrégons par année. Nous expliquons ci-dessous le rôle de chaque argument.

1. car _data: nous passons simplement notre cadre de données source dans la table piviot

2. index = 'year': Ici nous établissons l'index de notre nouveau tableau piviot. En substance, cela peut être de
                       en tant qu'index, c'est-à-dire quelle valeur attribue un libellé unique à chaque ligne, ainsi que le regroupement
                       terme. Dans ce cas, nous verrons chaque ligne étiquetée par année et chaque point de données sera
                       agrégé par quelle année unique il est apparu sous

3. aggfunc = 'count': Ceci est notre fonction d'agrégation. Dans ce cas, nous choisissons simplement de compter combien
                       les inscriptions ont lieu chaque année. Cependant, il n'y a aucune raison pour que nous ne puissions pas agréger par d'autres
                       des quantités telles que la moyenne, la médiane, le mode, l'écart type, etc., à la place.
                       
4. Remarque spéciale: vous avez peut-être également remarqué que nous ne mentionnons pas explicitement quoi faire avec ces «NaN».
                       valeurs que nous avons remarquées plus tôt. C’est parce que notre table pivot ignorera automatiquement tout
                       Les valeurs NaN lors de l'agrégation, nous n'avons donc même pas à y penser. Pratique!

'''

pd.pivot_ table (car_data,
                indice = 'year',
                aggfunc = 'count')


Now that we have a piviot table that we've aggregated, let's do something a little more interesting and see how the average fuel economy has changed over the years. In order to do this, we will aggregate (combine) our data by calculating the average (mean) fuel economy for all cars each year. As seen in the cell below, this can be accomplished in a single line of code using a pivot table. 

Maintenant que nous avons un tableau croisé que nous avons agrégé, faisons quelque chose d'un peu plus intéressant et voyons comment la consommation moyenne de carburant a changé au fil des ans. Pour ce faire, nous allons regrouper (combiner) nos données en calculant la consommation moyenne (moyenne) de carburant pour toutes les voitures chaque année. Comme on peut le voir dans la cellule ci-dessous, ceci peut être accompli en une seule ligne de code en utilisant un tableau croisé dynamique.

Maintenant nous avons un tableau croisé. Pour ce faire, nous allons regrouper (combiner) nos données en calculant la consommation moyenne pour toutes les voitures chaque année. Comme on peut voir dans la cellule ci-dessous, ceci peut être accompli en une seule ligne de code en utilisant un tableau croisé dynamique.

In [None]:
'''
Notice how this time we're not specifying an 'x' axes; this is because we're interested
in plotting this by year, and as it's our index pandas will automatically use it for the unspecifed 
axes. 
'''

pd.pivot_table(car_data,index='year', 
                        aggfunc = 'mean').plot(y = 'UHighway')

In [None]:
'''
Remarquez que cette fois nous ne spécifions pas un axe 'x'; c'est parce que nous sommes intéressés
en traçant cela par année, et comme ce sont nos pandas index l'utilisera automatiquement pour les non spécifiés
axes.
'''

pd.pivot _table (car_data, index = 'year',
                        aggfunc = 'mean'). plot (y = 'UHighway')

Now that we've aggregated our data, the resulting graphs are starting to get more interesting! Around 2008 we start to see a distinct increase in average fuel economies of all vehicles. However to get a better picture it is informative to also add some measure of variation to these plots. As we've aggregated by mean, an obvious choice is also to include the mean plus and minus the standard deviation in this plot as well. We do however note that mean and standard deviation are often not the best metrics for data like this, as it is likely things are not normally distributed. However, for demonstration purposes like this, using mean and standard deviation for simplicity and exploration are more than adequate. 

Maintenant que nous avons agrégé nos données, les graphiques résultants commencent à devenir plus intéressants! Vers 2008, nous commençons à constater une nette augmentation des économies de carburant moyennes de tous les véhicules. Cependant, pour obtenir une meilleure image, il est utile d'ajouter également une mesure de variation à ces graphiques. Comme nous avons agrégé la moyenne, un choix évident consiste également à inclure l'écart moyen plus et moins l'écart type dans ce graphique. Nous notons toutefois que l'écart moyen et l'écart type ne constituent souvent pas la meilleure mesure pour des données de ce type, car il est probable que les éléments ne sont pas normalement distribués. Cependant, pour des raisons de démonstration comme celle-ci, l’utilisation de la moyenne et de l’écart type aux fins de simplicité et d’exploration est plus que suffisante.

In [None]:
# This time we're giving both our mean and standard deviation names that we can call later
# Unfortunately, we're not very creative so we're simply calling the mean 'a' and standard
# deviation 'b'.

a = pd.pivot_table(car_data,index ='year', 
                   aggfunc = 'mean')

b = pd.pivot_table(car_data,index ='year', 
                   aggfunc = 'std')

# Here we're naming our plot 'ax' for axes 

my_plot = a.plot(y = 'UHighway', label="Mean", figsize = (12,8))


'''
There's a lot going on in the two lines of code below, so let's take a moment to understand them

1. When we type (a + b), we're actually adding our dataframes together element-by-element. This is 
   possible because a and b have identical column names and sizes. When we wrap them in parenthesis,
   the .plot command will see that as a single data frame. We could have also specified something like
       
       Plus_one_sd = a + b
       Plus_one_sd.plot( ... )
    
    However, sometimes it's easier to just do things in a single line. 

2. Also specifying ax=my_plot. This tells Python to place these new traces on the same picture as 
   'my_plot', or the plot of the mean we did in the line before this. 

3. By just doing mean +/- standard deviation, we are assuming symmetric uncertainties, and this may not
   be the case in the actual data. But, for our purposes, it's likely more than adequate. 
'''

(a + b).plot(ax = my_plot, y = 'UHighway', label = "Mean + sd") 
(a - b).plot(ax = my_plot, y= 'UHighway', label = "Mean - sd")

plt.title("Average Fuel Economy", size = 20)        
plt.xlabel("Year" , size = 16) 
plt.ylabel("Highway Miles Per Gallon", size = 16)     
plt.xticks(size = 14)                             
plt.yticks(size = 14)                              
plt.grid('on')                                     
plt.autoscale(tight = True)  
plt.legend(fontsize = 14) # Change font size of legend

In [None]:
# Cette fois, nous donnons les noms de déviation moyenne et standard que nous pourrons appeler plus tard.
# Malheureusement, nous ne sommes pas très créatifs, nous appelons simplement le moyen "un" et le standard
# écart 'b'.

a = pd.pivot_table(car_data,index ='year', 
                   aggfunc = 'mean')

b = pd.pivot_table(car_data,index ='year', 
                   aggfunc = 'std')

# Ici, nous nommons notre parcelle 'hache' pour axes

my_plot = a.plot(y = 'UHighway', label="Mean", figsize = (12,8))


'' '
Il y a beaucoup de choses dans les deux lignes de code ci-dessous, alors prenons un moment pour les comprendre

1. Lorsque nous tapons (a + b), nous ajoutons en fait nos cadres de données élément par élément. C'est
   possible parce que a et b ont des noms de colonnes et des tailles identiques. Quand on les enveloppe entre parenthèses,
   la commande .plot verra cela comme un seul cadre de données. Nous aurions pu aussi spécifier quelque chose comme
       
       Plus _un_ sd = a + b
       Plus _un_ sd.plot (...)
    
    Cependant, il est parfois plus facile de faire les choses en une seule ligne.

2. Spécifiez également ax = my _plot. Ceci dit à Python de placer ces nouvelles traces sur la même image que
   'my_ plot', ou l'intrigue de la moyenne que nous avons faite auparavant.

3. En faisant simplement +/- écart type moyen, nous supposons des incertitudes symétriques, et cela peut ne pas
   être le cas dans les données réelles. Mais, pour nos besoins, c'est probablement plus que suffisant.
'' '

(a + b).plot(ax = my_plot, y = 'UHighway', label = "Mean + sd") 
(a - b).plot(ax = my_plot, y= 'UHighway', label = "Mean - sd")

plt.title("Average Fuel Economy", size = 20)        
plt.xlabel("Year" , size = 16) 
plt.ylabel("Highway Miles Per Gallon", size = 16)     
plt.xticks(size = 14)                             
plt.yticks(size = 14)                              
plt.grid('on')                                     
plt.autoscale(tight = True)  
plt.legend(fontsize = 14) # Change font size of legend

As we start aggregating data and looking at the variations within that aggregation, a much more interesting picture starts to emerge than using the raw data directly with simple $x$ vs. $y$ plots. We're starting to see that in 2010 began an upward trend of higher average fuel efficiency which peaked in 2017 before starting to decrease slightly. However, in 2019 (the most recent data) the standard deviation of the data set shows significant decrease - implying that there is less variation in the data for 2019 car models. There could be several reasons for both this trend and the 'weirdness' of 2019. Perhaps there are more vehicles with larger engines being made in 2019, or perhaps we're missing data, or perhaps something entirely different. There are numerous potential reasons, but let us see if we can make a stronger argument than this speculative analysis using some of the skills we've used already (and by introducing one more)

## Deeper Analysis

As we're looking for fuel efficiency, the most telltale sign of a more or less fuel efficient vehicle is the number of cylinders in the engine. An engine with more cylinders will use more gas than an engine with less. In this case, one of the things we can do is to group our data by _both_ year and the number of cylinders. This is done in the code below. 

À mesure que nous commençons à agréger des données et à examiner les variations au sein de cette agrégation, une image beaucoup plus intéressante commence à apparaître plutôt que d’utiliser les données brutes directement avec de simples diagrammes $x$ contre $y$. Nous commençons à constater qu'en 2010, la consommation de carburant moyenne avait tendance à augmenter, avec une pointe en 2017 avant de commencer à diminuer légèrement. Cependant, en 2019 (données les plus récentes), l'écart type de l'ensemble de données montre une diminution significative - ce qui implique qu'il y a moins de variation dans les données pour les modèles de voiture 2019. Il pourrait y avoir plusieurs raisons à la fois à cette tendance et à «l'étrangeté» de 2019. Peut-être y aura-t-il plus de véhicules à moteurs plus gros fabriqués en 2019, ou peut-être manquons-nous des données ou peut-être quelque chose de complètement différent. Il existe de nombreuses raisons potentielles, mais voyons si nous pouvons argumenter plus fort que cette analyse spéculative en utilisant certaines des compétences déjà utilisées (et en en introduisant une de plus).

## Analyse approfondie

Comme nous recherchons une économie de carburant, le nombre de cylindres dans le moteur est le signe le plus révélateur d’un véhicule plus ou moins économe en carburant. Un moteur avec plus de cylindres consomme plus d'essence qu'un moteur avec moins. Dans ce cas, nous pouvons notamment regrouper nos données par _année_ et par le nombre de cylindres. Ceci est fait dans le code ci-dessous.

In [None]:
double_grouping = pd.pivot_table(car_data, 
                index = ['year', 'cylinders'],  # Here we specify that we want to index (group) our data
                                                # by year *and* number of cylinders
                aggfunc = 'count')              # Aggregate by count

double_grouping.head(10)                         # .head(10) wil only display the first 10 rows

Where we see that we now have two groups: First our data is grouped by year, and then it is grouped by the number of cylinders in the engine. Unfortunately this dataframe is not currently in a form that our plotting library knows how to deal with; we have two column indexes, the number of cylinders and years meaning that our graphing library won't know how to treat the data. Luckily however, we can convert it to a form that the graphing will enjoy more using the `unstack()` function which will 'pivot' our pivot table such that it will be easier to plot. 

Nous voyons maintenant que nous avons deux groupes: d’abord, nos données sont regroupées par année, puis par nombre de cylindres dans le moteur. Malheureusement, cette base de données ne se présente pas sous une forme que notre bibliothèque de traçage sait comment traiter; nous avons deux index de colonne, le nombre de cylindres et le nombre d'années, ce qui signifie que notre bibliothèque graphique ne saura pas comment traiter les données. Heureusement cependant, nous pouvons le convertir en un formulaire que le graphique appréciera davantage en utilisant la fonction `unstack ()` qui fera «pivoter» notre tableau croisé dynamique de manière à ce qu'il soit plus facile à tracer.

In [None]:
'''
Here the unstack() function with no arguments in its parenthesis pivot our pivot table 
into a form that can be more easily plotted.
'''

double_grouping.unstack().head()

In [None]:
'' '
Ici, la fonction unstack () sans arguments entre parenthèses fait pivoter notre tableau croisé dynamique
sous une forme qui peut être plus facilement tracée.
'' '

double_grouping.unstack().head ()

Where this is now in a form that we can plot. It might be interesting to first visualize the number of cars produced with various numbers of cylinders per year, which is done below

Où cela est maintenant sous une forme que nous pouvons tracer. Il peut être intéressant de visualiser d’abord le nombre de voitures produites avec différents nombres de cylindres par an, ce qui est fait ci-dessous.

In [None]:
'''
Note we're doing all the previously shown manipulations in one line instead of using the variable we created 
earlier for illustrative purposes. This simply because it's more convenient to work with like this when you're
potentialy changing what values you're sorting/how your aggregating. 
'''

pd.pivot_table(car_data, 
                index = ['year', 'cylinders'],
                aggfunc = 'count').unstack().plot(kind='line', y = "model", figsize = (16,8))

plt.title("Engine Size Through the Years", size = 20)        
plt.xlabel("Year" , size = 16) 
plt.ylabel("Total Number of Vehicles", size = 16)     
plt.xticks(size = 14)                             
plt.yticks(size = 14)                              
plt.grid('on')                                     
plt.autoscale(tight=True)  


In [None]:
'''
Notez que nous faisons toutes les manipulations montrées précédemment sur une seule ligne au lieu d'utiliser la variable que nous avons créée
plus tôt à des fins d'illustration. Ceci simplement parce que c'est plus pratique de travailler avec ça quand on est
potentiellement changer les valeurs que vous triez / comment votre agrégation.
'''

pd.pivot _table (car_data,
                index = ['year', 'cylinders'],
                aggfunc = 'count').unstack().plot(kind = 'line', y = "model", figsize = (16,8))

plt.title ("Taille du moteur au fil des ans", taille = 20)
plt.xlabel ("Année", size = 16)
plt.ylabel ("Nombre total de véhicules", size = 16)
plt.xticks (size = 14)
pl.ticks (size = 14)
plt.grid ('on')
plt.autoscale (tight = True)

Ah ha! So our decreasing standard deviation in 2019 is not in fact not 'real' - it is simply an artifact of a lack of data in 2019. More interestingly however, is that starting from 2009, there is a noticeable increase in the number of four cylinder engines. Could this be the reason for the increase in mean highway fuel economy? Let's find out by instead aggregating by the mean for each engine type.

Ah ah! Ainsi, notre écart type décroissant en 2019 n’est en réalité pas une réalité, mais bien un manque de données en 2019. Plus intéressant encore, à partir de 2009, le nombre de cylindres à quatre cylindres a sensiblement augmenté moteurs. Cela pourrait-il être la raison de l'augmentation de l'économie de carburant moyenne sur les autoroutes? Voyons plutôt en agrégeant par la moyenne pour chaque type de moteur.

In [None]:
pd.pivot_table(car_data, 
                index = ['year', 'cylinders'],
                aggfunc = 'mean').unstack().plot(kind='line', y = "UHighway", figsize = (16,8))

plt.title("Mean Fuel Economy of Engine Size Through the Years", size = 20)        
plt.xlabel("Year" , size = 16) 
plt.ylabel("Mean Fuel Economy", size = 16)     
plt.xticks(size = 14)                             
plt.yticks(size = 14)                              
plt.grid('on')                                     
plt.autoscale(tight=True)  




Interesting. By comparing the two plots above, it become more apparent that while almost every engine type has gotten more fuel efficient on average, these gains in efficiency are fairly minor, about 10 MPG and that's exactly what we see in the chart above, and the chart of the mean. However what's more interesting is that there are more four cylinder vehicles being produced since 2010, so there does seem to be a shift towards more fuel efficient vehicles. It is possible to quantify which vehicles are contributing most to this gain in fuel efficiency, however, that analysis would require normalization of the data, and is left for another time. However; using the skills you've already learned in this notebook in terms of filtering data tables and aggregating them within a pivot table, you could start your own analysis comparing which car manufacturers are creating the most fuel efficient vehicles, or you could explore another aspect of this data set. 

# Conclusion

In this notebook we walked through a few more 'advanced' examples of how to work with large open data sets like this. We used the power of pivot tables in order to aggregate our data in terms of both counts and mean. By demonstrating this we showed you some powerful tools at your disposal in order to explore vast amounts of data in order to start to draw conclusions from the data set. The skills you have learned here can easily be translated to other projects where aggregation of the data may prove to be invaluable in interpretation. 

Intéressant. En comparant les deux graphiques ci-dessus, il apparaît plus clairement que, si presque tous les types de moteurs sont devenus plus économes en carburant en moyenne, ces gains d'efficacité sont plutôt mineurs, de l'ordre de 10 MPG. C'est exactement ce que nous voyons dans le graphique ci-dessus. de la moyenne. Cependant, ce qui est plus intéressant, c’est que plus de véhicules à quatre cylindres sont produits depuis 2010, il semble donc y avoir un changement vers des véhicules plus économes en carburant. Il est possible de quantifier les véhicules qui contribuent le plus à ce gain de consommation de carburant, mais cette analyse nécessiterait une normalisation des données et sera laissée pour une autre fois. Toutefois; En utilisant les compétences que vous avez déjà acquises dans ce carnet en termes de filtrage et d'agrégation de tableaux de données, vous pouvez lancer votre propre analyse en comparant les constructeurs automobiles qui créent les véhicules les plus économes en carburant, ou explorer un autre aspect de la cet ensemble de données.

# Conclusion

Dans ce cahier, nous avons passé en revue quelques exemples plus avancés sur la façon de travailler avec de grands ensembles de données ouvertes comme celui-ci. Nous avons utilisé la puissance des tableaux croisés dynamiques pour agréger nos données en termes de nombre et de moyenne. En démontrant cela, nous vous avons montré des outils puissants à votre disposition afin d'explorer de vastes quantités de données afin de commencer à tirer des conclusions de l'ensemble de données. Les compétences que vous avez acquises ici peuvent facilement être traduites en projets où l’agrégation des données peut s’avérer inestimable pour l’interprétation.

![alt text](https://github.com/callysto/callysto-sample-notebooks/blob/master/notebooks/images/Callysto_Notebook-Banners_Bottom_06.06.18.jpg?raw=true)