![alt text](https://github.com/callysto/callysto-sample-notebooks/blob/master/notebooks/images/Callysto_Notebook-Banner_Top_06.06.18.jpg?raw=true)

# Working With Open Data: Car Mileage Data Part 1



As the availability and quality of open data (or data that is freely available to the public) is increasing at an astonishing rate, having the skills to work with and analyze data is becoming more and more important. In this notebook series we will walk you through the basics of working with open data using a Jupyter notebook, as well as some of the first steps you can take in terms of data exploration and visualizations. As these are meant to be introductory notebooks for someone who may not have seen any code or a Jupyter notebook before, we will walk through each step involved in detail and keep our analysis at a fairly high level. Of course, we will also show how a high level analysis can also lead to interesting conclusions or realizations.


# Bringing Open Data Into Jupyter

The easiest way to load open data into Jupyter is using a Python package called pandas. Pandas is a free and open source library for Python that allows you to manipulate and analyze almost any data you manage to import easily and quickly. It can load CSV files, spreadsheets, text files, and even tables directly from webpages (although, sometimes those tables require a little more processing). In essence, you can think of the pandas library as "Excel on steroids".

For this first demonstration, we will walk you through the process of downloading, manipulating, and visualizing an open data set directly from an open data portal. We'll be using this website: [data.opendatasoft.com](https://data.opendatasoft.com). In particular we will be using a rather large data set of vehicle fuel economy available at [this link](https://data.opendatasoft.com/explore/dataset/us-vehicle-fuel-economy-data-1984-2017%40kapsarc/table/?disjunctive.make&disjunctive.model&sort=-year). If you travel to that page, you should see a data set that looks like the picture below.

> ![Screenshot of the data.opensoft.com](images/car_data_screen.png)

From that screen if you were to click the large "Export" button it will take you to this page:

>![Screenshot of the download screen](images/downloadscreen.png)

If you click the link beside your desired file format, you could download that directly to your computer. However, as we're working on the hub, rather than downloading it to our computer then re-uploading it to the hub, we're going to get this notebook to download that data directly from the site. To do that, if you right click on the link besides the CSV file and click "Copy Link Address" you'll get the path to the actual data file. We will be using this link to download the car data directly into Jupyter. 

Before we can download that data we have a few book keeping items to take care of. First, we need to import the pandas library and set our environment up to place any graphs or visualizations we make directly into the notebook. This is done in the cell below. 

# Travailler avec des données ouvertes: données kilométriques pour la voiture, partie 1



Alors que la disponibilité et la qualité des données ouvertes (ou des données librement accessibles au public) augmentent à un rythme effarant, il est de plus en plus important de disposer des compétences nécessaires pour utiliser et analyser des données. Dans cette série de cahiers, nous vous expliquerons les bases du travail avec des données ouvertes à l'aide d'un cahier Jupyter, ainsi que certaines des premières étapes à suivre en termes d'exploration et de visualisation de données. S'agissant de cahiers d'introduction destinés à ceux qui n'ont peut-être jamais vu de code ou de cahier Jupyter, nous allons détailler chaque étape du processus et maintenir notre analyse à un niveau assez élevé. Bien entendu, nous montrerons également comment une analyse de haut niveau peut également conduire à des conclusions ou réalisations intéressantes.


# Transférer des données ouvertes dans Jupyter

Le moyen le plus simple de charger des données ouvertes dans Jupyter consiste à utiliser un paquet Python appelé pandas. Pandas est une bibliothèque source libre et ouverte pour Python qui vous permet de manipuler et d’analyser presque toutes les données que vous parvenez à importer facilement et rapidement. Il peut charger des fichiers CSV, des feuilles de calcul, des fichiers texte et même des tableaux directement à partir de pages Web (bien que, parfois, ces tableaux nécessitent un peu plus de traitement). En substance, vous pouvez considérer la bibliothèque de pandas comme "Excel sous stéroïdes".

Pour cette première démonstration, nous vous expliquerons le processus de téléchargement, de manipulation et de visualisation d'un jeu de données ouvert directement à partir d'un portail de données ouvert. Nous utiliserons ce site Web: [data.opendatasoft.com](https://data.opendatasoft.com). Nous utiliserons en particulier un ensemble assez volumineux de données sur l’économie de carburant des véhicules disponible sur [ce lien](https://data.opendatasoft.com/explore/dataset/us-vehicle-fuel-economy-data-1984-2017%). 40kapsarc / table /? Disjunctive.make & disjunctive.model & sort = -year). Si vous vous rendez sur cette page, vous devriez voir un jeu de données qui ressemble à l’image ci-dessous.

>![Capture d'écran de data.opensoft.com](images/car _data_ screen.png)

À partir de cet écran, si vous cliquez sur le gros bouton "Exporter", vous accédez à cette page:

>![Capture d'écran de l'écran de téléchargement](images/downloadscreen.png)

Si vous cliquez sur le lien en regard du format de fichier souhaité, vous pouvez le télécharger directement sur votre ordinateur. Cependant, alors que nous travaillons sur le concentrateur, plutôt que de le télécharger sur notre ordinateur puis de le télécharger à nouveau sur le concentrateur, nous allons demander à ce bloc-notes de télécharger ces données directement à partir du site. Pour ce faire, si vous cliquez avec le bouton droit de la souris sur le lien situé à côté du fichier CSV, puis sur "Copier l'adresse du lien", vous obtiendrez le chemin d'accès au fichier de données actuel. Nous utiliserons ce lien pour télécharger les données de la voiture directement dans Jupyter.

Avant de pouvoir télécharger ces données, nous avons quelques éléments à prendre en compte. Premièrement, nous devons importer la bibliothèque de pandas et configurer notre environnement pour y placer tous les graphiques ou visualisations que nous réalisons directement dans le bloc-notes. Ceci est fait dans la cellule ci-dessous.

In [None]:
# This first line imports our pandas library, and gives it the name "pd" (so we can type less)
import pandas as pd
# we also import the plotting library
import matplotlib.pyplot as plt 
# This tells Jupyter we want to place our graphs directly into the notebook. 
%matplotlib inline


## Getting the Data Into Jupyter

Using that link we copied earlier, we can import that data directly into Jupyter. Let's first make our lives a little easier and assign our URL to a variable named `url`, which is done below. 

## Obtenir les données dans Jupyter

En utilisant ce lien que nous avons copié précédemment, nous pouvons importer ces données directement dans Jupyter. Commençons par simplifier un peu la vie et assignons à notre URL une variable nommée `url`, comme indiqué ci-dessous.

In [None]:
# Notice how we've placed the url between quotes!

url = 'https://data.opendatasoft.com/explore/dataset/us-vehicle-fuel-economy-data-1984-2017@kapsarc/download/?format=csv&timezone=America/Denver&use_labels_for_header=true'

Now comes the matter of downloading that data set. Luckily pandas comes with a function called `read_csv`, which conveniently enough will read a CSV file into what is called a _Dataframe_, which, for our purposes can just be thought of as a table of data. 

There is one complication. A CSV file can be separated by either commas (","), semi-colons (";"), or tabs ("\t"). In our case, from the image we have above, we know that our data set is separated with semi-colons. By default pandas assumes data is separated by commas, so we have to specify our alternative delimiter when downloading this data set. This is a rather large data set, and it could take a minute or two to download, you'll know when it's complete when `In [*]` in the upper left corner outside of the cell below changes to `In [3]` (or a larger number if you've run multiple cells) 

## NOTE: We may want to host this data differently so it downloads faster in a demo, or save it locally? This takes about 30 seconds, but I don't know what would happen if a bunch of people tried at once

Vient maintenant la question du téléchargement de cet ensemble de données. Heureusement, les pandas ont une fonction appelée `read _csv`, qui lit un fichier CSV dans ce qu'on appelle une_ Dataframe_, qui, pour nos besoins, ne peut être considérée que comme un tableau de données.

Il y a une complication. Un fichier CSV peut être séparé par des virgules (","), des points-virgules (";") ou des tabulations ("\ t"). Dans notre cas, d'après l'image ci-dessus, nous savons que notre ensemble de données est séparé par des points-virgules. Par défaut, les pandas supposent que les données sont séparées par des virgules. Nous devons donc spécifier notre séparateur de remplacement lors du téléchargement de cet ensemble de données. Il s'agit d'un ensemble de données assez volumineux, et le téléchargement peut prendre une minute ou deux, vous saurez quand il sera terminé lorsque «In [*]» dans le coin supérieur gauche de la cellule située en dessous de devient «In» [3]. `(ou un nombre plus important si vous avez exécuté plusieurs cellules)

## REMARQUE: Nous souhaitons peut-être héberger ces données différemment pour que les téléchargements soient plus rapides dans une démo ou sauvegardés localement? Cela prend environ 30 secondes, mais je ne sais pas ce qui se passerait si un groupe de personnes essayait à la fois

In [None]:
''' 
Here we're actually downloading the data set which is at 'url', the download link we copied earlier. 
We've also specified our data delimeter with the 'sep' command, and we've stated that the character
is a semi-colon. Finally, we're also assigning this data to a variable we've called car_data
'''
car_data = pd.read_csv(url, sep=';')

# This writes our newly dowloaded file to a local CSV so we don't have to download it again
# if we want to use this data later, the term in the quotes is the name of the file that 
# we will create while saving. 
# car_data.to_csv("car_data.csv")


In [None]:
'' '
Ici, nous téléchargeons actuellement le jeu de données qui se trouve dans "url", le lien de téléchargement que nous avons copié précédemment
Nous avons également spécifié notre séparateur de données avec la commande 'sep', et nous avons indiqué que le caractère
est un point-virgule. Enfin, nous affectons également ces données à une variable que nous avons appelée car _data.
'' '
car_data = pd.read_csv(url, sep=';')

# Ceci écrit notre fichier nouvellement téléchargé sur un fichier CSV local afin que nous n'ayons pas à le télécharger à nouveau
# si nous voulons utiliser ces données plus tard, le terme entre guillemets est le nom du fichier
# nous allons créer en sauvegardant.
# car_ data.to _csv ("car_ data.csv")

## Exploring the Data

Now that we have our data set downloaded, let's take a look at the dataset that we've downloaded 

## Exploration des données

Maintenant que nous avons téléchargé notre ensemble de données, examinons l'ensemble de données que nous avons téléchargé.

In [None]:
car_data


If you scroll to the bottom of the table window above you'll see the the number of columns and rows of our table.  This particular data set has approximately 40000 rows and 83 columns. That's quite a lot of data! This table also includes "non-numeric" data such as car and model names, which can occasionally cause problems. You may also have noticed several entries in the table of `NaN`, this simply means there was no data entered at that location in the table and can be thought of "an empty cell".  

We're going to show you just how easy it is to work with this amount of data using Jupyter notebooks, and how to deal with non-numeric and empty data easily and effectively. 

### Getting Column Names
For any analysis with a data table, it is important to know the column names of the data set. Unfortunately our table is too wide to see all of them in the table above. Luckily for us, we have other ways of extracting this information:

Si vous faites défiler vers le bas de la fenêtre du tableau ci-dessus, vous verrez le nombre de colonnes et de lignes de notre tableau. Cet ensemble de données particulier compte environ 40000 lignes et 83 colonnes. C'est beaucoup de données! Ce tableau inclut également des données "non numériques" telles que les noms de voiture et de modèle, qui peuvent occasionnellement poser problème. Vous avez peut-être aussi remarqué plusieurs entrées dans la table de `NaN`, cela signifie simplement qu’aucune donnée n’a été entrée à cet endroit dans la table et que l’on peut penser à une" cellule vide ".

Nous allons vous montrer à quel point il est facile de travailler avec cette quantité de données à l'aide des blocs-notes Jupyter et comment traiter facilement et efficacement des données vides et non numériques.

### Obtenir les noms de colonnes
Pour toute analyse avec une table de données, il est important de connaître les noms de colonne de l'ensemble de données. Malheureusement, notre tableau est trop large pour tous les voir dans le tableau ci-dessus. Heureusement pour nous, nous avons d'autres moyens d'extraire cette information:

In [None]:
'''
With a dataframe, the Python function 'list' returns a list of the column headers
in any given data frame. The column headers of our car_data data frame our printed
below. 
'''

# Note: If you want this to display as a single column, remove 'print' as well as its 
# parenthesis (the first and last ones) 

print(list(car_data))


In [None]:
'''
Avec une structure de données, la fonction Python 'list' renvoie une liste des en-têtes de colonne
dans un cadre de données donné. Les en-têtes de colonne de notre voiture _données encadrent notre
au dessous de.
'''

# Remarque: Si vous souhaitez que cela s’affiche sous forme de colonne unique, supprimez 'print' ainsi que son
# parenthèses (les premier et dernier)

print(list(car_data)

Where a list of what many of the less obvious column headers represent are available [at this link](https://data.opendatasoft.com/explore/dataset/us-vehicle-fuel-economy-data-1984-2017%40kapsarc/information/?disjunctive.make&disjunctive.model&sort=-year). 

### Understanding the Data

Before work our way through using this data frame to create a visualization, sometimes it's useful to try and understand what data you have available. In our case, it is of interest to see how many car models and manufacturers there are in the data set. First, let's see how many models (i.e. Honda Civics, Ford Explorer, Lamborghini Huracán, etc.) are in the data set. This is done below

Où une liste de ce que beaucoup d’en-têtes de colonne moins évidents représentent est disponible [sur ce lien](https://data.opendatasoft.com/explore/dataset/us-vehicle-fuel-economy-data-1984-2017%40kapsarc/information/?disjunctive.make&disjunctive.model&sort=-year).

### Comprendre les données

Avant de vous familiariser avec l'utilisation de ce bloc de données pour créer une visualisation, il est parfois utile d'essayer de comprendre les données dont vous disposez. Dans notre cas, il est intéressant de voir combien de modèles de voitures et de constructeurs figurent dans le jeu de données. Voyons d’abord combien de modèles (c’est-à-dire Honda Civics, Ford Explorer, Lamborghini Huracán, etc.) sont dans l’ensemble de données. Ceci est fait ci-dessous

In [None]:
'''
Here we're calling the 'model' column only from within our data frame by using square 
brakets after our data frame name, and our column name in quotes. The len() function
simply returns the length of a given list or column. 
The '.unique()' function returns only the unique models in the data set 
(if you remove .unique(), you'd get the length of the entire data set!)
'''

len(car_data['model'].unique())

In [None]:
''' 
Ici, nous appelons la colonne 'modèle' uniquement à partir de notre cadre de données en utilisant un carré
Brakets après notre nom de cadre de données et notre nom de colonne entre guillemets. La fonction len ()
renvoie simplement la longueur d'une liste ou d'une colonne donnée.
La fonction '.unique ()' ne renvoie que les modèles uniques du jeu de données
(Si vous supprimez .unique (), vous obtiendrez la longueur de l'ensemble des données!)
'''

len(car_data['model'].unique())

That's a lot of car models! At this point in any analysis without a specific goal in mind or a specific models to compare, this might be a few too many to do an reasonable exploration. However, let's try the same to see how many car manufacturers are in the data set. 

Cela fait beaucoup de modèles de voitures! À ce stade de toute analyse sans objectif spécifique ou modèle à comparer, il peut être trop difficile d'effectuer une exploration raisonnable. Cependant, essayons la même chose pour voir combien de constructeurs automobiles sont dans le jeu de données.

In [None]:
len(car_data['make'].unique())


In [None]:
# This is just for a "quick view" of what the car makers are. 
print(car_data['make'].sort_values().unique())

135 car manufacturers is a lot more manageable than nearly 4000 car models for a first stab at analysis, let's start to visualize some of this data.

### Visualizations 

Let's focus on average MPG (miles per gallon) for each car in both the city and on the highway. There are under the `UCity` and `UHighway` columns in the data table. If we're interested in all the data, plotting these data is very easy using pandas and shown below. 

135 constructeurs automobiles sont beaucoup plus gérables que près de 4000 modèles de voiture pour une première analyse, commençons par visualiser certaines de ces données.

### Visualisations

Concentrons-nous sur la moyenne des MPG (miles par gallon) pour chaque voiture en ville et sur route. Il y a sous les colonnes `UCity` et` UHighway` dans le tableau de données. Si nous sommes intéressés par toutes les données, il est très facile de les représenter dans un graphique à l'aide de pandas.

In [None]:
'''
Here we call the .plot() function from our ploting library on our data frame by typing
'car_data.plot( ... ). The arguments inside the plot function are explained below

1. x = 'UHighway'  : This specifies which data to use for the x component of each data point. In this case 
                     we're using 'UHighway', which is the fuel economy in MPG of each vehicle while driving
                     on the highway
                   
2. y = 'UCity'     : This specifies which data to use for the y component of each data point. In this case
                     we're using "UCity", which is the fuel economy in MPG for each vehicle while driving
                     in the city
                   
3. kind = 'scatter': This specifies what kind of plot to create. In this case we're making a scatter plot, 
                     however you could also specify a line, bar, etc. plot here instead
                     
4. title = '...'   : This specifies the title to place on the top of the plot 
'''

$car_data.plot(x ='UHighway', 
              y = 'UCity', 
              kind = 'scatter', 
              title="All Car MPG")$
                                                                                

In [None]:
'''
Ici, nous appelons la fonction .plot () de notre bibliothèque de traçage sur notre trame de données en tapant
'car_data.plot (...). Les arguments à l'intérieur de la fonction de tracé sont expliqués ci-dessous

1. x = 'UHighway': Ceci spécifie les données à utiliser pour la composante x de chaque point de données. Dans ce cas
                     nous utilisons 'UHighway', qui représente l'économie de carburant en MPG de chaque véhicule en conduisant
                     sur l'autoroute
                   
2. y = 'UCity': Ceci spécifie les données à utiliser pour la composante y de chaque point de données. Dans ce cas
                     nous utilisons "UCity", qui représente l'économie de carburant en MPG pour chaque véhicule en conduisant
                     dans la ville
                   
3. kind = 'scatter': spécifie le type de tracé à créer. Dans ce cas, nous faisons un nuage de points,
                     Cependant, vous pouvez également spécifier une ligne, une barre, etc.
                     
4. title = '...': Spécifie le titre à placer en haut de la parcelle.
'''

car_data.plot(x ='UHighway', 
              y = 'UCity', 
              kind = 'scatter', 
              title="All Car MPG")

Where this plot doesn't tell us a lot, but to be fair we wouldn't expect it to! However, suppose we were concerned with only one car manufacturer instead of _all_ the vehicles in the data. For example, let's choose an every day car that anyone has access to: a Bentley. We can view only the Bentley data as follows

Où cette parcelle ne nous en dit pas beaucoup, mais pour être honnête, nous ne nous attendions pas à ça! Cependant, supposons que nous ne soyons concernés que par un seul constructeur automobile au lieu de _tous_ les véhicules dans les données. Par exemple, choisissons une voiture de tous les jours à laquelle tout le monde a accès: une Bentley. Nous pouvons afficher uniquement les données Bentley comme suit

In [None]:
'''
Here we're creating a new data table consisting only of the rows which have the 
word "Bentely" in the 'make' column. This allows us to quickly filter the data down
to only the data that is relevant to cars made by Bentely. 

Essentially what this line of code does 
     
     car_data[car_data['make'] == 'Bentley']
     
Is create an entirely *new* data frame of only rows where 'make' column is identical to "Bentley".
This will ignore any and all data that is not associated with the word "Bentley" in the "make" column

'''
# Note that there are two equals signs! 

Bentley_data = car_data[car_data['make'] == 'Bentley']

Bentley_data.plot(x ='UHighway',
                  y = 'UCity',
                  kind = 'scatter', 
                  title="Bently MPG")

In [None]:
'''
Ici, nous créons une nouvelle table de données composée uniquement des lignes qui ont le
mot "Bentely" dans la colonne "make". Cela nous permet de filtrer rapidement les données vers le bas
uniquement aux données pertinentes pour les voitures de Bentely.

Essentiellement ce que fait cette ligne de code
     
     voiture _data [voiture_ data ['make'] == 'Bentley']
     
Crée un cadre entièrement *nouveau* contenant uniquement des lignes pour lesquelles la colonne 'make' est identique à "Bentley".
Cela ignorera toutes les données qui ne sont pas associées au mot "Bentley" dans la colonne "make"

'''
# Notez qu'il y a deux signes égaux!

Bentley_data = car_data[car_data['make'] == 'Bentley']

Bentley_data.plot(x ='UHighway',
                  y = 'UCity',
                  kind = 'scatter', 
                  title="Bently MPG")

Now we're starting to get some data that we might find more interesting! However, suppose we'd like to connect these dots with lines, we would need to change the above code to something like this

Nous commençons maintenant à obtenir des données plus intéressantes! Cependant, supposons que nous aimerions connecter ces points avec des lignes, nous aurions besoin de changer le code ci-dessus en quelque chose comme ceci

In [None]:
Bentley_data.plot(x ='UHighway',
                  y = 'UCity',
                  kind = 'line', 
                  title="Bently MPG Line Graph")

Of course, that graph is nearly incomprehensible! That's a result of our frame plotting points as it sees them - our data is unsorted! However, luckily for us, this is easily remedied by sorting our data before we plot, as shown below

Bien sûr, ce graphique est presque incompréhensible! Cela résulte des points de traçage de notre cadre tels qu'ils les voient - nos données ne sont pas triées! Cependant, heureusement pour nous, il est facile d'y remédier en triant nos données avant de tracer, comme indiqué ci-dessous.

In [None]:
'''
Here we're sorting *every row* of our data frame with respect to the specified column "UHighway" 
By using the sort_values function included with pandas
'''

$ Sorted_Bentley = Bentley_data.sort_values("UHighway")
Sorted_Bentley.plot(x ='UHighway',
                  y = 'UCity',
                  kind = 'line', 
                  title="Bently MPG Line Graph Sorted")$ 

In [None]:
'''
Ici, nous trions *chaque ligne* de notre trame de données par rapport à la colonne "UHighway"
En utilisant la fonction sort_values ​​incluse avec les pandas
'''

Sorted_Bentley = Bentley_data.sort_values("UHighway")
Sorted_Bentley.plot(x ='UHighway',
                  y = 'UCity',
                  kind = 'line', 
                  title="Bently MPG Line Graph Sorted")

### Formatting a Plot

You may have noticed that all the plots we've been showing seem to lack a lot of "pleasing" formatting, and more important factors such as a labeled y-axes, or any mention on how to control the axes labels. The code block below specifies some of the basic settings that we can use to make our plots look a little more presentable. 

### Formatage d'un tracé

Vous avez peut-être remarqué que toutes les courbes que nous avons montrées semblent manquer de nombreux formats "agréables" et de facteurs plus importants, tels que des axes Y étiquetés, ou de toute mention sur le contrôle des étiquettes des axes. Le bloc de code ci-dessous spécifie certains des paramètres de base que nous pouvons utiliser pour rendre nos graphes un peu plus présentables.

In [None]:
'''
Here we explain what each line does that you haven't seen before using a different comment structure
to introduce you to how you may see comments in other resources/online. 
'''

Sorted_Bentley.plot(x ='UHighway',
                  y = 'UCity',
                  kind = 'line', 
                  figsize = (12,8),                # Set the figure size to be 12 x 8 (inches)
                  color = 'red'                    # Changes the color of the plot, could also use color codes
                   )
# 'plt' is taken from the ploting library we imported at the beginning of the notebook 
# and is also used by pandas. Doing it out here gives us more control 

plt.title("Bently MPG Sorted", size = 20)          # Set title with font size
plt.xlabel("Highway Miles Per Gallon" , size = 16) # Add an x axes, 'size' controls the font size
plt.ylabel("City Miles Per Gallon", size = 16)     # Add a y axes label
plt.xticks(size = 14)                              # Change font size of xticks
plt.yticks(size = 14)                              # Change font size of yticks
plt.grid('on')                                     # Adds a grid to the plot
plt.autoscale(tight=True)                          # This removes the padding around the plot 

## Before You Try It Yourself

We'll soon be at a part of this notebook where we encourage you to manipulate the plots directly, however, here are a few common error messages you may see in the process, and how to fix them. 

### Common Error Messages

### Type Error
Every time you have an error in the cell below, it is usually the result of a simple typo! When this happens you'll typically get a large and intimidating error message that makes it seem a lot worse than it is. For example if you ran a code cell with this:
```python
car_data[car_data['make'] == 'Fake Car Maker'].sort_values('UHighway').plot(x = 'UHighway',
                                                                            y = 'UCity',
                                                                            kind = 'line', 
                                                                            title=" MPG Line Graph Sorted")
```

You would get the following error message which would appear to be quite intimidating!

![error messages](images/error.png)

Where all that output is the result of making one small typo! But don't let that worry you; the important information is the very first line of the error message where it says `TypeError` and shows you the approximate location of where the error was encountered. The other piece of important information is at the bottom of the output, you see the actual error message

```python
TypeError: Empty 'DataFrame': no numeric data to plot
```

What this is telling you is that you're trying to plot an empty dataframe. Which at first glance, seems impossible, we know that we have data in `car_data`! Where did it go?

The culprit here is when we're filtering down to only the rows relevant to our car manufacturer. As there is no manufacturer "Fake Car Maker" In our data set, we're not returning any data when we try to filter it down. To fix this, all we need to do is change the text 'Fake Car Maker' to a car maker which is present in the data set. 

### Name Error

If you were to run a line of code like this 
```python
car_data[car_data['make'] == Bentley].sort_values('UHighway').plot(x='UHighway',
                                                                   y = 'UCity',
                                                                   kind = 'line', 
                                                                   title=" MPG Line Graph Sorted")
```
you would get the following error message

```python
---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
<ipython-input-181-0856eb5a442a> in <module>()
----> 1 car_data[car_data['make'] == Bentley].sort_values('UHighway').plot(x='UHighway',
      2                                                                    y = 'UCity',
      3                                                                    kind = 'line',
      4                                                                    title=" MPG Line Graph Sorted")

NameError: name 'Bentley' is not defined
```

This is caused because we have not wrapped our car maker in quotes and Python is looking for a variable named Bentley. To fix this, simply change Bentley $\rightarrow$ 'Bentley'

### Key Error

Should you accidentally try to plot a column that doesn't exist due to a typo, such as the one in the a snippet like this

```python
car_data[car_data['make'] == 'Bentley'].sort_values('UHighway').plot(x='UHighway',
                                                                     y = 'THIS IS NOT A COLUMN IN THE DATA SET',
                                                                     kind = 'line', 
                                                                     title=" MPG Line Graph Sorted")
```

You would get a very long and intimidating error message, the bottom of which would be this error message
```python
KeyError: 'THIS IS NOT A COLUMN IN THE DATA SET'
```

What this is telling you is that there is no column in your table with the label `'THIS IS NOT A COLUMN IN THE DATA SET'`, to fix this, simply choose a column that you have labeled, or fix any minor typos.

Those are the only error messages you're likely to see in the snippet below (or really any pandas plot like this!), and now that you know what they mean and how to fix them, you should be all set to try out the code below with any columns/data in our table. 

## Try It Out

In the cell below we've set up the Bentley test case again, however, feel free to change the which manufacturer you're exploring. You should also feel free to explore other data for the $x$ and $y$ axis. Don't worry if something fails! Hopefully the common error message solutions above will help you out

## Avant de l'essayer soi-même

Nous en serons bientôt à une partie de ce cahier où nous vous encourageons à manipuler les parcelles directement. Cependant, voici quelques messages d'erreur courants que vous pouvez voir au cours du processus et sur la façon de les corriger.

### Messages d'erreur courants

### Erreur-type
Chaque fois que vous avez une erreur dans la cellule ci-dessous, il s'agit généralement d'une simple faute de frappe! Lorsque cela se produit, vous obtenez généralement un message d'erreur volumineux et intimidant qui le fait paraître bien pire qu'il ne l'est réellement. Par exemple, si vous avez exécuté une cellule de code avec ceci:
```python
voiture _data [voiture_ data ['make'] == 'Fake Car Maker']. sort <<> les valeurs ('UHighway'). plot (x = 'UHighway',
                                                                            y = 'UCity',
                                                                            kind = 'ligne',
                                                                            title = "Graphique linéaire MPG trié")
```

Vous obtiendrez le message d'erreur suivant qui semblerait être assez intimidant!

![messages d'erreur](images/error.png)

Où tout ce résultat est le résultat d’une petite faute de frappe! Mais ne laissez pas cela vous inquiéter; L'information importante est la toute première ligne du message d'erreur où il est écrit `TypeError` et indique l'emplacement approximatif de l'endroit où l'erreur a été rencontrée. L'autre information importante est au bas de la sortie, vous voyez le message d'erreur réel

```python
TypeError: vide 'DataFrame': pas de données numériques à tracer
```

Ce que cela vous dit, c'est que vous essayez de tracer une trame de données vide. Ce qui, à première vue, semble impossible, nous savons que nous avons des données dans `car _data`! Où est-il allé?

Le problème est que nous filtrons uniquement sur les lignes pertinentes pour notre constructeur automobile. Comme il n'y a pas de fabricant "Fake Car Maker" Dans notre jeu de données, nous ne renvoyons aucune donnée lorsque nous essayons de le filtrer. Pour résoudre ce problème, il suffit de remplacer le texte "Fake Car Maker" par un constructeur présent dans l'ensemble de données.

### Name Error

Si vous deviez exécuter une ligne de code comme celle-ci
`` `python
voiture_ données [voiture _données ['make'] == Bentley] .sort_ valeurs ('UHighway'). plot (x = 'UHighway',
                                                                   y = 'UCity',
                                                                   kind = 'ligne',
                                                                   title = "Graphique linéaire MPG trié")
`` `
vous obtiendrez le message d'erreur suivant

```python
-------------------------------------------------- -------------------------
NameError Traceback (l'appel le plus récent en dernier)
<ipython-input-181-0856eb5a442a> dans <module> ()
----> 1 voiture _données [voiture_ données ['make'] == Bentley] .sort _valeurs ('UHighway'). Plot (x = 'UHighway',
      2 y = 'UCity',
      3 genre = 'ligne',
      4 title = "Graphique linéaire MPG trié")

NameError: le nom 'Bentley' n'est pas défini
```

Cela est dû au fait que nous n’avons pas mis notre fabricant de voitures entre guillemets et que Python recherche une variable nommée Bentley. Pour résoudre ce problème, il suffit de changer Bentley $\rightarrow$ 'Bentley'

### Key Error

Si vous tentez accidentellement de tracer une colonne inexistante à cause d'une faute de frappe, telle que celle figurant dans l'extrait, par exemple

```python
voiture_ données [voiture <_> données ['make'] == 'Bentley']. sort_values ​​('UHighway'). plot (x = 'UHighway',
                                                                     y = 'CECI N'EST PAS UNE COLONNE DANS LE SET DE DONNÉES',
                                                                     kind = 'ligne',
                                                                     title = "Graphique linéaire MPG trié")
```

Vous obtiendrez un message d'erreur très long et intimidant, dont le bas serait ce message d'erreur
```python
KeyError: 'CECI N'EST PAS UNE COLONNE DANS L'ENSEMBLE DE DONNÉES'
```

Ce que cela vous dit, c'est qu'il n'y a pas de colonne dans votre table portant le libellé `CECI N'EST PAS UNE COLONNE DANS LE SET DE DONNÉES`. Pour résoudre ce problème, choisissez simplement une colonne que vous avez nommée ou corrigez les fautes de frappe mineures.

Ce sont les seuls messages d'erreur que vous êtes susceptible de voir dans l'extrait de code ci-dessous (ou tout complot de pandas comme celui-ci!), Et maintenant que vous savez ce qu'ils signifient et comment les corriger, vous devriez être prêt à essayer le code ci-dessous avec les colonnes / données de notre tableau.

## Essaye le

Dans la cellule ci-dessous, nous avons à nouveau configuré le scénario de test Bentley. Toutefois, n'hésitez pas à changer le fabricant que vous explorez. Vous devriez également vous sentir libre d'explorer d'autres données pour les axes $x$ et $y$. Ne vous inquiétez pas si quelque chose échoue! Espérons que les solutions de message d'erreur communes ci-dessus vous aideront

In [None]:
car_data[car_data['make'] == 'Bentley'].sort_values('UHighway').plot(x='UHighway',
                                                                     y = 'UCity',
                                                                     kind = 'line', 
                                                                     title=" MPG Line Graph Sorted",
                                                                     figsize = (12,8))

plt.title("Bently MPG Sorted", size = 20)          # Set title here with font size
plt.xlabel("Highway Miles Per Gallon" , size = 16) # Add an x axes, 'size' controls the font size
plt.ylabel("City Miles Per Gallon", size = 16)     # Add a y axes label
plt.xticks(size = 14)                              # Change font size of xticks
plt.yticks(size = 14)                              # Change font size of yticks
plt.grid('on')                                     # Adds a grid to the plot
plt.autoscale(tight=True)                          # This removes the padding around the plot 

If you don't feel like scrolling all the way up to find other car make names, simply uncomment the cell below to see the list of car makers. See instructions in the cell to understand what we mean by "Uncomment" 

Si vous n'avez pas envie de faire défiler l'écran jusqu'à trouver d'autres noms de marque, décommentez simplement la cellule ci-dessous pour afficher la liste des constructeurs automobiles. Voir les instructions dans la cellule pour comprendre ce que nous entendons par "Uncomment"

In [None]:
'''
To 'uncomment the line of code below, you simply need to delete the pound sign (hash tags for those of 
you who frequent Twitter) and the trailing space afterwads. In Python any characters in a line after a
pound sign are ignored by the program and callend a comment as you have likely seen in many of the code blocks
above. They can be very handy. You'll also notice that this block of text is contained between three
quotes (') on each side. This is known as a "block quote" and is also ignored by Python, but it is more 
useful for typing longer messages such as this. 
'''

# print(car_data['make'].sort_values().unique())
None

In [None]:
'''
Pour supprimer la mise en commentaire de la ligne de code ci-dessous, il vous suffit de supprimer le signe dièse (balises hash pour celles de
vous qui fréquentez Twitter) et l’espace de fuite. En Python, tous les caractères d’une ligne après une
les signes dièse sont ignorés par le programme et appellent un commentaire comme vous l’avez probablement vu dans de nombreux blocs de code
au dessus de. Ils peuvent être très utiles. Vous remarquerez également que ce bloc de texte est contenu entre trois
guillemets (') de chaque côté. Ceci est connu comme une "citation de bloc" et est également ignoré par Python, mais il est plus
utile pour taper des messages plus longs tels que celui-ci.
'''

# print(car _data['make'].sort_ values().unique ())
None

# Conclusion

In this notebook we demonstrated how you can download a open data set directly from the Internet into a Jupyter notebook and start to explore the data. We went through how to do some basic filtering of our data set using `pandas` as well as how to create plots plots easily and effectively from the data without performing any complex manipulations to the data itself. While we did not learn any interesting conclusions in this analysis, this represents a first initial step in data exploration. In part two of this notebook, we will go over the basics of data aggregation in order to discover more exciting and interesting trends hiding in this data set. Hopefully in part two, we can start to tease more interesting trends out of this data set.

# Conclusion

Dans ce cahier, nous avons montré comment télécharger un jeu de données ouvert directement depuis Internet dans un cahier Jupyter et commencer à explorer les données. Nous avons expliqué comment procéder au filtrage élémentaire de notre ensemble de données à l'aide de `pandas`, ainsi qu'à la création simple et efficace de tracés graphiques à partir des données, sans aucune manipulation complexe des données. Bien que nous n'ayons pas tiré de conclusions intéressantes dans cette analyse, cela représente une première étape dans l'exploration des données. Dans la deuxième partie de ce cahier, nous passerons en revue les bases de l’agrégation de données afin de découvrir des tendances plus intéressantes et intéressantes cachées dans cet ensemble de données. Espérons que dans la deuxième partie, nous pouvons commencer à dégager des tendances plus intéressantes de cet ensemble de données.

![alt text](https://github.com/callysto/callysto-sample-notebooks/blob/master/notebooks/images/Callysto_Notebook-Banners_Bottom_06.06.18.jpg?raw=true)