# Exemple d'utilisation de Pandas

Voici un carnet qui décrit les bases de Pandas, une librairie Python permettant d'analyser et de manipuler des données. Vous pouvez trouver davantages de détails sur le [site internet de Pandas](https://pandas.pydata.org/).

Cet exemple utlise une base de données contenant une description des missions spatiales depuis effectuées depuis 1957. Elle provient du site [Kaggle](https://www.kaggle.com/agirlcoding/all-space-missions-from-1957)

In [24]:
import pandas as pd
import matplotlib.pyplot as plt

## Chargement des données

Les données sont au format CSV. Elles sont séparées par des virgules. Pandas assume que la première ligne contient le nom des colonnes mais si le nom des colonnnes n'est pas donné dans le fichier, il est possible de l'indiquer "à la main" à Pandas.  
La fonction `read_csv` retourne une [classe Dataframe](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) qui supporte de nombreuses fonctions.
  
Pandas peut lire de nombreux types de fichiers, comme le CSV, Excel, et bien d'autres. Pandas peut lire des données depuis un fichier, depuis un lien HTTP, FTP ou encore depuis un serveur S3. Vous trouverez davantage d'informations dans [la documentation de Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

### Télchargement des données depuis un dépôt Github

Pour télécharger les données stockées dans un fichier sauvegardé sur un dépôt github, on peut procéder comme suit :

```
!mkdir data
!wget https://raw.githubusercontent.com/AlexandreBourrieau/ML-F1/master/Carnets%20Jupyter/Donn%C3%A9es/All%20Space%20Missions%20from%201957.csv -P data
```

In [None]:
!mkdir data
!wget https://raw.githubusercontent.com/AlexandreBourrieau/ML-F1/master/Carnets%20Jupyter/Donn%C3%A9es/All%20Space%20Missions%20from%201957.csv -P data

In [None]:
#Noms_colonnes = ['Nnum','Unnamed','Company Name','Location','Datum','Detail','Status Rocket','Rocket','Status Mission']

# La première ligne contient le nom des colonnes, dans le cas contraire il faut les spécifier
#missions = pd.read_csv('data/All Space Missions from 1957.csv', sep=',', names = Noms_colonnes)
missions = pd.read_csv('data/All Space Missions from 1957.csv', sep=',')


print('Nombre total de missions : %d' % len(missions))

Affiche les premières lignes des données avec la fonction `head`. La fonction `tail` affiche les dernières lignes. Les deux fonctions retournent un objet Dataframe contenant une liste de lignes.

In [None]:
missions.head(5)

## Sélection de lignes et de colonnes

Une ou plusieurs lignes peuvent être sélectionnées depuis l'objet Dataframe de manière simple. L'objet retourné est encore un  objet de type Dataframe.

In [None]:
missions[1:5]

Les colonnes peuvent être sélectionnées en utlisant la syntaxe suivante. Dans cet exemple, deux colonnes et 5 lignes sont sélectionnées.

In [None]:
missions[['Location', 'Detail']].head(5)

Les lignes peuvent être sélectionnées avec des filtres. La syntaxe SQL est aussi supportée. Les détails se trouvent [ici](https://pandas.pydata.org/pandas-docs/stable/getting_started/comparison/comparison_with_sql.html).

In [None]:
missions[(missions['Location'].str.contains('Florida')) & (missions['Detail'].str.contains('V 541'))]

Les lignes peuvent être sélectionnées par des index, soit numériques ou avec les labels. Les détails sont [ici](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html). La sélection numérique est réalisée avec la fonction ```iloc()```.

In [None]:
# Sélection d'une seule valeur en se basant sur les index

missions.iloc[4]['Company Name']

In [25]:
# Sélection de quelques lignes en utilisant un intervalle

missions.iloc[1:5]

Unnamed: 0.2,Unnamed: 0,Unnamed: 0.1,Company Name,Location,Datum,Detail,Status Rocket,Rocket,Status Mission
1,1,1,CASC,"Site 9401 (SLS-2), Jiuquan Satellite Launch Ce...","Thu Aug 06, 2020 04:01 UTC",Long March 2D | Gaofen-9 04 & Q-SAT,StatusActive,29.75,Success
2,2,2,SpaceX,"Pad A, Boca Chica, Texas, USA","Tue Aug 04, 2020 23:57 UTC",Starship Prototype | 150 Meter Hop,StatusActive,,Success
3,3,3,Roscosmos,"Site 200/39, Baikonur Cosmodrome, Kazakhstan","Thu Jul 30, 2020 21:25 UTC",Proton-M/Briz-M | Ekspress-80 & Ekspress-103,StatusActive,65.0,Success
4,4,4,ULA,"SLC-41, Cape Canaveral AFS, Florida, USA","Thu Jul 30, 2020 11:50 UTC",Atlas V 541 | Perseverance,StatusActive,145.0,Success


## Inspection des données

Les cellules suivantes permettent dobtenir des informations sur les objets Dataframe, ce qui peut être très utile pendant la phase préliminaire d'analyse.

In [None]:
missions.columns

La fonction `describe` donne des informations statistiques sur les colonnes à valeurs numériques.

In [None]:
missions.describe()

Pandas essaye de déteriner le type de données de chaque colonne.  Si une colonne contient différents types de données, ce type est assumé comme "objet".  
Les types gérés par Pandas se trouvent [ici](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dtypes.html). 

In [None]:
missions.dtypes

## Les objects de type "Series"

Les colonnes dans le Dataframe Pandas sont des instances de la classe [Series](https://pandas.pydata.org/pandas-docs/stable/reference/series.html). La classe "Series" contient de nombreuses fonctions. Voici un exemple : 


In [None]:
missions.Rocket.unique()

La propriétée ```values``` retourne un tableau NumPy.

In [None]:
missions[1:5]['Rocket'].values

## Tri

Les objets Dataframe et Series peuvent être triés par une ou plusieurs colonnes.

In [None]:
missions.sort_values(by='Rocket', ascending=True).head(50)

## Conversion de types

Pour convertir le type d'une colonne, il faut tout d'abord copier la variable Dataframe puis effectuer les conversions sur cette variable.  
Dans l'exemple suivant, l'objet "Rocket" est de type chaine de caractère. Pour le convertir en flottant, nous sommes obligé de supprimer les virgules sinon nous obtenons une erreur.  

In [None]:
# Cette méthode ne fonctionne pas
#issions2 = missions.copy()
#missions2['Rocket'] = missions2['Rocket'].astype(float)

# Cette méthode fonctionne, il faut d'abord supprimer les virgules

missions2 = missions.copy()
missions2['Rocket'] = missions2['Rocket'].str.replace(",","").astype(float)
missions2.sort_values(by='Rocket', ascending=True).head(50)
missions2.dtypes

In [None]:
missions2.dtypes

In [None]:
missions2.describe()

## Agrégation

La fonction groupby permet de regrouper des données par colonnes ou pas ensemble de colonnes et d'y appliquer des fonctions d'agrégation, comme count, min, max, etc ... 

In [None]:
pricedCars.groupby(['make']).max().head(5)

In [None]:
pricedCars.groupby(['make', 'body_style']).max().head(5)

The ```groupby``` method returns a DataFrameGroupBy object. It is possible to iterate over a DataFrameGroupBy object.

In [None]:
groups = pricedCars.groupby(['make'])

# groupDF is a DataFrame containing all rows withing a group.
for groupName, groupDF in groups:
    print(groupName, len(groupDF))

## Visualisation

Les objets Dataframe de Pandas contiennent des fonctions pour créer un très grand nombre de courbes en utlisant [Matplotlib](https://matplotlib.org). Les fonctions d'affichage de Pandas sont documentées dans [la documentation](https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html).

In [None]:
pricedCars.hist('price', bins=50)

In [None]:
pricedCars.hist('price', bins=50, cumulative=-1)

In [None]:
hpPricedCars = pricedCars[pricedCars.horsepower.str.isnumeric()].copy()
hpPricedCars.horsepower = hpPricedCars.horsepower.astype(float)

In [None]:
hpPricedCars.plot.scatter(x='horsepower', y='city_mpg', color='red')

In [None]:
hpPricedCars.plot.scatter(x='horsepower', y='highway_mpg', color='red')

In [None]:
priceGroups = pricedCars.groupby(['make'])['price']
means = priceGroups.mean()
std = priceGroups.std()

In [None]:
fig, ax = plt.subplots()
means.plot.bar(ax=ax, yerr=std, color='lightgreen')