# Lire et manipuler des données avec la librairie pandas

In [None]:
from google.colab import drive
drive.mount('/content/drive')
%cd drive/MyDrive/MesDossiers/Professionnel/Cours/V4/J-1\ -\ Analyse\ de\ donnees\ exploratoire

Mounted at /content/drive
/content/drive/MyDrive/MesDossiers/Professionnel/Cours/V4/J-1 - Analyse de donnees exploratoire


## Utiliser des librairies en Python

### Qu’est ce qu’une librairie ?

Maintenant que vous avez une idée de ce qu’est le programmation orientée objet, utiliser des librairies ne devrait pas vous paraître trop complexe. En effet, une librairie est un module dans lequel il y a plusieurs classes que vous pouvez utiliser à votre discrétion.

Vous avez surement déjà vu ou entendu parler de _pandas, numpy et scikit-learn._ Ce sont trois librairies très populaires chez les data scientists, qui mettent à disposition des classes qui sont des boîtes à outil pour faire de la manipulation de données et du machine learning.


#### Comment importer une librairie ?


```python
import nom_du_module
```


C’est aussi simple que cela pour importer une librairie. En revanche, en faisant cela vous avez importé l’intégralité de votre librairie d’un coup. Parfois, ce n’est pas utile voire contre-productif de faire cela car cela va ralentir considérablement votre code.

De ce fait, on décide souvent de n’importer qu’une classe du module. On le fait de la manière suivante :


```python
from nom_du_module import nom_de_la_classe
```



#### Comment utiliser une librairie ?

Une librairie s’utilise exactement de la même qu’une classe. Vous allez créer une instance de la classe que vous avez choisi de la manière suivante :


```python
import nom_du_module
Une_variable = nom_du_module.nom_de_la_classe()
```


Une dernière chose à comprendre : il y a plein de librairies différentes et celles-ci ne fonctionnent pas de la même manière. Il faudra donc se référer à la documentation de la librairie en question pour avoir plus d’informations. Au cours du programme, nous verrons plein de librairies différentes pour que vous vous familiarisiez avec le concept. Nous allons d’ailleurs voir _Datetime_ dans la prochaine partie, qui vous permettra de gérer des données temporelles.

## Les structures de données en Pandas

Nous avons déjà vu un certain nombre de types de données en Python. Avec Pandas, nous introduisons deux nouvelles structures de données qu’il faut bien comprendre pour pouvoir bien avancer.

## Importer la librairie et découvrir les classes

Avant de commencer, n’oublions pas que pour toutes les opérations que nous montrons dans ce cours, nous avons importé la librairie Pandas comme suit. L'instruction as permet de créer un alias : dans la suite on fera référence à la librairie par "pd"

In [1]:
import pandas as pd

In [None]:
#!pip install pandas

### La classe Series
Un DataFrame qui ne possède qu’une seule dimension (une seule colonne) est une Series.

In [None]:
# Classe Series : équivalent d'une colonne Excel/SQL
pd.Series?

In [None]:
print("hello")

hello


#### Créer une instance de la classe Series et l'initialiser

In [None]:
# On crée une instance de la classe Series qu'on initialise avec une liste de valeurs
data1 = pd.Series(data= [1.2,3.4,4.7,6.7], name="values")
print(data1)

0    1.2
1    3.4
2    4.7
3    6.7
Name: values, dtype: float64


#### L'attribut "index"

In [None]:
# Les séries ont un index comme attribut
print(data1.index)

RangeIndex(start=0, stop=4, step=1)


In [None]:
data1[3]

6.7

In [None]:
# Accéder à un élément de la série par l'index : fonctionnement similaire aux listes
print(data1[2])

4.7


In [None]:
# Itérer sur les valeurs d'une série
print('Itérer sur les valeurs directement')
for v in data1:
    print(v)
print()

Itérer sur les valeurs directement
1.2
3.4
4.7
6.7



#### Itérer sur une série

In [None]:
data1

Unnamed: 0,values
0,1.2
1,3.4
2,4.7
3,6.7


In [None]:
# Il est aussi possible d'utiliser l'index de la série pour les itérations
for i in data1.index:
    print("index :",i, "valeur:", data1[i])

index : 0 valeur: 1.2
index : 1 valeur: 3.4
index : 2 valeur: 4.7
index : 3 valeur: 6.7


### La classe DataFrame

Un DataFrame est une succession de Series. C’est un objet à deux dimensions comportant des lignes et des colonnes. On peut aussi penser un DataFrame comme une feuille excel.

In [None]:
# Un DataFrame est constitué de plusieurs colonnes :
pd.DataFrame?

#### Déclarer une instance de la classe DataFrame et l'initialiser

In [None]:
import pandas as pd

In [None]:
# On crée une instance de la classe DataFrame qu'on initialise avec des valeurs
data_dict = {
    'name': ['Agnes', 'Sidi', 'Thibault', 'Samia', 'Henry', 'Georges'],
    'age': [28, 37, 43, 33, 29, 57],
    'job': ['web analyst', 'sales director', 'web analyst', 'sales director',
                   'web analyst', 'developer']
}

data2 = pd.DataFrame(data_dict)
print(data2)  # Equivalent de print() mais avec un meilleur rendu

Unnamed: 0,name,age,job
0,Agnes,28,web analyst
1,Sidi,37,sales director
2,Thibault,43,web analyst
3,Samia,33,sales director
4,Henry,29,web analyst
5,Georges,57,developer


Ici, nous avons construit un DataFrame qui comporte six lignes et trois colonnes _name, age_ et _job_. A partir d’un DataFrame, on peut faire énormément d’opérations différentes, nous décrirons les principales plus loin dans le cours.

#### Les attributs "index", "columns", "shape", "values"

In [None]:
# Tout comme les Series, les DataFrame ont un attribut 'index' :
print(data2.index)

RangeIndex(start=0, stop=6, step=1)


In [None]:
# L'attribut 'columns' permet de récupérer la liste des noms de colonnes :
print(data2.columns)

Index(['name', 'age', 'job'], dtype='object')


In [None]:
# L'attribut shape renvoie le nombre de lignes et de colonnes sous forme de tuple :
print(data2.shape)

(6, 3)


In [None]:
# L'attribut 'values' permet de récupérer les valeurs stockées dans le DataFrame au format numpy.array :
print(data2.values)

[['Agnes' 28 'web analyst']
 ['Sidi' 37 'sales director']
 ['Thibault' 43 'web analyst']
 ['Samia' 33 'sales director']
 ['Henry' 29 'web analyst']
 ['Georges' 57 'developer']]


#### Afficher un aperçu du DataFrame

In [None]:
# Voir un aperçu des 5 premières lignes du DataFrame
data2.head(10)

Unnamed: 0,name,age,job
0,Agnes,28,web analyst
1,Sidi,37,sales director
2,Thibault,43,web analyst
3,Samia,33,sales director
4,Henry,29,web analyst


In [None]:
# Voir un aperçu des 5 dernières lignes du DataFrame
data2.tail()

Unnamed: 0,name,age,job
1,Sidi,37,sales director
2,Thibault,43,web analyst
3,Samia,33,sales director
4,Henry,29,web analyst
5,Georges,57,developer


#### Sélectionner des données

In [None]:
# Sélectionner une colonne
data2["name"]


Unnamed: 0,name
0,Agnes
1,Sidi
2,Thibault
3,Samia
4,Henry
5,Georges


In [None]:
# Sélectionner plusieurs colonnes
data2[['name','job']]


Unnamed: 0,name,job
0,Agnes,web analyst
1,Sidi,sales director
2,Thibault,web analyst
3,Samia,sales director
4,Henry,web analyst
5,Georges,developer


In [None]:
data2

Unnamed: 0,name,age,job
0,Agnes,28,web analyst
1,Sidi,37,sales director
2,Thibault,43,web analyst
3,Samia,33,sales director
4,Henry,29,web analyst
5,Georges,57,developer


In [None]:
# Sélectionner une sous-partie du DataFrame avec les slices
# Sélectionner les trois premières lignes du DataFrame
print("trois premières lignes du DataFrame, toutes les colonnes")
data2.loc[0:2,:]

trois premières lignes du DataFrame, toutes les colonnes


Unnamed: 0,name,age,job
0,Agnes,28,web analyst
1,Sidi,37,sales director
2,Thibault,43,web analyst


In [None]:
# Sélectionner les trois premières lignes de la colonne 'age'
print("trois premières lignes de la colonne 'age'")
data2.loc[0:2,'age']

trois premières lignes de la colonne 'age'


Unnamed: 0,age
0,28
1,37
2,43


In [None]:
# Sélectionner la dernière ligne des colonnes 'age' et 'profession'
print("4ème ligne des colonnes 'age' et 'profession'")
data2.loc[3,['age', 'job']]

4ème ligne des colonnes 'age' et 'profession'


Unnamed: 0,3
age,33
job,sales director


In [None]:
data2.loc[0:3,"job"]

Unnamed: 0,job
0,web analyst
1,sales director
2,web analyst
3,sales director


In [None]:
# Utiliser iloc pour accéder aux colonnes via leur position :
data2.iloc[0:3,2]

Unnamed: 0,job
0,web analyst
1,sales director
2,web analyst


In [None]:
data2

Unnamed: 0,name,age,job
0,Agnes,28,web analyst
1,Sidi,37,sales director
2,Thibault,43,web analyst
3,Samia,33,sales director
4,Henry,29,web analyst
5,Georges,57,developer


In [None]:
# Avec iloc, on peut aussi utiliser des indices négatifs :
data2.iloc[:,-2]

Unnamed: 0,age
0,28
1,37
2,43
3,33
4,29
5,57


In [None]:
# Utiliser les masques pour sélectionner des lignes en fonction d'une certaine condition :
filtre = data2['age'] > 30
new_data = data2.loc[filtre,:]

In [None]:
new_data = new_data.reset_index(drop=True)

In [None]:
new_data

Unnamed: 0,name,age,job
0,Sidi,37,sales director
1,Thibault,43,web analyst
2,Samia,33,sales director
3,Georges,57,developer


## Lire un fichier de données
Placez le fichier S1-3B/Datasets/chipotle.csv dans le dossier où se trouve ce notebook

(Si vous travaillez sur J.U.L.I.E. uploadez le fichier sur votre workspace)

### Lire un fichier CSV

In [None]:
%ls

 1-Manipuler_des_donnees_avec_Pandas.ipynb           [0m[01;34mExercices[0m/                [01;34msrc[0m/
 2-Creer_des_graphes_interactifs_avec_plotly.ipynb   figure.html               [01;34mtemp[0m/
 earthquakes.html                                   [01;34m'Projet - Speed Dating'[0m/


In [None]:
# Lire le fichier avec read_csv()
dataset = pd.read_csv('src/chipotle.csv')
dataset.head()

Unnamed: 0.1,Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,1,Izze,[Clementine],$3.39
2,2,1,1,Nantucket Nectar,[Apple],$3.39
3,3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98


In [None]:
# Il y a plein d'arguments que l'on peut passer à read_csv() pour améliorer la lecture du fichier
pd.read_csv?

In [None]:
# Dans notre fichier, la première colonne contient l'index. Utilisons l'argument "index_col" pour le spécifier
dataset = pd.read_csv('src/chipotle.csv', index_col=0)
dataset.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98



### Lire d'autres types de fichiers

Pandas peut gérer d’autres types de fichiers que des csv. Il suffira simplement d’utiliser la même logique avec la bonne méthode. Voici donc un tableau récapitulatif des différents types de fichiers que vous pouvez lire avec Pandas :


<table>
  <tr>
   <td><strong>Fichier</strong>
   </td>
   <td><strong>Méthode </strong>
   </td>
  </tr>
  <tr>
   <td><a href="https://en.wikipedia.org/wiki/Comma-separated_values">CSV</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-read-csv-table">read_csv</a>()
   </td>
  </tr>
  <tr>
   <td><a href="http://www.json.org/">JSON</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-json-reader">read_json</a>()
   </td>
  </tr>
  <tr>
   <td><a href="https://en.wikipedia.org/wiki/HTML">HTML</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-read-html">read_html</a>()
   </td>
  </tr>
  <tr>
   <td>Local clipboard
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-clipboard">read_clipboard</a>()
   </td>
  </tr>
  <tr>
   <td><a href="https://en.wikipedia.org/wiki/Microsoft_Excel">MS Excel</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-excel-reader">read_excel</a>()
   </td>
  </tr>
  <tr>
   <td><a href="https://support.hdfgroup.org/HDF5/whatishdf5.html">HDF5 Format</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-hdf5">read_hdf</a>()
   </td>
  </tr>
  <tr>
   <td><a href="https://github.com/wesm/feather">Feather Format</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-feather">read_feather</a>()
   </td>
  </tr>
  <tr>
   <td><a href="https://parquet.apache.org/">Parquet Format</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-parquet">read_parquet</a>()
   </td>
  </tr>
  <tr>
   <td><a href="http://msgpack.org/index.html">Msgpack</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-msgpack">read_msgpack</a>()
   </td>
  </tr>
  <tr>
   <td><a href="https://en.wikipedia.org/wiki/Stata">Stata</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-stata-reader">read_stata</a>()
   </td>
  </tr>
  <tr>
   <td><a href="https://en.wikipedia.org/wiki/SAS_(software)">SAS</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-sas-reader">read_sas</a>()
   </td>
  </tr>
  <tr>
   <td><a href="https://docs.python.org/3/library/pickle.html">Python Pickle Format</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-pickle">read_pickle</a>()
   </td>
  </tr>
  <tr>
   <td><a href="https://en.wikipedia.org/wiki/SQL">SQL</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-sql">read_sql</a>()
   </td>
  </tr>
  <tr>
   <td><a href="https://en.wikipedia.org/wiki/BigQuery">Google Big Query</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-bigquery">read_gbq</a>()
   </td>
  </tr>
</table>


Vous devriez pouvoir trouver votre bonheur dans tous les types de fichiers proposés.


### Exporter un fichier

Une fois que vous savez importer un fichier, il est très simple de pouvoir exporter car la logique est similaire. Par exemple, nous allons créer une variable que nous allons exporter en CSV :

In [None]:
dataset.to_csv("temp/data.csv")

Ici, nous avons créé un DataFrame que nous avons appelé _data_ puis nous l’avons exporté en csv dans le dossier Téléchargement de notre machine. D’ailleurs, nous avons appelé le fichier “data.csv” en précisant le chemin par la même occasion.

De la même manière que pour l’importation, vous pouvez exporter en plusieurs types de fichiers, voici les principaux :


<table>
  <tr>
   <td><strong>Fichier</strong>
   </td>
   <td><strong>Méthode</strong>
   </td>
  </tr>
  <tr>
   <td><a href="https://en.wikipedia.org/wiki/Comma-separated_values">CSV</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-store-in-csv">to_csv</a>()
   </td>
  </tr>
  <tr>
   <td><a href="http://www.json.org/">JSON</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-json-writer">to_json</a>()
   </td>
  </tr>
  <tr>
   <td><a href="https://en.wikipedia.org/wiki/HTML">HTML</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-html">to_html</a>()
   </td>
  </tr>
  <tr>
   <td>Local clipboard
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-clipboard">to_clipboard</a>()
   </td>
  </tr>
  <tr>
   <td><a href="https://en.wikipedia.org/wiki/Microsoft_Excel">MS Excel</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-excel-writer">to_excel</a>()
   </td>
  </tr>
  <tr>
   <td><a href="https://support.hdfgroup.org/HDF5/whatishdf5.html">HDF5 Format</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-hdf5">to_hdf</a>()
   </td>
  </tr>
  <tr>
   <td><a href="https://github.com/wesm/feather">Feather Format</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-feather">to_feather</a>()
   </td>
  </tr>
  <tr>
   <td><a href="https://parquet.apache.org/">Parquet Format</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-parquet">to_parquet</a>()
   </td>
  </tr>
  <tr>
   <td><a href="http://msgpack.org/index.html">Msgpack</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-msgpack">to_msgpack</a>()
   </td>
  </tr>
  <tr>
   <td><a href="https://en.wikipedia.org/wiki/Stata">Stata</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-stata-writer">to_stata</a>()
   </td>
  </tr>
  <tr>
   <td><a href="https://docs.python.org/3/library/pickle.html">Python Pickle Format</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-pickle">to_pickle</a>()
   </td>
  </tr>
  <tr>
   <td><a href="https://en.wikipedia.org/wiki/SQL">SQL</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-sql">to_sql</a>()
   </td>
  </tr>
  <tr>
   <td><a href="https://en.wikipedia.org/wiki/BigQuery">Google Big Query</a>
   </td>
   <td><a href="http://pandas.pydata.org/pandas-docs/stable/io.html#io-bigquery">to_gbq</a>()
   </td>
  </tr>
</table>

## Manipuler des données

In [None]:
display(data2)

Unnamed: 0,name,age,job
0,Agnes,28,web analyst
1,Sidi,37,sales director
2,Thibault,43,web analyst
3,Samia,33,sales director
4,Henry,29,web analyst
5,Georges,57,developer


In [None]:
# Ajouter une nouvelle colonne à un DataFrame
data2['gender'] = ['F', 'M', 'M', 'F', 'M', 'M']
print(data2)


Unnamed: 0,name,age,job,gender
0,Agnes,28,web analyst,F
1,Sidi,37,sales director,M
2,Thibault,43,web analyst,M
3,Samia,33,sales director,F
4,Henry,29,web analyst,M
5,Georges,57,developer,M


In [None]:
pd.__version__

In [None]:
df_new_row

Unnamed: 0,name,age,job,gender
0,Joséphine,43,developer,F


In [None]:
# Ajouter une nouvelle ligne à la fin d'un DataFrame
new_row = {
    'name': ['Joséphine'],
    'age': [43],
    'job': ['developer'],
    'gender': ['F']
}

df_new_row = pd.DataFrame(new_row)

data2 = pd.concat([data2, df_new_row], ignore_index= True)

display(data2)

Unnamed: 0,name,age,job,gender
0,Agnes,28,web analyst,F
1,Sidi,37,sales director,M
2,Thibault,43,web analyst,M
3,Samia,33,sales director,F
4,Henry,29,web analyst,M
5,Georges,57,developer,M
6,Joséphine,43,developer,F


#### Les fonctions lambda et apply

In [None]:
liste = [1,3,3]
for i in liste:
  print(i)

1
3
3


In [None]:
# Nouvelle colonne contenant le carré de l'age
data2['age_squared'] = data2['age'].apply(lambda x : x**2)
data2

Unnamed: 0,name,age,job,gender,age_squared
0,Agnes,28,web analyst,F,784
1,Sidi,37,sales director,M,1369
2,Thibault,43,web analyst,M,1849
3,Samia,33,sales director,F,1089
4,Henry,29,web analyst,M,841
5,Georges,57,developer,M,3249
6,Joséphine,43,developer,F,1849


In [None]:
# Ajouter une colonne dont les valeurs sont calculées en fonction d'une autre colonne : les fonctions apply/lambda

# Nouvelle colonne contenant : age si age > 30, 0 sinon
data2['age_changed'] = data2['age'].apply(lambda x : x if x > 30 else 0)

In [None]:
# Nouvelle colonne indiquant que la personne n'est PAS web analyste
data2['not_web_analyst'] = data2['job'].apply(lambda x : x != 'web analyst')
data2

Unnamed: 0,name,age,job,gender,age_squared,age_changed,not_web_analyst
0,Agnes,28,web analyst,F,784,0,False
1,Sidi,37,sales director,M,1369,37,True
2,Thibault,43,web analyst,M,1849,43,False
3,Samia,33,sales director,F,1089,33,True
4,Henry,29,web analyst,M,841,0,False
5,Georges,57,developer,M,3249,57,True
6,Joséphine,43,developer,F,1849,43,True


### Réarranger une base de données

In [None]:
data2.groupby?

In [None]:
# Aggréger des lignes avec groupby :

# Grouper par 'job' puis calculer la valeur moyenne des autres colonnes
display(data2.groupby('job').mean(numeric_only = True))

# Grouper par 'job' puis calculer la valeur moyenne de la colonne 'age'
display(data2.groupby('job')['age'].mean())

# Grouper par 'job' puis 'gender' et calculer la valeur médiane des autres colonnes
display(data2.groupby(['job','gender']).median(numeric_only = True))

Unnamed: 0_level_0,age,age_squared,age_changed,not_web_analyst
job,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
developer,50.0,2549.0,50.0,1.0
sales director,35.0,1229.0,35.0,1.0
web analyst,33.333333,1158.0,14.333333,0.0


Unnamed: 0_level_0,age
job,Unnamed: 1_level_1
developer,50.0
sales director,35.0
web analyst,33.333333


Unnamed: 0_level_0,Unnamed: 1_level_0,age,age_squared,age_changed,not_web_analyst
job,gender,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
developer,F,43.0,1849.0,43.0,1.0
developer,M,57.0,3249.0,57.0,1.0
sales director,F,33.0,1089.0,33.0,1.0
sales director,M,37.0,1369.0,37.0,1.0
web analyst,F,28.0,784.0,0.0,0.0
web analyst,M,36.0,1345.0,21.5,0.0


In [None]:
data2.pivot_table?

In [None]:
# Ré-arranger les lignes et colonnes avec pivot_table :

# DataFrame avec :
# - autant de lignes qu'il y a de 'job'
# - autant de colonnes qu'il y a de 'gender'
# - les valeurs sont la moyenne de 'age'
display(data2.pivot_table(index='job', columns='gender', values='age', aggfunc='mean'))

gender,F,M
job,Unnamed: 1_level_1,Unnamed: 2_level_1
developer,43.0,57.0
sales director,33.0,37.0
web analyst,28.0,36.0


### Manipuler des dates et heures

In [None]:
# Fichier contenant des données qui représentent des dates et des heures
data3 = pd.read_csv('src/datetime_data.csv')
data3.head()

Unnamed: 0,Datetime
0,2015-02-28 15:55:09
1,2015-04-17 05:42:51
2,2015-04-09 01:04:27
3,2015-08-19 15:47:05
4,2015-10-01 17:55:59


In [None]:
print('Type de la variable Datetime : ', type(data3.loc[0,'Datetime']))


Type de la variable Datetime :  <class 'str'>


In [None]:
# Il faut veiller à convertir la colonne au bon format
data3['Datetime'] = pd.to_datetime(data3['Datetime'])
print('Type apres conversion : ', type(data3.loc[0,'Datetime']))

Type apres conversion :  <class 'pandas._libs.tslibs.timestamps.Timestamp'>


In [None]:
# On peut ensuite extraire des informations utiles de cette colonne grâce au module ".dt"
data3.loc[:,'Annee'] = data3['Datetime'].dt.year
data3.loc[:,'Mois'] = data3['Datetime'].dt.month
data3.loc[:,'Jour'] = data3['Datetime'].dt.day
data3.loc[:,'Jour_de_la_semaine'] = data3['Datetime'].dt.weekday # 0: lundi, 1: mardi etc...
data3.loc[:,'Heure'] = data3['Datetime'].dt.hour
data3.loc[:,'Minute'] = data3['Datetime'].dt.minute
data3.loc[:,'Seconde'] = data3['Datetime'].dt.second

data3.head()

Unnamed: 0,Datetime,Annee,Mois,Jour,Jour_de_la_semaine,Heure,Minute,Seconde
0,2015-02-28 15:55:09,2015,2,28,5,15,55,9
1,2015-04-17 05:42:51,2015,4,17,4,5,42,51
2,2015-04-09 01:04:27,2015,4,9,3,1,4,27
3,2015-08-19 15:47:05,2015,8,19,2,15,47,5
4,2015-10-01 17:55:59,2015,10,1,3,17,55,59


### Assembler des bases de données

In [None]:
# Pour la suite, nous allons manipuler les bases de données suivantes :
data_sales1 = {
    'sales_id' : ['001','002','003','004'], #'005', '006', '007'],
    'people_id' : [1, 4, 2, 1], #0, 3, 2],
    'product_id' : ['X789', 'X999', 'X789', 'X990'], #'X789', 'X999', 'X789']
}

data_sales2 = {
    'sales_id' : ['005', '006', '007'],
    'people_id' : [0, 3, 2],
    'product_id' : ['X789', 'X999', 'X789']
}

data_products = {
    'product_id' : ['X789', 'X999', 'X990'],
    'product_desc' : ['Apple', 'Banana', 'Orange']
}

data_people = {
    'id' : [0, 1, 2, 3, 5],
    'name' : ['Paul','Perrine','Moussa','Michel', 'Anne'],
    'age' : [None, 67, 24, 76, 47]
}

df_sales1 = pd.DataFrame(data_sales1)
df_sales2 = pd.DataFrame(data_sales2)
df_products = pd.DataFrame(data_products)
df_people = pd.DataFrame(data_people)

display(df_sales1)
display(df_sales2)
display(df_products)
display(df_people)


Unnamed: 0,sales_id,people_id,product_id
0,1,1,X789
1,2,4,X999
2,3,2,X789
3,4,1,X990


Unnamed: 0,sales_id,people_id,product_id
0,5,0,X789
1,6,3,X999
2,7,2,X789


Unnamed: 0,product_id,product_desc
0,X789,Apple
1,X999,Banana
2,X990,Orange


Unnamed: 0,id,name,age
0,0,Paul,
1,1,Perrine,67.0
2,2,Moussa,24.0
3,3,Michel,76.0
4,5,Anne,47.0


#### Concaténer des lignes

In [None]:
# Concaténer les lignes de df_sales2 à la suite de df_sales1 :
df_sales = pd.concat([df_sales1,df_sales2], ignore_index=True)
display(df_sales)

Unnamed: 0,sales_id,people_id,product_id
0,1,1,X789
1,2,4,X999
2,3,2,X789
3,4,1,X990
4,5,0,X789
5,6,3,X999
6,7,2,X789


#### Faire des jointures

In [None]:
# Jointure table sales et product
# Cas simple : Tous les product_id dans df_sales sont présents dans df_product et inversement

df_sales_product = df_sales.merge(df_products,on='product_id')
display(df_sales_product)

Unnamed: 0,sales_id,people_id,product_id,product_desc
0,1,1,X789,Apple
1,2,4,X999,Banana
2,3,2,X789,Apple
3,4,1,X990,Orange
4,5,0,X789,Apple
5,6,3,X999,Banana
6,7,2,X789,Apple


In [None]:
# Jointure avec la table people
# Warning 1 : les colonnes contenant l'id pour la jointure n'ont pas le même nom
# Warning 2 : le people_id 4 présent dans df_sales_product n'existe pas dans df_people !
# Le people_id 5 est dans df_people mais pas dans df_sales_product
# Il faut faire un choix : que faire des ids manquants ?

# Inner join : on ne garde que les id présents dans les deux tables
df_final1 = df_sales_product.merge(df_people, left_on='people_id', right_on='id', how='inner')

# Outer join : on garde tous les ids qu'on trouve dans les deux tables et on complète par des NaN
df_final2 = df_sales_product.merge(df_people, left_on='people_id', right_on='id', how='outer')

# Left join : on garde tous les ids de la table de gauche et on complète par des NaN
df_final3 = df_sales_product.merge(df_people, left_on='people_id', right_on='id')

In [None]:
display(df_final1)

Unnamed: 0,sales_id,people_id,product_id,product_desc,id,name,age
0,1,1,X789,Apple,1,Perrine,67.0
1,3,2,X789,Apple,2,Moussa,24.0
2,4,1,X990,Orange,1,Perrine,67.0
3,5,0,X789,Apple,0,Paul,
4,6,3,X999,Banana,3,Michel,76.0
5,7,2,X789,Apple,2,Moussa,24.0


In [None]:
display(df_final2)

Unnamed: 0,sales_id,people_id,product_id,product_desc,id,name,age
0,5.0,0.0,X789,Apple,0.0,Paul,
1,1.0,1.0,X789,Apple,1.0,Perrine,67.0
2,4.0,1.0,X990,Orange,1.0,Perrine,67.0
3,3.0,2.0,X789,Apple,2.0,Moussa,24.0
4,7.0,2.0,X789,Apple,2.0,Moussa,24.0
5,6.0,3.0,X999,Banana,3.0,Michel,76.0
6,2.0,4.0,X999,Banana,,,
7,,,,,5.0,Anne,47.0


In [None]:
display(df_final3)

Unnamed: 0,sales_id,people_id,product_id,product_desc,id,name,age
0,1,1,X789,Apple,1,Perrine,67.0
1,3,2,X789,Apple,2,Moussa,24.0
2,4,1,X990,Orange,1,Perrine,67.0
3,5,0,X789,Apple,0,Paul,
4,6,3,X999,Banana,3,Michel,76.0
5,7,2,X789,Apple,2,Moussa,24.0
