# Création de dataframe

Les dataframes python sont traités avec la librairie pandas. On peut créer des dataframes de plusieurs façon:
* à partire d'un dictionnaire
* à partir de liste
* à partire d'un fichier json
* à partire d'une matrice numpy.array
* à partire d'une ou plusieurs séries pandas
* à partir d'un ou plusieur dataframe pandas 
* à partire de fichier importé : fichier de type csv, excel, txt, json, page HTML (webscrapping), xml

Les dataframes python sont composés 
* d'un index perméttant d'identifier les lignes
* d'un ensemble de colonnes
* des données

Chaque colonne d'un dataframe est un objet de type pandas.Series.  

### Exemple (création d'un dataframe à partir d'un dictionnaire)
On va créer un dataframe à partir d'un dictionnaire. Ce dataframe sera le tableau suivant:<br>
$$\begin{array}{|c|c|c|c|}
\hline
      & COL0 & COL1 & COL2\\
\hline
id0 & voiture  & 16 &  52\\
\hline
id1 & vélo  & 18  & 44\\
\hline
id2 & moto &  24  & 23\\
\hline
id3 & voiture & 44 & 11\\
\hline
id4 & moto & 10 & 32\\
\hline
id5 & vélo & 3 & 8\\
\hline
\end{array} $$
<br>

In [19]:
import pandas as pd
Data1 = pd.DataFrame({'COL0':['voiture','vélo','moto','voiture','moto','vélo'],
                      'COL1':[16,18,24,44,10,3],'COL2':[52,44,23,11,32,8]},\
                     index=['id0','id1','id2','id3','id4','id5'])


In [13]:
Data1

Unnamed: 0,COL0,COL1,COL2
id0,voiture,16,52
id1,vélo,18,44
id2,moto,24,23
id3,voiture,44,11
id4,moto,10,32
id5,vélo,3,8


In [14]:
type(Data1['COL0'])

pandas.core.series.Series

### Exemple (création d'un dataframe à partir d'une liste)
On va créer un dataframe à partir d'une liste de liste. Ce dataframe sera le tableau suivant:<br>
$$\begin{array}{|c|c|c|c|c|}
\hline
      & COL0 & COL1 & COL2 & COL3\\
\hline
l0 & Paris  & 16 &  52 & 55\\
\hline
l1 & Grenoble  & 18  & 44 & 11\\
\hline
l2 & Nancy &  24  & 23 & 44\\
\hline
l3 & Dijon & 44 & 11 & 12\\
\hline
l4 & Grenoble & 10 & 32 & 71\\
\hline
\end{array} $$
<br>

In [8]:
import pandas as pd
Data2 = pd.DataFrame([['Paris',16,52,55],['Grenoble',18,44,11],['Nancy',24,23,44],\
                      ['Grenoble',10,32,71]],\
                     columns=['COL0','COL1','COL2','COL3'],index=['l0','l1','l2','l3'])
Data2.head(2)

Unnamed: 0,COL0,COL1,COL2,COL3
l0,Paris,16,52,55
l1,Grenoble,18,44,11


### Exemple (création d'un dataframe à partir d'un ensemble de série pandas)
On reprend le dataframe précédent. On va créer un dataframe en concaténant 4 series pandas:

In [7]:
import pandas as pd

S0 = pd.Series(['Paris', 'Grenoble','Nancy','Dijon','Grenoble'], \
               index=['l0', 'l1','l2','l3','l4'], name='COL0')
S1 = pd.Series([16, 18,24,44,10], index=['l0', 'l1','l2','l3','l4'], name='COL1')
S2 = pd.Series([52, 44,23,11,32], index=['l0', 'l1','l2','l3','l4'], name='COL2')
S3 = pd.Series([55, 11,44,12,72], index=['l0', 'l1','l2','l3','l4'], name='COL3')
Data3 = pd.concat([S0,S1,S2,S3],axis=1)

### Exemple (création d'un dataframe à partir d'un np.array)

In [10]:
import numpy as np
ar = np.array([[1.1, 2, 3.3, 4], [2.7, 10, 5.4, 7], [5.3, 9, 1.5, 15]])
df = pd.DataFrame(ar, index = ['a1', 'a2', 'a3'], columns = ['A', 'B', 'C', 'D'])
df.head(2)

Unnamed: 0,A,B,C,D
a1,1.1,2.0,3.3,4.0
a2,2.7,10.0,5.4,7.0


### Exercice
Créer le dataframe suivant de de 2 ou 3 manières différentes.<br>
$$\begin{array}{|c|c|c|c|}
\hline
      & Classe1 & Classe2 & Classe3 & classe4\\
\hline
machine learning & 10  & 9 &  4 & 8\\
\hline
stochastic integral & 15  & 15  & 9 & 4\\
\hline
python & 20 &  24  & 23 & 16\\
\hline
\LaTeX & 6 & 44 & 11 & 44\\
\hline
c++ & 12 & 10 & 32 & 11\\
\hline
\end{array} $$
<br>

# Colone, index, ligne, dimension, filtre

Dans cette section on montre comment trouver le nom de 
* colonne,...
* lignes

Nous donnons dans le tableau quelques attributs des dataframes:<br><br>
<table border="1" >
<tr>
 <td>columns</td> <td>The column labels of the DataFrame. </td>
</tr>
<tr>
 <td>index</td> <td>The index (row labels) of the DataFrame.   </td>
</tr>
<tr>
 <td>shape </td>  <td>Return a tuple representing the dimensionality of the DataFrame.  </td>
</tr>
<tr>
 <td>dtypes </td> <td>Return the dtypes in the DataFrame.  </td>
</tr>
<tr>
 <td>iloc</td> 	<td>Purely integer-location based indexing for selection by position.</td>
</tr>
<tr>
 <td>loc</td> 	<td>Access a group of rows and columns by label(s) or a boolean array.</td>
</tr>
<tr>
 <td>values </td>	<td>Return a Numpy representation of the DataFrame.</td>
</tr>
</table>

### Exemple 
* 1) Déterminer le nom des colonnes de Data3
* 2) Déterminer l'index de Data3 
* 3) Extraire la ligne 3 de deux manière différentes
* 4) Déterminer les dimensions de Data3
* 5) Créer un dataframe Data3bis en filtrant sur les lignes de Data3 ayant COL1>10 et COL2>11.
* 6) Créer un dataframe Data3bis_comp complémentaire de Data3bis
* 7) Créer un dataframe Data3tier en filtrant sur les lignes de Data3 ayant COL0 égale à Nancy ou Dijon. 

In [3]:
import pandas as pd

S0 = pd.Series(['Paris', 'Grenoble','Nancy','Dijon','Grenoble'], \
               index=['l0', 'l1','l2','l3','l4'], name='COL0')
S1 = pd.Series([16, 18,24,44,10], index=['l0', 'l1','l2','l3','l4'], name='COL1')
S2 = pd.Series([52, 44,23,11,32], index=['l0', 'l1','l2','l3','l4'], name='COL2')
S3 = pd.Series([55, 11,44,12,72], index=['l0', 'l1','l2','l3','l4'], name='COL3')
Data3 = pd.concat([S0,S1,S2,S3],axis=1)
Data3

Unnamed: 0,COL0,COL1,COL2,COL3
l0,Paris,16,52,55
l1,Grenoble,18,44,11
l2,Nancy,24,23,44
l3,Dijon,44,11,12
l4,Grenoble,10,32,72


1) On détermine le nom des colonnes du dataframe que l'on stocke dans l'objet DATA3_COL 

In [8]:
DATA3_COL = Data3.columns
DATA3_COL

Index(['COL0', 'COL1', 'COL2', 'COL3'], dtype='object')

2) On détermine l'index du dataframe Data3. L'index représente les lignes d'un dataframe 

In [10]:
DATA3_ROW = Data3.index
DATA3_ROW

Index(['l0', 'l1', 'l2', 'l3', 'l4'], dtype='object')

3) On extrait la ligne 3 de Data3 de deux façons différentes.<br>

In [14]:
#première méthode
Data3.loc['l3'].values

array(['Dijon', 44, 11, 12], dtype=object)

In [13]:
#deuxième façon
Data3.iloc[3,:].values

array(['Dijon', 44, 11, 12], dtype=object)

4) On détermine les dimensions de Data3 

In [19]:
dim = Data3.shape
print(str(dim))
nb_ligne = dim[0]
nb_col = dim[1]

print("nombre de ligne:" + str(nb_ligne))
print("nombre de colonne:" + str(nb_col))

(5, 4)
nombre de ligne:5
nombre de colonne:4


5) On crée un dataframe Data3bis en filtrant sur les lignes tel que COL1>10 et COL2>11

In [25]:
Data3bis = Data3.loc[(Data3['COL1']>10) & (Data3['COL2']>11)]
Data3bis

Unnamed: 0,COL0,COL1,COL2,COL3
l0,Paris,16,52,55
l1,Grenoble,18,44,11
l2,Nancy,24,23,44


6) On crée un dataframe Data3bis_comp complémentaire de Data3bis

In [27]:
Data3bis_comp = Data3.loc[~((Data3['COL1']>10) & (Data3['COL2']>11))]
Data3bis_comp

Unnamed: 0,COL0,COL1,COL2,COL3
l3,Dijon,44,11,12
l4,Grenoble,10,32,72


7) On crée un dataframe Data3tier en filtrant sur les lignes de Data3 tel que COL0 soit égale à Nancy ou Dijon. 

In [29]:
Data3tier = Data3.loc[Data3['COL0'].isin(['Nancy','Dijon'])]

### Exercice
* 1) Déterminer le nom des colonnes du dataframe data_house
* 2) Déterminer l'index du datframe data_house
* 3) Extraire la ligne 100 de deux façons
* 4) Trouver le nombre de lignes que telle data_house['CRIM']>3.6 et data_house['AGE']>68.
* 5) Changer l'index de data_house. Cet index doit être comme cela : ['l0', 'l1', 'l2', 'l3', 'l4', 'l5', 'l6', 'l7', 'l8', 'l9',...,'l501', 'l502', 'l503', 'l504','l505']. Extraire la ligne 200

Construction du dataframe data_house.

In [58]:
import numpy as np
import pandas as pd

from sklearn.datasets import load_boston
data_build = load_boston()
#print(data_build.feature_names)
#print(data_build.DESCR)

datavect=np.concatenate((data_build.data,data_build.target.reshape(506,1)),axis=1)
name_v=list(data_build.feature_names)+['MEDV']

data_house = pd.DataFrame(datavect,columns=name_v)

# Création colonne, fonction

http://queirozf.com/entries/pandas-dataframe-by-example <br>

https://support.spatialkey.com/spatialkey-sample-csv-data/<br>

In [1]:
import pandas as pd
import numpy as np
Data1 = pd.DataFrame({'COL0':['voiture','vélo','moto','voiture','moto','vélo'],
                      'COL1':[16,18,24,44,10,3],'COL2':[52,44,23,11,32,8],\
                     'COL3':[np.pi,2*np.pi,1.5*np.pi,1.2*np.pi,5.7*np.pi,8.14*np.pi]},\
                     index=['id0','id1','id2','id3','id4','id5'])

### Exemple
On créer une colonne Data1['new1'] qui est la somme de Data1['COL1']+Data1['COL3']:

In [75]:
Data1['new1'] = Data1['COL1'] + Data1['COL3'] 
Data1.head(3)

Unnamed: 0,COL0,COL1,COL2,COL3,new1
id0,voiture,16,52,3.141593,19.141593
id1,vélo,18,44,6.283185,24.283185
id2,moto,24,23,4.712389,28.712389


### Exemple
On créer une colonne Data1['COS'] qui est le cosinus de Data1['COL3']. On va devoir utiliser la fonction cos du package numpy.

In [82]:
import numpy as np
Data1['COS'] = np.cos(Data1['COL3'])
Data1['COS'].astype(str)

id0     -1.0
id1      1.0
id2    -1.83
id3    -0.80
id4    0.587
id5    0.904
Name: COS, dtype: object

### Exemple
On créer une colonne Data1['MAX'] qui est le maximum des colonnes Data1['COL1'], Data1['COL2'], Data1['COL3']. Vous remarquerez l'emploi de axis=1 dans la fonction max.

In [85]:
Data1['MAX'] = Data1[['COL1','COL2','COL3']].max(axis=1)
Data1.head(3)

Unnamed: 0,COL0,COL1,COL2,COL3,new1,COS,MAX
id0,voiture,16,52,3.141593,19.141593,-1.0,52.0
id1,vélo,18,44,6.283185,24.283185,1.0,44.0
id2,moto,24,23,4.712389,28.712389,-1.83697e-16,24.0


### Exemple
On créer un dataframe MAXIM dont la seule colonne est 'MAX'. Cette colonne est le maximum des colonnes Data1['COL1'], Data1['COL2'], Data1['COL3']. 

In [95]:
MAXIM = pd.DataFrame(Data1[['COL1','COL2','COL3']].max(axis=1),columns=['MAX'])
#MAXIM

### Exemple
On créer une colonne Data1['EXTRACT'] qui est l'extraction des 3 premiers caractères de Data1['COL0'].

In [6]:
Data1['EXTRACT'] = Data1['COL0'].str[0:3]
Data1['EXTRACT']

id0    voi
id1    vél
id2    mot
id3    voi
id4    mot
id5    vél
Name: EXTRACT, dtype: object

### Exercice
Le but de l'exercice est d'ajouter des colonnes au dataframe Datasim1 que l'on crée ci-dessous.<br>
1) Créer une colonne Datasim1['EXTRA'] qui est l'extraction des 2 premiers caractères de colonne  Datasim1['provenance']<br>
2) Créer une colonne Datasim1['MED'] qui est la médianne des variables Datasim1['var1'], Datasim1['var2'] et Datasim1['var3'].<br>
3) Créer une colonne Datasim1['SINUS'] qui est le sinus de la colonne Datasim1['var3'].  

In [1]:
from scipy.stats import norm
from numpy.random import randint, seed
import numpy as np
import pandas as pd
seed(seed=1998)

CLASSE = ['group1','group2','group3']
PROVE = ['PREPA','UNIV']

Datasim1 = {'group':[CLASSE[randint(0,3)] for i in range(0,20)],\
            'provenance':[PROVE[randint(0,2)]for i in range(0,20)],\
           'var1':norm.rvs(loc=10,scale=2,size=20),'var2':norm.rvs(loc=11,scale=3,size=20),\
            'var3':norm.rvs(loc=11,scale=3,size=20)}

Datasim1 = pd.DataFrame(Datasim1)

In [3]:
Datasim1.head(2)

Unnamed: 0,group,provenance,var1,var2,var3
0,group1,UNIV,13.049084,14.802893,15.965563
1,group2,UNIV,10.605237,9.197587,17.776026


# Logique apply, et np.where
* La logique apply permet d'appliquer une fonction python sur un dataframe.
* np.where permet de créer une colonne à partire de conditions appliquées à autre colonne 

### Création de Datasim2

In [4]:
from scipy.stats import uniform, norm
import numpy as np
import pandas as pd
from numpy.random import seed, randint
seed(seed=1998)
#somme sur une liste, extraction de l'élement 2 et 3
Datasim2 = {'var1':norm.rvs(loc=10,scale=2,size=10),'var2':norm.rvs(loc=13,scale=1,size=10)}
Datasim2 = pd.DataFrame(Datasim2)
Datasim2['var3'] = [uniform.rvs(loc=1,scale=6,size=20) for o in range(0,Datasim2.shape[0])] 
Datasim2['var4'] = [np.round(uniform.rvs(loc=1,scale=6,size=20)).tolist()\
                    for o in range(0,Datasim2.shape[0])]

In [5]:
Datasim2.head(2)

Unnamed: 0,var1,var2,var3,var4
0,13.078688,12.297775,"[5.08783643854, 4.31929530444, 5.60855798844, ...","[5.0, 4.0, 2.0, 2.0, 6.0, 4.0, 6.0, 3.0, 3.0, ..."
1,10.699885,13.118363,"[4.38565516955, 5.08968885244, 2.14772642592, ...","[2.0, 3.0, 4.0, 2.0, 2.0, 2.0, 4.0, 3.0, 1.0, ..."


### Exemple (utilisation de np.where)
On créer une variable Datasim2['var2cond']: 
* Si Datasim2['var2']<13 alors Datasim2['var2cond']='ok'
* Si Datasim2['var2']<13 alors Datasim2['var2cond']='ko'

In [35]:
import numpy as np
Datasim2['var2cond'] = np.where(Datasim2['var2']<13,'ok','ko')
Datasim2[['var2','var2cond']].head(3)

Unnamed: 0,var2,var2cond
0,12.297775,ok
1,13.118363,ko
2,14.383082,ko


### Exemple (utilisation de apply)

On créer une variable Datasim2['var2condbis']:
* Si Datasim2['var2']<13 alors Datasim2['var2condbis']='ok'
* Si Datasim2['var2']<13 alors Datasim2['var2condbis']='ko'


In [39]:
#lambda x: True if x % 2 == 0 else False
Datasim2['var2condbis'] = Datasim2['var2'].apply(lambda x: 'ok' if x<13 else 'ko')
Datasim2[['var2','var2cond','var2condbis']].head(3)

Unnamed: 0,var2,var2cond,var2condbis
0,12.297775,ok,ok
1,13.118363,ko,ko
2,14.383082,ko,ko


### Exemple (utilisation de apply)

On créer une variable Datasim2['var2condtier']:
* Si Datasim2['var2']<13 alors Datasim2['var2condtier']='ok'
* Si Datasim2['var2']<13 alors Datasim2['var2condtier']='ko'


In [43]:
def cond(x):
    if x<13:
        y='ok'
    else :
        y='ko'
    return(y)

Datasim2['var2condtier'] = Datasim2['var2'].apply(lambda x:cond(x))        

### Exemple
On extrait le troisième élément de chaque liste stocker dans Datasim2['var4']

In [52]:
Datasim2['var4extract'] = Datasim2['var4'].apply(lambda x:x[3])
Datasim2.head(3)

Unnamed: 0,var1,var2,var3,var4,var2cond,var2condbis,var2condtier,var1cond,var1condbis,sumvar3,var4extract
0,13.078688,12.297775,"[5.08783643854, 4.31929530444, 5.60855798844, ...","[5.0, 4.0, 2.0, 2.0, 6.0, 4.0, 6.0, 3.0, 3.0, ...",ok,ok,ok,non,non,85.916857,2.0
1,10.699885,13.118363,"[4.38565516955, 5.08968885244, 2.14772642592, ...","[2.0, 3.0, 4.0, 2.0, 2.0, 2.0, 4.0, 3.0, 1.0, ...",ko,ko,ko,non,non,79.394726,2.0
2,11.577937,14.383082,"[1.76799108326, 4.63829521568, 6.18488309772, ...","[1.0, 4.0, 4.0, 7.0, 5.0, 7.0, 3.0, 5.0, 6.0, ...",ko,ko,ko,non,non,83.174359,7.0


### Exercice
On travail à partir du dataframe Datasim2. (n'oublier pas de créer Datasim2')<br>
1) Créer une variable Datasim2['var1cond']: oui si $8<Datasim2['var1']<10$, non dans le cas contraire (on utilisera np.where)<br>
2) Créer une variable Datasim2['var1cond']: oui si $8<Datasim2['var1']<10$, non dans le cas contraire (on utilisera apply)<br>
3) Créer une variable Datasim2['sumvar3'] qui est la somme des np.array stocker dans var3.

# Agrégation de donnée, group by

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.DataFrameGroupBy.agg.html<br>
https://pandas.pydata.org/pandas-docs/stable/comparison_with_sql.html

In [6]:
#url = 'https://raw.github.com/pandas-dev/pandas/master/pandas/tests/data/tips.csv'
#tips = pd.read_csv(url)
semaine = ['lundi','mardi','mercredi','jeudi','vendredi']
a = 2
moyenne = [10,10+a,10+2*a,10+3*a,10+4*a]
sex = ['H','F']
repas = ['midi','soir']
from scipy.stats import norm
from numpy.random import randint, choice, seed
import pandas as pd
seed(seed=1998)


HF = choice(sex,replace=True,p=[1/3,2/3],size=100)
SOIR_MIDI = choice(repas,replace=True,p=[1/2,1/2],size=100)
#JOUR_FACT = [[randint(0,5)] for i in range(0,100)]
JOUR_FACT = []
for i in range(0,100):
    pos = randint(0,5)
    el = [semaine[pos],norm.rvs(loc=moyenne[pos],scale=2,size=1)[0]]
    JOUR_FACT.append(el)

JOUR = [o[0] for o in JOUR_FACT]
FACT = [o[1] for o in JOUR_FACT]

Data_a_aggrege = {'sex' : HF,'repas':SOIR_MIDI,'jour': JOUR,'total':FACT,'PB':randint(0,3,size=100)}
Data_a_aggrege = pd.DataFrame(Data_a_aggrege)

In [7]:
Data_a_aggrege.head(3)

Unnamed: 0,PB,jour,repas,sex,total
0,1,vendredi,midi,F,17.163936
1,2,jeudi,midi,F,12.491058
2,0,lundi,soir,H,8.332165


### Exemple
1) On va chercher les valeurs unique de la colonne repas. On convertit le résulat en list<br>
2) On va chercher le maximum de la colonne total.

In [81]:
Data_a_aggrege['repas'].unique().tolist()

['soir', 'midi']

In [7]:
max_total = Data_a_aggrege['total'].max()
max_total

21.963736630043087

### Exercice
1) Chercher la médianne de la colonne Data_a_aggrege['total'].<br>
2) Chercher les valeur unique de la colonne Data_a_aggrege['jour']. Mettre les résultats dans une list.

### Exemple. Calcule d'agrégat
On va calculer la moyenne de la colonne Data_a_aggrege['total'] par Data_a_aggrege['jour'] et Data_a_aggrege['sexe']

In [8]:
import numpy as np
agg1 = Data_a_aggrege.groupby(['jour','sex']).agg({'total':np.mean,'PB':np.max})
agg1.head(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,total,PB
jour,sex,Unnamed: 2_level_1,Unnamed: 3_level_1
jeudi,F,16.415232,2
jeudi,H,16.796861,2


### Exemple (calcule agrégat)
Ici on calcule la médianne et le max de Data_a_aggrege['total'] groupé par jour et sex. On calcule également le minimum et la moyenne de la variable Data_a_aggrege['PB'] groupé par jour et sex.

In [9]:
agg2 = Data_a_aggrege.groupby(['jour','sex']).agg({'total':['median','max'],'PB':['min','mean']})
agg2.head(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,total,total,PB,PB
Unnamed: 0_level_1,Unnamed: 1_level_1,median,max,min,mean
jour,sex,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
jeudi,F,16.628906,21.168633,0,0.863636
jeudi,H,17.102278,17.739241,0,1.5


### Exemple
Ici on regarde la répartition du nombre de ligne du dataframe Data_a_aggrege par jour,repas et sex: 

In [10]:
agg3 = Data_a_aggrege.groupby(['jour','repas','sex']).count()
agg3.head(3)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,PB,total
jour,repas,sex,Unnamed: 3_level_1,Unnamed: 4_level_1
jeudi,midi,F,12,12
jeudi,midi,H,3,3
jeudi,soir,F,10,10


### Exercice
1) Calculer la somme et la moyenne de la variable Data_a_aggrege['PB'] groupé par repas<br>
2) Calculer la somme et la moyenne de la variable Data_a_aggrege['total'] groupé par repas<br>
3) Faire les calcule 1) et 2) en une ligne de code

# Export et import de dataframe
Nous donnons dans le tableau quelques fonction d'export d'un dataframe:<br><br>
<table border="1" >
<tr>
 <td>to_csv([path_or_buf, sep, na_rep, …])</td> <td>Write DataFrame to a comma-separated values (csv) file</td>
</tr>
<tr>
 <td>to_dict([orient, into])</td> <td> Convert the DataFrame to a dictionary  </td>
</tr>
<tr>
 <td>to_excel(excel_writer[, sheet_name, na_rep, …])</td>  <td> Write DataFrame to an excel sheet</td>
</tr>
<tr>
 <td>to_pickle(path[, compression, protocol])</td> <td>Pickle (serialize) object to file.</td>
</tr>
</table>

Nous donnons dans le tableau quelques fonction d'importation d'un dataframe:<br><br>
<table border="1" >
<tr>
 <td>pandas.read_csv</td> <td>importation d'un fichier csv</td>
</tr>
<tr>
 <td>pandas.read_excel</td>  <td> importation d'un fichier excel</td>
</tr>
<tr>
 <td>pandas.read_pickle</td> <td> importation d'un fichier pickle</td>
</tr>
</table>

### Exemple (exportation de fichier)
1) Exporter le dataframe Data_a_aggrege dans un fichier excel<br>
2) Exporter le dataframe Data_a_aggrege dans un fichier csv<br>
3) Exporter le dataframe Data_a_aggrege dans un fichier pickle

In [41]:
Data_a_aggrege.to_csv("/home/fabien/Bureau/Python Dauphine/export/data.csv",sep=";",index=False)

Data_a_aggrege.to_excel("/home/fabien/Bureau/Python Dauphine/export/data.xlsx",sheet_name="data",index=False)

Data_a_aggrege.to_pickle("/home/fabien/Bureau/Python Dauphine/export/data.pkl")

### Exemple (importation de fichier)
Ci-dessous, nous importons 3 fichiers. Ces importations produisent des dataframes pandas. 

In [46]:
import pandas as pd
Dataimport1 = pd.read_csv("/home/fabien/Bureau/Python Dauphine/export/data.csv",sep=";",encoding='latin_1')

Dataimport2 = pd.read_excel("/home/fabien/Bureau/Python Dauphine/export/data.xlsx",sheet_name="data")

Dataimport3 = pd.read_pickle("/home/fabien/Bureau/Python Dauphine/export/data.pkl")

In [47]:
Dataimport3.head(3)

Unnamed: 0,PB,jour,repas,sex,total
0,1,vendredi,midi,F,17.163936
1,2,jeudi,midi,F,12.491058
2,0,lundi,soir,H,8.332165


In [45]:
Dataimport2.head(3)
#df.drop_duplicates()

Unnamed: 0,PB,jour,repas,sex,total
0,1,vendredi,midi,F,17.163936
1,2,jeudi,midi,F,12.491058
2,0,lundi,soir,H,8.332165


# Exercice à rendre

### Exercice 1
Dans cet exercice, on travail avec le fichier mpg.txt (Miles Per Gallon). Ce fichier est téléchargeable:<br>
* Voici un lien pour accéder au https://www.dropbox.com/sh/3sfu75df0lytgqk/AADLDVhlbnLtyFlyhRzt6yJta?dl=0<br>
* Voici un lien pour télécharger directement le fichier https://www.dropbox.com/s/s4v4wfllmdhaqtd/mpg.txt?dl=0<br>

Attention ce fichier n'a pas de nom de colonne.<br>
Voici les attributs et l'ordre dans lequel ces attributs apparaissent dans le fichier.
1. mpg: continuous
2. cylinders: multi-valued discrete
3. displacement: continuous
4. horsepower: continuous
5. weight: continuous
6. acceleration: continuous
7. model year: multi-valued discrete
8. origin: multi-valued discrete
9. car name: string (unique for each instance)

1) Importer ce fichier dans un dataframe pandas s'appelant mpg. Les noms des colonnes de ce fichiers doivent être:<br>
[mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name]

2) Quelle est la plus petite valeur de la variable mpg. Cette la valeur sera mise dans une variable min_mpg et sera afficher à l'aide d'un print. 

3) Certaint élément de la colonne horsepower ont la valeur '?'. Créer un dataframe mpgbis à partir de mpg en supriment les ligne de la colonne horsepower ayant pour valeur '?'. Convertir ensuite la colonne mpgbis['horspower'] en np.float64 à l'aide de astype.

4) Dans la suite de l'exercice on utilise le dataframe mpgbis. Trouver la moyenne de la colonne horsepower. Trouver ensuite la quantité de voiture dont la valeur de horsepower est supérieur à cette moyenne. Cette quantité sera miss dans une variable nb_voiture et sera afficher à l'aide d'un print.

5) Donner la moyenne et la medianne de mpgbis['weight'] et de mpgbis['acceleration'] pour chaque valeur de mpgbis['model year'] et mpgbis['origin'] (il faut faire un groupby 'model year' et 'origin'). Le résulat de cette requête sera stocker dans un dataframe agg_car. Afficher les 3 première ligne de agg_car.

6) Trouver les valeurs unique de mpgbis['origin'] que l'on stockera dans une variable origine_unique. A partir de mpgbis créer 3 dataframe comme suit:
* créer un dataframe dont la colonne mpgbis['origin'] vaut 1, 
* créer un dataframe dont la colonne mpgbis['origin'] vaut 2, 
* créer un dataframe dont la colonne mpgbis['origin'] vaut 3.

Ensuite, exporter ces 3 dataframes dans fichier excel export_car.xlsx ayant 3 feuillets: origine1, origine2 et origine3. Vous pouvez consulter la page internet suivante:<br>
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_excel.html

7) Donner la moyenne et la médianne mpgbis['horsepower'] par  mpgbis['model year']. Le résultat sera stocker dans un dataframe agg_horse.<br>
Changer l'index de ce dataframe. Cet index sera de la forme suivante: '1970-01-01','1971-02-01',...,'1980-03-01'. Vous pouvez utiliser la fonction date du package datetime. Vous pouvez également utiliser la focntion du package pandas pd.date_range.<br>
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.date_range.html