# <center> INTRODUCTION À PYTHON POUR L'ÉCONOMIE APPLIQUÉE</center>
## <center> COURS 5 : </center>
## <center> DONNÉES: LECTURE, FORMATAGE, SAUVEGARDE</center>
#### <center>Michal Urdanivia (UGA)</center>
#### <center> michal.wong-urdanivia@univ-grenoble-alpes.fr </center>

### <center> VUE D'ENSEMBLE </center>

### Thèmes et objectifs

On présente les éléments de base de la bibliothèque **pandas** pour notamment:

* La lecture de données.
* La mise en forme.
* La sauvegarde.

### Références: 

Il en existe énormément dont: 

* [Documentation](https://pandas.pydata.org/docs/) de pandas,
* [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/) par [Jake VanderPlas](http://vanderplas.com/)
* [Lecture sur pandas](https://datascience.quantecon.org/pandas/index.html) dans le volet [Data Science](https://datascience.quantecon.org/) 
de [QuantEcon](https://quantecon.org/)
* [Antisèche par DataCamp](https://www.datacamp.com/community/blog/python-pandas-cheat-sheet)

In [1]:
# Imports

import pandas as pd
from IPython.display import display
import matplotlib.pyplot as plt
plt.style.use('seaborn-whitegrid')

### <center> LE DATAFRAME DE PANDAS </center>

Le type d'objet fondamental pour pandas est le **dataframe**. Par exemple le code suivant crée un dataframe avec 3 variables et 3 observations:

In [2]:
dat = pd.DataFrame(data = [[1,67.39,'France', 38625.07],[2,128.9,'Mexique', 8346.70], [3, 32.97,'Pérou', 6126.87],
[4, 144.1,'Russie', 10126.72]],  columns=['id','nhab','pays', 'PibHab'])
dat

Unnamed: 0,id,nhab,pays,PibHab
0,1,67.39,France,38625.07
1,2,128.9,Mexique,8346.7
2,3,32.97,Pérou,6126.87
3,4,144.1,Russie,10126.72


**Un dataframe peut être vu pour l'essentiel comme une matrice.**

* lignes = observations 
* colonnes = variables 

**Information d'ensemble:**

In [3]:
dat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   id      4 non-null      int64  
 1   nhab    4 non-null      float64
 2   pays    4 non-null      object 
 3   PibHab  4 non-null      float64
dtypes: float64(2), int64(1), object(1)
memory usage: 256.0+ bytes


**Signification de `object`:** en pratique cela indique le type `str`.

**Remarque:** affichage au milieu d'un code.

In [4]:
print('avant')
display(dat)
print('après')

avant


Unnamed: 0,id,nhab,pays,PibHab
0,1,67.39,France,38625.07
1,2,128.9,Mexique,8346.7
2,3,32.97,Pérou,6126.87
3,4,144.1,Russie,10126.72


après


### Indexation ("subsetting") 

**Le choix/l'extraction de lignes et/ou colonnes sur un dataframe est connu comme l'indexation**. 

Nous avons traité dans les cours précédents du ***slicing*** et des ***indices logique***. Pandas étant construit à partir de Numpy, nous pouvons faire ces mêmes opérations avec un dataframe.

Tous les dataframes sont sujets aux méthodes `.loc[]` and `.iloc[]`: 
* `.iloc[]` concerne les indices numériques,
* `loc[]` concerne les indices logiques, ou basés sur des noms(des variables).
Par exemple:
* `dat.loc[:, ['pays']]` extraie toutes les lignes de df (indiqué par `:`) mais seulement la colonne `cr`. 
* `dat.loc[dat['pays'] == 'Pérou', :]` extraie les lignes où `pays` est égale à 'Pérou' et toutes les colonnes (indiqué par `:`)
* `dat.loc[dat['pays'] == 'Russie', ['PibHab']]` extraie la variable `PibHab` et affiche la ligne où `pays` est égale à 'Russie'. 

In [5]:
display(dat.loc[:, ['pays']])
display(dat.loc[dat['pays'] == 'Pérou', :])
dat.loc[dat['pays'] == 'Russie', ['PibHab']]

Unnamed: 0,pays
0,France
1,Mexique
2,Pérou
3,Russie


Unnamed: 0,id,nhab,pays,PibHab
2,3,32.97,Pérou,6126.87


Unnamed: 0,PibHab
3,10126.72


En règle générale la **syntaxe** est `df.loc[CONDITION, [VARLIST]]`, où `CONDITION` est un vecteur de déclaration logiques de même longueur que le nombre de lignes dans le dataframe, et `VARLIST` est une liste parmi les variables variables/colonnes du dataframe. 

Trois lignes, deux variables:

In [6]:
dat.loc[dat['id'] > 1, ['pays', 'PibHab']]

Unnamed: 0,pays,PibHab
1,Mexique,8346.7
2,Pérou,6126.87
3,Russie,10126.72


Toutes les variables:

In [7]:
dat.loc[dat['id'] > 1]

Unnamed: 0,id,nhab,pays,PibHab
1,2,128.9,Mexique,8346.7
2,3,32.97,Pérou,6126.87
3,4,144.1,Russie,10126.72


**Alternatives:**

Avec série booléenne

In [8]:
I = dat['id'] > 1
print(I)
dat.loc[I, ['pays', 'PibHab']]

0    False
1     True
2     True
3     True
Name: id, dtype: bool


Unnamed: 0,pays,PibHab
1,Mexique,8346.7
2,Pérou,6126.87
3,Russie,10126.72


Avec la notation `.VARIABLE`:

In [9]:
dat.loc[(dat.id > 1) & (dat.PibHab > 7000), ['id','pays']]

Unnamed: 0,id,pays
1,2,Mexique
3,4,Russie


Sur le 'débat' autour de la notation avec guillemets('bracket notation') et celle avec un point('dot notation') pour extraire une variable, vous pouvez consulter sur le web les discussions/arguments pour l'une ou l'autre. Par exemple: [ici pour lee point](https://www.dataschool.io/pandas-dot-notation-vs-brackets/), et pour les [guillemets ici](https://www.dunderdata.com/blog/use-the-brackets-to-select-a-single-pandas-dataframe-column-and-not-dot-notation)

<span style="color:red"> **WARNING!**</span>  on peut extraire du contenu avec un indice numérique en employant `.loc`. Mais dans ce cas nous ne sommes pas avec des intervalles semi-ouverts. Nous sommes avec des intervalles fermés. En conséquences, le mieux c'est de toujours utiliser `.iloc`avec un indice numérique.





Extraire avec des indices numériques fonctionne comme pour les arrays(c.f., cours précédents)  

**Syntaxe:** `df.iloc[indices-lignes, [indices-colonnes]]`. 

Un exemple ici,

In [10]:
display(dat.iloc[0:2,[0,2]])

Unnamed: 0,id,pays
0,1,France
1,2,Mexique


et à éviter(on essaye avec `.loc`)

In [11]:
try: 
    display(dat.loc[0:2,[0,2]])
    print('possible')
except:
     print('impossible')



impossible


À retenir: intervalles **semi-ouverts**: $ [a, b) ,  [b, c), \ldots $!

### Ajout de variables

On ajoute des variables au dataframe avec `dat['var'] = qqchose` avec des longueurs compatibles entre gauche et droite.

Jusqu'ici nous avons utilisé dataframe dont nous avons défini les entrées. À présente nous allons présenter différentes opérations que l'on peut réaliser sur un data frame en prenant comme exemple des données "réelles". 

Nous allons utiliser des données de l'enquête COI de 2007 dont vous avez l'accès au dossier GoogleDrive où un échantillon pour le cours se trouve. Vous y trouverez aussi de la documentation.

In [12]:
dat['esperance_vie_femmes'],  dat['esperance_vie_hommes']= [85.3, 78.2, 79.51, 78.2], [79.3, 72.6, 74.06,	67.6]
dat

Unnamed: 0,id,nhab,pays,PibHab,esperance_vie_femmes,esperance_vie_hommes
0,1,67.39,France,38625.07,85.3,79.3
1,2,128.9,Mexique,8346.7,78.2,72.6
2,3,32.97,Pérou,6126.87,79.51,74.06
3,4,144.1,Russie,10126.72,78.2,67.6


**Remarque:** 
* il est impossible de créer avec `dat.newvar = qqchose`. Cela est un oubli fréquent!
* il est possible d'ajouter une variable sans dimension-lignes explicite.

L'ajout(le **qqchose**) peut être une expression à partir d'autres variables.

In [84]:
dat['moy_esperance_vieHF'] = ( dat['esperance_vie_femmes'] + dat['esperance_vie_hommes'] ) / 2
dat

Unnamed: 0,id,nhab,pays,PibHab,esperance_vie_femmes,esperance_vie_hommes,moy_esperance_vieHF
0,1,67.39,France,38625.07,85.3,79.3,82.3
1,2,128.9,Mexique,8346.7,78.2,72.6,75.4
2,3,32.97,Pérou,6126.87,79.51,74.06,76.785
3,4,144.1,Russie,10126.72,78.2,67.6,72.9


### Affectation vers un sous-ensemble de lignes

**À gauche:** choisir avec des expression logiques.<br>
**À droite:** on peut avoir:

1. une **valeur seule** (à toutes lignes on donne celle-ci ) 
2. une **liste de valeurs** de même longueur que le nombre de lignes choisies

**Plusieurs lignes, une seule valeur:**

In [13]:
# Création d'une copie pour éviter d'écraser le dataframe
dat_b = dat.iloc[:,0:4].copy()
dat_b.loc[dat_b.id > 1, ['pays']] = 'sans nom'
print('dat_b àprès changement des noms des pays:')
dat_b

dat_b àprès changement des noms des pays:


Unnamed: 0,id,nhab,pays,PibHab
0,1,67.39,France,38625.07
1,2,128.9,sans nom,8346.7
2,3,32.97,sans nom,6126.87
3,4,144.1,sans nom,10126.72


Plusieurs lignes et plusieurs valeurs

In [14]:
# Création d'une copie pour éviter d'écraser le dataframe
dat_b = dat.iloc[:,:].copy()
dat_b.loc[dat_b.id > 1, ['pays']] = ['Mexico', 'Perú', 'Россия']
print('dat_b àprès changement des noms des pays:')
dat_b

dat_b àprès changement des noms des pays:


Unnamed: 0,id,nhab,pays,PibHab,esperance_vie_femmes,esperance_vie_hommes
0,1,67.39,France,38625.07,85.3,79.3
1,2,128.9,Mexico,8346.7,78.2,72.6
2,3,32.97,Perú,6126.87,79.51,74.06
3,4,144.1,Россия,10126.72,78.2,67.6


Autre exemple,

In [15]:
print('df originel:')
dat_b = dat.iloc[:, :].copy()
display(dat_b)

# À gauche: sous-ensemble de lignes, où le pays est Pérou ou Mexique. 
I = (dat_b.pays == 'Pérou') | (dat_b.pays == 'Mexique') | (dat_b.nhab >= 144)

# Affichage
print('sous ensemble, la gauche dans l\'affectation:')
display(dat_b.loc[I,:])

# Affectation
dat_b.loc[I, ['pays']] = [ 'Mexico','Perú', 'Россия']

print('DF final:')
dat_b

df originel:


Unnamed: 0,id,nhab,pays,PibHab,esperance_vie_femmes,esperance_vie_hommes
0,1,67.39,France,38625.07,85.3,79.3
1,2,128.9,Mexique,8346.7,78.2,72.6
2,3,32.97,Pérou,6126.87,79.51,74.06
3,4,144.1,Russie,10126.72,78.2,67.6


sous ensemble, la gauche dans l'affectation:


Unnamed: 0,id,nhab,pays,PibHab,esperance_vie_femmes,esperance_vie_hommes
1,2,128.9,Mexique,8346.7,78.2,72.6
2,3,32.97,Pérou,6126.87,79.51,74.06
3,4,144.1,Russie,10126.72,78.2,67.6


DF final:


Unnamed: 0,id,nhab,pays,PibHab,esperance_vie_femmes,esperance_vie_hommes
0,1,67.39,France,38625.07,85.3,79.3
1,2,128.9,Mexico,8346.7,78.2,72.6
2,3,32.97,Perú,6126.87,79.51,74.06
3,4,144.1,Россия,10126.72,78.2,67.6


### Copies vs. vues

Dans le cours 1, nous avons traité des références multiples et comment une modification dans la référence peut impacter l'objet originel. Pandas protège de ces inconvénients. Voici comment: quand on jette un coup d'œil aux données il est naturel d'éviter le `.loc`(comme c'est le cas dans beaucoup d'autres langages).

In [16]:
# On utilise pas la fonction '.loc'
dat_c = dat_b[['id','pays']]
dat_c

Unnamed: 0,id,pays
0,1,France
1,2,Mexico
2,3,Perú
3,4,Россия


On peut même en extraire un sous-ensemble

In [17]:
I = dat_b['id'] > 1
dat_c[I]

Unnamed: 0,id,pays
1,2,Mexico
2,3,Perú
3,4,Россия


Il est important de voir que ceci ne fonctionne pas quand on cherche à affecter des éléments.

**Cas 1:** parfois cela ne marche pas du tout.

In [18]:
display(dat)
dat_b = dat.copy() # on crée une nouvelle instance en copiant l'originelle
dat_c = dat_b[['id','pays']] # renvoie une vue par le biais d'une affectation en chaîne
dat_d = dat_b.loc[:, ['id','pays']] 
I = dat_b['id'] > 1

Unnamed: 0,id,nhab,pays,PibHab,esperance_vie_femmes,esperance_vie_hommes
0,1,67.39,France,38625.07,85.3,79.3
1,2,128.9,Mexique,8346.7,78.2,72.6
2,3,32.97,Pérou,6126.87,79.51,74.06
3,4,144.1,Russie,10126.72,78.2,67.6


In [19]:
# On ne peut changer dat_c en raison de la méthode d'affectation
dat_c.loc[I, ['pays']] = 'test'

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_column(loc, value, pi)


Mais cela fonctionne avec dat_d

In [20]:
dat_d.loc[I, ['pays']] = 'test'
display(dat_b) # cependant les pays ne sont pas modifiés dans dat_b
display(dat_d)

Unnamed: 0,id,nhab,pays,PibHab,esperance_vie_femmes,esperance_vie_hommes
0,1,67.39,France,38625.07,85.3,79.3
1,2,128.9,Mexique,8346.7,78.2,72.6
2,3,32.97,Pérou,6126.87,79.51,74.06
3,4,144.1,Russie,10126.72,78.2,67.6


Unnamed: 0,id,pays
0,1,France
1,2,test
2,3,test
3,4,test


**Cas 2:** cela peut parfois fonctionner mais de façon inattendue.

In [21]:
#display(X)
dat_b = dat.copy()

I = dat_b['id'] > 1
dat_c = dat_b['pays'] # renvoie une vue de la colonne (même chose avec dat_b.pays)
dat_c[I] = 'test' # Réaffectation  sur la vue du pays dans dat_b
dat_b

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dat_c[I] = 'test' # Réaffectation  sur la vue du pays dans dat_b


Unnamed: 0,id,nhab,pays,PibHab,esperance_vie_femmes,esperance_vie_hommes
0,1,67.39,France,38625.07,85.3,79.3
1,2,128.9,test,8346.7,78.2,72.6
2,3,32.97,test,6126.87,79.51,74.06
3,4,144.1,test,10126.72,78.2,67.6


**Solution:** faire l'affectation en une fois.

In [22]:
I = dat_b['id'] > 1
dat_b.loc[I, ['pays']] = 'test'
dat_b

Unnamed: 0,id,nhab,pays,PibHab,esperance_vie_femmes,esperance_vie_hommes
0,1,67.39,France,38625.07,85.3,79.3
1,2,128.9,test,8346.7,78.2,72.6
2,3,32.97,test,6126.87,79.51,74.06
3,4,144.1,test,10126.72,78.2,67.6


In [24]:
# affichage des indices
print(dat.index.values)

id                             1
nhab                       67.39
pays                      France
PibHab                  38625.07
esperance_vie_femmes        85.3
esperance_vie_hommes        79.3
Name: 0, dtype: object
[0 1 2 3]


## L'indice

La première colonne  dans une base de données est l'indice(`index`) du dataframe.<br>
**Par défaut:** sans indications particulière c'est simplement `[0, 1, 2, ....]`.

### <center> LECTURE DE DONNÉES</center>

**À vérifier:** que le dossier **/Users/michalurdanivia/Google Drive/COI_2006/COI/** existe et que les données y sont.

**Remarque**: vous devez changer l'emplacement en fonction de l'emplacement sur votre poste.

In [3]:
import os 

# Emploi de assert pour vérifier que l'emplacement existe sur le poste. Voir cours/notebooks précédents pour des détails.
path = '/Volumes/GoogleDrive/Mon Drive/COI_2006/COI/'
assert os.path.isdir(path)
assert os.path.isfile(path + 'COI.csv')

# Affichage du contenu du dossier
os.listdir(path)

['Icon\r',
 'sample4.csv',
 'COI.csv',
 'sample2.csv',
 'sample3.csv',
 'sample1.csv']

### Formats

Pandas permet de lire et écrire en différents formats. Les fonctions dans ce but on des noms significatifs:

* CSV: `pd.read_csv()`
* SAS: `pd.read_sas()`
* Excel: `pd.read_excel()`
* Stata: `pd.read_stata()`
* Parquet: `pd.read_parquet()`

### Jeter un coup d'œil aux données

* `df.head(10)` affiche les 10 premières lignes(remarque: `df.head()` est la syntaxe par défaut et affiche les 5 premières lignes)
* `df.sample(10)` affiche 10 lignes tirées aléatoirement(remarque:`df.sample()` est la syntaxe par défaut et affiche 5 lignes tirées aléatoirement.

**Exemple**: ci-après on lit les données du fichier 'COI.csv', et on affiche les 10 premières lignes et 10 lignes tirées aléatoirement.

In [4]:
df = pd.read_csv(path + 'COI.csv', low_memory=False) 
df.head(10)

Unnamed: 0,SSECH,Acceptt,STATUT,TYPEMPLOI,CLASSIF,FONCTION,Corps,Contra,Missio,Sectutil1,...,w,ebe,ka2_fin,sect_agr,crea2004_5,effl_corr,effl_corr_corr,taille7,taille5,asiren
0,0,1,3,6,9,7,,1.0,3.0,,...,18281.0,9602.0,,IAA,0,484,,5,4,aaahaloph
1,10,1,3,6,5,8,,1.0,3.0,,...,18281.0,9602.0,,IAA,0,484,,5,4,aaahaloph
2,0,1,3,6,5,4,,1.0,3.0,,...,18281.0,9602.0,,IAA,0,484,,5,4,aaahaloph
3,0,1,3,6,7,1,,1.0,3.0,,...,18281.0,9602.0,,IAA,0,484,,5,4,aaahaloph
4,0,1,3,6,2,1,,1.0,3.0,,...,2730.0,1313.0,,Biens de conso,0,72,,3,3,aaahhupax
5,0,1,3,6,7,7,,1.0,3.0,,...,1935.0,810.0,,Commerces,0,48,,2,2,aaahhzual
6,10,1,3,6,3,2,,1.0,3.0,,...,1935.0,810.0,,Commerces,0,48,,2,2,aaahhzual
7,0,1,3,6,9,4,,1.0,3.0,,...,1935.0,810.0,,Commerces,0,48,,2,2,aaahhzual
8,0,1,3,6,3,11,,1.0,3.0,,...,,,,Finance & Immo,0,69,,3,3,aaahphaua
9,10,1,3,6,5,7,,1.0,3.0,,...,29183.0,2090.0,,Commerces,0,2701,,7,5,aaahphoeu


In [5]:
df.sample(10)

Unnamed: 0,SSECH,Acceptt,STATUT,TYPEMPLOI,CLASSIF,FONCTION,Corps,Contra,Missio,Sectutil1,...,w,ebe,ka2_fin,sect_agr,crea2004_5,effl_corr,effl_corr_corr,taille7,taille5,asiren
11497,0,2,3,6,5,7,,1.0,3.0,,...,40396.0,6690.0,,Biens de conso,0,699,,6,5,puzoceeuo
4007,0,1,3,6,2,1,,1.0,3.0,,...,461.0,,,Finance & Immo,0,29,,2,2,hhhpoupuz
6444,0,2,3,6,9,4,,1.0,3.0,,...,5754.0,314.0,,Transports,0,139,,4,3,hpcpolelp
524,0,1,3,6,9,7,,1.0,3.0,,...,,,,Finance & Immo,0,1198,,7,5,aauzpezua
4920,0,1,3,6,2,1,,1.0,3.0,,...,17209.0,524.0,,IAA,0,489,,5,4,hllhlcepu
8281,0,1,3,6,5,4,,1.0,3.0,,...,1007.0,-25.0,,Commerces,0,30,,2,2,hxpopoxlc
1432,0,2,3,6,7,8,,1.0,3.0,,...,7451.0,1692.0,,Construction,0,179,,4,3,azeuccpxc
8801,0,1,3,6,7,7,,1.0,3.0,,...,45974.0,-13020.0,,Biens �quip.,0,715,,6,5,lpzzuczoz
11332,0,1,3,6,5,1,,1.0,3.0,,...,24275.0,8703.0,,Biens interm & energie,0,592,,6,5,ppuaxcxlu
9883,10,2,3,6,2,1,,2.0,3.0,,...,437353.0,-130582.0,,Biens de conso,0,7295,,7,5,pcxocuuxa


### Choix de variables

Supposons que l'on souhaite décrire les lien entre le sentiment que son travail est "utile aux autres", le niveau d'études, la catégorie socioprofessionnelle, le sexe, et l'âge. Pour cela nous allons extraire les variables suivante(c.f., dictionnaire de COI 2007 dans le dépôt Google Drive):

* **UTILE**,
* **DIPLOME**, 
* **CSCOR**, 
* **SEXE**,
* **AG5**.

Dans pandas cela peut être fait par la syntaxe suivante,

In [18]:
select_var = df[['Utile', 'Diplome', 'cscor', 'sexe', 'ag5']]
df2 = select_var.copy()
df2.shape

(14369, 5)

**Commentaire: copies et vues** 

Dans le cours 1, nous avons traité des références multiples et comment une modification dans la référence peut impacter l'objet originel. Pandas protège de ces inconvénients. Voici comment,

###