# Manipulation des donn√©es avec Pandas

---
## Pr√©sentation

Pandas est une librairie Python sp√©cialis√©e dans l‚Äôanalyse des donn√©es. Nous nous int√©resserons
surtout aux fonctionnalit√©s de manipulations de donn√©es qu‚Äôelle propose. Un objet de type "data frame", qui permet de r√©aliser de nombreuses op√©rations de filtrage, pr√©traitements, etc., pr√©alables √† la mod√©lisation statistique.
La [librairie est tr√®s largement document√©e](https://pandas.pydata.org/).
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1920px-Pandas_logo.svg.png" alt="Logo Librairie Panda" title="Librairie Panda" width="256">

Pour commencer, nous utiliserons la fonction de üêº pour lire ou √©crire un fichier, dans notre cas un csv, mais üêº accepte d'autre format : [JSON, SQL, ...](https://pandas.pydata.org/docs/user_guide/io.html?highlight=read)

> *La fonction `.read_csv()` accepte plusieurs [arguments](https://pandas.pydata.org/docs/user_guide/io.html?highlight=read#io-read-csv-table), (qui vont permettre, avec la maitrise de cette librairie, de pouvoir commencer un pr√©-traitement de la donn√©e selon le type d'extension, les possibilit√©es sont tres vastes). Dans notre cas nous ne d√©finirons le symbole de separation car par default ",".*

In [30]:
import pandas as pa

arbres_df = pa.read_csv("./p2-arbres-fr.csv", sep=";")
#v√©rifions le type de df
print(type(arbres_df))

<class 'pandas.core.frame.DataFrame'>


## Structure DataFrame
Une matrice DataFrame correspond √† une matrice individus-variables o√π les lignes correspondent √† des observations, les colonnes √† des attributs d√©crivant les individus.
Nous allons maintenant afficher diff√©rente fonction pour analyser la structure
### shape
< *`.shape` : qui retourne un tuple qui repr√©sente les dimensions de notre Dataframe.*

In [31]:
arbres_df.shape

(200137, 18)

### head
Avec [üêº.head()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html?highlight=head#pandas.DataFrame.head), nous allons pouvoir observer un rapide aper√ßu de notre DataFrame:`notre_variable.head()`
> *La fonction  `.tail()`  est le pendant de la fonction `.head()`  . Elle permet d'afficher les derniers √©l√©ments du DataFrame.*

Ici, nous pouvons d√©j√† observer que certaines colonnes &| lignes poss√®dent des valeurs vides repr√©sent√©es par `NaN`.
On peut d√©finir le nombre de lignes afficher(par d√©faut 5)

In [32]:
arbres_df.head(n=4)

Unnamed: 0,id,type_emplacement,domanialite,arrondissement,complement_addresse,numero,lieu,id_emplacement,libelle_francais,genre,espece,variete,circonference_cm,hauteur_m,stade_developpement,remarquable,geo_point_2d_a,geo_point_2d_b
0,99874,Arbre,Jardin,PARIS 7E ARRDT,,,MAIRIE DU 7E 116 RUE DE GRENELLE PARIS 7E,19,Marronnier,Aesculus,hippocastanum,,20,5,,0.0,48.85762,2.320962
1,99875,Arbre,Jardin,PARIS 7E ARRDT,,,MAIRIE DU 7E 116 RUE DE GRENELLE PARIS 7E,20,If,Taxus,baccata,,65,8,A,,48.857656,2.321031
2,99876,Arbre,Jardin,PARIS 7E ARRDT,,,MAIRIE DU 7E 116 RUE DE GRENELLE PARIS 7E,21,If,Taxus,baccata,,90,10,A,,48.857705,2.321061
3,99877,Arbre,Jardin,PARIS 7E ARRDT,,,MAIRIE DU 7E 116 RUE DE GRENELLE PARIS 7E,22,Erable,Acer,negundo,,60,8,A,,48.857722,2.321006


### isnull & sum
Profitons du fait de voir des `NaN` pour utiliser la combinaison de commande pratique de üêº `.isnull()` & `sum()`.
> [Isnull](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isnull.html?highlight=isnull#pandas.DataFrame.isnull) nous retourne un tableau de bool√©ens de m√™me taille que notre Dataframe Les valeurs `NaN`, telles que None ou [numpy.NaN](https://numpy.org/doc/stable/reference/constants.html?highlight=nan#numpy.NaN), sont mapp√©es aux valeurs `True`. Tout le reste est mapp√© sur des valeurs ``False``.
> [Sum](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sum.html?highlight=sum#pandas.DataFrame.sum) Renvoie la somme des valeurs sur l'axe demand√©.
> > *par defaut : `DataFrame.sum(axis=None, skipna=None, level=None, numeric_only=None, min_count=0, **kwargs)`*

In [33]:
arbres_df.isnull().sum()

id                          0
type_emplacement            0
domanialite                 1
arrondissement              0
complement_addresse    169235
numero                 200137
lieu                        0
id_emplacement              0
libelle_francais         1497
genre                      16
espece                   1752
variete                163360
circonference_cm            0
hauteur_m                   0
stade_developpement     67205
remarquable             63098
geo_point_2d_a              0
geo_point_2d_b              0
dtype: int64

#### type de chaque colonne
Afin de d√©finir nos types de variables, et nous permettre de savoir comment les traiter dans notre etude ult√©rieurement.

<img src="https://user.oc-static.com/upload/2017/10/30/15094028245878_Variables.jpeg" width="512">

> *Dans notre Dataframe le Type Objet est bien s√ªr un String üòâ.*

In [34]:
print(arbres_df.dtypes)

id                       int64
type_emplacement        object
domanialite             object
arrondissement          object
complement_addresse     object
numero                 float64
lieu                    object
id_emplacement          object
libelle_francais        object
genre                   object
espece                  object
variete                 object
circonference_cm         int64
hauteur_m                int64
stade_developpement     object
remarquable            float64
geo_point_2d_a         float64
geo_point_2d_b         float64
dtype: object


### Describe

## G√©n√©ration des statistiques descriptive

Les [statistiques descriptives](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html?highlight=describe#pandas.DataFrame.describe) incluent celles qui r√©sument la tendance centrale, la dispersion et la forme de la distribution d'un ensemble de donn√©es, √† l'exclusion des `NaN` valeurs.

Analyse √† la fois les s√©ries num√©riques (Quantitative) et les s√©ries d'objets (Qualitative), ainsi que les DataFrame ensembles de colonnes de types de donn√©es mixtes. La sortie varie en fonction de ce qui est fourni.
> *DataFrame.describe(percentiles=None, include=None, exclude=None, datetime_is_numeric=False)*

<p><b>count :</b> comptage du nombre de cellules de notre Dataframe</p>
<p><b>mean :</b> moyenne des valeurs :
$$
\overline{X}_n=\frac{1}{n}\sum^{n}_{i=1}X_{i}
$$
</p>
<p><b>std :</b> ecart type :
$$
\sigma \ ou \ s=\sqrt{v},\\ avec \ v=\frac{1}{n}\sum^n_{i=1}(x_i-\overline{x})^{2}
$$
</p>
<p><b>percentile :</b> centiles inclut √† la sortie, celui de 50% nous indique la mediane repr√©sent√©e par:
$$
\ Med = x_{(\frac{n+1}{2})}
$$
</p>
<p><b>Min & Max :</b> comme leurs noms l'indique, mais permet d'avoir une premi√®re approche des valeurs aberrantes </p>

> *dans notre exemple ci-dessous des arbres de "0" de hauteur ou de circonf√©rence, √† contrario de 800k m de haut ou circonf√©rence de 250 m ! üòÖ*

In [35]:
arbres_df.describe()

Unnamed: 0,id,numero,circonference_cm,hauteur_m,remarquable,geo_point_2d_a,geo_point_2d_b
count,200137.0,0.0,200137.0,200137.0,137039.0,200137.0,200137.0
mean,387202.7,,83.380479,13.110509,0.001343,48.854491,2.348208
std,545603.2,,673.190213,1971.217387,0.036618,0.030234,0.05122
min,99874.0,,0.0,0.0,0.0,48.74229,2.210241
25%,155927.0,,30.0,5.0,0.0,48.835021,2.30753
50%,221078.0,,70.0,8.0,0.0,48.854162,2.351095
75%,274102.0,,115.0,12.0,0.0,48.876447,2.386838
max,2024745.0,,250255.0,881818.0,1.0,48.911485,2.469759


## Recherche et somme des valeurs manquante du DataFrame dans chaque colonne
> Pr√©c√©demment nous avions utilis√© la combinaison de fonction `.isnull().sum()`.
> Il en ressort que certaines colonnes sont quasiment vides (numeros, variet√©..) et d'autres avec quelques valeurs manquantes comme "dominialit√©" et "genre".

commen√ßons par "dominialit√©", nous affichons les valeurs qualitatives de cette colonne.
> *on remarque au passage la facilit√© pour cibler une colonne en particulier et l'utilisation de la fonction `.unique()` [doc.](https://pandas.pydata.org/docs/reference/api/pandas.Series.unique.html?highlight=unique#pandas.Series.unique), qui retourne un tableau numpy.*

En derni√®re position on retrouve notre `NaN`.

In [36]:
arbres_df.domanialite.unique()

array(['Jardin', 'Alignement', 'DJS', 'DFPE', 'CIMETIERE', 'DASCO', 'DAC',
       'PERIPHERIQUE', 'DASES', nan], dtype=object)

#### Traitement
Nous allons cr√©er une requ√™te dans notre Data Frame pour afficher l‚Äôindividu en question.
> *Pour ce faire, on utilise la fonction `.isna()` [doc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isna.html?highlight=isna#pandas.DataFrame.isna).*

Dans le r√©sultat ci-dessous, on peut constater que la valeur de la 'dominialite' manquante est renseign√© dans le lieu, qui fait partie des valeurs possibles de la colonne.

In [37]:
arbres_df[arbres_df.domanialite.isna()]

Unnamed: 0,id,type_emplacement,domanialite,arrondissement,complement_addresse,numero,lieu,id_emplacement,libelle_francais,genre,espece,variete,circonference_cm,hauteur_m,stade_developpement,remarquable,geo_point_2d_a,geo_point_2d_b
197239,2020911,Arbre,,PARIS 20E ARRDT,,,JARDINS D IMMEUBLES PORTE DE VINCENNES NORD / ...,203006,Chimonanthe,Chimonanthus,praecox,,35,4,JA,0.0,48.849547,2.41419


La solution retenue et en concordance avec notre colonne est le remplacement de cette valeur manquante.
> *la fonction `.fillna()` permet de remplir les valeurs NA/NaN en utilisant la m√©thode sp√©cifi√©e,
> pour explication des param√®tres utilis√©s :
    <ul>
    <li><b>inplace (bool), par d√©faut False</li>
    Si True, remplis sur place. Remarque : cela modifiera toutes les autres vues sur cet objet (par exemple, une tranche sans copie pour une colonne dans un DataFrame).
    <li><b>limit (int), par d√©faut Aucun </li>
    Si la m√©thode est sp√©cifi√©e, il s'agit du nombre maximum de valeurs NaN cons√©cutives √† remplir en avant/en arri√®re. Autrement dit, s'il existe un √©cart avec plus de ce nombre de NaN cons√©cutifs, il ne sera que partiellement combl√©. Si la m√©thode n'est pas sp√©cifi√©e, il s'agit du nombre maximum d'entr√©es le long de l'axe entier o√π NaNs sera rempli. Doit √™tre sup√©rieur √† 0 sinon aucun.
    </ul>*

In [38]:
arbres_df.fillna("Jardin", axis=1, inplace=True, limit=1)
arbres_df.domanialite.unique()

array(['Jardin', 'Alignement', 'DJS', 'DFPE', 'CIMETIERE', 'DASCO', 'DAC',
       'PERIPHERIQUE', 'DASES'], dtype=object)

#### Cellule manquante genre,espece

Apr√®s investigation, dans le cas de la colonne "genre", 7 des individus non renseign√©s, nous constatons qu‚Äôaucunes donn√©es de taille, circonf√©rence et d‚Äôidentification sont renseign√©es.
Pour ce faire, comme dans la recherche pr√©c√©dente, nous allons cr√©er une requ√™te.

In [39]:
arbres_df[arbres_df.genre.isna()]

Unnamed: 0,id,type_emplacement,domanialite,arrondissement,complement_addresse,numero,lieu,id_emplacement,libelle_francais,genre,espece,variete,circonference_cm,hauteur_m,stade_developpement,remarquable,geo_point_2d_a,geo_point_2d_b
195409,2018853,Arbre,Jardin,PARIS 13E ARRDT,,,PC13 - JARDIN DE LA RUE DE LA POTERNE DES PEUP...,104005,,,,,0,0,,0.0,48.821259,2.354242
195410,2018854,Arbre,Jardin,PARIS 13E ARRDT,,,PC13 - JARDIN DE LA RUE DE LA POTERNE DES PEUP...,104006,,,,,0,0,,0.0,48.821229,2.354212
195475,2018919,Arbre,Jardin,PARIS 13E ARRDT,,,PC13 - JARDIN DE LA RUE DE LA POTERNE DES PEUP...,104030,,,,,0,0,,0.0,48.821281,2.353322
195476,2018920,Arbre,Jardin,PARIS 13E ARRDT,,,PC13 - JARDIN DE LA RUE DE LA POTERNE DES PEUP...,104031,,,,,0,0,,0.0,48.821289,2.353228
195487,2018932,Arbre,Jardin,PARIS 13E ARRDT,,,PC13 - JARDIN DE LA RUE DE LA POTERNE DES PEUP...,105006,,,,,0,0,,0.0,48.821294,2.352001
195496,2018942,Arbre,Jardin,PARIS 13E ARRDT,,,PC13 - JARDIN DE LA RUE DE LA POTERNE DES PEUP...,105017,,,,,0,0,,0.0,48.821292,2.351425
195497,2018943,Arbre,Jardin,PARIS 13E ARRDT,,,PC13 - JARDIN DE LA RUE DE LA POTERNE DES PEUP...,105019,,,,,0,0,,0.0,48.82126,2.351363
195499,2018945,Arbre,Jardin,PARIS 13E ARRDT,,,PC13 - JARDIN DE LA RUE DE LA POTERNE DES PEUP...,105022,,,,,0,0,,0.0,48.821261,2.351296
195502,2018948,Arbre,Jardin,PARIS 13E ARRDT,,,PC13 - JARDIN DE LA RUE DE LA POTERNE DES PEUP...,105025,,,,,0,0,,0.0,48.821283,2.351094
195503,2018949,Arbre,Jardin,PARIS 13E ARRDT,,,PC13 - JARDIN DE LA RUE DE LA POTERNE DES PEUP...,106001,,,,,0,0,,0.0,48.821401,2.350885


Comme ces donn√©es n‚Äôont pas d'int√©r√™t significatif dans notre jeu (repr√©sente 0.8% des valeurs et trop de colonne vide), il est pr√©f√©rable de les supprimer.
Ceci √©tant, nous ne le feront pas sur notre csv ou notre Dataframe initial, s√©mantiquement d√©conseill√©, on utilisera un ensemble de fonction üêº :
+ `.where()`: la fonction [where](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.where.html?highlight=where#pandas.DataFrame.where), qui comme en Sql nous permet de remplacer les valeurs o√π la condition est False.
+ `.copy()` : la fonction [copy](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.copy.html?highlight=copy#pandas.DataFrame.copy), qui cr√©e avec une copie des donn√©es et des indices de l'objet appelant. Les modifications apport√©es aux donn√©es ou aux indices de la copie ne seront pas refl√©t√©es dans l'objet d'origine.
+ `.dropna()` : la fonction[dropna](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html?highlight=dropna#pandas.DataFrame.dropna), va √™tre utilis√© pour extraire les individus aux valeurs manquantes sur la colonne ‚Äúgenre‚Äù gr√¢ce au sous-ensemble et stocker ces derniers dans une variable.


In [76]:
arbres_temp = arbres_df.copy()
arbres_temp[arbres_temp.lieu=="PC13 - JARDIN DE LA RUE DE LA POTERNE DES PEUPLIERS / 62 RUE DAMESME"]
arbres_genre_na = arbres_df.dropna(subset=['genre'])
arbres_genre_na.isna().sum()

id                          0
type_emplacement            0
domanialite                 0
arrondissement              0
complement_addresse    169219
numero                 200121
lieu                        0
id_emplacement              0
libelle_francais         1481
genre                       0
espece                   1736
variete                163344
circonference_cm            0
hauteur_m                   0
stade_developpement     67189
remarquable             63097
geo_point_2d_a              0
geo_point_2d_b              0
dtype: int64