# Manipulation des données avec Pandas

---
## Présentation

Pandas est une librairie Python spécialisée dans l’analyse des données. Nous nous intéresserons
surtout aux fonctionnalités de manipulations de données qu’elle propose. Un objet de type "data frame", qui permet de réaliser de nombreuses opérations de filtrage, prétraitements, etc., préalables à la modélisation statistique.
La [librairie est très largement documentée](https://pandas.pydata.org/).
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1920px-Pandas_logo.svg.png" alt="Logo Librairie Panda" title="Librairie Panda" width="256">

Pour commencer, nous utiliserons la fonction de 🐼 pour lire ou écrire un fichier, dans notre cas un csv, mais 🐼 accepte d'autre format : [JSON, SQL, ...](https://pandas.pydata.org/docs/user_guide/io.html?highlight=read)

> *La fonction `.read_csv()` accepte plusieurs [arguments](https://pandas.pydata.org/docs/user_guide/io.html?highlight=read#io-read-csv-table), (qui vont permettre, avec la maitrise de cette librairie, de pouvoir commencer un pré-traitement de la donnée selon le type d'extension, les possibilitées sont tres vastes). Dans notre cas nous ne définirons le symbole de separation car par default ",".*

In [30]:
import pandas as pa

arbres_df = pa.read_csv("./p2-arbres-fr.csv", sep=";")
#vérifions le type de df
print(type(arbres_df))

<class 'pandas.core.frame.DataFrame'>


## Structure DataFrame
Une matrice DataFrame correspond à une matrice individus-variables où les lignes correspondent à des observations, les colonnes à des attributs décrivant les individus.
Nous allons maintenant afficher différente fonction pour analyser la structure
### shape
< *`.shape` : qui retourne un tuple qui représente les dimensions de notre Dataframe.*

In [31]:
arbres_df.shape

(200137, 18)

### head
Avec [🐼.head()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html?highlight=head#pandas.DataFrame.head), nous allons pouvoir observer un rapide aperçu de notre DataFrame:`notre_variable.head()`
> *La fonction  `.tail()`  est le pendant de la fonction `.head()`  . Elle permet d'afficher les derniers éléments du DataFrame.*

Ici, nous pouvons déjà observer que certaines colonnes &| lignes possèdent des valeurs vides représentées par `NaN`.
On peut définir le nombre de lignes afficher(par défaut 5)

In [32]:
arbres_df.head(n=4)

Unnamed: 0,id,type_emplacement,domanialite,arrondissement,complement_addresse,numero,lieu,id_emplacement,libelle_francais,genre,espece,variete,circonference_cm,hauteur_m,stade_developpement,remarquable,geo_point_2d_a,geo_point_2d_b
0,99874,Arbre,Jardin,PARIS 7E ARRDT,,,MAIRIE DU 7E 116 RUE DE GRENELLE PARIS 7E,19,Marronnier,Aesculus,hippocastanum,,20,5,,0.0,48.85762,2.320962
1,99875,Arbre,Jardin,PARIS 7E ARRDT,,,MAIRIE DU 7E 116 RUE DE GRENELLE PARIS 7E,20,If,Taxus,baccata,,65,8,A,,48.857656,2.321031
2,99876,Arbre,Jardin,PARIS 7E ARRDT,,,MAIRIE DU 7E 116 RUE DE GRENELLE PARIS 7E,21,If,Taxus,baccata,,90,10,A,,48.857705,2.321061
3,99877,Arbre,Jardin,PARIS 7E ARRDT,,,MAIRIE DU 7E 116 RUE DE GRENELLE PARIS 7E,22,Erable,Acer,negundo,,60,8,A,,48.857722,2.321006


### isnull & sum
Profitons du fait de voir des `NaN` pour utiliser la combinaison de commande pratique de 🐼 `.isnull()` & `sum()`.
> [Isnull](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isnull.html?highlight=isnull#pandas.DataFrame.isnull) nous retourne un tableau de booléens de même taille que notre Dataframe Les valeurs `NaN`, telles que None ou [numpy.NaN](https://numpy.org/doc/stable/reference/constants.html?highlight=nan#numpy.NaN), sont mappées aux valeurs `True`. Tout le reste est mappé sur des valeurs ``False``.
> [Sum](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sum.html?highlight=sum#pandas.DataFrame.sum) Renvoie la somme des valeurs sur l'axe demandé.
> > *par defaut : `DataFrame.sum(axis=None, skipna=None, level=None, numeric_only=None, min_count=0, **kwargs)`*

In [33]:
arbres_df.isnull().sum()

id                          0
type_emplacement            0
domanialite                 1
arrondissement              0
complement_addresse    169235
numero                 200137
lieu                        0
id_emplacement              0
libelle_francais         1497
genre                      16
espece                   1752
variete                163360
circonference_cm            0
hauteur_m                   0
stade_developpement     67205
remarquable             63098
geo_point_2d_a              0
geo_point_2d_b              0
dtype: int64

#### type de chaque colonne
Afin de définir nos types de variables, et nous permettre de savoir comment les traiter dans notre etude ultérieurement.

<img src="https://user.oc-static.com/upload/2017/10/30/15094028245878_Variables.jpeg" width="512">

> *Dans notre Dataframe le Type Objet est bien sûr un String 😉.*

In [34]:
print(arbres_df.dtypes)

id                       int64
type_emplacement        object
domanialite             object
arrondissement          object
complement_addresse     object
numero                 float64
lieu                    object
id_emplacement          object
libelle_francais        object
genre                   object
espece                  object
variete                 object
circonference_cm         int64
hauteur_m                int64
stade_developpement     object
remarquable            float64
geo_point_2d_a         float64
geo_point_2d_b         float64
dtype: object


### Describe

## Génération des statistiques descriptive

Les [statistiques descriptives](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html?highlight=describe#pandas.DataFrame.describe) incluent celles qui résument la tendance centrale, la dispersion et la forme de la distribution d'un ensemble de données, à l'exclusion des `NaN` valeurs.

Analyse à la fois les séries numériques (Quantitative) et les séries d'objets (Qualitative), ainsi que les DataFrame ensembles de colonnes de types de données mixtes. La sortie varie en fonction de ce qui est fourni.
> *DataFrame.describe(percentiles=None, include=None, exclude=None, datetime_is_numeric=False)*

<p><b>count :</b> comptage du nombre de cellules de notre Dataframe</p>
<p><b>mean :</b> moyenne des valeurs :
$$
\overline{X}_n=\frac{1}{n}\sum^{n}_{i=1}X_{i}
$$
</p>
<p><b>std :</b> ecart type :
$$
\sigma \ ou \ s=\sqrt{v},\\ avec \ v=\frac{1}{n}\sum^n_{i=1}(x_i-\overline{x})^{2}
$$
</p>
<p><b>percentile :</b> centiles inclut à la sortie, celui de 50% nous indique la mediane représentée par:
$$
\ Med = x_{(\frac{n+1}{2})}
$$
</p>
<p><b>Min & Max :</b> comme leurs noms l'indique, mais permet d'avoir une première approche des valeurs aberrantes </p>

> *dans notre exemple ci-dessous des arbres de "0" de hauteur ou de circonférence, à contrario de 800k m de haut ou circonférence de 250 m ! 😅*

In [35]:
arbres_df.describe()

Unnamed: 0,id,numero,circonference_cm,hauteur_m,remarquable,geo_point_2d_a,geo_point_2d_b
count,200137.0,0.0,200137.0,200137.0,137039.0,200137.0,200137.0
mean,387202.7,,83.380479,13.110509,0.001343,48.854491,2.348208
std,545603.2,,673.190213,1971.217387,0.036618,0.030234,0.05122
min,99874.0,,0.0,0.0,0.0,48.74229,2.210241
25%,155927.0,,30.0,5.0,0.0,48.835021,2.30753
50%,221078.0,,70.0,8.0,0.0,48.854162,2.351095
75%,274102.0,,115.0,12.0,0.0,48.876447,2.386838
max,2024745.0,,250255.0,881818.0,1.0,48.911485,2.469759


## Recherche et somme des valeurs manquante du DataFrame dans chaque colonne
> Précédemment nous avions utilisé la combinaison de fonction `.isnull().sum()`.
> Il en ressort que certaines colonnes sont quasiment vides (numeros, varieté..) et d'autres avec quelques valeurs manquantes comme "dominialité" et "genre".

commençons par "dominialité", nous affichons les valeurs qualitatives de cette colonne.
> *on remarque au passage la facilité pour cibler une colonne en particulier et l'utilisation de la fonction `.unique()` [doc.](https://pandas.pydata.org/docs/reference/api/pandas.Series.unique.html?highlight=unique#pandas.Series.unique), qui retourne un tableau numpy.*

En dernière position on retrouve notre `NaN`.

In [36]:
arbres_df.domanialite.unique()

array(['Jardin', 'Alignement', 'DJS', 'DFPE', 'CIMETIERE', 'DASCO', 'DAC',
       'PERIPHERIQUE', 'DASES', nan], dtype=object)

#### Traitement
Nous allons créer une requête dans notre Data Frame pour afficher l’individu en question.
> *Pour ce faire, on utilise la fonction `.isna()` [doc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isna.html?highlight=isna#pandas.DataFrame.isna).*

Dans le résultat ci-dessous, on peut constater que la valeur de la 'dominialite' manquante est renseigné dans le lieu, qui fait partie des valeurs possibles de la colonne.

In [37]:
arbres_df[arbres_df.domanialite.isna()]

Unnamed: 0,id,type_emplacement,domanialite,arrondissement,complement_addresse,numero,lieu,id_emplacement,libelle_francais,genre,espece,variete,circonference_cm,hauteur_m,stade_developpement,remarquable,geo_point_2d_a,geo_point_2d_b
197239,2020911,Arbre,,PARIS 20E ARRDT,,,JARDINS D IMMEUBLES PORTE DE VINCENNES NORD / ...,203006,Chimonanthe,Chimonanthus,praecox,,35,4,JA,0.0,48.849547,2.41419


La solution retenue et en concordance avec notre colonne est le remplacement de cette valeur manquante.
> *la fonction `.fillna()` permet de remplir les valeurs NA/NaN en utilisant la méthode spécifiée,
> pour explication des paramètres utilisés :
    <ul>
    <li><b>inplace (bool), par défaut False</li>
    Si True, remplis sur place. Remarque : cela modifiera toutes les autres vues sur cet objet (par exemple, une tranche sans copie pour une colonne dans un DataFrame).
    <li><b>limit (int), par défaut Aucun </li>
    Si la méthode est spécifiée, il s'agit du nombre maximum de valeurs NaN consécutives à remplir en avant/en arrière. Autrement dit, s'il existe un écart avec plus de ce nombre de NaN consécutifs, il ne sera que partiellement comblé. Si la méthode n'est pas spécifiée, il s'agit du nombre maximum d'entrées le long de l'axe entier où NaNs sera rempli. Doit être supérieur à 0 sinon aucun.
    </ul>*

In [38]:
arbres_df.fillna("Jardin", axis=1, inplace=True, limit=1)
arbres_df.domanialite.unique()

array(['Jardin', 'Alignement', 'DJS', 'DFPE', 'CIMETIERE', 'DASCO', 'DAC',
       'PERIPHERIQUE', 'DASES'], dtype=object)

#### Cellule manquante genre,espece

Après investigation, dans le cas de la colonne "genre", 7 des individus non renseignés, nous constatons qu’aucunes données de taille, circonférence et d’identification sont renseignées.
Pour ce faire, comme dans la recherche précédente, nous allons créer une requête.

In [39]:
arbres_df[arbres_df.genre.isna()]

Unnamed: 0,id,type_emplacement,domanialite,arrondissement,complement_addresse,numero,lieu,id_emplacement,libelle_francais,genre,espece,variete,circonference_cm,hauteur_m,stade_developpement,remarquable,geo_point_2d_a,geo_point_2d_b
195409,2018853,Arbre,Jardin,PARIS 13E ARRDT,,,PC13 - JARDIN DE LA RUE DE LA POTERNE DES PEUP...,104005,,,,,0,0,,0.0,48.821259,2.354242
195410,2018854,Arbre,Jardin,PARIS 13E ARRDT,,,PC13 - JARDIN DE LA RUE DE LA POTERNE DES PEUP...,104006,,,,,0,0,,0.0,48.821229,2.354212
195475,2018919,Arbre,Jardin,PARIS 13E ARRDT,,,PC13 - JARDIN DE LA RUE DE LA POTERNE DES PEUP...,104030,,,,,0,0,,0.0,48.821281,2.353322
195476,2018920,Arbre,Jardin,PARIS 13E ARRDT,,,PC13 - JARDIN DE LA RUE DE LA POTERNE DES PEUP...,104031,,,,,0,0,,0.0,48.821289,2.353228
195487,2018932,Arbre,Jardin,PARIS 13E ARRDT,,,PC13 - JARDIN DE LA RUE DE LA POTERNE DES PEUP...,105006,,,,,0,0,,0.0,48.821294,2.352001
195496,2018942,Arbre,Jardin,PARIS 13E ARRDT,,,PC13 - JARDIN DE LA RUE DE LA POTERNE DES PEUP...,105017,,,,,0,0,,0.0,48.821292,2.351425
195497,2018943,Arbre,Jardin,PARIS 13E ARRDT,,,PC13 - JARDIN DE LA RUE DE LA POTERNE DES PEUP...,105019,,,,,0,0,,0.0,48.82126,2.351363
195499,2018945,Arbre,Jardin,PARIS 13E ARRDT,,,PC13 - JARDIN DE LA RUE DE LA POTERNE DES PEUP...,105022,,,,,0,0,,0.0,48.821261,2.351296
195502,2018948,Arbre,Jardin,PARIS 13E ARRDT,,,PC13 - JARDIN DE LA RUE DE LA POTERNE DES PEUP...,105025,,,,,0,0,,0.0,48.821283,2.351094
195503,2018949,Arbre,Jardin,PARIS 13E ARRDT,,,PC13 - JARDIN DE LA RUE DE LA POTERNE DES PEUP...,106001,,,,,0,0,,0.0,48.821401,2.350885


Comme ces données n’ont pas d'intérêt significatif dans notre jeu (représente 0.8% des valeurs et trop de colonne vide), il est préférable de les supprimer.
Ceci étant, nous ne le feront pas sur notre csv ou notre Dataframe initial, sémantiquement déconseillé, on utilisera un ensemble de fonction 🐼 :
+ `.where()`: la fonction [where](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.where.html?highlight=where#pandas.DataFrame.where), qui comme en Sql nous permet de remplacer les valeurs où la condition est False.
+ `.copy()` : la fonction [copy](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.copy.html?highlight=copy#pandas.DataFrame.copy), qui crée avec une copie des données et des indices de l'objet appelant. Les modifications apportées aux données ou aux indices de la copie ne seront pas reflétées dans l'objet d'origine.
+ `.dropna()` : la fonction[dropna](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html?highlight=dropna#pandas.DataFrame.dropna), va être utilisé pour extraire les individus aux valeurs manquantes sur la colonne “genre” grâce au sous-ensemble et stocker ces derniers dans une variable.


In [76]:
arbres_temp = arbres_df.copy()
arbres_temp[arbres_temp.lieu=="PC13 - JARDIN DE LA RUE DE LA POTERNE DES PEUPLIERS / 62 RUE DAMESME"]
arbres_genre_na = arbres_df.dropna(subset=['genre'])
arbres_genre_na.isna().sum()

id                          0
type_emplacement            0
domanialite                 0
arrondissement              0
complement_addresse    169219
numero                 200121
lieu                        0
id_emplacement              0
libelle_francais         1481
genre                       0
espece                   1736
variete                163344
circonference_cm            0
hauteur_m                   0
stade_developpement     67189
remarquable             63097
geo_point_2d_a              0
geo_point_2d_b              0
dtype: int64