<p style="font-family: Arial; font-size:1.75em;color:blue; font-style:bold"><br>
Présentation de Pandas</p><br>
pandas est une bibliothèque Python pour l'analyse de données. Il propose un certain nombre d'opérations d'exploration, de nettoyage et de transformation des données qui sont essentielles pour travailler avec des données en Python.

pandas s'appuie sur  numpy et scipy  fournissant des structures de données et des fonctions de manipulation de données faciles à utiliser avec indexation intégrée.

Les principales structures de données fournies par pandas sont Series et  DataFrames. Après une brève introduction à ces deux structures de données et à l'ingestion de données, les principales caractéristiques de pandas sont les suivantes:
* Génération de statistiques descriptives sur les données
* Nettoyage des données à l'aide des fonctions pandas intégrées
* Opérations de données fréquentes pour le sous-ensemble, le filtrage, l'insertion, la suppression et l'agrégation de données
* Fusion(merging) de plusieurs ensembles de données à l'aide de dataframes

**Resources:**
* *pandas* Documentation: http://pandas.pydata.org/pandas-docs/stable/
* *Python for Data Analysis* by Wes McKinney
* *Python Data Science Handbook* by Jake VanderPlas


Attention: `pandas` est une bibliothèque qui évolue régulièrement, on vous recommande donc d'utiliser au moins `pandas` dans sa version 1.0.5.

In [41]:
import numpy as np
#Pour afficher la version de  numpy
print(f'La version de numpy est {np.__version__}')
import pandas as pd
# Pour afficher la version de pandas
print(f'La version de pandas est {pd.__version__}')

La version de numpy est 1.21.2
La version de pandas est 1.3.3


#### Les structures de données en `pandas`

In [42]:

age = pd.Series([2,3,7,5],index=['a','b','c','d'])


print(age)

taille = pd.Series([11,33,66,44],index=['a','b','c','d'])
print(type(taille));

#Vous pouvez bien sûr vous demander à quoi cela sert, alors regardons un petit exemple. Nous allons revenir sur les notions utilisées dans cet exemple, notre but ici est de vous montrer l'utilité de `pandas` sur un exemple.

a    2
b    3
c    7
d    5
dtype: int64
<class 'pandas.core.series.Series'>


In [43]:
stat = pd.DataFrame({'age' : age , 'taille ' : taille });
print(stat);
#Vous voyez qu'en quelques requêtes simples et intuitives, on peut grâce à la notion d'index, obtenir des informations précieuses sur nos données. Vous voyez qu'en l'occurrence, travailler directement sur le tableau `numpy` aurait été beaucoup moins aisé.

   age  taille 
a    2       11
b    3       33
c    7       66
d    5       44


## Création d'une `DataFrame`
Il y a de nombreuses manières de construire une `DataFrame`.

### Création d'une DataFrame avec des séries

In [44]:
# Regardons la construction d'une DataFrame

# Créons une Series pour définir des âges

# et une Series pour définir des tailles


On peut maintenant combiner ces deux Series en DataFrame, chaque Serie définissant une colonne, une manière de le faire est
de définir un dictionnaire qui contient pour clé le nom de la colonne et pour valeur la Serie correspondante


### Création d'une DataFrame avec un dictionnaire

On remarque que `pandas` fait automatiquement l'alignement des index, lorsqu'une valeur n'est pas présente, elle est automatiquement remplacée par `NaN`. `Pandas` va également broadcaster une valeur unique définissant une colonne sur toutes les lignes. Regardons cela :

On peut maintenant accéder aux index des lignes et des colonnes

In [73]:
print(stat.index)

# l'index des lignes


Index(['a', 'b', 'c', 'd'], dtype='object')


In [74]:
# l'index des colonnes

print(stat.columns)

Index(['age', 'taille '], dtype='object')


Il y a de nombreuses manières d'accéder aux éléments de la `DataFrame`, certaines sont bonnes et d'autres à proscrire, commençons par prendre de bonnes habitudes. Comme il s'agit d'une structure à deux dimensions, il faut donner un indice de ligne et de colonne :

In [77]:
# Quel est la moyenne de tous les âges avec loc

moy=stat.loc['a' : 'd','age' ].mean()
print(moy)


4.25


In [48]:
# Quel est la moyenne de tous les âges avec loc


In [49]:
# Quel est la moyenne de tous les âges avec iloc


### Création d'une DataFrame avec des array

In [81]:
a=np.random.randint(1,10,9).reshape(3,3)
print(a)
s=pd.DataFrame(data = a ,columns=['a','b','c'])
print(s)

#Une autre manière de construire une `DataFrame` est de partir d'un `array` de `numpy`, et de spécifier les index pour les lignes et les colonnes avec les arguments `index` et `columns` :


[[3 2 2]
 [1 1 8]
 [8 5 8]]
   a  b  c
0  3  2  2
1  1  1  8
2  8  5  8


<p style="font-family: Arial; font-size:1.9em;color:blue; font-style:bold"><br>
Cas d'étude: Base de données Titanic</p><br>

##  Charger vos données dans une DataFrame Pandas
Les options les plus courantes :
- read_csv
- read_excel

Importer l'ensemble de données avec read_csv

In [50]:
# Charger la base de données titatnic et l'affecter à la variable data


In [51]:
# Pour afficher le nombre de lignes et de colonnes


Vérification des premiers éléments de DataFrame avec la méthode .head ()

In [52]:
# head() affiche les 5 premières lignes. 
#Pour voir moins ou plusieurs lignes, passer un entier, par exemple: head(10)


Vérification des derniers éléments de DataFrame avec la méthode .tail ()

In [53]:
# tail() affiche les 5 dernières lignes. 
#Pour voir moins ou plusieurs lignes, passer un entier, par exemple: tail(3)

In [54]:
#data

In [55]:
# on peut gérer l'affichage de données grace à la methode set_option (afficher toutes les lignes )


In [56]:
#data

In [57]:
# fixer le nombre de lignes à afficher avec la méthode set_option


## Avoir des informations sur la base de données avec les méthodes: .info() et .describe() 

### Méthode .info ()
Cette méthode retourne des informations sur une DataFrame, y compris les dtypes d'index et de colonne, les valeurs non nulles et l'utilisation de la mémoire.

In [58]:
# méthode info


Nous pouvons également voir les types de données des colonnes avec .dtypes

In [59]:
# méthode dtypes


### Méthode .describe ()
Cette méthode est utilisée pour obtenir un résumé des valeurs numériques de notre base de données. Elle calcule la moyenne, l'écart type, la valeur minimale, la valeur maximale, le 1er percentile, le 2ème percentile, le 3ème percentile des colonnes avec des valeurs numériques. Elle compte également le nombre de variables dans la base de données. Ainsi, nous pourrons voir s'il y a des valeurs manquantes dans les colonnes.

In [60]:
#describe() produit un résumé des statistiques descriptives pour les valeurs numpériques pardefaut


In [61]:
# on peut utuliser la transposé


In [62]:
# si on veut avoir des stats pour toutes les variables numériques et catégoriques


## Utiliser .value_counts () pour compter le nombre d'apparition de chaque variable dans une colonne
Pour compter le nombre d'apparition d'une variable nous devons d'abord sélectionner la colonne. Vous pouvez sélectionner une colonne de deux manières différentes:

In [63]:
# deux méthode pour afficher le contenu d'une variable data.feature_name ou bien data["feature_name"]


Puisque .value_counts () est une méthode, tout ce que nous avons à faire est d'ajouter cette méthode au code ci-dessus

In [64]:
# méthode value_counts()


## Groupby()

L'utilisation de groupby() permet d'accéder aux sous-DataFrame associés à chaque item de la variable de regroupement.
Il est dès lors possible d'appliquer explicitement d'autres traitements sur ces sous-ensembles de données.  Le groupby() fonctionne de la même façon que le groupby en SQL. 

In [65]:
# afficher la mean en fonction du sex
#df.groupby([feature_name]).mean()


In [66]:
# afficher la ùean en fonction du sex et du pclass
# df.groupby(['feature_name1', 'feature_name2']).mean()


## Utilisation de .nunique () pour compter le nombre de valeurs uniques qui se produisent dans une base de données ou dans une colonne
Si nous voulons voir le nombre des éléments uniques dans un ensemble de données ou dans une colonne, nous devons utiliser la méthode .nunique ()

In [67]:
# appliquer la méthode nunique pour toute la base de données


In [68]:
# Nous pouvons également compter les éléments uniques avec .nunique () pour une colonne (variable)
# df['feature_name'].nunuque()


In [69]:
# Si vous souhaitez voir le nombre des éléments uniques pour plus d'une colonne, vous devez ajouter une autre parenthèse.
# df[['feature_name1','feature_name2', ..., 'feature_name_n']].nunique()


## Modifier le type d'une variables avec la méthode .astype()
Nous avons vérifié les types de données des colonnes dans la base de données Titanic. Nous avons vu que le type de colonne embarked est object. Après avoir compté les valeurs uniques dans embarked colonne avec .unique (), nous pouvons voir qu'il ya 3 valeurs uniques dans cette colonne. On peut donc considérer que le type de données doit être catégorique. Pour changer le type de données de cette colonne, le code ci-dessous doit être exécuté:

In [70]:
# df['feature_name'] =df['feature_name'].astype('type'): type=(int, float, category)
# applique astype pour la variable embarked


## Filtration
### Filtrer sous une condition
Le signe de comparaison en Python est == (double signe égal). Vous devriez donc vérifier si vous avez utilisé 2 signes égaux. Si vous n'utilisez qu'un seul signe égal, vous risquez de ruiner vos données. Supposons que je veille voir si la colonne embarked est égale à C. La vraie version de la comparaison est:

# Et si nous ne voulons pas voir uniquement des vrais et des faux? Et si nous voulons voir toutes les informations de ceux dont embarked est C? Pour faire ça:

Une autre façon de procéder pourrait être avec un masque:

## Filtrage sous deux ou plusieurs conditions
### Opérateur AND
Nous allons utiliser les opérateurs AND et OR pour filtrer avec plus d'une condition. Supposons que nous souhaitons voir les passagers qui sont des femmes et dont le tarif est inférieur à 100 . Nous allons créer 2 nouveaux masques pour compléter cela

### Opérateur OR
Faisons un autre exemple avec l'opérateur OR. Nous allons utiliser | signe pour le faire. Voyons les passagers dont le tarif est supérieur à 500 ou plus de 70 ans.

## Recherche des valeurs nulles avec .isnull ()
L'un des problèmes les plus courants en science des données concerne les valeurs manquantes. Pour les détecter, il existe une belle méthode qui s'appelle .isnull (). Avec la méthode isnull(), un masque de booléens est retournée, indiquant True pour les observations dont la valeur est NaN ou None :

In [71]:
# montre nous les valeurs NaN de la varibale cabin


Si nous voulons compter les valeurs nulles de toutes les colonnes d'un dataframe, il suffit d'écrire le code ci-dessous

##  Nettoyer votre Dataset avec drop(), dropna() et fillna()

Il est assez fréquent de récupérer des données incomplètes. La manière dont les données manquantes sont gérées par pandas est le recours aux deux valeurs spéciales : None et NaN.
La valeur None peut être utilisée dans les tableaux NumPy uniquement quand le type de ces derniers est object.
* Pour supprimer une valeur sur un des axes d’une série ou d’une dataframe, Pandas propose la méthode drop().
* La méthode dropna() permet  de retirer les observations disposant de valeurs nulles. 
* Pour remplacer les valeurs manquantes par d’autres valeurs, on utilise la méthode fillna().

In [72]:
data.columns

NameError: name 'data' is not defined

In [None]:
data.drop([ 'name', 'sibsp','parch', 'ticket', 'fare', 'cabin', 'embarked'], axis=1, inplace=True)

In [None]:
data.head()

In [None]:
data.shape

In [None]:
data.isnull().sum()

In [None]:
data = data.dropna()
data.shape

In [None]:
data.isnull().sum()