# Rappels du langage Python🐍

## Les bases de la programmation

### Variables

On peut définir des variables locales

In [None]:
a = 2

In [None]:
b = "Hello"

On peut supprimer une variable de la mémoire

In [None]:
del a

In [None]:
a

### Structure conditionnelle

⛔ Il faut bien respecter une indentation sinon on sort de la structure conditionnelle

In [None]:
if (2 > 1):
    print("C'est vrai")

In [None]:
if (2 > 3):
    print("C'est vrai")
else:
    print("c'est faux")

La fonction *input()* permet à l'utilisateur de renseigner une valeur

In [None]:
input()

In [None]:
valeur = int(input())
if valeur < 5:
    print(str(valeur) + " est plus petit que 5")
elif valeur <= 10:
    print(str(valeur) + " est compris entre 5 et 10")
else :
    print(str(valeur) + " est plus grand que 10")

### Construire une fonction

In [None]:
def calcul_IMC(poids = 60, taille = 1.70):
    imc = poids / taille**2
    return(imc)

In [None]:
calcul_IMC(poids = float(input("Quel poids (en kg) ? ")) ,
           taille = float(input("Quelle taille (en metres) ? ")))

On est pas obligé de renseigner le nom des arguments s'ils sont renseignés dans le même ordre de l'implémentation de la fonction

In [None]:
calcul_IMC(50,1.66)

L'ordre des arguments n'est pas important si on les renseigne

In [None]:
calcul_IMC(taille = 1.66, poids = 50)

Avec des arguments par défaut

In [None]:
def calcul_IMC(poids = 60, taille = 1.70):
    imc = poids / taille**2
    return(imc)

In [None]:
calcul_IMC()

In [None]:
calcul_IMC(poids = 80)

### Boucles

#### FOR

La variable *nb* correspond au nombre d'itération de la boucle

⛔ Il faut bien respecter une indentation sinon on sort de la structure

In [None]:
nb = int(input())
for i in range(1,nb):
    un_poids = float(input("Quel poids (en kg) ? "))
    une_taille = float(input("Quelle taille (en metres) ? "))
    print(calcul_IMC(un_poids,une_taille))

⚠ La valeur de la borne droite d'une fonction *range()* est ouverte. Donc quand nb = 3, la boucle est lancée deux fois.

#### WHILE

⚠ Il est important d'exprimer une condition d'arrêt pour ne pas avoir de boucle infinie

In [None]:
nb = int(input())
i = 1
while i <= nb:
    un_poids = float(input("Quel poids (en kg) ? "))
    une_taille = float(input("Quelle taille (en metres) ? "))
    print(calcul_IMC(un_poids,une_taille))
    i=i+1

### Liste

On utilis les crochets [ ] pour définir une liste

In [None]:
liste = [1,2,3,4]
liste

La méthode *append( )* permet d'ajouter un élément à une liste

In [None]:
liste.append(8)
liste

La méthode *extend( )* permet d'ajouter une liste à la fin d'une liste

In [None]:
liste.extend([1,2,3])
liste

La fonction *len( )* renvoie la longueur d'une liste

In [None]:
len(liste)

Pour acceder aux éléments d'une liste on utilise les crochets [ ] . <br>
⚠ L'indexation commence à 0

In [None]:
liste[0]

In [None]:
liste[0:5]

### Librairies

Lorsqu'on installe python, plusieurs librairies sont installées par défaut. Généralement, il est nécessaire d'en installer d'autres. Par exemple la librairie **numpy** permet de manipuler des matrices et des listes. Il est recommandé d'installer des libraries via le terminal avec la commande *pip install nom_librairie* ou par un navigateur. Une fois installé, il faut import la librairie pour  l'utiliser.

In [None]:
import numpy

On recommande souvent de mettre un alias pour une librairie et éviter d'avoir à saisir le nom complet de la librairie à chaque usage de ses fonctions

In [None]:
import numpy as np

#### Numpy

Voici quelques fonctions utiles de la librairie **numpy**

La fonction *linspace( )* génère une séquence de *n* nombre

In [None]:
np.linspace(start= 0 , stop = 1, num = 9)

La fonction *arange( )* génère une séquence avec un step *n* <br>
⚠ La valeur *stop* n'est pas prise en compte

In [None]:
np.arange(start= 0 , stop = 1, step = 0.1)

# **L'essentiel de 🐼**

Dans ce notebook, nous allons voir l'essentiel de la manipulation de tableaux sous Python. Des notions importantes dans une démarche data science !

## Importer la librairie pandas

on peut donc charger la librairie, la plupart du temps on lui associe un alias

In [None]:
import pandas as pd

⚠ Certaines fonctionnalités sont disponibles qu'à partir de certaines versions de pandas.

In [None]:
#Afficher la version de pandas
pd.__version__

## Importer un jeu de données

On importe le jeu de données avec la méthode read_*mon_format*() selon l'extension du fichier


In [None]:
df = pd.read_csv("../Dataset/Titanic.csv")

On affiche un extrait du tableau avec la méthode *head()*

In [None]:
df.head(2)

On supprime la première colonne inutile

In [None]:
df.drop(['Unnamed: 0'], axis=1, inplace=True)

On utilise la méthode *shape* pour afficher le nombre de lignes et colonnes

In [None]:
df.shape

On utilise  la méthode *info()* ou *dtypes* pour afficher une description du data frame

In [None]:
df.info()

In [None]:
df.dtypes

## Manipuler un jeu de données

### Interroger le data frame avec le nom des colonnes

In [None]:
df.PClass

In [None]:
df['PClass']

Tester le type de l'objet que renvoie la méthode *type()* sur une colonne du dataframe

In [None]:
type(df['PClass'])

Nous n'avons pas l'information sur le type des données que rassemble cette colonne. En revanche, l'objet est une série pandas. Avec pandas, les différents vecteurs ou colonnes d''une dataframe sont appelées "Series". Un DataFrame pandas est donc une collection de pd.Series.

Sélectionner deux colonnes en mêmes temps

In [None]:
df[['Name','PClass']]

Il suffit de donner une liste avec des noms de colonnes. <br> 
⚠ L'ordre des colonnes renvoyé est le même que celles de la liste

In [None]:
df[['PClass','Name']]

Des lors que l'objet retouné a plus de 1 une colonne, c'est un objet pandas *DataFrame* et non pandas *Series*

In [None]:
type(df[['PClass','Name']])

### Interroger le data frame avec les indices lignes/colonnes

La méthode *iloc[ ]* permet d'interroger un data frame Pandas avec les indices

In [None]:
#Afficher la première ligne
df.iloc[0]

In [None]:
#Afficher la première colonne
df.iloc[:,0]

In [None]:
#Afficher les 3 premières lignes de la première colonne
df.iloc[:3,0]

In [None]:
#Afficher les 3 premières lignes
df.iloc[0:3,:]

⚠ En python, la borne extérieure d'une <font color=red> plage  </font> est toujours ouverte, c'est pourquoi la ligne d'indice 3 correspondant à la ligne 4 ne s'affiche pas contrairement à une liste

In [None]:
#Afficher les 3 premières lignes
df.iloc[ [0,1,2,3] ,:]

In [None]:
#Afficher la dernière lignes
df.iloc[-1,:]

La méthode *loc[ ]* permet d'interroger un data frame Pandas avec le nom des lignes **et** des colonnes

In [None]:
df.loc[:, ['PClass','Name']]

L'association des méthodes *columns* et *difference* permet d'afficher toutes les colonnes d'un data frame exceptées celles mentionnées

In [None]:
df.columns.difference(['Age','SexCode'])

On réutilise cette liste sans les variables mentionnées directement dans l'indexation du data frame

In [None]:
df[  df.columns.difference(['Age','SexCode'])  ].head(3)

📢 Attention : Lorqu'on utilise cette méthode, la liste des colonnes affichées est triée par ordre alphabetique ce qui conduit à une réorganisation du tableau de départ

In [None]:
df.columns

In [None]:
df.columns.difference([''])

### Interroger le data frame avec des filtres

Pour cela on utilise les opérateurs logiques qui permettent de renvoyer des booléens.

In [None]:
#Tester une égalité
df.PClass == "1st"

In [None]:
df[df.PClass == "1st"]

In [None]:
#Tester une différence
df.PClass != "3rd"

In [None]:
df[df.PClass != "3rd"]

In [None]:
#Tester si supérieur
df.Age > 20

In [None]:
df[df.Age > 20]

In [None]:
#Tester si comris dans des bornes
(df.Age > 15) & (df.Age < 30)

In [None]:
df[(df.Age > 15) & (df.Age < 30)]

In [None]:
#Tester avec deux valeurs possibles 
(df.PClass == "1st") | (df.PClass == "2nd")

In [None]:
df[(df.PClass == "1st") | (df.PClass == "2nd")]

In [None]:
#Tester si compris dans la liste
df.PClass.isin(['1st', '2nd'])

In [None]:
df[df.PClass.isin(['1st', '2nd'])]

In [None]:
#Tester si n'est pas compris dans la liste
~ df.PClass.isin(['1st', '2nd'])

In [None]:
~pd.Series([True,False,True,True])

En réalité, l'opérateur **~** permet de renvoyer l'inverse des tests logiques effectués

In [None]:
df[~ df.PClass.isin(['1st', '2nd'])]

Les méthodes *isna()* et *notna()* permettent d'effectuer des filtres sur des valeurs manquantes

In [None]:
df.Age.isna()

In [None]:
df[df.Age.isna()]

In [None]:
df.Age.notna()

In [None]:
df[df.Age.notna()]

### Trier un jeu de données

On utilise la méthode *sort_values()* pour trier un data frame ou une série pandas

In [None]:
#On trie la série Age
df.Age.sort_values()

In [None]:
#On trie la série Age par ordre décroissant
df.Age.sort_values(ascending=False)

In [None]:
# On trie le data frame
df.sort_values(by = 'Age', ascending=False)

In [None]:
# On trie le data frame avec selon plusieurs colonnes
df.sort_values(by = ['PClass','Age'], ascending=[True,False])

## Exploration statistique sur un jeu de données

On utilise souvent la librairie *numpy* avec pandas

In [None]:
import numpy as np

### Indicateurs statistiques

In [None]:
df.Age.mean()

In [None]:
df.Age.median()

In [None]:
df.Age.max()

In [None]:
df.Age.std()

In [None]:
df.Age.var()

In [None]:
df.Age.quantile([.1, .5])

In [None]:
df.Age.quantile(np.linspace(start = 0, stop = 1, num= 11))

La méthode *describe()* calcule des statistiques élémentaires sur les données

In [None]:
df.describe()

L'argument *include* permet de prendre en compte toutes les colonnes quelques soit leur type

In [None]:
df.describe(include = "all")

In [None]:
df.describe(exclude=[np.number])

In [None]:
df.describe(include=[np.number])

L'argument *percentiles* permet d'avoir la main sur les quantiles affichés

In [None]:
df.describe(percentiles=np.linspace(start = 0, stop = 1, num= 11))

La méthode *unique()* renvoie une liste des valeurs uniques d'une *Series* pandas

In [None]:
df.PClass.unique()

La méthode *nunique()* compte le nombre de valeurs uniques d'une *Series* pandas

In [None]:
df.PClass.nunique()

Cela fonctionne aussi sur un data frame

In [None]:
df.nunique()

La méthode *value_counts()* renvoie un tri à plat d'une *Series* pandas

In [None]:
df.PClass.value_counts()

In [None]:
#en pourcentage
df.PClass.value_counts(normalize=True)

### Grouper les données

#### Tableaux croisés

La méthode *crosstab()* permet de calculer un tableau croisé

In [None]:
pd.crosstab(df.PClass, df.Sex, margins=True)

In [None]:
#pourcentage total général
pd.crosstab(df.PClass, df.Sex, margins=True, normalize = True)

Pour un tableau croisé en pourcentage on utilise la méthode *apply()* permet de mapper une fonction sur tout les éléments de l'objet

In [None]:
#pourcentage colonne
pd.crosstab(df.PClass, df.Sex).apply(lambda x: x/x.sum(), axis=0)

In [None]:
#pourcentage ligne
pd.crosstab(df.PClass, df.Sex).apply(lambda x: x/x.sum(), axis=1)

#### Agrégation

On utilise la méthode *groupby()* pour grouper les données. Il faut ensuite utiliser *agg()* pour calculer des indicateurs pour chaque groupe

In [None]:
df.groupby(['PClass']).Age.agg([min, max])

On peut grouper les données selon plusieurs variables

In [None]:
df.groupby(['PClass','Sex']).Age.agg([min, max])

On peut aussi utiliser un dictionnaire

In [None]:
df_agg = df.groupby(['PClass','Sex']).agg( { 'Age' : ['min','max'] , 'PClass' : 'count'  })
df_agg

Ce code permet d'éliminer les  deux niveaux d'index colonne en concatenant les noms

In [None]:
df_agg.columns = ['_'.join(col) for col in df_agg.columns]
df_agg

⚠ Le résultat utilise plusieurs index pour chaque ligne et colonne.

On utilise la méthode *reset_index()* pour mettre les index ligne en colonne

In [None]:
df.groupby(['PClass','Sex']).Age.agg([min, max]).reset_index()

## Modifier un jeu de données

### Changement de type des variables

In [None]:
df.dtypes

On transforme la variable *Survived* en caractère

In [None]:
df.Survived = df.Survived.astype('str')
df.dtypes

On la repasse en numérique

In [None]:
df.Survived = df.Survived.astype('int')
df.dtypes

#### Renommer des colonnes

In [None]:
df.columns

On utilise la méthode *rename()* pour renommer une colonne

In [None]:
df.rename(columns={'PClass': 'Classe passager',
                  'Age': 'Age passager'}, inplace=True)

In [None]:
df.columns

💡 Quelques fois, il est pénible de manipuler des variables avec des espaces, voici une commande pour remplacer les espaces par un  '_'

In [None]:
df.columns = df.columns.str.replace(' ', '_')
df.columns

On remet le nom des colonnes d'origine

In [None]:
df.rename(columns={'Classe_passager': 'PClass',
                  'Age_passager': 'Age'}, inplace=True)

### Gerer les valeurs manquantes

#### Remplacer avec *fillna()*

On observe les valeurs manquantes présentent dans la variable age

In [None]:
df.rename(columns={'Age_passager': 'Age'}, inplace=True)

In [None]:
df.Age.isna().value_counts()

In [None]:
df.Age.describe()

On remplace les valeurs manquantes par des 0 avec la méthode *fillna()* dans une nouvelle colonne

In [None]:
df['Age_fillna_0'] = df.Age.fillna(0)

On remarque qu'il n'y a plus de valeurs manquantes

In [None]:
df.Age_fillna_0.isna().value_counts()

⚠ Cela modifie la structure des données (ex : moyenne)

In [None]:
df.Age_fillna_0.describe()

L'astuce pourrait-être de remplacer les valeurs manquantes par la moyenne ?

In [None]:
#calcul de la moyenne
mean = df.Age.mean()

On remplace par la moyenne

In [None]:
df['Age_fillna_mean'] = df.Age.fillna(mean)

⚠ Cela modifie la structure des données sauf la moyenne

In [None]:
df.Age_fillna_mean.describe()

Récapitulatif des méthodes utilisées

In [None]:
df[df.Age.isna()].iloc[:,[2,6,7]]

On supprime les colonnes crées

In [None]:
df.drop(columns=['Age_fillna_0', 'Age_fillna_mean'], inplace=True)

#### Supprimer avec *dropna()*

Une autre méthode plus radicale consiste à supprimer les observations ou colonnes avec des valeurs manquantes. On utilise la méthode *dropna()* avec :

* axis = 0 pour les lignes et 1 pour les colonnes
* how = 'all' si des NaN sur l'ensemble des les lignes/ colonne ouf how = 'any' si au moins un NaN sur l'ensemble des les lignes/ colonne

In [None]:
df.dropna(axis=0, how="all").shape

In [None]:
df.dropna(axis=0, how="any").shape

⚠ On peut utiliser l'argument *inplace = True* pour modifier directement le data frame

In [None]:
#avant le dropna()
df.shape

In [None]:
df.dropna(axis=0, how="any", inplace=True)

In [None]:
#après le dropna()
df.shape

#### Remplacer avec *KNNImputer()*

Cette méthode consiste à utiliser l'algorithme des K-plus proches voisins. <br> https://scikit-learn.org/stable/modules/generated/sklearn.impute.KNNImputer.html

In [None]:
d = {'x': [5, 10, np.nan, 20], 'y': [np.nan,4,6,9]}
X = pd.DataFrame(d)
X

💡 L'argument *weights* permet de pondérer la moyenne des voisins les plus proches leur distance de proximité.

In [None]:
from sklearn.impute import KNNImputer
imputer = KNNImputer(n_neighbors=2, weights="distance")
X = pd.DataFrame(imputer.fit_transform(X), columns = X.columns)
X

⚠ Cette méthode ne fonctionne que sur des variables numériques !

### Gérer les doublons

On remarque que certaines personnes sont présentes deux fois

In [None]:
df_counts_name = df.Name.value_counts()
df_counts_name

On récupère le nom des personnes en doublon avec la méthode *index*

In [None]:
doublons = df_counts_name[ df_counts_name > 1].index
print(doublons)

On filtre le data frame sur les doublons pour observer s'il y a bien une erreur ou s'il s'agit d'homonyme

In [None]:
df_doublons = df[df.Name.isin(doublons)]
df_doublons

Pour illustrer les méthodes pour dédoubloner, on travaille sur le dataset *df_doublons*

La première méthode consiste à supprimer les doublons basés sur une seule colonne

In [None]:
df_doublons.drop_duplicates(subset=['Name'])

La deuxième méthode consiste à supprimer les doublons basés sur plusieurs colonnes à la fois

In [None]:
df_doublons

In [None]:
df_doublons.drop_duplicates(subset=['Name',"PClass"])

Les deux dernières méthodes consistent à supprimer les doublons selon leur position dans le data frame en utilisant la méthode *groupby()* avec *tail()* ou *nth()*

On sélectionne la première ligne ou apparaît le doublon

In [None]:
df_doublons.groupby('Name').nth(0)

On sélectionne les x dernières lignes ou apparaît le doublon

In [None]:
df_doublons.groupby('Name').tail(1)

### Créer de nouvelle variables

#### Discrétisation

La méthode *cut()* permet de découper une variable numérique en tranche

In [None]:
pd.cut(df.Age, bins = [0,18,40,150])

⚠ L'argument *include_lowest* est important pour prendre en compte la plus petite borne inférieure

In [None]:
pd.cut(df.Age, bins = [0,18,40,150], include_lowest=True)

On crée une colonne avec ce découpage en ajoutant des labels

In [None]:
df['Age_cut'] = pd.cut(df.Age, bins = [0,18,40,150],
                       labels=['moins de 18','entre 19 et 40','plus de 40'],
                       include_lowest=True)

On affiche un tri à plat en triant selon les index avec la méthode *sort_index()*

In [None]:
df['Age_cut'].value_counts().sort_index()

#### Recodage de variables

On peut utiliser la méthode *where()* de la librarie numpy

In [None]:
df['PClass_category'] = np.where(df['PClass'] == '1st', '1st', '2nd and 3rd')
df['PClass_category'].value_counts()

La méthode *get_dummies()* permet de construire un condage disjonctif complet (appelé aussi *one-hot encoding*). Cela est trés utilisé en data science pour traiter les variables qualitatives en machine learning

In [None]:
pd.get_dummies(df, columns=['PClass','Sex']).head(3)

⚠ Créer autant de colonne que de modalité est problématique car on ajoute des colonnes qui ne sont plus indépendante. C'est pourquoi en machine learning on crée plutot K-1 indicatrices, la dernière modalité étant déduite des autres. L'argument *drop_first* permet de gérer cela.

In [None]:
df = pd.get_dummies(df, columns=['PClass','Sex'], drop_first=True)
df.head(3)

## Exporter le jeu de données

On exporte le data frame avec la méthode to_*mon_format*() selon l'extension du fichier


In [None]:
#df.to_csv("mon_Titanic.csv", index = False)

In [None]:
# df.to_excel(excel_writer = "Titanic.xlsx" , 
#             sheet_name = "Feuil1", index=False)

## Créer un objet pandas

Pour céer une *Series* pandas on utilise la méthode *Series()*

In [None]:
#Creation des Séries   
ls_prenom = pd.Series(["Wilfried", "Alex", "Morgane", "Etienne", "Célia", "Baptiste", "Anthony", "Fred"])
ls_bi = pd.Series([15,9,12,15,6,14,11,19])
ls_dataviz = pd.Series([14,7,15,13,15,10,12,14])

print(ls_prenom)

Pour céer un *DataFrame* pandas on utilise la méthode *DataFrame()*

In [None]:
d = {'Prenom': ls_prenom, 'BI': ls_bi, 'Dataviz' : ls_dataviz, 'Maths' : [5,20,11,13,5,14,12,16]}
df = pd.DataFrame(data=d)
df

## Les options pandas

Il est possible de modifier les options d'affichage avec la gestion des options de la librairie pandas

In [None]:
#gerer le nombre de ligne à afficher
pd.set_option("display.min_rows", 2)

In [None]:
#gérer le nombre de colonne à afficher
pd.set_option("display.max_columns", 4)

In [None]:
#gérer la largeur des colonnes
pd.set_option('max_colwidth', 5)

In [None]:
df

La méthode *reset_option()* permet de réinitialiser les paramètres

In [None]:
pd.reset_option(("^display"))

In [None]:
df

Plus d'information sur la librairie pandas avec le cours de Kaggle : https://www.kaggle.com/learn/pandas

#### Pandas Profiling

Lancer la ligne de commande dans un terminal, une mise à jour de conda est peut être nécessaire

In [None]:
#conda install -c conda-forge pandas-profiling

In [None]:
# import pandas_profiling

In [None]:
# profile = pandas_profiling.ProfileReport(df, title='Pandas Profiling Report', explorative=True)

In [None]:
# profile