# <center>TD1 de Modélisation Mathématique: Pandas</center>


La librairie *pandas* python permet de manipuler, de nettoyer, d'observer, d'analyser  facilement des données. Ces données sont organisées sous forme d'une table à 2 dimensions (nommée *Dataframe*). Le format de ces structures peut être comparé aux dictionnaires Python. En effet, les clés sont les noms des colonnes et les valeurs sont des Series (tableau a 1 dimension qui peuvent aussi avoir des labels et sont les lignes du dataframe). La structure peut être vue comme une feuille de calcul Excel.


Vous pourrez utiliser les 3 documentations suivantes à votre convenance. 
[1](https://www.python-simple.com/python-pandas/panda-intro.php)
[2](https://pandas.pydata.org/docs/user_guide/10min.html)
[3](https://ledatascientist.com/manipulez-vos-donnees-avec-pandas/)


Nous allons étudier à l'aide de *pandas* un jeu de données relatif au dernier voyage du paquebot Titanic (données basiques très connues dans le monde de l'apprentissage automatique). 

In [3]:
#chargement des bibliothèques python
import pandas as pd

### 1) Opérations de base 

- charger le fichier au format csv fourni nommé *data/titanic.csv* dans un dataframe

- afficher les dimensions (shape) du dataframe

- afficher les noms des colonnes du dataframe

- afficher la colonne nommée *Age* du dataframe

- afficher les 5 premières lignes du dataframe de 2 manières différentes

- afficher les 2 premières colonnes du dataframe

- afficher le dataframe des lignes 25 à 50 et les colonnes à partir de la 3 éme

- en apprentissage automatique, souvent on efface les lignes où il manque des données, afficher par colonne le nombre de cellule sans donnée et effacer les lignes correspondantes ( *isnull() et dropna(...)* )

- reprenez le dataframe de départ (sans la suppression des lignes avec valeurs nulles). Nous allons éliminer certaines colonnes pour mieux observer le résultat de nos traitements (ne laisser que les colonnes *Pclass*, *Survived*, *Sex* et *Age* ) => fonction drop(...). Dorénavant nous travaillerons sur ce nouveau dataframe. S'il y a des valeurs nulles, éliminer les lignes correspondantes

- afficher quelques statistiques de base (distribution des données, moyenne, variance, min) => une fonction existe. 





In [None]:
#charger le fichier excel *titanic.csv* dans un dataframe
df=pd.read_csv("data/titanic.csv", sep='\t')

#afficher les dimensions (shape) du dataframe
print(df.shape)
#print(df.isnull())

#afficher les noms des colonnes du dataframe
#print(df.columns)

#afficher la colonne nommée *Age* du dataframe
#print(df['Age'])

#afficher les 5 premières lignes du dataframe de 2 manières différentes
#print(df.head(5))
#print(df[0:5])

#afficher les 2 premières colonnes du dataframe
#print(df.iloc[:,0:2])

#afficher le dataframe des lignes 25 à 50 et les colonnes à partir de la 3 éme
#print(df.iloc[25:51,2:])

# en apprentissage automatique, souvent on efface les lignes où il manque des données, 
# afficher le nombre de cellule par colonne sans donnée et effacer les lignes correspondantes ( *isnull() et dropna(...)* )
print(df.isnull().sum())
df_reduce=df.dropna(axis=0)
print(df_reduce.shape)


#nous allons éliminer certaines colonnes pour mieux voir le résultat de nos traitements  (sur le dataframe de départ) 
# (ne laisser que les colonnes *Survived*, *Pclass*, *Sex* et *Age* ) => fonction drop(...)
# s'il y a des valeurs nulles, éliminer les lignes correspondantes
df_new=df.drop(['PassengerId','Name','SibSp', 'Parch', 'Ticket', 'Fare', "Cabin", 'Embarked'], axis=1)
print(df_new.isnull().sum())

#afficher quelques statistiques de base (distribution des données, moyenne, variance, min) => une fonction existe. 
df_new.describe()



### 2) Traitements plus complexes

- Donner l'âge minimum des passagers, l'âge maximum des passagers, l'âge moyen des passagers

- Afficher les lignes relatives aux passagers qui ont 21 ans

- Afficher les lignes relatives aux passagers qui ont l'âge maximum

- Afficher les lignes relatives aux passagers de sexe féminin qui ont plus de 30 ans

- Afficher un tableau avec les âges cumulés (10 personnes de 21 ans ...) puis trier ce tableau cumulé dans l'ordre ascendant

- Des méthodes de dessin de graphique sont directement accessibles via les objets *pandas*. Dessiner le graphe relatif au tableau cumulé précédent (1 instruction)

- Dessiner un diagramme baton relatif au tableau cumulé précédent (1 instruction)

- Calculer l'âge moyen des passagers pour chaque classe de voyage (1 instruction)

- En regroupant les passagers par classe de voyage et par sexe, donner les moyennes de répartition des autres caractéristiques (1 seule instruction)

- Regrouper les données par classe de voyage et par sexe et calculer le nombre total de survivants dans chaque classe

- Calculer le pourcentage de survie pour chaque classe de voyage et chaque sexe.

- Calculer le pourcentage de survie en regroupant les données en fonction de la classe de voyage, du sexe et ceci pour des passagers âgés de moins de 18 ans

- Utiliser la fonction *pd.crosstab(...)* pour créer un tableau croisé montrant le nombre de survivants pour chaque classe de voyage et chaque sexe




In [None]:
#Donner l'age minimum des passagers, l'age maximum des passagers, l'age moyen des passagers
#print(df_new['Age'].min())
#print(df_new['Age'].max())
#print(df_new['Age'].mean())

#Afficher les lignes relatives aux passagers qui ont 21 ans
#print(df_new[df_new['Age']==21])

#Afficher les lignes relatives aux passagers qui ont l'age max 
#df_new[df_new['Age']==df_new['Age'].max()]

#Afficher les lignes relatives aux passagers de sexe féminin qui ont plus de 30 ans
#df_female_30=df_new[(df_new['Sex']=='female') & (df_new['Age'] > 30)]

#Afficher un tableau avec les ages cumulés (10 personnes de 21 ans ...) => value_counts(...)
# puis trier ce tableau cumulé dans l'ordre descendant
ages_cumul=df_new['Age'].value_counts()
#trier ce tableau cumulé dans l'ordre descendant
ages_cumul =ages_cumul.sort_index()
#ages_cumul

# des méthodes de dessin de graphique sont directement accessible via les objets panda
#dessiner le graphe relatif au tableau cumulé précédent (1 instruction)
#ages_cumul.plot()

#dessiner un diagramme baton relatif au tableau cumulé précédent
#ages_cumul.plot.bar(figsize=(20,10))

#Calculez l'âge moyen des passagers pour chaque classe de voyage 
#average_age_by_class_and_embarked = df_new.groupby(['Pclass'])['Age'].mean()

#En regroupant les passagers par classe et par sexe, donner les moyennes de répartition des autres caractéristiques (1 seule instruction)
#df_new.groupby(['Pclass', "Sex"]).mean()

#Regrouper les données par classe de voyage et sexe et calculer le nombre total de survivants dans chaque classe
survivors_by_class = df_new.groupby(['Pclass','Sex'])['Survived'].sum()
print(survivors_by_class)

#Calculer le pourcentage de survie pour chaque classe de voyage et chaque sexe.
survival_percentage = df_new.groupby(['Pclass', 'Sex'])['Survived'].mean() * 100
#print(survival_percentage)

#Calculer le pourcentage de survie en regroupant les données en fonction de la classe de voyage, du sexe et ceci pour des passagers agés de moins de 18 ans
#survival_percentage = df_new[df_new['Age']<18].groupby(['Pclass', 'Sex'])['Survived'].mean() * 100
#print(survival_percentage)

#Utiliser la fonction pd.crosstab(...) pour créer un tableau croisé montrant le nombre de survivants pour chaque classe de voyage et chaque sexe
cross_tab = pd.crosstab(df_new['Pclass'], df_new['Sex'], values=df_new['Survived'], aggfunc='sum', margins=True)
print(cross_tab)



### 3) Ensemble d'apprentissage, ensemble de test

- Charger le jeu de données Titanic à partir du .csv fourni

- Prétraitement des données (nous allons utiliser uniquement certaines colonnes: 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Survived')

- Gérer les valeurs manquantes (remplacer les valeurs manquantes de 'Age' par la moyenne)

- Convertir la colonne 'Sex' en une colonne binaire (0 pour *male*, 1 pour *female*)

- Découper le jeu de données en deux parties => X et Y:  
-- la première partie X correspond aux caractéristiques (donc toutes les colonnes sauf 'Survived')  
-- la seconde partie Y ne comprend que les données qui correspondent à la classe (la cible) qui ici est constituée de la colonne 'Survived'

- Diviser les données en respectant la répartition suivante:  80% pour l'apprentissage et 20% pour le test (regarder la fonction: *train_test_split(...)*)



In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split

# Charger le jeu de données complet
df = pd.read_csv('data/titanic.csv', sep='\t' )

# Prétraitement des données (nous allons utiliser uniquement les colonnes pertinentes pour l'exemple)
selected_columns = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Survived']
df = df[selected_columns]

# Gérer les valeurs manquantes (remplacer les valeurs manquantes de 'age' par la moyenne)
df['Age'].fillna(df['Age'].mean(), inplace=True)

# Convertir la colonne 'Sex' en une colonne binaire (0 pour male, 1 pour female)
df['Sex'] = df['Sex'].map({'male': 0, 'female': 1})

# Découper le jeu de données en deux parties => X et Y:
# la première partie X correspond aux caractéristiques (donc toutes les colonnes sauf 'Survived')
# la seconde partie Y ne comprend que les données qui correspondent à la classe (la cible) qui ici est constituée de la la colonne 'Survived'
X = df.drop('Survived', axis=1)  # Les caractéristiques
Y = df['Survived']              # La variable cible (Survived)

# Division en 80% pour l'apprentissage et 20% pour le test (regarder la fonction: train_test_split(...))
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

# Afficher la taille des ensembles 
print("Taille de l'ensemble d'apprentissage :", len(X_train))
print("Taille de l'ensemble de test :", len(X_test))

