<H1>TP 1 - Analyse d'un jeu de données</H1>

Nous allons dans ce TP analyser le jeu de données Titanic qui est très largement utilisé dans la communauté. Il concerne les informations concernant les personnes qui étaient à bord du Titanic.  
Les différentes colonnes sont les suivantes :  
    survival: Survival (0 = No; 1 = Yes)  
    pclass: Passenger Class (1 = 1st; 2 = 2nd; 3 = 3rd)  
    name: Name  
    sex: Sex  
    age: Age  
    sibsp: Number of Siblings/Spouses Aboard  
    parch: Number of Parents/Children Aboard  
    ticket: Ticket Number  
    fare: Passenger Fare  
    cabin: Cabin  
    embarked: Port of Embarkation (C = Cherbourg; Q = Queenstown; S = Southampton)  

**Lecture du fichier**  
Récupérer le fichier titanic.csv et le mettre dans le répertoire Dataset.  
Intégrer le contenu de ce fichier dans un dataframe pandas.

In [None]:
import pandas as pd

#attention le séparateur est une tabulation
df=pd.read_csv('Dataset/titanic.csv', sep='\t')
display (df.head())


## Analyse des données

L'objectif dans un premier temps est de se familiariser avec pandas pour obtenir des informations sur le jeu de données.  

**Pandas**  

Afficher la taille du dataframe, les six premières lignes, les trois dernières lignes et 5 lignes au hasard du dataframe.

Donner les informations sur le cinquième passager

Donner toutes les informations sur les passagers compris entre les lignes 10 et 16 

Donner les informations sur le passager dont le numéro (PassengerId) est 5

Indiquer les différentes informations associées aux colonnes (Nom des colonnes, type de la colonne, place prise par le dataframe, etc). 

Quel est le type de la colonne *Name* ?

Donner des statistiques de base du dataframe et préciser pourquoi Name n'apparait pas dans le résultat.

Donner le nombre de survivants? Indication il faut compter combien de PassagerId ont survécu avec la fonction count. 

Donner par categorie male/female le nombre de personnes qui ont ou n'ont pas survécu. Indication utilisation d'un groupby.

Donner par categorie de classe le nombre de personnes qui ont ou n'ont pas survécu.

Donner par categorie de classe et de sexe le nombre de personnes qui ont ou n'ont pas survécu.

Donner la liste des femmes qui ont survécu et dont l'age est supérieure à 30

Donner l'age max, min et moyen des personnes qui ont survécu

## Visualisation 


L'objectif est ici de visualiser quelques informations à l'aide de seaborn pour mettre en évidence les premières analyses précédentes.  

Dans un premier temps à l'aide de seaborn et de la fonction countplot afficher le nombre de survivants et de non survivants

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt





Afficher le nombre de catégorie male/female (attribut Sex) avec countplot.

La commande suivante affiche les survivants ou non en fonction du sexe.  

sns.factorplot(x='Survived', col='Sex', kind='count', data=df)  

Essayer de l'utiliser et faire de même par rapport aux attributs Pclass et Embarked. Que pouvez vous déduire dans un premier temps sur les survivants ou non.

Un peu plus loin sur l'analyse ...  

Le code suivant permet de connaître la répartition par sexe et par classe :  
g = sns.factorplot('Pclass', data=df, hue='Sex', kind='count')  
g.set_xlabels('Class')

Exécuter le code. Que constatez vous ? Faire la même chose pour Embarked

A votre factor plot ajouter col='Survived' comme paramètre pour voir la répartition par rapport au sexe des passagers. Faites de même par rapport à Embarked.

Créer la fonction suivante qui permet de créer des catégories en fonction de l'age des personnes.
    Ajouter dans df une colonne 'Person' qui contient la valeur de cet attribut.  
    
    def male_female_age(passenger):  
         age, sex = passenger  
         if age < 5:  
             return 'Baby'  
         if age >= 5 and age < 12:  
             return 'Child'  
         if age >= 12 and age < 18:  
             return 'Teneeger'  
         if age >=18 and age < 35:  
             return 'Young Adult'  
         if age >= 35 and age < 60:  
             return 'Adult'  
         if age >= 60:  
             return 'Senior'  
         else:  
             return sex  
    
    Rappel : pour appliquer une fonction à une colonne   
        df[['Age', 'Sex']].apply(male_female_child, axis=1)
        

In [None]:
def male_female_age(passenger):
    age, sex = passenger
    if age < 5:
        return 'Baby'
    if age >= 5 and age < 12:
        return 'Child'
    if age >= 12 and age < 18:
        return 'Teneeger'
    if age >=18 and age < 35:
        return 'Young Adult'
    if age >= 35 and age < 60:
        return 'Adult'
    if age >= 60:
        return 'Senior'
    else:
        return sex

Sur vos factorplot précédents remplacer hue='Sex' par hue='Person' et relancer les. Que constatez vous ? 

Enfin regarder la répartition pour les embarquements et les classes.

Quelques informations sur la distribution. A l'aide de displot afficher la distribution de Pclass et de Fare.

Afficher à l'aide de la fonction boxplot une boîte à moustache pour Pclass et Fare.



Faire les mêmes opérations à l'aide de la fonction violinplot.  
Rappel : elle offre les mêmes fonctionnalités que les boîtes à moustache mais en plus offre des informations sur une estimation de la densité. 

A présent, considérons l'age des personnes. A l'aide de displot afficher l'histogramme de distribution des ages avec le code suivant :  

age_dist=sns.distplot(df["Age"])  
age_dist.set_title("Distribution des ages")  

Que se passe-t'il ? 


Une erreur est levée "cannot convert float NaN to integer". NaN indique la présence de valeurs manquantes dans le jeu de données.

## Ingénierie des données 

**Traitement des valeurs manquantes**

Créer un nouveau dataframe df2 (pour créer un dataframe sans modifier le dataframe initial il faut en faire une copie : df2=df.copy()).   



In [None]:
df2=df.copy()

Donner la liste des colonnes pour lesquelles il y a des valeurs manquantes. Pour tester si une valeur est manquante, il est possible pour un dataframe d'utiliser pour une colonne la fonction isnull(). Attention celle-ci retourne un dataframe. Elle doit être suivie par any() pour avoir un booléen :  
        
        df ['colonne'].isnull().any()

Il est également possible d'afficher l'ensemble des données qui contiennent des valeurs NaN de la manière suivante : 
    
        
sns.heatmap(df.isnull(), cbar=False)

In [None]:
sns.heatmap(df2.isnull(), cbar=False)

Afficher le nombre de valeurs nulles Embarked, Cabin et Sex.


Remplacer les valeurs nulles de l'age par la moyenne des ages des passagers. Penser à vérifier que la transformation a bien été effectuée.

Supprimer tous les enregistrements qui contiennent encore une valeur nulle.

Utiliser sns.heatmap(df.isnull(), cbar=False) sur votre dataframe pour vérifier qu'il n'y a plus de valeurs nulles. 

Quelle est la taille de votre dataframa à présent ? Comparer le à la taille initiale.

En fait en supprimant les valeurs manquantes de cabines de trop nombreux enregristrements ont été effacés. Nous pouvons constater qu'il y a beaucoup de valeurs manquantes pour Cabin et que dans tous les cas elle ne va donc pas pouvoir aider à faire de la classification.  

Créer un nouveau dataframe df3=df.copy().  
Remplacer la valeur d'age par la médiane.  
Par simplification, supprimer la colonne Cabin.  
Rappel : pour supprimer une colonne df.drop('Nom colonne',1). Effacer les autres valeurs manquantes.   
Enfin, supprimer toutes les valeurs manquantes.  

Vérifier à l'aide de heatmap que votre jeu de données n'a plus de valeurs manquantes. Indiquer la taille du jeu de données. 


Afficher à présent l'histogramme des ages.

**Suppression des colonnes inutiles**

Dans cette étape il convient de supprimer les colonnes qui ne seront pas utiles pour la classification. 
La question à se poser est pour chaque colonne : est ce que cela a un sens de la conserver ?   
Il faut faire des choix qui peut être auront une conséquence sur la classification !!
    
Dans le jeu de données nous voyons qu'il n'y a sans doute pas d'intérêt de conserver le numéro de ticket car il ne semble pas qu'il y ait un codage particulier.  
Le nom des passager semble inutile. Pourtant si l'on regarde un peu attentivement (df3.display()) on peut se rendre compte qu'il existe des titres différents (Mr., Master, Miss, Rev., Mrs. etc) qui pourraient avoir un impact sur la classification.  
L'identifiant du passager n'apporte pas d'information.  

Effacer les différentes colonnes : 'Ticket', 'Name' et 'PassengerId'.

    

Un petit retour sur la colonne Person.  
A l'aide de display(df3.iloc[131] que constatez vous ? 

La fonction ayant été appliquée avant le traitement des valeurs manquantes toutes celles qui étaient manquantes ont été remplacées par le sexe de la personne. Supprimer la colonne Person.

** Attributs continus **

Il y a deux attributs continus dans le jeu de données. Age et Fare.  

Transformer à l'aide de la fonction cut l'attribut Age de manière à ce que les valeurs puissent prendre en compte les valeurs suivantes : 
   bins = (0, 5, 12, 18, 25, 35, 60, 120)  
   group_names = ['Baby', 'Child', 'Teenager', 'Student', 'Young Adult', 'Adult', 'Senior']   

Transformer à l'aide de la fonction cut l'attribut Fare de manière à ce que les valeurs puissent prendre en compte les valeurs suivantes : 
    bins = (0, 8, 15, 31, 1000)  
    group_names = ['1_quartile', '2_quartile', '3_quartile', '4_quartile']



** Attribut catégoriel**


Pour connaître les attributs catégoriels faire un df.info(). Les attributs catégoriels apparaissent avec comme type object ou category.

In [None]:

print (df3.info())

Il y a 4 attributs catégoriels à présent dans le jeu de données. Pour chacun d'entre eux transformer les en valeur numérique à l'aide de la fonction LabelEncoder().

## Sauvegarde du fichier transformé 

A présent sauvegarder le fichier modifié en titanic2.csv avec comme tabulateur des ';' en conservant l'entête.

Vérifier que votre fichier a été correctement sauvegardé. 

In [None]:
df=pd.read_csv('titanic2.csv', sep=';')
df.head()