# Laboratoire d'apprentissage machine 1: Manipulation des données

Ce laboratoire est séparé en deux sections. 

La première section montre comment utiliser la librairie *pandas*. Vous n'avez pas à produire de code pour cette section. Toutefois, je vous encourage à expérimenter un peu avec le code fourni.

La seconde section a pour but de nettoyer un ensemble de données (dataset) fictif. Vous aurez à effectuer le nettoyage vous même à l'aide des commentaires. Vous aurez aussi à répondre à des questions directement dans le notebook qui permettront de pousser votre réflexion. 

**Le notebook est à remettre sur moodle avant le 1er novembre 23h55. La section 2 doit être complétée tant au niveau des questions que du code**.

Les manipulations pour le nettoyage du code comptent pour 70% du laboratoire, et les questions, pour l'autre 30%.

## Modules utilisés

Voici les modules que nous allons utiliser lors de ce laboratoire:

In [2]:
import numpy as np
import pandas as pd

## Section 1: Manipulations de base
La librairie *pandas* permet de faciliter la manipulation des données via l'utilisation de conteneurs appelés *dataframe*. Les *dataframes* sont des tableaux indexant des valeurs selon un index et un nom de colonne. Ils offrent aussi une foule de méthodes utiles que nous allons voir tout au long du notebook. Pour plus de détails, voir la documentation de *pandas*: [pandas documentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)

### Création d'un dataframe
Il existe plusieurs manières de créer un *dataframe*. Cette section vous montre quelques manières de faire.

In [3]:
# À partir d'un dictionnaire
d = {'colonne1':['a','b'], 'colonne2':['c','d']}
df1 = pd.DataFrame(data=d)
df1

Unnamed: 0,colonne1,colonne2
0,a,c
1,b,d


In [4]:
# À partir de "numpy array", un type de liste spécifique au module numpy 
# Note: Les dataframes sont basés sur les numpy array. 
# Les numpy array sont des conteneur optimisés pour les calculs.
array = np.array([['e','f'], ['g','h']])
my_columns = ['colonne1','colonne2']
df2 = pd.DataFrame(data = array,
                  columns = my_columns)
df2

Unnamed: 0,colonne1,colonne2
0,e,f
1,g,h


In [5]:
# À partir d'un fichier csv
df3 = pd.read_csv('test_dataframe.csv')
df3

Unnamed: 0,colonne1,colonne2
0,i,j
1,k,l


### Accès aux lignes et aux colonnes

In [6]:
# Sélection d'une ligne
print(type(df1.loc[0]))
df1.loc[0]

<class 'pandas.core.series.Series'>


colonne1    a
colonne2    c
Name: 0, dtype: object

In [7]:
# Autre méthode de sélection pour une ligne
df1.loc[df1['colonne1']  == 'b']

Unnamed: 0,colonne1,colonne2
1,b,d


In [8]:
# Sélection d'une colonne
print(type(df1['colonne1']))
print(df1)
print(df1['colonne1'])

<class 'pandas.core.series.Series'>
  colonne1 colonne2
0        a        c
1        b        d
0    a
1    b
Name: colonne1, dtype: object


Les series sont des conteneurs similaires aux *dataframes*, mais en une seule dimension. Cela les distinguent des *dataframes* en 2 dimensions.

Afin de faciliter l'accès aux données, l'index par défaut du *dataframe* peut être remplacé.

In [9]:
# Changer index:

# En utilisant une colonne
print(df1.set_index('colonne1', drop = False))

# En utilisant une liste d'index
df1.set_index(pd.Index(['ligne1','ligne2']))

         colonne1 colonne2
colonne1                  
a               a        c
b               b        d


Unnamed: 0,colonne1,colonne2
ligne1,a,c
ligne2,b,d


<div class="alert alert-block alert-warning">
    
**ATTENTION**: La méthode *set_index*, comme la plupart des méthodes modifiant les *datasets*, retourne une copie du dataset et ne modifie pas ce dernier. 
Pour modifier les *datasets*, deux options s'offrent à vous:

In [10]:
# Réécrire (Overwrite) la variable
df1 = df1.set_index(pd.Index(['ligne1','ligne2']))

# Utiliser le paramètre inplace de la méthode utilisée
df1.set_index(pd.Index(['ligne1','ligne2']), inplace = True)
df1

Unnamed: 0,colonne1,colonne2
ligne1,a,c
ligne2,b,d


### Accès aux éléments
Il peut être intéressant d'aller chercher une valeur spécifique d'une ligne et une colonne. Toutefois, il vaut mieux privilégier les manipulations au niveau du *dataframe* au complet ou au niveau des séries plutôt que sur les élément individuels.

In [11]:
# Sélection d'un élément d'une série. Identique à la manière d'accéder à une colonne d'un dataframe.
serie = df1['colonne1']
print(serie)
serie['ligne1']

ligne1    a
ligne2    b
Name: colonne1, dtype: object


'a'

### Retrait/Ajout de colonnes

In [12]:
# Retrait
df1.drop(['colonne1'], axis='columns')

Unnamed: 0,colonne2
ligne1,c
ligne2,d


In [13]:
# Ajout
# On va ajouter la première colonne de df2 au dataframe df1
# 1) S'assurer que les indice concorde
df2.set_index(pd.Index(['ligne1','ligne2']), inplace = True)
# 2) On fait une assignation
df1['colonne3'] = df2['colonne1']
df1

Unnamed: 0,colonne1,colonne2,colonne3
ligne1,a,c,e
ligne2,b,d,g


In [14]:
# Pour ajouter de multiples colonnes, assign peut être utilisé
print(df1.assign(colonne3 = df2['colonne1'], colonne4 = df2['colonne2']))

# Join peut aussi être utilisé pour ajouter toutes les colonnes
df1.join(df2, rsuffix= '_2')

       colonne1 colonne2 colonne3 colonne4
ligne1        a        c        e        f
ligne2        b        d        g        h


Unnamed: 0,colonne1,colonne2,colonne3,colonne1_2,colonne2_2
ligne1,a,c,e,e,f
ligne2,b,d,g,g,h


### Retrait/Ajout de lignes

In [15]:
# Retrait
df1.drop('ligne1') # la méthode drop retire les lignes par défaut

Unnamed: 0,colonne1,colonne2,colonne3
ligne2,b,d,g


Une fonctionnalité intéressante des *dataframes* est la possibilité de créer une série de booléens à l'aide d'une expression booléenne que l'on applique sur le *dataframe*. Par la suite, on peut utiliser cette série pour sélectionner seulement les éléments qui sont vrais. Voici un petit exemple pour clarifier le tout:

In [16]:
# Liste de bool
serie_conditionnelle = df1['colonne1'] == 'a'
print(serie_conditionnelle)
df1[serie_conditionnelle]

ligne1     True
ligne2    False
Name: colonne1, dtype: bool


Unnamed: 0,colonne1,colonne2,colonne3
ligne1,a,c,e


En pratique, on n'utilise pas de varible intermédiaire. Il est aussi possible de combiner plusieurs expressions booléennes avec les symboles | et & .

In [17]:
# Ajout de multiple ligne
df1 = df1.join(df2, rsuffix= '_2')
df1.drop('colonne3', axis='columns', inplace = True)
df1.append(df2)

  df1.append(df2)


Unnamed: 0,colonne1,colonne2,colonne1_2,colonne2_2
ligne1,a,c,e,f
ligne2,b,d,g,h
ligne1,e,f,,
ligne2,g,h,,


**Attention**: Dans ce cas, l'index n'est pas unique. Lors de l'ajout de ligne, toujours s'assurer que l'identifiant est unique. Le paramètre *ignore_index* peut être utilisé à cet effet.

### Informations sur le *dataframe*

In [18]:
# shape est un attribut permet d'obtenir les dimensions du dataframe
print(f'Il y a {df1.shape[0]} lignes et {df1.shape[1]} colonnes dans df1') 

Il y a 2 lignes et 4 colonnes dans df1


In [19]:
# Liste des index
df1.index

Index(['ligne1', 'ligne2'], dtype='object')

In [20]:
# Afficher juste les premières lignes
df1.head()

Unnamed: 0,colonne1,colonne2,colonne1_2,colonne2_2
ligne1,a,c,e,f
ligne2,b,d,g,h


In [21]:
# Monter le nombre de valeurs différentes dans une colonne
df1['colonne1'].value_counts()

a    1
b    1
Name: colonne1, dtype: int64

## Section 2: Nettoyage des données

Trois *datasets* vous sont fournis. Ces *datasets* fournissent de l'information sur des paquets hypothétiques. 

L'objectif de cette section est de rassembler l'information contenue dans ces trois *datasets* en un *dataset* et de nettoyer les données. Afin de faire le regroupement entre les différents *dataset*, la colonne 'ID' peut être utilisé. Les trois *datasets* sont les suivants:

* dataset_test_1-1.csv: Identifie les paquets appartenant à l'application 1
* dataset_test_1-2.csv: Identifie les paquets appartenant à l'application 2
* dataset_test_2.csv: Identifie des informations supplémemtaires pour chaque paquet

### Importation des datasets

In [22]:
# Importer les trois datasets dans 3 dataframes différents et mettre "ID" comme index
df_1 = pd.read_csv('dataset_test_1-1.csv')
df_1 = df_1.set_index(df_1['ID'])
df_1.drop('ID', axis='columns', inplace = True )
#print(df_2)

#df_3 = pd.read_csv('dataset_test_1-2.csv')
#df_3 = df_3.set_index(df_3['ID'])
#df_4= df_3['Application']
#print(df_4)

## attention à créer des df et pas des series

df_3 = pd.read_csv('dataset_test_1-2.csv')
df_3 = df_3.set_index(df_3['ID'])
df_3.drop('ID', axis='columns', inplace = True )

df_5 = pd.read_csv('dataset_test_2.csv')
df_5 = df_5.set_index(df_5['ID'] )
df_5.drop('ID', axis='columns', inplace = True )
print(df_5)

     Packet length Response      Note
ID                                   
0            674.0     ACK2  No notes
1            176.0     ACK2  No notes
2            673.0     ACK1  No notes
3            720.0     ACK1  No notes
4            955.0      NaN  No notes
..             ...      ...       ...
995          674.0     ACK2  No notes
996          693.0     ACK2  No notes
997          353.0     ACK1  No notes
998          328.0     ACK1  No notes
999          370.0     ACK2  No notes

[1000 rows x 3 columns]


### Fusion des datasets

In [23]:
# Fusionner les datasets (n'oubliez pas append et join!)
df_7 = df_1.append(df_3)

df_final = df_7.join(df_5)


  df_7 = df_1.append(df_3)


### Question 1
Dans le cas où l'identifiant n'est pas unique, aurrait-il été possible de fusionner les datasets? Sinon, pourquoi? Si oui, comment?

Oui, le même code fonctionne avec un identifiant non unique.

In [24]:
## avec id = 004 remplacé par id = 005 dans C:\Users\loulo\OneDrive\Bureau\cours\ELE\Lab_ML1_V3\Lab_ML1_V3\dataset_test_1-1.csv
df_1 = pd.read_csv('dataset_test_1-1_id_pas_unique.csv')
df_1 = df_1.set_index(df_1['ID'])
df_1.drop('ID', axis='columns', inplace = True )

df_7 = df_1.append(df_3)

df_final = df_7.join(df_5)

df_final.to_csv('question_1.csv')

  df_7 = df_1.append(df_3)


### Gestion des données manquantes

Lorsqu'il manque des valeurs dans le *dataframe* (il y a des *NaN*), plusieurs options s'offrent à nous:

* Retirer la colonne: Si beaucoup de valeurs sont manquantes dans une colonne, il est possible de la retirer entièrement. 
* Retirer les lignes: Si seulement quelques lignes ont des valeurs manquantes, il est possible de les retirer.
* Mettre une valeur par défaut: Il peut être interessant de créer une nouvelle catégorie regroupant les variables manquantes pour les variables catégoriques. Pour ce qui est des variables numériques, dépendemment du contexte, une valeur peut aussi être déterminée.

Dans les données fournies, il manque des entrées dans la colonnes 'Response'. Nous allons remplacer les NaN par un string 'NO RESPONSE', supposant qu'un *NaN* signifie qu'il n'y a pas eu de réponse.

**Note**: Attention à la méthode *dropna*, qui enlève les colonnes ou les lignes qui manquent des valeurs. Toujours vérifier le nombre de valeurs retirées. L'information est précieuse, nous voulons donc minimiser l'information mise de côté durant le nettoyage.

In [25]:
# Remplacer les NaN dans Response (fillna ou replace peuvent être utilisé)
df_final.fillna(value='NO RESPONSE', inplace=True)


### Question 2
Lors de la manipulation précédente, nous avons décidé de regrouper tous les *NaN* dans une seule catégorie en supposant qu'un *NaN* signifiait qu'il n'y a pas eu de réponse. Selon vous, quels auraient été les avantages et les inconvénients de retirer les lignes contenant des NaN au lieu de remplacer les valeurs?

Avantage de retirer les lignes : moins de catégories ensuite pour la classifiation 
Désavantage : On perd des données pour pouvoir entrainer plus efficacement notre modèle de Machine learning 

### Gestion des types

In [26]:
# Changer le type de 'Packet length' de float à int (apply peut être utilisé)
df_final.head()
df_final['Packet length'].apply(int)


ID
0      674
1      176
2      673
3      720
3      720
      ... 
995    674
996    693
997    353
998    328
999    370
Name: Packet length, Length: 1000, dtype: int64

In [27]:
# S'assurer que le format des variables catégoriques est cohérent (avec la méthode value_counts). 
# Rappel: Il y a seulement 2 applications!

# Uniformiser le format (avec apply)
# Par uniformiser, on entend faire en sorte que le string décrivant une catégorie soit le même pour tous les éléments d'une catégorie
# Indice: Faire attention aux majuscules!
df_final['Application'].replace(to_replace='app1', value='APP1', inplace=True)
df_final['Application'].replace(to_replace='app2', value='APP2', inplace=True)

# Vérifier les modifications avec value_counts
print(df_final['Application'].value_counts())

APP2    502
APP1    498
Name: Application, dtype: int64


In [28]:
# Avec un value_count, on remarque que la colonne 'Note' n'est pas populée. Il est donc préférable de retirer cette colonne. Retirer cette colonne.
print(df_final['Note'].value_counts())
df_final.drop('Note', axis='columns', inplace = True )


No notes    1000
Name: Note, dtype: int64


### Filtrer le dataset

Dans certains cas, nous voulons analyser seulement une partie des données. Il est donc nécessaire de filtrer le *dataset*. 

Nous allons considérer que nous voulons exclure de l'analyse les paquets de l'application 1 ayant 'Packet length' inférieure à 300.

In [29]:
serie_conditionnelle_temp = (df_final['Packet length'] >= 300 ) | ( df_final['Application']!='APP1')

new_df = df_final[serie_conditionnelle_temp]

new_df

Unnamed: 0_level_0,Application,Packet length,Response
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,APP2,674.0,ACK2
1,APP2,176.0,ACK2
2,APP2,673.0,ACK1
3,APP1,720.0,ACK1
3,APP1,720.0,ACK1
...,...,...,...
995,APP1,674.0,ACK2
996,APP2,693.0,ACK2
997,APP1,353.0,ACK1
998,APP2,328.0,ACK1


In [30]:
#Filtrer le dataset pour exclure les paquets mentionnées à la cellule précédente
serie_conditionnelle_temp =  df_final['Packet length'] < 300 
new_df = df_final[serie_conditionnelle_temp]
serie_conditionnelle = new_df['Application']=='APP2'


In [31]:
serie_conditionnelle_temp = (df_final['Packet length'] < 300 ) & ( df_final['Application']=='APP1')


### Question 3

Selon vous, quel sera l'impact sur l'apprentissage machine de seulement sélectionner un sous-ensemble des données?

apprentissage plus performant sur le set défini, cependant la classification fonctionnera très mal sur le set sur lequel elle ne s'est pas entrainée. Il faut faire attention à ne pas overfitter.