## Preprocessing

Ce notebook permet d'avoir une première vue sur les données, et de les préprocesser.

In [82]:
import pandas as pd 

Regardons ce qu'il y a dans les fichiers de type "resultats choix" 


In [83]:
df = pd.read_csv('data_CROUS/data_processed/Resultats_choix_21_octobre.csv', sep = ';', index_col=False)
print(df.columns) #Index(['Horodateur', 'Numéro de formulaire ', 'ENTREE','Prise en double de l'entrée ', 'PLAT ', 'DESSERT','Prise en double du dessert'],dtype='object')
print(df.head(10))
print(df.shape)    
print(df.index)     

Index(['Horodateur', 'Numéro de formulaire ', 'ENTREE',
       'Prise en double de l'entrée ', 'PLAT ', 'DESSERT',
       'Prise en double du dessert'],
      dtype='object')
    Horodateur Numéro de formulaire                           ENTREE  \
0   12:30:48                    6P4Y                    Pas d'entrée   
1   12:32:01                    2H8Z     Choux blanc à la japonaise    
2   12:32:45                    8M4T  Salade lentilles + Champignons   
3   12:32:51                    3G0E                Salade lentilles   
4   12:33:28                   8K6E                     Pas d'entrée   
5   12:33:34                    2O6T                    Pas d'entrée   
6   12:34:07                    1N8N                     Champignons   
7   12:34:09                    5P2D                 Carottes râpées   
8   12:34:30                    6R0N                    Pas d'entrée   
9   12:34:54                    5U6D                     Champignons   

  Prise en double de l'entrée   

Pour commencer, regardons un peu la distribution des différents plats qui ont été choisis. 

In [84]:
# NB : 
# print(type(df['PLAT '])) # <class 'pandas.core.series.Series'> 
# print(type(df[['PLAT ']])) # <class 'pandas.core.frame.DataFrame'>

print(len(df['PLAT '].unique())) # Combien de plats possibles ? --> 11 plats différents 
print(df['PLAT '].value_counts()) # Quel sont-ils ? 



21
Boeuf bourguignon + Torsades + Poelée brocolis            27
Risotto courgettes                                        19
Boeuf bourguignon + Torsades                              15
Feuilleté Saumon oseille + Torsades + Poelée brocolis     14
Feuilleté Saumon oseille + Torsades                       13
Kebab + Frites                                            10
Boeuf  bourguignon + Torsades                              8
Boeuf  bourguignon + Torsades + Poelée brocolis            4
Feuilleté Saumon oseille + Torsades + Poelée brocolis      3
Boeuf bourguignon + Torsades + Poelée brocolis             3
Pizza merguez poivrons                                     2
Feuilleté Saumon oseille + Torsades + Poelée Brocolis      2
Pizza raclette                                             2
Boeuf  bourguignon + Torsades + Poelée brocolis            2
Feuilleté Saumon oseille + Torsades + Poelée  brocolis     1
Hamburger + Frites                                         1
Torsades + Escalope v

On observe qu'une mise en forme va être nécéssaire. En effet, à cause des espaces, les plats suivants : 
"Boeuf  bourguignon + Torsades +Poelée brocolis" / "Boeuf bourguignon + Torsades + Poelée brocolis " / "Boeuf  bourguignon + Torsades + Poelée brocolis "
Ne sont pas considérés comme étant les mêmes. 

In [85]:
# Enlevons tous les espaces:
df['PLAT '] = df['PLAT '].replace(' ', '', regex = True)
print(df['PLAT '])

# On obtient alors 
print(len(df['PLAT '].unique())) # Combien de plats possibles ? --> 13 plats differents 
print(df['PLAT '].value_counts()) # Quel sont-ils ? 



0                          Torsades+Escalopeviennoise
1      FeuilletéSaumonoseille+Torsades+PoeléeBrocolis
2            Boeufbourguignon+Torsades+Poeléebrocolis
3      FeuilletéSaumonoseille+Torsades+PoeléeBrocolis
4           Torsades+Poeléebrocolis+Escalopeviennoise
                            ...                      
126    FeuilletéSaumonoseille+Torsades+Poeléebrocolis
127    FeuilletéSaumonoseille+Torsades+Poeléebrocolis
128                         Boeufbourguignon+Torsades
129          Boeufbourguignon+Torsades+Poeléebrocolis
130    FeuilletéSaumonoseille+Torsades+Poeléebrocolis
Name: PLAT , Length: 131, dtype: object
14
Boeufbourguignon+Torsades+Poeléebrocolis          37
Boeufbourguignon+Torsades                         23
Risottocourgettes                                 19
FeuilletéSaumonoseille+Torsades+Poeléebrocolis    18
FeuilletéSaumonoseille+Torsades                   13
Kebab+Frites                                      10
FeuilletéSaumonoseille+Torsades+PoeléeBrocoli

C'est mieux! 
On observe tout de meme qu'il reste qqs problèmes.
Par exemple, un '+' a été oublié, si bien que "FeuilletéSaumonoseille+TorsadesPoeléebrocolis" et "FeuilletéSaumonoseille+Torsades+PoeléeBrocolis"
ne sont pas considérés comme équivalents. 
--> pas d'autres choix que de rajouter le '+' à la main (?)

Pour garder les données d'origine intactes en cas de soucis, créons un dossier 'data_processed' 
sur lequel on travaillera et qui contiendra ce genre de modifications.   # DONE 

De plus, on observe qu'à cause d'un problème de casse, "FeuilletéSaumonoseille+Torsades+Poeléebrocolis " et "FeuilletéSaumonoseille+Torsades+PoeléeBrocolis" sont considérés comme 2 plats differents 

In [86]:
# --> on enlève la casse 
df['PLAT '] = df['PLAT '].str.lower()
# On recommence et on obtient alors :
print(len(df['PLAT '].unique())) 
print(df['PLAT '].value_counts()) 

13
boeufbourguignon+torsades+poeléebrocolis          37
boeufbourguignon+torsades                         23
feuilletésaumonoseille+torsades+poeléebrocolis    20
risottocourgettes                                 19
feuilletésaumonoseille+torsades                   13
kebab+frites                                      10
pizzaraclette                                      2
pizzamerguezpoivrons                               2
torsades+escalopeviennoise                         1
torsades+poeléebrocolis+escalopeviennoise          1
feuilletésaumonoseille+torsades+ratatouille        1
faux-filet+frites                                  1
hamburger+frites                                   1
Name: PLAT , dtype: int64


Répondons à quelques questions simples : 

In [87]:
print(df['PLAT '].str.count("torsades").sum()) # A - Combien de personnes ont pris des torsades ? --> 96 
print(df['PLAT '].str.count("frites").sum()) # A - Combien de personnes ont pris des frites ? --> 12
print(df['PLAT '].str.count("pizza").sum()) # A - Combien de personnes ont pris des pizza ? --> 4

96
12
4


Encoder les données en one-hot peut etre pertinente ici. Pour l'instant nous ne faisons qu'une étape préliminaire :  
séparer la colonne PLAT et 3 colonnes. 

In [88]:

# Séparons maintenant en plusieurs colonnes la colonne 'PLAT' en utilisant le '+' qui sépare 2 items 
# L'item i se retrouve dans la colonne 'PLAT_i'
df[['PLAT_1','PLAT_2', 'PLAT_3']] = df['PLAT '].str.split('+', expand=True)
# On peut supprimer la colonne PLAT
df = df.drop('PLAT ', axis = 1)
print(df.columns)


Index(['Horodateur', 'Numéro de formulaire ', 'ENTREE',
       'Prise en double de l'entrée ', 'DESSERT', 'Prise en double du dessert',
       'PLAT_1', 'PLAT_2', 'PLAT_3'],
      dtype='object')


Voyons maintenant pour la colonne "ENTREE"

In [89]:
df['ENTREE']
print(len(df['ENTREE'].unique())) 
print(df['ENTREE'].value_counts()) 

20
Pas d'entrée                               63
Oeuf mimosa                                17
Salade lentilles                           15
Champignons                                 5
Salade pates                                5
Choux blanc à la japonaise                  5
Carottes râpées                             4
Artichauts                                  3
Salade lentilles + Champignons              2
Tomates                                     2
Oeuf mimosa + Artichauts                    1
Salami                                      1
Oeuf mimosa + Salami                        1
Champignons + Coeurs de palmiers            1
Oeuf mimosa + Champignons                   1
Coeurs de palmiers                          1
Salami + Champignons                        1
Salade lentilles + Carottes râpées          1
Salade lentilles + Oeuf mimosa              1
Choux blanc à la japonaise + Artichauts     1
Name: ENTREE, dtype: int64


Pas d'erreurs en particulier...  
Nous allons tout de même suppprimer les espaces et mettre en lower.case. 
De plus, toujours dans une optique de one hot encoding, nous allons mettre sur 2 colonnes si entrée double.

In [90]:
# Enlevons tous les espaces et les apostrophes 
df['ENTREE'] = df['ENTREE'].replace(' ', '', regex = True)
df['ENTREE'] = df['ENTREE'].replace("'", '', regex = True)
# --> on enlève la casse 
df['ENTREE'] = df['ENTREE'].str.lower()
# Séparons maintenant en plusieurs colonnes la colonne 'ENTREE en utilisant le '+' qui sépare 2 items 
# L'item i se retrouve dans la colonne 'ENTREE_i'
df[['ENTREE_1','ENTREE_2']] = df['ENTREE'].str.split('+', expand=True)
#On peut maintenant supprimer la colonne ENTREE
df = df.drop('ENTREE', axis=1)

# on obtient alors : 
print(df.columns)
print(df['ENTREE_1'])
print(len(df['ENTREE_1'].unique())) 
print(df['ENTREE_1'].value_counts()) 

print(len(df['ENTREE_2'].unique())) 
print(df['ENTREE_2'].value_counts()) 

Index(['Horodateur', 'Numéro de formulaire ', 'Prise en double de l'entrée ',
       'DESSERT', 'Prise en double du dessert', 'PLAT_1', 'PLAT_2', 'PLAT_3',
       'ENTREE_1', 'ENTREE_2'],
      dtype='object')
0                  pasdentrée
1      chouxblancàlajaponaise
2             saladelentilles
3             saladelentilles
4                  pasdentrée
                ...          
126                pasdentrée
127                pasdentrée
128    chouxblancàlajaponaise
129                   tomates
130                pasdentrée
Name: ENTREE_1, Length: 131, dtype: object
11
pasdentrée                63
oeufmimosa                20
saladelentilles           19
chouxblancàlajaponaise     6
champignons                6
saladepates                5
carottesrâpées             4
artichauts                 3
salami                     2
tomates                    2
coeursdepalmiers           1
Name: ENTREE_1, dtype: int64
7
champignons         4
artichauts          2
oeufmimosa          

Voyons maintenant pour la colonne 'DESSERTS'

In [91]:
df['DESSERT']
print(len(df['DESSERT'].unique())) 
print(df['DESSERT'].value_counts()) 

42
Yaourt aux fruits                                                 15
Fromage blanc fruits rouges                                       11
Pas de dessert                                                     9
Yaourt aux fruits + Banane                                         8
Fromage blanc fruits rouges + Pomme golden                         8
Yaourt aux fruits + Pomme golden                                   5
Banane                                                             5
Yaourt aux fruits + Fromage blanc fruits rouges + Banane           5
Fromage blanc fruits rouges + Orange                               4
Yaourt aux fruits + Fromage blanc fruits rouges                    4
Faisselle nature + Fromage blanc fruits rouges                     4
Yaourt nature sucré                                                4
Mimolette + Fromage blanc fruits rouges                            4
Faisselle nature                                                   4
Orange                         

42 possibilités, non pas parce que le choix est très large, mais parce qu'il y a beaucoup de combinaisons possibles.  
Pour juste compter quel est le dessert qui a été le plus choisi, il serait interessant de ne pas brouiller le signal avec de telle combinaisons.  
One-hot encoding ? 

In [92]:
# Enlevons tous les espaces et les apostrophes 
df['DESSERT'] = df['DESSERT'].replace(' ', '', regex = True)
df['DESSERT'] = df['DESSERT'].replace("'", '', regex = True)
# --> on enlève la casse 
df['DESSERT'] = df['DESSERT'].str.lower()
# Séparons maintenant en plusieurs colonnes la colonne 'DESSERT en utilisant le '+' qui sépare 2 items 
# L'item i se retrouve dans la colonne 'DESSERT_i'
df[['DESSERT_1','DESSERT_2', 'DESSERT_3']] = df['DESSERT'].str.split('+', expand=True)
#On peut maintenant supprimer la colonne DESSERT
df = df.drop('DESSERT', axis=1)
print(df.columns)


Index(['Horodateur', 'Numéro de formulaire ', 'Prise en double de l'entrée ',
       'Prise en double du dessert', 'PLAT_1', 'PLAT_2', 'PLAT_3', 'ENTREE_1',
       'ENTREE_2', 'DESSERT_1', 'DESSERT_2', 'DESSERT_3'],
      dtype='object')


On y voit plus clair --> S'il y a des erreurs de frappes / d'enregistrements, on sera plus à meme de le voir.  

In [93]:
print(len(df['DESSERT_1'].unique())) 
print(df['DESSERT_1'].value_counts())

11
yaourtauxfruits             43
fromageblancfruitsrouges    30
faissellenature             15
yaourtnaturesucré           11
mimolette                   10
pasdedessert                 9
banane                       5
orange                       3
œufàlaneige                  2
flancchocolat                2
pommegolden                  1
Name: DESSERT_1, dtype: int64


On observe que des '+' on été oubliés : faissellenatureflancchocolat  et yaourtnaturesucréyaourtauxfruits n'ont pas été séparés.  
Modifions les à la main dans le csv.  # DONE 

On observe que les colonnes 'prise en double de dessert' et 'prise en double d'entree' sont très mal renseignées : il est indiqué 'NON' même quand c'est le cas, et inversement. On les enlève, si besoin nous récréerons l'info.  

In [94]:
df = df.drop("Prise en double de l'entrée ", axis=1)
df = df.drop('Prise en double du dessert', axis=1)
print(df.columns )

Index(['Horodateur', 'Numéro de formulaire ', 'PLAT_1', 'PLAT_2', 'PLAT_3',
       'ENTREE_1', 'ENTREE_2', 'DESSERT_1', 'DESSERT_2', 'DESSERT_3'],
      dtype='object')


Le csv est préprocéssé, nous pouvons l'enregistrer. 

In [97]:
df.to_csv("data_CROUS/data_processed/Resultats_choix_21_octobre_processed.csv", sep = ';')

Nous allons maintenant encoder ce df en one-hot et l'enregistrer. 

In [100]:
csv = pd.read_csv("data_CROUS/data_processed/Resultats_choix_21_octobre_processed.csv", sep = ';', index_col=False)
print(csv.columns)
one_hot = pd.get_dummies(csv['PLAT_1', 'PLAT_2','PLAT_3', 'ENTREE_1', 'ENTREE_2', 'DESSERT_1', 'DESSERT_2','DESSERT_3'])
print(one_hot.columns)

Index(['Unnamed: 0', 'Horodateur', 'Numéro de formulaire ', 'PLAT_1', 'PLAT_2',
       'PLAT_3', 'ENTREE_1', 'ENTREE_2', 'DESSERT_1', 'DESSERT_2',
       'DESSERT_3'],
      dtype='object')


KeyError: ('PLAT_1', 'PLAT_2', 'PLAT_3', 'ENTREE_1', 'ENTREE_2', 'DESSERT_1', 'DESSERT_2', 'DESSERT_3')