## Preprocessing

Ce notebook permet d'avoir une première vue sur les données, et de les préprocesser.

In [83]:
import pandas as pd 

Regardons ce qu'il y a dans les fichiers de type "resultats choix" 


In [84]:

df = pd.read_csv('Resultats_choix_21_octobre.csv', sep = ';', index_col=False)
print(df.columns) #Index(['Horodateur', 'Numéro de formulaire ', 'ENTREE','Prise en double de l'entrée ', 'PLAT ', 'DESSERT','Prise en double du dessert'],dtype='object')
print(df.head(10))
print(df.shape)    
print(df.index)     

Index(['Horodateur', 'Numéro de formulaire ', 'ENTREE',
       'Prise en double de l'entrée ', 'PLAT ', 'DESSERT',
       'Prise en double du dessert'],
      dtype='object')
    Horodateur Numéro de formulaire                           ENTREE  \
0   12:30:48                    6P4Y                    Pas d'entrée   
1   12:32:01                    2H8Z     Choux blanc à la japonaise    
2   12:32:45                    8M4T  Salade lentilles + Champignons   
3   12:32:51                    3G0E                Salade lentilles   
4   12:33:28                   8K6E                     Pas d'entrée   
5   12:33:34                    2O6T                    Pas d'entrée   
6   12:34:07                    1N8N                     Champignons   
7   12:34:09                    5P2D                 Carottes râpées   
8   12:34:30                    6R0N                    Pas d'entrée   
9   12:34:54                    5U6D                     Champignons   

  Prise en double de l'entrée   

Pour commencer, regardons un peu la distribution des différents plats qui ont été choisis. 

In [85]:
# NB : 
# print(type(df['PLAT '])) # <class 'pandas.core.series.Series'> 
# print(type(df[['PLAT ']])) # <class 'pandas.core.frame.DataFrame'>

print(len(df['PLAT '].unique())) # Combien de plats possibles ? --> 11 plats différents 
print(df['PLAT '].value_counts()) # Quel sont-ils ? 



21
Boeuf bourguignon + Torsades + Poelée brocolis            27
Risotto courgettes                                        19
Boeuf bourguignon + Torsades                              15
Feuilleté Saumon oseille + Torsades + Poelée brocolis     14
Feuilleté Saumon oseille + Torsades                       13
Kebab + Frites                                            10
Boeuf  bourguignon + Torsades                              8
Boeuf  bourguignon + Torsades + Poelée brocolis            4
Feuilleté Saumon oseille + Torsades + Poelée brocolis      3
Boeuf bourguignon + Torsades + Poelée brocolis             3
Pizza merguez poivrons                                     2
Feuilleté Saumon oseille + Torsades + Poelée Brocolis      2
Pizza raclette                                             2
Boeuf  bourguignon + Torsades + Poelée brocolis            2
Feuilleté Saumon oseille + Torsades+ Poelée brocolis       1
Hamburger + Frites                                         1
Torsades + Escalope v

On observe qu'une mise en forme va être nécéssaire. En effet, à cause des espaces, les plats suivants : 
"Boeuf  bourguignon + Torsades +Poelée brocolis" / "Boeuf bourguignon + Torsades + Poelée brocolis " / "Boeuf  bourguignon + Torsades + Poelée brocolis "
Ne sont pas considérés comme étant les mêmes. 

In [86]:
# Enlevons tous les espaces:
df['PLAT '] = df['PLAT '].replace(' ', '', regex = True)
print(df['PLAT '])

# On obtient alors 
print(len(df['PLAT '].unique())) # Combien de plats possibles ? --> 13 plats differents 
print(df['PLAT '].value_counts()) # Quel sont-ils ? 



0                          Torsades+Escalopeviennoise
1      FeuilletéSaumonoseille+Torsades+PoeléeBrocolis
2            Boeufbourguignon+Torsades+Poeléebrocolis
3      FeuilletéSaumonoseille+Torsades+PoeléeBrocolis
4           Torsades+Poeléebrocolis+Escalopeviennoise
                            ...                      
126    FeuilletéSaumonoseille+Torsades+Poeléebrocolis
127    FeuilletéSaumonoseille+Torsades+Poeléebrocolis
128                         Boeufbourguignon+Torsades
129          Boeufbourguignon+Torsades+Poeléebrocolis
130    FeuilletéSaumonoseille+Torsades+Poeléebrocolis
Name: PLAT , Length: 131, dtype: object
14
Boeufbourguignon+Torsades+Poeléebrocolis          37
Boeufbourguignon+Torsades                         23
Risottocourgettes                                 19
FeuilletéSaumonoseille+Torsades+Poeléebrocolis    18
FeuilletéSaumonoseille+Torsades                   13
Kebab+Frites                                      10
FeuilletéSaumonoseille+Torsades+PoeléeBrocoli

C'est mieux! 
On observe tout de meme qu'il reste qqs problèmes.
Par exemple, un '+' a été oublié, si bien que "FeuilletéSaumonoseille+TorsadesPoeléebrocolis" et "FeuilletéSaumonoseille+Torsades+PoeléeBrocolis"
ne sont pas considérés comme équivalents. 
--> pas d'autres choix que de rajouter le '+' à la main (?)

Pour garder les données d'origine intactes en cas de soucis, créons un dossier 'data_processed' 
sur lequel on travaillera et qui contiendra ce genre de modifications.   # DONE 

De plus, on observe qu'à cause d'un problème de casse, "FeuilletéSaumonoseille+Torsades+Poeléebrocolis " et "FeuilletéSaumonoseille+Torsades+PoeléeBrocolis" sont considérés comme 2 plats differents 

In [72]:
# --> on enlève la casse 
df['PLAT '] = df['PLAT '].str.lower()
# On recommence et on obtient alors :
print(len(df['PLAT '].unique())) 
print(df['PLAT '].value_counts()) 

12
poissonpané+spaghettis+mousselinedepotiron      18
filetdepoulet+spaghettis+mousselinedepotiron    17
rotidelégumesautofu+spaghettis                   9
poissonpané+spaghettis                           7
kebab+frites                                     5
filetdepoulet+spaghettis                         4
entrecôte+frites+salade                          2
filetdepoulet+spaghettis+légumes                 1
filetdepoulet+mousselinedepotiron                1
poissonpané+mousselinedepotiron                  1
filetdepoulet                                    1
kebab+salade                                     1
Name: PLAT , dtype: int64


Répondons à quelques questions simples : 

In [73]:
print(df['PLAT '].str.count("torsades").sum()) # A - Combien de personnes ont pris des torsades ? --> 96 
print(df['PLAT '].str.count("frites").sum()) # A - Combien de personnes ont pris des frites ? --> 12
print(df['PLAT '].str.count("pizza").sum()) # A - Combien de personnes ont pris des pizza ? --> 4

0
7
0


Voyons maintenant pour la colonne "ENTREE"

In [74]:
df['ENTREE']
print(len(df['ENTREE'].unique())) 
print(df['ENTREE'].value_counts()) 

9
Pas d'entrée                 30
Champignons                  10
Betterave                     7
Mini sandwich                 5
Chou blanc                    4
Rillette poisson              4
Salade de pommes de terre     4
Salade de riz                 2
Pâté                          1
Name: ENTREE, dtype: int64


Pas d'erreurs en particulier...  
Nous allons tout de même suppprimer les espaces et mettre en lower.case. 

In [75]:
# Enlevons tous les espaces et les apostrophes 
df['ENTREE'] = df['ENTREE'].replace(' ', '', regex = True)
df['ENTREE'] = df['ENTREE'].replace("'", '', regex = True)
# --> on enlève la casse 
df['ENTREE'] = df['ENTREE'].str.lower()
print(len(df['ENTREE'].unique())) 
print(df['ENTREE'].value_counts()) 

9
pasdentrée               30
champignons              10
betterave                 7
minisandwich              5
choublanc                 4
rillettepoisson           4
saladedepommesdeterre     4
saladederiz               2
pâté                      1
Name: ENTREE, dtype: int64


Voyons maintenant pour la colonne 'DESSERTS'

In [77]:
df['DESSERT']
print(len(df['DESSERT'].unique())) 
print(df['DESSERT'].value_counts()) 

37
Pas de dessert                           5
Banane                                   4
Yaourt nature Bio                        4
Compote                                  3
Roquefort                                3
Yaourt nature Bio + Compote              3
Crème praliné                            3
Banane                                   3
Yaourt nature Bio + Banane               2
Crème praliné                            2
Yaourt nature Bio + Pruneaux en sirop    2
Yaourt nature Bio                        2
Roquefort + Yaourt nature Bio            2
Pomme                                    2
Yaourt nature Bio + Pomme                2
Yaourt nature Bio + Crème praliné        2
Cantal AOP + Banane                      2
Pruneaux en sirop + Pomme                2
Crème praliné + Pomme                    1
Compote                                  1
Roquefort                                1
Kiwi                                     1
Roquefort + Crème praliné                1
Orange +

42 possibilités, non pas parce que le choix est très large, mais parce qu'il y a beaucoup de combinaisons possibles.  
Pour juste compter quel est le dessert qui a été le plus choisi, il serait interessant de ne pas brouiller le signal avec de telle combinaisons.  
One-hot encoding ? 

In [78]:
# Enlevons tous les espaces et les apostrophes 
df['DESSERT'] = df['DESSERT'].replace(' ', '', regex = True)
df['DESSERT'] = df['DESSERT'].replace("'", '', regex = True)
# --> on enlève la casse 
df['DESSERT'] = df['DESSERT'].str.lower()


On y voit plus clair --> S'il y a des erreurs de frappes / d'enregistrements, on sera plus à meme de le voir.  

In [80]:
print(len(df['DESSERT'].unique())) 
print(df['DESSERT'].value_counts())

29
banane                             7
yaourtnaturebio                    6
pasdedessert                       5
crèmepraliné                       5
roquefort                          4
compote                            4
yaourtnaturebio+compote            3
pomme                              2
kiwi                               2
yaourtnaturebio+pomme              2
roquefort+crèmepraliné             2
orange                             2
cantalaop+banane                   2
roquefort+yaourtnaturebio          2
yaourtnaturebio+pruneauxensirop    2
yaourtnaturebio+banane             2
pruneauxensirop+pomme              2
yaourtnaturebio+crèmepraliné       2
cantalaop+yaourtnaturebio          1
roquefort+pruneauxensirop          1
cantalaop+orange                   1
crèmepraliné+banane                1
cantalaop                          1
cantalaop+kiwi                     1
roquefort+banane+pomme             1
crèmepraliné+pomme                 1
crèmepraliné+orange                

On observe que des '+' on été oubliés : faissellenatureflancchocolat  et yaourtnaturesucréyaourtauxfruits n'ont pas été séparés.  
Modifions les à la main dans le csv.  # DONE 

On observe que les colonnes 'prise en double de dessert' et 'prise en double d'entree' sont très mal renseignées : il est indiqué 'NON' même quand c'est le cas, et inversement. On les enlève, si besoin nous récréerons l'info.  

In [81]:
df = df.drop("Prise en double de l'entrée ", axis=1)
df = df.drop('Prise en double du dessert', axis=1)
print(df.columns )

Index(['Horodateur', 'Numéro de formulaire', 'ENTREE', 'PLAT ', 'DESSERT'], dtype='object')


Le csv est préprocéssé, nous pouvons l'enregistrer. 

In [82]:
df.to_csv("Resultats_choix_21_octobre_cleaned.csv", sep = ';')