# Preprocessing sur les données de Juin 

Ce notebook permet d'avoir une première vue sur les données, et de les préprocesser.

In [201]:
import pandas as pd 
import numpy as np

Regardons ce qu'il y a dans les fichiers de type "resultats choix" 


In [202]:
df = pd.read_csv('data_CROUS/data/Resultats_choix_ENS_juin.csv', sep = ';', index_col=False, encoding='latin8', na_values=['NSPP', 'rien'])
print(df.columns)
print(df.shape)    
print(df.index)

Index(['Numero questionnaire', 'Plat 1', 'Plat 2', 'Plat 3', 'Hors etudiant',
       'Autre Ã©ventuellement', 'Heure départ', 'Genre', 'Régime',
       'Fréquentation', 'Faim', 'Connaissance entourage',
       'Influence entourage', 'Influence aspect', 'Quantité', 'Equilibre',
       'Aspect', 'Attente', 'Convives', 'Unnamed: 19', 'Unnamed: 20',
       'Unnamed: 21', 'Unnamed: 22', 'Unnamed: 23', 'Unnamed: 24',
       'Unnamed: 25'],
      dtype='object')
(119, 26)
RangeIndex(start=0, stop=119, step=1)


In [203]:
df

Unnamed: 0,Numero questionnaire,Plat 1,Plat 2,Plat 3,Hors etudiant,Autre Ã©ventuellement,Heure départ,Genre,Régime,Fréquentation,...,Aspect,Attente,Convives,Unnamed: 19,Unnamed: 20,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25
0,C02,Salade soja,Cabillaud semoule,fruit,,,12:39,Homme,non,1à3,...,0.0,6.0,C01,,,,,,,
1,C06,Salade riz,Cabillaud semoule,,,,,,,,...,,,,,,,,,,
2,C04,Saucisson,Chipo semoule,Mousse chocolat,,,,,,,...,,,,,,,,,,
3,C12,,Chipo semoule,Emmental,,,,,,,...,,,,,,,,,,
4,C07,Salade riz,Cabillaud semoule,yaourt,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
114,B80,Saucisson,Chipo semoule,Mousse chocolat,,,13:11,Homme,non,1à3,...,6.0,7.0,,,,,,,,
115,B76,Salade riz,lasagnes vg,fruit,,,13:04,Femme,oui,1à3,...,6.0,1.0,B73,B74,B75,,,,,
116,B79,Carottes,lasagnes vg,fruit,,,,,,,...,,,,,,,,,,
117,B73,Endives,,,,,,,,,...,,,,,,,,,,


Regardons les tables précédantes pour uniformiser au maximum les colonnes.

In [204]:

df_0 = pd.read_csv('data_CROUS/data/Resultats_choix_21_octobre.csv', sep = ';', index_col=False)
print(df_0.columns) #Index(['Horodateur', 'Numéro de formulaire ', 'ENTREE','Prise en double de l'entrée ', 'PLAT ', 'DESSERT','Prise en double du dessert'],dtype='object')
print(df_0.shape)    
print(df_0.index)

Index(['Horodateur', 'Numéro de formulaire ', 'ENTREE',
       'Prise en double de l'entrée ', 'PLAT ', 'DESSERT',
       'Prise en double du dessert'],
      dtype='object')
(131, 7)
RangeIndex(start=0, stop=131, step=1)


## Plats

### Gestion des colonnes annexes

In [205]:
print(df['Hors etudiant'].unique())
print(df['Autre Ã©ventuellement'].unique())

[nan 'Pizza']
[nan '12h20' '12h23' '12h28' '12h30' '12h31' '12h32' '12:12' '12h36'
 '12h41' 'Burger' 'Frites salade' 'Burger frites' 'Burger frites ']


In [206]:
df.loc[np.where(df['Hors etudiant'] == 'Pizza')[0],['Plat 2']] = 'Pizza'
print('Pizza OK')

for autre in ['Burger', 'Frites salade', 'Burger frites', 'Burger frites ']:
    df.loc[np.where(df['Autre Ã©ventuellement'] == autre)[0],['Plat 2']] = autre
    print(autre, ' OK')

Pizza OK
Burger  OK
Frites salade  OK
Burger frites  OK
Burger frites   OK


### Mise en forme des noms des plats

Pour commencer, regardons un peu la distribution des différents plats qui ont été choisis. 

In [207]:
# NB : 
# print(type(df['PLAT '])) # <class 'pandas.core.series.Series'> 
# print(type(df[['PLAT ']])) # <class 'pandas.core.frame.DataFrame'>

print(len(df['Plat 2'].unique())) # Combien de plats possibles ? --> 11 plats différents 
print(df['Plat 2'].value_counts()) # Quel sont-ils ? 
df['Plat 2'].unique()

9
Chipo semoule        51
lasagnes vg          30
Cabillaud semoule    21
Burger                3
Burger frites         2
Pizza                 1
Frites salade         1
Burger frites         1
Name: Plat 2, dtype: int64


array(['Cabillaud semoule', 'Chipo semoule', 'lasagnes vg', nan, 'Pizza',
       'Burger', 'Frites salade', 'Burger frites', 'Burger frites '],
      dtype=object)

On observe qu'une mise en forme va être nécéssaire. En effet, dans les fichier d'Octobre le plat est séparé en différents élements (viande, féculents, légumes).

In [208]:
df['Plat 2'] = df['Plat 2'].replace('Chipo semoule', 'Chipo + semoule', regex = True)
df['Plat 2'] = df['Plat 2'].replace('Cabillaud semoule', 'Cabillaud + semoule', regex = True)
df['Plat 2'] = df['Plat 2'].replace('Burger frites', 'Burger + frites', regex = True)
df['Plat 2'] = df['Plat 2'].replace('Burger frites ', 'Burger + frites', regex = True)
df['Plat 2'] = df['Plat 2'].replace('Frites salade', 'Frites + salade', regex = True)

Puis pour standardiser les données nous enlevons les espaces et les majuscules.

In [209]:
# Enlevons tous les espaces:
df['Plat 2'] = df['Plat 2'].replace(' ', '', regex = True)
print(df['Plat 2'])

# On obtient alors 
print(len(df['Plat 2'].unique())) # Combien de plats possibles ? --> 13 plats differents 
print(df['Plat 2'].value_counts()) # Quel sont-ils ? 

df['Plat 2'].unique()

0      Cabillaud+semoule
1      Cabillaud+semoule
2          Chipo+semoule
3          Chipo+semoule
4      Cabillaud+semoule
             ...        
114        Chipo+semoule
115           lasagnesvg
116           lasagnesvg
117                  NaN
118    Cabillaud+semoule
Name: Plat 2, Length: 119, dtype: object
8
Chipo+semoule        51
lasagnesvg           30
Cabillaud+semoule    21
Burger                3
Burger+frites         3
Pizza                 1
Frites+salade         1
Name: Plat 2, dtype: int64


array(['Cabillaud+semoule', 'Chipo+semoule', 'lasagnesvg', nan, 'Pizza',
       'Burger', 'Frites+salade', 'Burger+frites'], dtype=object)

De plus, on observe qu'à cause d'un problème de casse, "FeuilletéSaumonoseille+Torsades+Poeléebrocolis " et "FeuilletéSaumonoseille+Torsades+PoeléeBrocolis" sont considérés comme 2 plats differents 

In [210]:
# --> on enlève la casse 
df['Plat 2'] = df['Plat 2'].str.lower()
# On recommence et on obtient alors :
print(len(df['Plat 2'].unique())) 
print(df['Plat 2'].value_counts()) 
df['Plat 2'].unique()

8
chipo+semoule        51
lasagnesvg           30
cabillaud+semoule    21
burger                3
burger+frites         3
pizza                 1
frites+salade         1
Name: Plat 2, dtype: int64


array(['cabillaud+semoule', 'chipo+semoule', 'lasagnesvg', nan, 'pizza',
       'burger', 'frites+salade', 'burger+frites'], dtype=object)

Les lignes où il n'y a pratiquement que des valeurs anquantes sont à supprimer :

In [211]:
df.loc[np.where(df['Plat 2'].isnull())[0],:]

Unnamed: 0,Numero questionnaire,Plat 1,Plat 2,Plat 3,Hors etudiant,Autre Ã©ventuellement,Heure départ,Genre,Régime,Fréquentation,...,Aspect,Attente,Convives,Unnamed: 19,Unnamed: 20,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25
10,C11,Endives,,,,,,,,,...,,,,,,,,,,
76,A01,Salade riz,,,,,,,,,...,,,,,,,,,,
86,B38,Salade soja,,,,,,,,,...,,,,,,,,,,
98,B09,Salade riz,,,,,,,,,...,,,,,,,,,,
108,B58,Saucisson,,,,,,,,,...,,,,,,,,,,
110,B67,Salade riz,,,,,12:54,Homme,non,>3,...,5.0,10.0,B68,,,,,,,
112,B75,Salade riz,,,,,13:04,Homme,,>3,...,8.0,8.0,B73,B74,B76,,,,,
113,B74,Endives,,,,,13:04,Homme,oui,>3,...,3.0,6.0,B73,B76,,,,,,
117,B73,Endives,,,,,,,,,...,,,,,,,,,,


In [212]:
np.where(df['Plat 2'].isnull() * df['Genre'].isnull())[0]

array([ 10,  76,  86,  98, 108, 117], dtype=int64)

In [213]:
df = df.drop(index = np.where(df['Plat 2'].isnull() * df['Genre'].isnull())[0])

In [214]:
df.reset_index(drop = True, inplace = True)
df.loc[np.where(df['Plat 2'].isnull())[0],:]

Unnamed: 0,Numero questionnaire,Plat 1,Plat 2,Plat 3,Hors etudiant,Autre Ã©ventuellement,Heure départ,Genre,Régime,Fréquentation,...,Aspect,Attente,Convives,Unnamed: 19,Unnamed: 20,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25
105,B67,Salade riz,,,,,12:54,Homme,non,>3,...,5.0,10.0,B68,,,,,,,
107,B75,Salade riz,,,,,13:04,Homme,,>3,...,8.0,8.0,B73,B74,B76,,,,,
108,B74,Endives,,,,,13:04,Homme,oui,>3,...,3.0,6.0,B73,B76,,,,,,


## Entrées

Voyons maintenant pour la colonne "ENTREE"

In [215]:
print(len(df['Plat 1'].unique())) 
print(df['Plat 1'].value_counts()) 
df['Plat 1'].unique()

7
Carottes       21
Salade riz     20
Saucisson      16
Salade soja    10
Endives         4
Sardines        2
Name: Plat 1, dtype: int64


array(['Salade soja', 'Salade riz', 'Saucisson', nan, 'Endives',
       'Carottes', 'Sardines'], dtype=object)

Pas d'erreurs en particulier...  
Nous allons tout de même suppprimer les espaces et mettre en lower case pour standaradiser avec les autres fichiers.

In [216]:
# Enlevons tous les espaces et les apostrophes 
df['Plat 1'] = df['Plat 1'].replace(' ', '', regex = True)
df['Plat 1'] = df['Plat 1'].replace("'", '', regex = True)
# --> on enlève la casse 
df['Plat 1'] = df['Plat 1'].str.lower()
print(len(df['Plat 1'].unique())) 
print(df['Plat 1'].value_counts()) 

7
carottes      21
saladeriz     20
saucisson     16
saladesoja    10
endives        4
sardines       2
Name: Plat 1, dtype: int64


## Desserts

Voyons maintenant pour la colonne 'DESSERTS'

In [217]:
print(len(df['Plat 3'].unique())) 
print(df['Plat 3'].value_counts())

10
fruit                    33
yaourt                   17
Mousse chocolat          16
Donut                    13
Emmental                  8
Chaource                  5
Crème dessert             3
Tarte frboises/ananas     3
Crème crÃ©ole             1
Name: Plat 3, dtype: int64


In [218]:
# Enlevons tous les espaces et les apostrophes 
df['Plat 3'] = df['Plat 3'].replace(' ', '', regex = True)
df['Plat 3'] = df['Plat 3'].replace("'", '', regex = True)

df['Plat 3'] = df['Plat 3'].replace("\/", '', regex = True)
# --> on enlève la casse 
df['Plat 3'] = df['Plat 3'].str.lower()


On y voit plus clair --> S'il y a des erreurs de frappes / d'enregistrements, on sera plus à meme de le voir.  

In [219]:
print(len(df['Plat 3'].unique())) 
print(df['Plat 3'].value_counts())

10
fruit                  33
yaourt                 17
moussechocolat         16
donut                  13
emmental                8
chaource                5
crèmedessert            3
tartefrboisesananas     3
crèmecrã©ole            1
Name: Plat 3, dtype: int64


# Gestion des colonnes

Des horaires sont écrits dans la colonne 

In [220]:
HD = df.loc[np.where(df['Autre Ã©ventuellement'].notna())[0],['Heure départ', 'Autre Ã©ventuellement']]
#AE = df.loc[np.where(df['Autre Ã©ventuellement'].notna())[0],['Heure départ']]
HD

Unnamed: 0,Heure départ,Autre Ã©ventuellement
59,12:53,12h20
64,13:11,12h23
66,12:40,12h28
67,13:02,12h30
68,13:03,12h31
70,,12h32
71,12:41,12:12
72,,12h36
74,13:15,12h41
82,,Burger


In [221]:
df = df.drop('Hors etudiant', axis=1)
df = df.drop('Autre Ã©ventuellement', axis=1)
print(df.columns)

Index(['Numero questionnaire', 'Plat 1', 'Plat 2', 'Plat 3', 'Heure départ',
       'Genre', 'Régime', 'Fréquentation', 'Faim', 'Connaissance entourage',
       'Influence entourage', 'Influence aspect', 'Quantité', 'Equilibre',
       'Aspect', 'Attente', 'Convives', 'Unnamed: 19', 'Unnamed: 20',
       'Unnamed: 21', 'Unnamed: 22', 'Unnamed: 23', 'Unnamed: 24',
       'Unnamed: 25'],
      dtype='object')


In [222]:
#Index(['Horodateur', 'Numéro de formulaire', 'ENTREE', 'PLAT ', 'DESSERT'], dtype='object')
df.columns = ['Numéro de formulaire', 'ENTREE', 'PLAT ', 'DESSERT', 
                    'Horodateur', 'Genre', 'Régime',
                   'Fréquentation', 'Faim', 'Connaissance entourage',
                   'Influence entourage', 'Influence aspect', 'Quantité', 'Equilibre',
                   'Aspect', 'Attente', 'Convives', 'Unnamed: 19', 'Unnamed: 20',
                   'Unnamed: 21', 'Unnamed: 22', 'Unnamed: 23', 'Unnamed: 24',
                   'Unnamed: 25']
df

Unnamed: 0,Numéro de formulaire,ENTREE,PLAT,DESSERT,Horodateur,Genre,Régime,Fréquentation,Faim,Connaissance entourage,...,Aspect,Attente,Convives,Unnamed: 19,Unnamed: 20,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25
0,C02,saladesoja,cabillaud+semoule,fruit,12:39,Homme,non,1à3,6.0,oui,...,0.0,6.0,C01,,,,,,,
1,C06,saladeriz,cabillaud+semoule,,,,,,,,...,,,,,,,,,,
2,C04,saucisson,chipo+semoule,moussechocolat,,,,,,,...,,,,,,,,,,
3,C12,,chipo+semoule,emmental,,,,,,,...,,,,,,,,,,
4,C07,saladeriz,cabillaud+semoule,yaourt,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
108,B74,endives,,,13:04,Homme,oui,>3,8.0,oui,...,3.0,6.0,B73,B76,,,,,,
109,B80,saucisson,chipo+semoule,moussechocolat,13:11,Homme,non,1à3,8.0,oui,...,6.0,7.0,,,,,,,,
110,B76,saladeriz,lasagnesvg,fruit,13:04,Femme,oui,1à3,6.0,oui,...,6.0,1.0,B73,B74,B75,,,,,
111,B79,carottes,lasagnesvg,fruit,,,,,,,...,,,,,,,,,,


# Sauvegarde

Le csv est préprocéssé, nous pouvons l'enregistrer. 

In [223]:
df.to_csv("Resultats_choix_Juin_ENS_cleaned.csv", sep = ';')