# Reconnaissance du type de cuisine d'une rectte à partir des ingrédients

Imaginons un site de partage de recette communautaire désirant proposer une fonction de tag automatique des recettes suivant le type de cuisine. Pour mettre au point cette fonction, nous allons utiliser un classifieur et un ensemble de recette préalablement étiqueté.

In [1]:
import pandas as pd
import numpy as np
import json

Lecture des données et mise en forme. La première colones contient des données vides et la dernière "cuisine" contient les étiquettes.

In [18]:
with open("./recipes_train.json") as f:
    data_train=json.load(f)
    ytrain = [recipe["cuisine"] for recipe in data_train]
    xtraintext = [recipe["ingredients"] for recipe in data_train]

In [20]:
ingredients = np.unique(np.concatenate(xtraintext))

In [21]:
import sklearn

6714

In [37]:
X = data.iloc[:,1:-1]
y = data["cuisine"]
X.shape

(39774, 977)

In [38]:
X.head()

Unnamed: 0,1% low-fat milk,2% reduced-fat milk,Anaheim chile,Gochujang base,Italian bread,Italian parsley leaves,Italian turkey sausage,Mexican cheese,Mexican cheese blend,Mexican oregano,...,worcestershire sauce,yeast,yellow bell pepper,yellow corn meal,yellow onion,yellow peppers,yellow squash,yoghurt,yukon gold potatoes,zucchini
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


Les variables correspondent chacune à un ingrédient et la présence/l'absence de celui-ci dans une recette est codé à l'aide de 1 / 0.

In [39]:
X.columns

Index(['1% low-fat milk', '2% reduced-fat milk', 'Anaheim chile',
       'Gochujang base', 'Italian bread', 'Italian parsley leaves',
       'Italian turkey sausage', 'Mexican cheese', 'Mexican cheese blend',
       'Mexican oregano',
       ...
       'worcestershire sauce', 'yeast', 'yellow bell pepper',
       'yellow corn meal', 'yellow onion', 'yellow peppers', 'yellow squash',
       'yoghurt', 'yukon gold potatoes', 'zucchini'],
      dtype='object', length=977)

Les données ont été légérement pré-traitée et seul les 977 ingrédients les plus courants ont été conservés. La matrice de données contient donc in-fine 39 774 recettes et 977 ingrédients.

Enfin, le classifieur devra reconaitre 20 type différents de cuisine. Ce jeu de données n'est donc pas petit et commence à être de taille intéressante.

In [40]:
y.unique()

array(['greek', 'southern_us', 'filipino', 'indian', 'jamaican',
       'spanish', 'italian', 'mexican', 'chinese', 'british', 'thai',
       'vietnamese', 'cajun_creole', 'brazilian', 'french', 'japanese',
       'irish', 'korean', 'moroccan', 'russian'], dtype=object)

Comme précedement, nous allons importer des fonctions utiles de scikit-learn et préparer un jeu de données d'apprentissage et un jeu de données de test.'

In [41]:
from sklearn.model_selection import train_test_split,cross_val_score
# from sklearn.cross_validation import train_test_split,cross_val_score v0.15
from sklearn.metrics import classification_report,confusion_matrix
from sklearn.ensemble import RandomForestClassifier

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

Nous avons choisi d'utiliser des random forest pour résoudre ce problème. Estimons l'erreur de généralisation au sens du f-score par validation croisée.

In [42]:
clf = RandomForestClassifier(n_estimators=20)
scores = cross_val_score(clf, X_train, y_train, scoring='f1_weighted')
scores.mean()  



0.6462346924499124

Regardons ce qui se passe sur le jeu de test.

In [43]:
clf.fit(X_train,y_train)
y_pred=clf.predict(X_test)

In [44]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

   brazilian       0.74      0.31      0.44       144
     british       0.38      0.27      0.31       241
cajun_creole       0.71      0.62      0.67       448
     chinese       0.69      0.83      0.75       818
    filipino       0.60      0.47      0.53       219
      french       0.48      0.46      0.47       795
       greek       0.74      0.53      0.61       351
      indian       0.78      0.87      0.82       946
       irish       0.46      0.28      0.35       190
     italian       0.69      0.86      0.76      2337
    jamaican       0.81      0.31      0.45       176
    japanese       0.68      0.55      0.61       414
      korean       0.72      0.56      0.63       224
     mexican       0.79      0.87      0.83      1932
    moroccan       0.68      0.50      0.58       234
     russian       0.57      0.28      0.38       148
 southern_us       0.60      0.66      0.63      1291
     spanish       0.68    

In [45]:
cm=pd.DataFrame(confusion_matrix(y_pred,y_test), index=np.sort(y_train.unique()))
cm.columns=np.sort(y_train.unique())
cm

Unnamed: 0,brazilian,british,cajun_creole,chinese,filipino,french,greek,indian,irish,italian,jamaican,japanese,korean,mexican,moroccan,russian,southern_us,spanish,thai,vietnamese
brazilian,45,1,0,0,3,1,0,0,1,2,1,0,0,2,0,0,4,1,0,0
british,2,65,4,5,2,22,1,2,18,8,0,5,1,6,3,8,17,3,0,1
cajun_creole,2,2,279,2,2,9,0,0,2,12,4,1,0,5,2,2,59,7,1,0
chinese,3,2,2,675,27,5,3,2,2,7,18,72,55,10,1,1,10,3,52,31
filipino,7,1,1,5,103,6,0,2,2,7,5,3,1,5,2,2,4,3,7,6
french,3,37,11,7,11,367,17,9,26,101,3,9,2,22,5,28,69,31,3,3
greek,2,4,1,0,0,3,185,3,2,27,0,1,2,4,2,0,6,7,1,1
indian,4,10,5,8,7,9,4,824,2,12,20,23,2,21,37,3,16,8,31,8
irish,0,12,0,1,1,10,2,1,53,7,1,2,1,3,2,3,13,1,1,0
italian,20,35,42,16,16,235,100,13,20,2018,10,17,5,90,24,19,138,113,9,5


# Questions ?
## 1) Qu'elle est le taux de bonne classification de ce classifieur sur les données d'apprentissage, estimé par validation croisée (5 folds) et enfin sur les données de test ? 
Vous pourrez en profiter pour allez lire l'aide de la fonction sklearn.metrics.accuracy_score.
## Qu'en concluez-vous ?


## 2) Essayer d'améliorer les performances de ce classifieur en terme de taux de bonne classification ?
Vous pourrez faire varier le nombre d'arbre entre [20,50,100,200]. Servez-vous de la fonction GridSearchCV vue dans le premier notebbok.

In [46]:
from sklearn.model_selection import GridSearchCV

## 2) Tester une autre solution (Regression logistique)
Vous pourrez avantageusement lire la documentation de sklearn.linear_model.LogisticRegression

In [47]:
from sklearn.linear_model import LogisticRegression

## 3) Essayer de mettre en place une solution de rejet, pour obtenir un taux de bonne classification d'au moins 90% ? 
Pour ce faire vous utiliserez les probabilités fournies par le classifieur et ne prendrait une décision que quand ces probabilités sont supérieurs à un certain seuil (à déterminer). La fonction predict_proba devrait pouvoir vous aider.