# Prédiction de cuisine nationnale

In [11]:
import pandas as pd
cuisines_df = pd.read_csv("cleaned_cuisines.csv")
cuisines_df.head()

Unnamed: 0.1,Unnamed: 0,cuisine,almond,angelica,anise,anise_seed,apple,apple_brandy,apricot,armagnac,...,whiskey,white_bread,white_wine,whole_grain_wheat_flour,wine,wood,yam,yeast,yogurt,zucchini
0,0,indian,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,1,indian,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,2,indian,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,3,indian,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,4,indian,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0


In [12]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import accuracy_score,precision_score,confusion_matrix,classification_report, precision_recall_curve
from sklearn.svm import SVC
import numpy as np

Divisez les coordonnées X et y en deux dataframes pour l'entraînement. la cuisine peut être le dataframe des labels :


In [13]:
cuisines_label_df = cuisines_df['cuisine']
cuisines_label_df.head()

0    indian
1    indian
2    indian
3    indian
4    indian
Name: cuisine, dtype: object

In [14]:
#On supprime unnamed et cuisine qui sont nos labels afin de créer notre base de features
cuisines_feature_df = cuisines_df.drop(['Unnamed: 0', 'cuisine'], axis=1)
cuisines_feature_df.head()

Unnamed: 0,almond,angelica,anise,anise_seed,apple,apple_brandy,apricot,armagnac,artemisia,artichoke,...,whiskey,white_bread,white_wine,whole_grain_wheat_flour,wine,wood,yam,yeast,yogurt,zucchini
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0


# Choix du classifier

Alors, quel classificateur choisir ? Souvent, en parcourir plusieurs et chercher un bon résultat est un moyen de tester. Scikit-learn propose une comparaison côte à côte sur un ensemble de données créé, comparant KNeighbors, SVC dans les deux sens, GaussianProcessClassifier, DecisionTreeClassifier, RandomForestClassifier, MLPClassifier, AdaBoostClassifier, GaussianNB et QuadraticDiscinationAnalysis, montrant les résultats visualisés :


Les réseaux de neurones sont trop lourds. Compte tenu de notre ensemble de données propre mais minimal, et du fait que nous exécutons la formation localement via des ordinateurs portables, les réseaux de neurones sont trop lourds pour cette tâche.  

Pas de classificateur à deux classes. Nous n'utilisons pas de classificateur à deux classes, ce qui exclut le un contre tous.  

Un arbre de décision ou une régression logistique pourraient fonctionner. Un arbre de décision peut fonctionner, ou une régression logistique pour les données multiclasses.  

Les arbres de décision multiclasses résolvent un problème différent. L'arbre de décision amplifié multiclasse est le plus approprié pour les tâches non paramétriques, par ex. tâches conçues pour construire des classements, il ne nous est donc pas utile.

Utiliser Scikit-learn  

Nous utiliserons Scikit-learn pour analyser nos données. Cependant, il existe de nombreuses façons d'utiliser la régression logistique dans Scikit-learn. Jetez un œil aux paramètres à passer.

Il existe essentiellement deux paramètres importants, multi_class et solver, que nous devons spécifier lorsque nous demandons à Scikit-learn d'effectuer une régression logistique. La valeur multi_class applique un certain comportement. La valeur du solveur est l'algorithme à utiliser. Tous les solveurs ne peuvent pas être associés à toutes les valeurs multi_class.

D'après la doc, dans le cas multiclasse, l'algorithme d'apprentissage :

Utilise le schéma one-vs-rest (OvR), si l'option multi_class est définie sur ovr
Utilise la perte d'entropie croisée, si l'option multi_class est définie sur multinomial. (Actuellement, l'option multinomiale n'est prise en charge que par les solveurs 'lbfgs', 'sag', 'saga' et 'newton-cg'.)"

# Split the data

In [15]:
X_train, X_test, y_train, y_test = train_test_split(cuisines_feature_df, cuisines_label_df, test_size=0.3)


# Application de la régression logistique

In [16]:
lr = LogisticRegression(multi_class='ovr',solver='liblinear')
model = lr.fit(X_train, np.ravel(y_train))

accuracy = model.score(X_test, y_test)
print ("Accuracy is {}".format(accuracy))

Accuracy is 0.7948290241868223


L'accuracy est plutôt bonne, 80%, on test maintenant le model sur une ligne du dataframe

In [17]:
print(f'ingredients: {X_test.iloc[50][X_test.iloc[50]!=0].keys()}')
print(f'cuisine: {y_test.iloc[50]}')

ingredients: Index(['avocado', 'carrot', 'cucumber', 'honey', 'seaweed', 'soy_sauce',
       'soybean', 'vinegar'],
      dtype='object')
cuisine: japanese


In [18]:
test= X_test.iloc[50].values.reshape(-1, 1).T
proba = model.predict_proba(test)
classes = model.classes_
resultdf = pd.DataFrame(data=proba, columns=classes)

topPrediction = resultdf.T.sort_values(by=[0], ascending = [False])
topPrediction.head()

Unnamed: 0,0
japanese,0.801426
korean,0.191853
thai,0.004489
chinese,0.002167
indian,6.6e-05


Le Model trouve que le plat est indien, certainement parce que les ingrédients ressemblent fortement à de la cuisine indienne.

In [19]:
y_pred = model.predict(X_test)
print(classification_report(y_test,y_pred))

              precision    recall  f1-score   support

     chinese       0.76      0.71      0.74       246
      indian       0.89      0.94      0.92       243
    japanese       0.66      0.81      0.73       241
      korean       0.87      0.76      0.81       237
        thai       0.82      0.75      0.78       232

    accuracy                           0.79      1199
   macro avg       0.80      0.79      0.80      1199
weighted avg       0.80      0.79      0.80      1199



In [20]:
X_test.iloc[50]

almond        0
angelica      0
anise         0
anise_seed    0
apple         0
             ..
wood          0
yam           0
yeast         0
yogurt        0
zucchini      0
Name: 2379, Length: 380, dtype: int64

# Classifier 2
## Séparation des données

In [21]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import accuracy_score,precision_score,confusion_matrix,classification_report, precision_recall_curve
import numpy as np

In [22]:
#Séparation en train et en test
X_train, X_test, y_train, y_test = train_test_split(cuisines_feature_df, cuisines_label_df, test_size=0.3)


## Linear SVC Classifier

Le clustering à vecteurs de support (SVC) est un enfant de la famille des machines à vecteurs de support des techniques ML. Dans cette méthode, vous pouvez choisir un "noyau" pour décider comment regrouper les étiquettes. Le paramètre 'C' fait référence à la 'régularisation' qui régule l'influence des paramètres. Le noyau peut avoir plusieurs états ; ici, nous le définissons sur « linéaire » pour nous assurer que nous tirons parti du SVC linéaire. La probabilité par défaut est « faux » ; ici, nous le définissons sur « vrai » pour recueillir des estimations de probabilité. Nous définissons l'état aléatoire sur « 0 » pour mélanger les données afin d'obtenir des probabilités.


### Application SVC

In [23]:
C = 10
# Create different classifiers.
classifiers = {
    'Linear SVC': SVC(kernel='linear', C=C, probability=True,random_state=0)
}

In [25]:
#On entraine notre model en utilisant le model linear SVC
n_classifiers = len(classifiers)

for index, (name, classifier) in enumerate(classifiers.items()):
    classifier.fit(X_train, np.ravel(y_train))

    y_pred = classifier.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print("Accuracy (train) for %s: %0.1f%% " % (name, accuracy * 100))
    print(classification_report(y_test,y_pred))

Accuracy (train) for Linear SVC: 78.6% 
              precision    recall  f1-score   support

     chinese       0.67      0.71      0.69       231
      indian       0.84      0.89      0.86       246
    japanese       0.82      0.77      0.79       244
      korean       0.85      0.70      0.77       227
        thai       0.77      0.84      0.80       251

    accuracy                           0.79      1199
   macro avg       0.79      0.78      0.78      1199
weighted avg       0.79      0.79      0.79      1199

