# What's Cooking

In [None]:
from vizualisation import Vizualisation
from model import Cook
from prediction import Prediction

In [None]:
#import nltk
#nltk.download()

## Objectif 

Prédire l'origine d'une recette en fonction d'une liste d'ingrédients 

* Données récupérées sous format Json 
* Compétition Kaggle trouvable sur : https://www.kaggle.com/c/whats-cooking-kernels-only

## Analyse et découverte du jeu de données : 



### Analyse de la structure du dataset

In [None]:
viz = Vizualisation('train.json')

In [None]:
viz.df_info()

In [None]:
viz.df.head()

Le jeu de données est globalement propre, contient env 39 774 enregistrements sans valeures nulles

3 colonnes principales : 
* **id**
* **cuisine** qui correspond à notre target 
* **ingredients** : cette colonne contient des listes des ingrédients. 


### Analyse des ingrédients

In [None]:
viz.nb_ingredients_by_recipes()

La grande majorité des recettes contiennent moins de 20 ingrédients. 

Certains Outliers peuvent contenir jusqu'à 60 ingrédients. 


In [None]:
viz.country_recipes()

Il y a 20 types de cuisines différentes. Les plus représentées sont Italiennes, Mexicaines et Southern US

Ces catégories sont sur représentées par rapport aux autres cuisines

### Représentation graphiques des principaux ingrédients par type de cuisine

In [None]:
viz.nb_ingredients_by_country()

1. On remarque que certains ingrédients sont représentés dans toutes les cuisines (sel ...) 
2. De plus certaines type de cuisine ont des ingrédients distinctifs (fish sauce, soya sauce pour la thailande et la chine...)

## Preprocessing

Création d'un objet cook contenant : 

1. **un preprocessing :** 

    1. Un Regex permettant de nettoyer le jeu de données de toutes les lignes comprenant des caractères spéciaux ( chiffres, . ou autre...) 
    2. A partir de la bibliotheque nltk, application de l'outil pos tag permettant l'étiquetage **morpho syntaxique** puis conservation des : noms, adverbes et verbes. 
    3. Application d'un multilabelizer permettant de créer des features basées sur les listes d'ingrédients néttoyées.
    
2. **une modélisation :** 
    1. Des modèles à tester (SVC, Logistic Regression...)
    2. Optimisation des parametres (random search...)
    3. Ensemble learning (Stacking, Boosting...)
    
    
Sans application des Regex et du pos tag,le preprocessing créait 6700 features, 6400 avec les Regex, puis 4000 avec pos tag

## Test de la performance d'un modèle SVC 

Nous avons utilisé un TrainTest Split et non pas une cross validation pour évaluer nos résultats

### SVC

In [None]:
SVC_cook = Cook('train.json')

In [None]:
SVC_cook.mega_linearSVC()

**Interpretation du résultat :** 
Nous avons une accuracy de 76% (comparaison de nos prédictions vs. données test). Cette métrique est celle utilisée dans le challenge Kaggle. 

Cela signifie que 76% des valeures prédites sont correctes. 

### SGD

In [None]:
SGD_cook = Cook('train.json')

In [None]:
SGD_cook.mega_SGDClassifier()

Interpretation du résultat : Nous avons une accuracy de 77,6%. Le résultat est amélioré de 1% 

### Logistic Regression

In [None]:
logistic_cook = Cook('train.json')

In [None]:
logistic_cook.mega_LogisticRegression()

Résultat équivalent à SGD Regressor

### K neighborsClassifier

La performance du modele est impactée par le nombre important de features

In [None]:
Kneigh_cook = Cook('train.json')

In [None]:
Kneigh_cook.mega_KNeighborsClassifier()

## Random search on logistic regression 
L'objectif est d'optimiser les parametres du meilleur modele (Logistic Regression)

In [None]:
randomize_cook = Cook('train.json')

In [None]:
randomize_cook.randomize_training()

### Relance du modele avec les bests param

In [None]:
logistic_cook = Cook('train.json')

In [None]:
logistic_cook.mega_LogisticRegression(randomize_cook.best_params)

## Test des ensembles Learning pour améliorer le modèle

### Gradient Boosting

In [None]:
Gradient_boost_cook = Cook('train.json')

In [None]:
Gradient_boost_cook.mega_GradientBoostingClassifier()

### Adaboost

In [None]:
adaboost_cook = Cook('train.json')

In [None]:
adaboost_cook.mega_AdaBoostClassifier()

### Stacking 

In [None]:
#Stacking_cook = Cook('train.json')

In [None]:
#Stacking_cook.stacking_training()

## Prediction 

In [None]:
#final_model = Prediction('train.json')

In [None]:
final_model.mega_process('test.json',randomize_cook.best_params)