# Projet 2 - Déploiement

> Le but de ce projet est de mettre en production un modèle d'analyse de sentiment construit sur le jeu de données de commentaires sur [Disneyland](https://www.kaggle.com/arushchillar/disneyland-reviews).

In [None]:
import pandas as pd
import numpy as np


In [None]:
df = pd.read_csv('DisneylandReviews.csv', encoding='cp1252')
df.head()

Unnamed: 0,Review_ID,Rating,Year_Month,Reviewer_Location,Review_Text,Branch
0,670772142,4,2019-4,Australia,If you've ever been to Disneyland anywhere you...,Disneyland_HongKong
1,670682799,4,2019-5,Philippines,Its been a while since d last time we visit HK...,Disneyland_HongKong
2,670623270,4,2019-4,United Arab Emirates,Thanks God it wasn t too hot or too humid wh...,Disneyland_HongKong
3,670607911,4,2019-4,Australia,HK Disneyland is a great compact park. Unfortu...,Disneyland_HongKong
4,670607296,4,2019-4,United Kingdom,"the location is not in the city, took around 1...",Disneyland_HongKong


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42656 entries, 0 to 42655
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Review_ID          42656 non-null  int64 
 1   Rating             42656 non-null  int64 
 2   Year_Month         42656 non-null  object
 3   Reviewer_Location  42656 non-null  object
 4   Review_Text        42656 non-null  object
 5   Branch             42656 non-null  object
dtypes: int64(2), object(4)
memory usage: 2.0+ MB


In [None]:
df['Rating'].unique()

array([4, 3, 5, 2, 1])

# Préparation des données

In [None]:
df = df.drop(['Review_ID', 'Year_Month', 'Reviewer_Location'], axis=1)

In [None]:
from nltk.corpus import stopwords
from nltk.tokenize import NLTKWordTokenizer



def preprocess_text(text):
    stop_words = set(stopwords.words('english'))
    stop_words.update(["'ve", "", "'ll", "'s", ".", ",", "?", "!", "(", ")", "..", "'m", "n", "u"])
    tokenizer = NLTKWordTokenizer()
    
    text = text.lower()
    
    tokens = tokenizer.tokenize(text)
    tokens = [t for t in tokens if t not in stop_words]
    
    return ' '.join(tokens)



df['Review_Text'] = df['Review_Text'].apply(preprocess_text)
df.head()

Unnamed: 0,Rating,Review_Text,Branch
0,4,ever disneyland anywhere find disneyland hong ...,Disneyland_HongKong
1,4,since last time visit hk disneyland yet time s...,Disneyland_HongKong
2,4,thanks god hot humid visiting park otherwise w...,Disneyland_HongKong
3,4,hk disneyland great compact park. unfortunatel...,Disneyland_HongKong
4,4,location city took around 1 hour kowlon kids l...,Disneyland_HongKong


In [None]:
df['Review_Text'][1]

'since last time visit hk disneyland yet time stay tomorrowland aka marvel land iron man experience newly open ant man wasp ironman great feature exciting especially whole scenery hk hk central area kowloon antman changed previous buzz lightyear less expecting something however boys like space mountain turns star wars 1 great cast members staffs felt bit minus point dun feel like disney brand seems local like ocean park even worst got smiling face wan na enter attraction leave hello supposed happiest place earth brand really dont feel bakery main street attractive delicacies disney theme sweets good points last also starbucks inside theme park'

# Premier Modele

> Le premier modèle consiste à considérer toutes les branches ensemble.

In [None]:
df1 = df.drop(['Branch'], axis=1)
df1.head()


Unnamed: 0,Rating,Review_Text
0,4,ever disneyland anywhere find disneyland hong ...
1,4,since last time visit hk disneyland yet time s...
2,4,thanks god hot humid visiting park otherwise w...
3,4,hk disneyland great compact park. unfortunatel...
4,4,location city took around 1 hour kowlon kids l...


In [None]:
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
from sklearn.model_selection import train_test_split

features = df['Review_Text']
target = df['Rating']


X_train, X_test, y_train, y_test = train_test_split(features, target)

count_vectorizer_unique = CountVectorizer(max_features=2000)

X_train_cv = count_vectorizer_unique.fit_transform(X_train)
X_test_cv = count_vectorizer_unique.transform(X_test)

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier

# model_unique = RandomForestClassifier(max_depth=3, n_estimators=100)
model_unique = LogisticRegression()
# model_unique = DecisionTreeClassifier(max_depth=8)

model_unique.fit(X_train_cv, y_train)

model_unique.score(X_test_cv, y_test)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


0.6086834208552138

## Deuxieme modele

> Dans ce modele les branches sont séparées en 3.

In [None]:
df['Branch'].unique()

array(['Disneyland_HongKong', 'Disneyland_California', 'Disneyland_Paris'],
      dtype=object)

In [None]:
count_vectorizers = {}
models = {}

for branch in df['Branch'].unique():
    count_vectorizer = CountVectorizer(max_features=2000)
#     model = LogisticRegression()
    model = RandomForestClassifier(n_estimators=20, max_depth=5)
    
    df_temp = df[df['Branch'] == branch]
    
    X_train, X_test, y_train, y_test = train_test_split(df_temp['Review_Text'], df_temp['Rating'])
    
    X_train_cv = count_vectorizer.fit_transform(X_train)
    X_test_cv = count_vectorizer.transform(X_test)
    
    model.fit(X_train_cv, y_train)
    print(branch, ':', model.score(X_test_cv, y_test))
    
    count_vectorizers[branch] = count_vectorizer
    models[branch] = model
    

Disneyland_HongKong : 0.47650727650727653
Disneyland_California : 0.6424154987633965
Disneyland_Paris : 0.4380868544600939


## Objectifs

> L'objectif de ce projet est de déployer les modèles créés plus tôt. Attention, en production, les modèles ne devront pas être ré-entrainés.
>
> ### L'API
>
> On va dans un premier construire une API avec Flask ou FastAPI. Cette API devra permettre d'interroger les différents modèles. Les utilisateurs pourront aussi interroger l'API pour accéder aux performances de l'algorithme sur les jeux de tests. Enfin il faut permettre aux utilisateurs d'utiliser une identification basique. (On pourra utiliser le `header` `Authentication` et encoder `username:password` en base 64).
> On pourra utiliser la liste d'utilisateurs/mots de passe suivante:
> - alice: wonderland
> - bob: builder
> - clementine: mandarine
> - ... 
>
> ### Le container
>
> Il s'agira ici de créer un container Docker pour déployer facilement l'API. On portera une attention particulière aux librairies Python à installer ainsi qu'à leurs différentes versions. 
>
> ### Les tests
>
> Une série de tests devra être créée pour tester l'API contenairisée. On pourra pour cela créé un fichier `docker-compose.yml` en s'inspirant de ce qui a été fait dans l'évaluation de Docker. 
>
> ### Kubernetes
>
> On pourra enfin créer un fichier de déploiement ainsi qu'un Service et un Ingress avec Kubernetes pour permettre le déploiement de l'API sur au moins 3 Pods.

## Rendus

> Les attendus sont un fichier pdf contenant des précisions sur les fichiers, sur les différentes étapes ainsi que sur les choix effectués. 
> On devra aussi rendre un repo Github sur lequel seront les fichiers suivants:
> - fichiers sources de l'API
> - Dockerfile de l'API
> - dans un dossier l'ensemble des fichiers utilisés pour créer les tests
> - les fichiers de déploiements de Kubernetes
> - tout autre fichier ayant été utilisés pour faire ce projet.