# ๏ Partie 2: Model Building

2 algorithmes avec au moins 2 paramètres différents (ex: max_depth, n_estimators,….)
Expliquer en vulgarisant le fonctionnement de vos algorithmes et ses paramètres

### Importer nos librairies

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
%matplotlib inline 

### Importer notre dataset

In [2]:
df = pd.read_csv('./data/new_cancer.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,Age,Gender,Air Pollution,Alcohol use,Dust Allergy,OccuPational Hazards,Genetic Risk,chronic Lung Disease,Balanced Diet,...,Fatigue,Weight Loss,Shortness of Breath,Wheezing,Swallowing Difficulty,Clubbing of Finger Nails,Frequent Cold,Dry Cough,Snoring,Level
0,0,33,1,2,4,5,4,3,2,2,...,3,4,2,2,3,1,2,3,4,0
1,1,17,1,3,1,5,3,4,2,2,...,1,3,7,8,6,2,1,7,2,1
2,2,35,1,4,5,6,5,5,4,6,...,8,7,9,2,1,4,6,7,2,2
3,3,37,1,7,7,7,7,6,7,7,...,4,2,3,1,4,5,6,7,5,2
4,4,46,1,6,8,7,7,7,6,7,...,3,2,4,1,4,2,4,2,3,2


In [3]:
# Drop Unnamed column
df = df.drop("Unnamed: 0",axis=1)
list(df.columns)

['Age',
 'Gender',
 'Air Pollution',
 'Alcohol use',
 'Dust Allergy',
 'OccuPational Hazards',
 'Genetic Risk',
 'chronic Lung Disease',
 'Balanced Diet',
 'Obesity',
 'Smoking',
 'Passive Smoker',
 'Chest Pain',
 'Coughing of Blood',
 'Fatigue',
 'Weight Loss',
 'Shortness of Breath',
 'Wheezing',
 'Swallowing Difficulty',
 'Clubbing of Finger Nails',
 'Frequent Cold',
 'Dry Cough',
 'Snoring',
 'Level']

## Choix de nos variables


### Lors de l'exploration de notre dataset dans le fichier analyseGraphique.ipynb
### nous avons trouvé quelques features plus intéréssantes que d'autres que nous allons utilisé pour créer notre model de prédiction 

In [4]:

# X = df[["Dust Allergy","OccuPational Hazards","Genetic Risk","Obesity","Coughing of Blood"]]
y = df["Level"]
X = df.drop('Level',axis=1)

### Split data

In [5]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.3, random_state=0)

### Étant donné que notre dataset ne contient que 1000 lignes je commence par tester le model SGDRegressor

## Créer notre model SGDRegressor

In [6]:
from sklearn.linear_model import SGDRegressor

In [7]:
# Instancier la class SGDRegressor
reg = SGDRegressor()

# Entrainer notre modéle
reg.fit(X_train, y_train)

SGDRegressor()

In [8]:
reg.score(X_test,y_test)

-9.487271386432248e+18

### On remarque ici que notre model à un score négatif 
### Je vais donc faire de preprocessing à mon dataset

In [9]:
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline
reg_sc = make_pipeline(StandardScaler(),SGDRegressor())
reg_sc.fit(X_train,y_train)
reg_sc.score(X_test,y_test)

0.89966853676969

#### Après avoir fait le préprocessing avec StanderScaler j'obtiens un score de 90%, Résultats trés satisfaisante 

### Tester un autre model pour voir si nous obtiendrons un meilleur score
### Je vais tester le RidgeRegression et le SVR car je considére dans un premier temps que toutes mes features sont importantes

In [10]:
from sklearn.linear_model import Ridge
from sklearn.svm import SVR
ridge_model = Ridge(alpha=5)
ridge_model.fit(X_train,y_train)
print("Le score est de {} avec le Ridge model".format(ridge_model.score(X_test,y_test)))

svr_model = SVR()
svr_model.fit(X_train,y_train)
svr_model.score(X_test,y_test)
print("Le score est de {} avec le SVR model".format(svr_model.score(X_test,y_test)))

Le score est de 0.9116530614764305 avec le Ridge model
Le score est de 0.9343698087288946 avec le SVR model


### Ici notre modéle ridge regression obtiens un meilleur score avec 91% tandis que le SVR est très mauvais car les algorithmes de SVM recommande de mettre à l'échelle notre (data scale data) 
#### https://scikit-learn.org/stable/modules/svm.html#regression

### ici vais procéder de la même façon que notre précédent model SGDRegressor 

In [11]:
svr_sc = make_pipeline(StandardScaler(),SVR())
svr_sc.fit(X_train,y_train)
svr_sc.score(X_test,y_test)

0.9889952489435959

#### c'est impréssionnant j'obtients un score de 99% on scalant mes données 
#### Je valide donc ce modèle pour déterminé le niveau de cancer chez un patient 