#### TP 4 - Exercice Récap 
Les algos d'apprentissage, régression ou classification, se basent sur plusieurs paramètres pour réaliser l'entrainement.  On y trouve en particulier
- le type de penality : L1, L2, ... pour répondre au problème d'overfitting
- le nombre d'itérations : max_iter , le nombre de fois que l'on fait passer les exemples
- le solver :  optimiseur, le type d'algo utilisé pour modifier les paramètres, gradient descent (par exemple)

Ces paramètres peuvent être explicìtés dans le modèle, par exemple la <span style="color:green">LogisticRegression</span>

```class sklearn.linear_model.LogisticRegression(penalty='l2', *, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver='lbfgs', max_iter=100, multi_class='auto', verbose=0, warm_start=False, n_jobs=None, l1_ratio=None)```

ou encore
```class sklearn.linear_model.Ridge(alpha=1.0, *, fit_intercept=True, copy_X=True, max_iter=None, tol=0.0001, solver='auto', positive=False, random_state=None)```
 
 mais pas dans le modèle <span style="color:green"> LinearRegression </span>
 
 ```class sklearn.linear_model.LinearRegression(*, fit_intercept=True, copy_X=True, n_jobs=None, positive=False)``` ne possède pas explictement ces paramètres on les trouve par contre dans la classe ```linear_model.Ridge```

Les détails sont sur : [Scikit-learn](https://scikit-learn.org/stable/index.html). 

Plusieurs de ces hyperparamètres sont fixés par défaut. On s'intresse à trois d'entre eux dans le cadre de ce TP: la Panalité, le nombre d'itérations.

- 1) Ecrire le code qui permet de réaliser une régression logistique sur les données du dataset iris, en prenant les conditions (hyperparamètres/options) suivantes
 - cas 1 : penalité: L2 et max_iter:100  et le solver : lbfgs
 - cas 2 : penalité: L1 et max_iter:1000  et le solver : liblinear
 
- 2) Ecrire le code d'une régression linaire sur les données houses, en prenant les conditions suivantes :
- pénalité : L1, max_iter:1000, et solver : auto



In [1]:
# cas 1 pénalité L2 et max_iter 100 et solver lbfgs
from sklearn.linear_model import LogisticRegression 
from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
X = (X - X.mean(axis=0))/X.std(axis=0) # normalisation pour avoir de plus petites valeurs
y = iris.target
clf = LogisticRegression(penalty='l2', max_iter=100, solver='lbfgs') # classifieur
clf.fit(X, y) # entrainement
clf.predict(X) # prédiction sur les données d'entrainement
clf.predict_proba(X) # probabilité d'appartenance à chaque classe
clf.score(X, y) # score de prédiction


0.9733333333333334

In [2]:
# cas 2 pénalité L1 et max_iter 1000 et solver
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
X = (X - X.mean(axis=0))/X.std(axis=0) # normalisation pour avoir de plus petites valeurs
y = iris.target
clf = LogisticRegression(penalty='l1', max_iter=1000, solver='liblinear') # classifieur
clf.fit(X, y) # entrainement
clf.predict(X) # prédiction sur les données d'entrainement
clf.predict_proba(X) # probabilité d'appartenance à chaque classe
clf.score(X,y) # score de prédiction

0.94

In [3]:
#aide pour l'exercice : https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html

In [4]:
#imports
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
data = pd.read_csv('data/houses.txt', sep=',',header=None)
data.head()
data.columns = ['superficie','nb chambre','étage','age','prix']

FileNotFoundError: [Errno 2] No such file or directory: 'data/houses.txt'

In [None]:
from sklearn.linear_model import Lasso, Ridge

# cas 1 pénalité L1 et max_iter 1000 et solver auto
x_train = data [['superficie','nb chambre','étage','age']]
y_train = data ['prix']
X_train, x_test, y_train, y_test = train_test_split(x_train, y_train, test_size=0.3, random_state=42)
clf = Ridge(alpha=1.0, fit_intercept=True, copy_X=True, max_iter=1000, tol=0.0001, solver='auto', positive=False, random_state=None) # classifieur
clf.fit(X, y) # entrainement
clf.predict(X) # prédiction sur les données d'entrainement
clf.score(X, y) # score de prédiction soit a quel point les prédictions sont proches des valeurs réelles de 0 à 1

In [None]:
#analyse des résidus
y_pred = clf.predict(X)
residus = y - y_pred # les résidus représente la différence entre la valeur réelle et la valeur prédite
plt.scatter(y_pred, residus) # on trace les résidus en fonction des valeurs prédites
plt.show() # on voit que les résidus sont répartis de manière aléatoire autour de 0 sur l'axe des y ce qui est bon signe

In [None]:
# analyse avec sns 
import seaborn as sns
sns.residplot(y_pred, residus, lowess=True, color="g") # on voit que les résidus sont répartis de manière aléatoire autour de 0 sur l'axe des y ce qui est bon signe

In [None]:
# utilisation de Lasso pour L1 
clf = Lasso(alpha=1.0, fit_intercept=True, copy_X=True, max_iter=1000, tol=0.0001, positive=False, random_state=None) # classifieur
clf.fit(X, y) # entrainement
clf.predict(X) # prédiction sur les données d'entrainement
clf.score(X, y) # score de prédiction soit a quel point les prédictions sont proches des valeurs réelles de 0 à 1


In [None]:
#analyse des résidus
y_pred = clf.predict(X)
residus = y - y_pred # les résidus représente la différence entre la valeur réelle et la valeur prédite
plt.scatter(y_pred, residus) # on trace les résidus en fonction des valeurs prédites
plt.show()
sns.residplot(y_pred, residus, lowess=True, color="g") 

In [None]:
""" lasso n'est pas très parlant """

In [None]:
""" notes à moi même 

Importer les bons modèles linéaires (regression linéaire pour faire une régression linéaire, lasso pour faire une régression lasso, ridge pour faire une régression ridge)

préparer les données
X = data[['feature1', 'feature2', ...]]
y = data['target']

divisions des données en train et test pour faire de la cross validation ce qui signifie que l'on va entrainer le modèle sur une partie des données et le tester sur une autre partie des données, ici je ne l'ai pas fait mais c'est une bonne pratique comme la normalisation des données
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

ne pas oublier de normaliser, la formule : 
X = (X - X.mean(axis=0))/X.std(axis=0) # X - X.moyenne / X.ecart type, axis 0 pour normaliser par colonne

définition du model 

model = LinearRegression() # pour une régression linéaire
model.fit(x,y) # entrainement du modèle
model.score(x,y) # score de prédiction soit a quel point les prédictions sont proches des valeurs réelles de 0 à 1 pour vérifier si le modele est fiable
"""

In [None]:
# plot avec x_test et y_test
