# **Introduction**

### Import des librairies

In [None]:
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
import numpy as np
import matplotlib.pyplot as plt

### Chargement des données House Prices Boston

In [None]:
dataset = load_boston()

X = dataset['data']
Y = dataset['target']

attributs = dataset['feature_names']

print('La liste des attributs:',attributs)

print('Nomrbre d\'instances est:',X.shape[0])
print('Nomrbre d\'attributs est:',X.shape[1])

### Décomposer les données en ensembles de train et de test

In [None]:
x_train, x_test, y_train, y_test = train_test_split(X,Y,test_size= 33/100 )

print('Nombre d\'instances pour entrainement :',x_train.shape[0])
print('Nombre d\'instances pour le test :',x_test.shape[0])

## Créer un prédicteur linéaire en utilisant un seul attribut

### Choisir un attribut

In [None]:
index_attribut = 5

new_x_train = x_train[:,index_attribut : index_attribut+1]
new_x_test = x_test[:,index_attribut : index_attribut+1]

### Tracer la variation du prix de la maison en fonction de l'attribut choisi

In [None]:
plt.figure()
plt.ylabel('prix de la maison')
plt.xlabel('attribut-'+str(index_attribut))
plt.scatter(new_x_train,y_train)
plt.show()
plt.close()

### Définir la fonction du modèle prédictif: `y_pred = w*x`

In [None]:
def model(x, w):
  y_pred = x*w
  return y_pred

### Définir la fonction d'erreur : `avg((|y - y_pred|)^2)`

In [None]:
def error_fun(y,y_pred):
  erreur = np.square(np.abs(y-y_pred)).mean()
  return erreur

## Essayer tous les `w` et calculer l'erreur en fonction de `w`

### Créer la liste des `w` possibles entre `-2.0` et `8.0`

In [None]:
w_s = np.arange(start=-2.0, stop=8.0, step=0.01)
print(w_s)

### Définir la liste vide des erreurs

In [None]:
list_erreurs = np.zeros(shape=(w_s.shape), dtype=np.float32)

### Parcourir toutes les valeurs possibles de `w` dans `w_s` et calculer l'erreur

In [None]:
for i in range(w_s.shape[0]):
  w = w_s[i]
  y_pred = model(new_x_train,w)
  list_erreurs[i] = error_fun(y_train,y_pred)

### Dessiner l'erreur en fonction de `w` sur l'ensemble d'entrainement

In [None]:
plt.figure()
plt.plot(w_s,list_erreurs)
plt.xlabel('w')
plt.ylabel('erreur')
plt.show()

### Trouver `w` qui minimise l'erreur

In [None]:
index_w_best = list_erreurs.argmin()
erreur_train = list_erreurs.min()
w_best = w_s[index_w_best]

print('Pour w =',w_best,"l'erreur sur l'ensemble d'entrainement est",erreur_train)

### Evaluer le modèle (pour `w=w_best`) sur l'ensemble de test

In [None]:
y_pred = model(new_x_test, w_best)

erreur_test = error_fun(y_test,y_pred)

print('Pour w =',w_best,"l'erreur sur l'ensemble de test est", erreur_test)

## Visualiser la prédiction sur l'ensemble de test

### Prédire le prix des maisons pour l'ensemble de test

In [None]:
y_pred = model(new_x_test, w_best)

### Visualiser la prédiction par rapport à la vraie valeur

In [None]:
plt.figure()
plt.scatter(x=y_test, y=y_pred)
plt.xlabel('Prix original')
plt.ylabel('Prix prédit')
plt.show()

## Tracer `y=w_best * x` sur la figure du prix en fonction de l'attribut

### Choisir deux points de la droite à dessiner

In [None]:
x1 = 4
x2 = 9

### Chercher la prédiction de `x1` et `x2` pour `w=w_best`

In [None]:
y1 = model(x1,w_best)
y2 = model(x2,w_best)

### Tracer la droite en utilisant ces deux points

In [None]:
plt.figure()
plt.ylabel('prix de la maison')
plt.xlabel('attribut-'+str(index_attribut))
plt.scatter(new_x_train,y_train)
plt.plot([x1,x2],[y1,y2],color='red')
plt.show()
plt.close()

## **Exercices**

 ### Comment peut-on améliorer encore la précision ?

Votre réponse ici

 ### Corrigé

En ajoutant `b -> y=w*x+b` maintenant on a un paramètre en plus à apprendre

 ### Écrire le code pour apprendre `y=w*x+b` et visualiser la modèle appris sur la trace de `y` en fonction `x`

In [None]:
# Votre code ici

 ### Corrigé

In [None]:
def model_b(x, w, b):
  y_pred = x*w+b
  return y_pred

w_min = 0
w_max = 10
w_step = 0.1
b_min = -50
b_max = -10
b_step = 1

w_s = np.arange(start=w_min, stop=w_max, step=w_step)
b_s = np.arange(start=b_min, stop=b_max, step=b_step)

# b_s = [-40]

list_erreurs = np.zeros(shape=(len(w_s),len(b_s)), dtype=np.float32)

min_err = np.inf

for i in range(len(w_s)):
  w = w_s[i]
  for j in range(len(b_s)):

    b = b_s[j]

    y_pred = model_b(new_x_train,w,b)

    curr_err = error_fun(y_train,y_pred)

    if min_err > curr_err:
      min_err = curr_err
      w_best = w
      b_best = b

print('Pour w =',w_best,"b=",b_best,"l'erreur sur l'ensemble d'entrainement est",min_err)

In [None]:
x1 = 4
x2 = 9
y1 = model_b(x1,w_best,b_best)
y2 = model_b(x2,w_best,b_best)
plt.figure()
plt.ylabel('prix de la maison')
plt.xlabel('attribut-'+str(index_attribut))
plt.scatter(new_x_train,y_train)
plt.plot([x1,x2],[y1,y2],color='red')
plt.show()
plt.close()