# Régression linéaire à une variable - Exercices tirés du MOOC d'Andrew Ng

## Chargement des données

### Charger les données du fichier ex1data1.csv

In [None]:
import numpy as np
import pandas as pd
%matplotlib inline

In [None]:
data = pd.read_csv("ex1data1.csv")

### Visualiser les données

In [None]:
data.plot.scatter('population', 'profit')

### Découpez vos données en deux vecteurs X et y et transformerz-les en array numpy

Note: Les colonnes d'un Dataframe peuvent être sélectionnées par leur nom, de la même manière que dans un dictionnaire

In [None]:
X = np.array(data['population'])
y = np.array(data['profit'])

## Calcul d'une première prédiction

### Initialisez theta en un vecteur de deux valeurs à zéro

In [None]:
theta = np.zeros(2)

### Écrivez une fonction _predict_ qui prend en argument une population (x) ainsi que les parametres theta et prédit le profit (y) associé

In [None]:
def predict(X, theta):
    return (X * theta[1] + theta[0])

### Écrivez une fonction _fit_ qui prend en arguments le vecteur X et le vecteur y des données d'entraînement et renvoie le vecteur de paramètres _theta_ qui a été appris

In [None]:
def fit(X, y, theta, alpha, num_iters):
    # Initialiser certaines variable utiles
    m = X.shape[0]
    
    # Boucler sur le nombre d'itérations
    for itr in range(num_iters):
        loss = predict(X, theta) - y
        tmp_theta0 = theta[0] - (alpha / m) * sum(loss)
        tmp_theta1 = theta[1] - (alpha / m) * sum(loss * X.T)
        theta = [tmp_theta0, tmp_theta1]
        # Effectuer une itération de descente du gradient (i.e. on update theta une fois)
    return (theta)

### Lancez l'apprentissage en appelant la fonction _fit_ et en prenant bien soin de récupérer le résultat de *theta* à la fin!! Vous devriez obtenir des valeurs autour de [-3.6303, 1.1664]

Pour commencer, on fixera alpha à 0.01 et num_iters à 1500

In [None]:
theta = np.zeros(2)
finetuned_theta = fit(X, y, theta, 0.01, 1500)

## Visualiser la droite de régression

### Voici une fonction pour visualiser votre droite de régression (cadeau!) Vous pourrez l'appeler plus loin dans l'exercice

In [None]:
import matplotlib.pyplot as plt

def visualize(theta):
    fig = plt.figure()
    ax = plt.axes()
    ax.set_xlim([4.5,22.5])
    ax.set_ylim([-5, 25])
    ax.scatter(X, y)
    line_x = np.linspace(0,22.5, 20)
    line_y = theta[0] + line_x * theta[1]
    ax.plot(line_x, line_y)
    plt.show()

### Appelez la fonction pour visualiser la droite avec différentes valeurs de theta

In [None]:
visualize(theta)
visualize(finetuned_theta)

## Fonction de coût

Maintenant voyons comment resserrer notre analyse de l'algorithme et calculons le coût (ou la perte, ou l'erreur) à chaque itération.

### Définissez la fonction de coût de votre modèle

In [None]:
def cost(X, y, theta):
    loss = predict(X, theta) - y
    cost = (1 / (2 * X.size)) * np.dot(loss, loss.T)
    return (cost)

### Testez-la avec theta = [0,0]   Vous devriez obtenir environ 32.07

In [None]:
cost(X, y, [0.0,0.0])

### Maintenant avec theta = [-1,2]. Vous devriez obtenir environ 54.24

In [None]:
cost(X, y, [-1,2])

### Copiez le code de votre fonction _fit_ et ajoutez-y un appel à la fonction _cost_, à chaque itération. Vous stockerez vos résultats dans une liste nommée J_history, que vous retournerez avec *theta* à la fin de la fonction

Et oui, en Python, une fonction peut retourner plus qu'une variable!!

In [None]:
def fit_with_cost(X, y, theta, alpha, num_iters):
   # À compléter
    m = X.shape[0]
    J_history = []
    # Boucler sur le nombre d'itérations
    for itr in range(num_iters):
        loss = predict(X, theta) - y
        tmp_theta0 = theta[0] - (alpha / m) * sum(loss)
        tmp_theta1 = theta[1] - (alpha / m) * sum(loss * X.T)
        theta = [tmp_theta0, tmp_theta1]
        J_history.append(cost(X, y, theta))
        # Effectuer une itération de descente du gradient (i.e. on update theta une fois)
    return (theta, J_history)

### Appelez la fonction en récupérant les valeurs de theta et J_history

In [None]:
# D'abord on réinitialise theta à zéro
theta = np.zeros(2)

In [None]:
# Lancez l'entraînement avec votre nouvelle fonction
theta, J_history = fit_with_cost(X, y, theta, 0.01, 10000)

### On visualise maintenant l'évolution du coût en fonction du nombre d'itérations

Vous pouvez voir si en modifiant les valeurs d'alpha et de num_iters, le graphique change d'allure

In [None]:
fit = plt.figure()
ax = plt.axes()
ax.plot(J_history)

# Exercices Numpy

 ## La suite d'exercices suivants a pour but de vous faire comprendre le fonctionnement des numpy array et leurs avantages/defaults par rapport aux listes de python.

### Creez une liste A nommée "list_A" contenant les éléments (0, 1, 1, 2, 3, 5, 8). A partir de cette liste créez un numpy array nommé "np_A"

In [None]:
list_A = [0,1,1,2,3,5,8]
np_A = np.array(list_A)

### Affichez votre numpy array. Ainsi que : sa forme, sa taille, sa dimension et son type

In [None]:
print(np_A.shape, np_A.size, np_A.ndim, np_A.dtype)

### Ajoutez 2 a chaque element de la liste "list_A"

In [None]:
list_A = [(elem + 2) for elem in list_A]
list_A

### Ajoutez 2 a chaque élément de votre numpy array (votre solution ne doit pas utiliser de boucles)

In [None]:
np_A = np_A + 2
np_A

### Calculez la somme de tous les éléments de "np_A" (sans utiliser de boucle)

In [None]:
np_A.sum()

### Convertissez les elements de votre numpy array en float

In [None]:
np_A.astype(float)

### Convertissez votre numpy array en une liste python

In [None]:
np_A.tolist()

### Exécutez les trois cellules suivantes pour visualiser les matrices M et N

In [None]:
M = np.random.randint(10, size=(100,100))
N = np.random.randint(10, size=(100,100))

In [None]:
M

In [None]:
N

### Aditionnez les deux matrices

In [None]:
M + N

### Calculez le produit matriciel de M et N. Vérifiez votre opération en calculant les premières cellules à la main

In [None]:
np.dot(M, N)

### ** Bonus: Écrivez vous-mêmes une fonction de produit matriciel, avec des boucles imbriquées 

In [None]:
def product_mat(arr1, arr2):
    res = np.zeros(arr1.shape[0] * arr2.shape[1])
    arr2 = arr2.T 
    i = 0
    for ar1 in arr1:
        for ar2 in arr2:
            res[i] = sum(ar1 * ar2)
            i += 1
    return(res.reshape(arr1.shape[0],arr2.T.shape[1]))

%time print(product_mat(M, N.T))
%time print(np.dot(M, N.T))

### ** Comparez son temps de calcul à la fonction de numpy avec de très grosses matrices en entrée

## Aller plus loin avec numpy (optionnal)

### Creez une liste a deux dimension ((1,2,3), (2,1,3), (3,2,1), (1,3,2)) nommée "list_B". Convertissez le en numpy array "np_B"

In [None]:
list_B = [[1,2,3],[2,1,3],[3,2,1],[1,3,2]]
np_B = np.array(list_B)

### Extrayez les deux premiere lignes et colonnes de "np_B". En sortie on obtient ((1,2),(2,1))

In [None]:
np_B[:2, :2]

### Creez un masque qui montre toutes les valeurs egales a 1. 

In [None]:
mask = np_B == 1
mask

### Pour toutes les valeurs du masque multipliez la valeur par 3

In [None]:
np_B[mask] *= 3

### Creez un nouveau numpy array "np_C" avec les valeurs (0, 0, 1, 2, 3, 5, 8) (en 1 dimension)

In [None]:
np_C = np.array([0, 0, 1, 2, 3, 5, 8])

### Trouvez le minimum, maximum et la moyenne du numpy array "np_C"

In [None]:
np_C.min(), np_C.max(), np_C.mean()

### Creez une fonction qui prend un nombre en parametre et renvoie son carré. Appliquez cette fonction a chaque element de votre numpy array a l'aide de la fonction vectorize 

In [None]:
def square(x):
    return(x**2)

v_square = np.vectorize(square)
v_square(np_C)

### Changez la dimension cd "np_B" pour qu'elle passe de 4 * 3 a 3 * 4

In [None]:
np_B.reshape(3, 4)

### Changez la dimension de np_B pour passer a un numpy array d'une seule dimension (flatten, ravel)

In [None]:
np_B.flatten()

### Travail sur une image

In [None]:
#install scikit-image
import numpy as np
from skimage import io
import matplotlib.pyplot as plt
%matplotlib inline
photo = io.imread("cat.jpeg")
plt.imshow(photo)

### A l'aide du slicing inversez l'orientation de l'image (le bas est en haut)

In [None]:
plt.imshow(photo[::-1])

### A l'aide du slicing créez un mirroir de l'image d'origine

In [None]:
plt.imshow(photo[::,  ::-1])

### A l'aide de np.where appliquez un masque qui converti les pixels en dessous de 100 en 0 et au dessus en 255

In [None]:
plt.imshow(np.where(photo < 100, 0, 255))

### Transposez l'image

In [None]:
plt.imshow(photo.transpose(1, 0, 2))

Pour ceux souhaitant aller plus loin sur numpy quelques pistes intéressantes qui restent à explorer : les séquences, le sampling avec random choice, uniqs et count

## En résumé les numpy array ont les particularités suivantes :
- ils supportent des operations vectorizées (opérations sur chaque élements de la matrice)
- la taille d'un numpy array ne peux etre changé
- il n'y a qu'un type de donnée dans un numpy array
- ils prennent beaucoup moins de place 