# TP 3 Regression logistique
Dans ce TP, nous aimerions prédire l'admission d'un étudiant à une specialité donnée selon ses notes dans deux matières.

Pour ce faire, nous étudierons un ensemble de données avec l'admission  (y) et les notes des deux modules (X).

La prédiction se fera avec l'agorithme de descente du gradient.

# TP réalisé par : 
* LABCHRI Amayas
* KOULAL Yidhir Aghiles
* BAROUD Yasmine
* SENNIA Mohamed

# Importation des librairies necessaires au travail

In [1]:
import numpy as np
import matplotlib.pyplot as plt


# Lecture des fichiers de données
Pour ce TP, nous allons lire les données à partir d'un fichier csv.

In [2]:
# données
data = np.genfromtxt('../input/datastp3/data.csv', delimiter=',')
data.shape

Dans ces données (data), la première colonne represente la première note, la deuxieme colonne la deuxième note et la troisième colonne represente l'admission à la specialité (1 admis 0 non admis).

Chaque ligne represente un exemple de notre ensemble de données. 

Mettons ces données dans leus vecteurs correspondants.

In [3]:
# rajoutons l'ordonnée à l'origine theta 0
intercept=np.ones((data.shape[0],1))
X=np.column_stack((intercept,data[:,0:2]))
y = data[:, 2]

In [4]:
print('X', X.shape ,' y ', y.shape)

In [5]:
y  = y.reshape(y.shape[0], 1)

In [6]:
y.shape

# Descente du Gradient : Préparation des fonctions

00 - Hypothèse (model)

0- Fonction mpgistique (Sigmoid)

In [7]:
def h(X, theta):
    return X.dot(theta)

In [8]:
def Sigmoid(z):
    # pour une valeur donnée, cette fonction calculera sa sigmoid
    
    return 1/ (1 + np.exp(-z.astype('float')))
    
 

1- Calcul du coût

Cette fonction servira à calculer le cout $J(\theta_0,\theta_1)$

Elle prendra l'ensemble de données d'apprentissage en entrée ainsi que les paramètres définis initialement

In [9]:
def computeCost(X, y, theta):
    # idéalement, tracer le coût à chaque itération pour s'assurer que la descente du gradient est correcte
    
    # calculer le coût avec et sans vectorisation, 
    # comparer le temps de traitement
    m = len(y)
    return (-1/m) * np.sum((y * np.log( Sigmoid( h(X,theta) ) )) + ((1 - y) * np.log(1 - Sigmoid( h(X, theta) ) )) ) 
  

2- Fonction de la descente du gradient

Cette fonction mettra à jour les paramètres $\theta_0,\theta_1$ jusqu'à convergence: atteinte du nombre d'itérations max, ou dérivée assez petite.

2.0 Gradient

In [10]:
def Gradient(X, y,theta):
    m = len(y)
    return (1 / m) * (X.T.dot(Sigmoid(h(X,theta)) - y ))

In [11]:
def gradientDescent(X, y, theta, alpha, iterations):
    # garder aussi le cout à chaque itération
    cost_array = np.zeros(iterations)
    for i in range(iterations):
        theta = theta - alpha * Gradient(X, y, theta)
        cost_array[i] = computeCost(X, y, theta)
    
    return theta,  cost_array

# Dessin de la limite de decision (Descision Boundary)
Dans cette partie, nous aimerions dessiner la ligne separatrice d nos données

In [12]:
def drawLine(X, y, theta,color_ligne):
    x_values = [np.min(X[:, 1]), np.max(X[:, 1])]# besoin de seulement 2 points afin de dessiner une droite
    y_values = - (theta[0] + theta[1]* x_values) / theta[2]
    plt.figure(figsize = (10,6))
    plt.scatter(X[np.where(y==1),1],X[np.where(y==1),2], label="accepte",marker ='o')
    plt.scatter(X[np.where(y==0),1],X[np.where(y==0),2], label="non accepte",marker ='x')
    plt.xlabel('Note module 1')
    plt.ylabel('Note module 2')

    plt.plot(x_values, y_values, color=color_ligne, label='Decision Boundary ')
    plt.legend()
    plt.title('Decision Boundary')
    plt.show()

# Descente du Gradient : Appel des fonctions

Initialisation de $\theta_0$ et $\theta_1$

In [13]:
n=X.shape[1]
theta = np.random.rand(n, 1)
print(theta)
save_theta = theta

## Déssiner la ligne

In [14]:
drawLine(X, y, theta, "black")

Calculer le cout initial

In [15]:
initialCost=computeCost(X, y, theta)

In [16]:
initialCost

Appel des la fonction de calcul du gradient

In [17]:
# paramètres
iterations = 1500
alpha = 0.01
# Appel
theta , couts= gradientDescent(X, y, save_theta, alpha, iterations)

In [18]:
theta.shape

In [19]:
theta

In [20]:
FinalCost=computeCost(X, y, theta)

In [21]:
FinalCost

Le coût a diminué après application de la descente de gradient

Traçage de la fonction du coût

In [22]:
plt.plot(range(iterations), couts)

Ce coût à l'air bon, mais l'est il vraiement.

Notons que $\theta^T  x$ est équivalent à $X  \theta $ où $X= \begin{pmatrix}
..(x^{(1)})^T..\\
..(x^{(2)})^T..\\
.\\
.\\
.\\
..(x^{(m)})^T..
\end{pmatrix} $

# Affichage 
Graphe representant les acceptations selon les caracteristiques

In [23]:
pred = Sigmoid(h(X, theta))

In [24]:
print("New model")
drawLine(X, y, theta, "red")
print("Old model")
drawLine(X, y, save_theta, "black")

Le model n'est pas performant, il suffit de voir la ligne séparatrice, **Il n'y a pas de classification!!!** entre nos données. Ce problème va être résolu dans la section **Renforcement d'apprentissage**.
La représentation du coût précedent ne voulait rien dire, il est probable que notre model ait subit un underfitting. Dans ce cas, la représentation du coût en 3D, Hypothèse seront mauvais.  

Traçage du coût en fonction de theta0 et theta1

In [25]:
import plotly.graph_objects as go
def Afficher_Sigmoid_3D(X, theta):
    # Creer deux grille 
    X1, X2 = np.mgrid[0:20:0.125, 0:20:0.125]
    X0 = np.ones(X1.shape)
    # Calcule d'un vecteur Hyphotèses
    Z=np.divide(1,1+np.exp(-1*(np.multiply(theta[0],X0)+np.multiply(theta[1],X1)+np.multiply(theta[2],X2)) ))
    #Afficher la figure
    fig = go.Figure(data = go.Surface(
    z = Z,
    x = X1,
    y = X2
    )
    )
    # Ajouter les valeurs à la figure
    fig.update_traces(contours_z=dict(show=True, usecolormap = True, project_z=True, color="red"))
    fig.update_layout(title = "Model_For_Logistic_regression", scene = dict(
    xaxis_title="Theta 0",
    yaxis_title="Theta 1",
    zaxis_title="Model"
    ),
    width = 500, 
    height = 500
    )
    fig.show()

In [26]:
Afficher_Sigmoid_3D( X, theta)

Comme nous l'avons dit précédement, **ce model ne vaut rien**, il ne nous servira pas pour notre classification.

coût en 3D

In [27]:
import plotly.graph_objects as go
def Plot3DCosts(X, y, theta, alpha,iteration):
    # Calculer les teta pour chaque iteration
    X_theta = np.zeros(iteration)
    Y_theta = np.zeros(iteration)
    theta = np.zeros_like(theta)
    couts = np.zeros(iteration)
    for i in range(0, iteration):
        X_theta[i] = (theta[0])
        Y_theta[i] = (theta[1])
        ## Calculer la descente de gradient pour une iteration
        theta , couts= gradientDescent(X, y, theta, alpha, 1)

    ## Créer nos matrice pour theta0 et theta1
    X_theta = X_theta[1:]
    Y_theta = Y_theta[1:]
    X_theta = np.array([X_theta[i]  for i in range(0, iteration, 5)])
    Y_theta = np.array([Y_theta[i]  for i in range(0, iteration, 5)])
    #X1, X2 = np.mgrid[0:20:0.125, 0:20:0.125]
    X_2D = np.zeros((X_theta.shape[0],X_theta.shape[0]))
    Y_2D = np.zeros((Y_theta.shape[0],Y_theta.shape[0]))
    Z_2D = np.zeros((Y_theta.shape[0],Y_theta.shape[0]))
    
    # Calculer les couts 
    for i in range(X_2D.shape[0]):
        for j in range(X_2D.shape[1]):
            X_2D[i][j] = X_theta[i]
            Y_2D[j][i] = Y_theta[i]
    
    for i in range(X_2D.shape[0]):
        for j in range(X_2D.shape[1]):
            Z_2D[i][j] = computeCost(X,y , [X_2D[i][j], Y_2D[i][j], theta[2]])
    #print(Z_2D.shape)
    fig = go.Figure(data = go.Surface(
    z = Z_2D,
    x = X_2D,
    y = Y_2D
    )
    )
    
    fig.update_traces(contours_z=dict(show=True, usecolormap = True, project_z=True))
    fig.update_layout(title = "Cost_Function_Plot", scene = dict(
    xaxis_title="Theta 0",
    yaxis_title="Theta 1",
    zaxis_title="Cost Function Values"
    ),
    width = 500, 
    height = 500
    )
    fig.show()

In [28]:
Plot3DCosts(X, y, theta, 0.01,iterations)

Dessin 3D

In [29]:
"""
Explication : 
La fonction Afficher_Logistic_pour_Grad : calculer le gradient  (n itération) fois pour une seul itération pour obtenir un theta d'une itération.
afin d'afficher les variation du model.

Afficher_model_pour_dataset : Affiche notre model pour chaque descente de gradient appliqué

"""
def Afficher_model_pour_dataset(X,Y,t0,t1,t2):
    fig = plt.figure(1)
    X1, X2 = X[:,1], X[:,2] # les notes des modules
    ax = fig.add_subplot(111,projection='3d') # figure en 3d
    # Afficher les données du dataset
    surf = ax.scatter(X[np.where(y==1),1], X[np.where(y==1),2], np.ones(X[np.where(y==1),1].shape) ,c='b',marker='o')
    surf = ax.scatter(X[np.where(y==0),1], X[np.where(y==0),2], np.zeros(X[np.where(y==0),1].shape) ,c='r',marker='x')
   # plt.show() 
    # Varier les points de 0  à 20
    GX1, GX2 = np.mgrid[0:20:0.5, 0:20:0.5]
    # Bias
    GX0 = np.ones(GX1.shape)
    # Hypothèse
    Z = np.divide(1,1+np.exp(-1*(np.multiply(t0,GX0)+np.multiply(t1,GX1)+np.multiply(t2,GX2))))
    # dessiner le model 
    surf = ax.plot_wireframe(GX1, GX2, Z, cstride=1, rstride=1)
    
    ##---Rotation de la figure----
    ax.view_init(30,120)
    plt.xlabel("Note module 1")
    plt.ylabel("Note module 2")
    ax.set_zlabel("Prediction")
    plt.show()
def Afficher_Logistic_pour_Grad(X,y,theta, alpha,times):
    for i in range(times + 1):
        theta , c = gradientDescent(X,y,theta,alpha,1)
        if (i % 100 == 0):# afficher chaque 100 iterations
            print("Itération = ",i,"\n")
            Afficher_model_pour_dataset(X,y,theta[0],theta[1],theta[2])

In [30]:
Afficher_Logistic_pour_Grad(X,y,theta,alpha,1500)

Prédire des valeurs de y

In [31]:
# Predire pour des notes note1= 9 et note2=17
note1 = 9
note2 = 17
c = np.array([1,9,17])
print("La porbabilitée qu'un étuidiant puisse être admis en ayant un",note1,"dans le module 1 et un",note2,"dans le module 2 est :",np.round(Sigmoid(h(c, theta)), 2)[0] * 100,"%")

# Vérification de l'implementation
Comparer vos algorithmes à ceux de scikitlearn

In [32]:
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression( C = 1e21).fit(X[:,1:3], y)
print(clf.intercept_, clf.coef_)

In [33]:
theta_sklearn = np.array([[clf.intercept_[0]],[ clf.coef_[0][0]], [clf.coef_[0][1]]])

In [34]:
theta_sklearn

# Renforcement d'apprentissage
Mettre ici toute idée qui pourrait renforcer votre apprentissage

Nous avons calculer notre theta pour un alpha = 0.01 et 1500 itérations. Le résultat n'a pas était satisfaisant, c'est pour celà que nous allons appliquer différents tests afin d'atteindre un objectif bien précis.

Vu que nous avons comparé notre theta avec celui de Sklearn, nous allons fixer comme objectif d'obtenir un theta plus au moins proche de celui de Sklearn qui nous donnera de meilleurs résultats.

**Définir un plan de travail** : 
Dans ce plan de travail, nous noterons pour chaque execution les résultats obtenu. Nous travaillerons en 2 phase :
* **Phase 1**: Durant cette phase nous changerons le nombre d'itérations en gardant un alpha fixe (0.01), nous discuterons les résultats.

* **Phase 2**: Nous repreduirons le travail effectué dans la phase 1 mais cette fois en variant notre alpha et on fixant le nombre d'itérations (meilleur valeur dans phase 1).



**Résultats Phase 1**: Calculer theta pour un nombre d'itération varier :

* **5000 itérations**  :**coût = 0.47** le plus grand coût parmis les 3 tests. 
* **7000 itérations**  :**coût = 0.36** moins que celui obtenu après la première application de la descente de gradient, l'erruer ne semble pas diminuer selon son graphe 2D et pour finir le model a une allure sigmoid mais qui ne lui ressemble pas vraiment, peut être que modifer **alpha** aura un bon effet sur ce model.
* **50000 itérations** : **coût =  0.24** le coût le plus bas atteint, le model à une forme sigmoid et la courbe de l'erreur tant plus vers 0. Pour la ligne séparatrice elle n'est pas encore fiable.

**Choix du model** : Selon les résultats obtenu, nous avons choisis de garder le model avec **50000 itérations** car on a obtenu un faible coût avec ce model. Le fait d'avoir une ligne séparatrice meilleur que celle du model avec **7000 itérations** nous a permis d'éliminer ce dernier. 

**Résultats Phase 1**: Calculer theta pour différentes valeurs d'alpha : 
**On précise que pour l'instant, notre meilleur model à une configuration (alpha, iteration) = (0.01, 50000) avec un coût de 0.24**.

* **0.9**    :**coût = nan**, ce paramétre ne sera pas pris, pas besoin de sétalé dessus.
* **0.55**   :**coût = nan**, le model est refusé.
* **0.204**  :**coût = 0.3378**, c'est un bon model, sauf qu'il a un coût un peu plus élevé que notre meilleur model jusqu'à maintenant.
* **0.202**  :**coût = 0.264**, un très bon model, il est deuxième au classement pour le moment. 
* **0.104**  :**coût = 0.2034** Excellent, on a pu diminuer encore une fois le coût de notre model. 
* **0.10**   :**coût = 0.2035** Bon model, mais avec un coût un peu plus grand que celui vu parecedement.

**Pour cette phase, nous avons obtenu des models assez interéssants car non seulement leurs coût était très faible, mais même la ligne séparatrice de chaqu'un d'eux était assez d'escriminente pour notre dataset**. 

***Conclusion*** : 
Nous avons obtenu un model avec un coût de 0.24 pour un **alpha = 0.104** et un **nombre d'itérations = 50000**.
Nous allons de suite calculer la valeur de theta et le comparer avec celui de SKlearn.

## Définir des fonctions pour les résultats : 

In [35]:
def CalculeCoutVariationIteration(X,y,theta,alpha, tab_iterations):
    # Création d'une copy de theta
    theta_iteration = np.zeros_like(theta)
    # Calculer la descente de gradient pour chaque itérations dans le tableau d'itérations
    for iteration in tab_iterations:
        print("Calculer theta pour :", iteration," itérations")
        # Initilaliser un coût local
        couts_local = np.zeros((iteration))
        
        #Calculer la descente de gradient pour une iteration
        theta_iteration, couts_local = gradientDescent(X, y, theta_iteration, alpha, iteration)
        cout_iteration  = computeCost(X, y, theta_iteration)
        print("Le coût pour ", iteration," iterations est : ", cout_iteration)
        # Afficher notre model en 3D
        print("Affichage du model en 3D , couts 2D pour ", iteration," itérations")
        Afficher_Sigmoid_3D( X, theta_iteration)
        # Afficher coût en 2D
        #print("Affichage du coût en 2D pour ", iteration," itérations")
        plt.figure(num = iteration)
        plt.plot(range(iteration), couts_local)
        plt.title("Coût avec "+str(iteration)+" itérations")
        # Afficher la ligne séparatrice (Boundary line) pour notre theta_iteration et notre ancien theta
        
        drawLine(X, y, theta_iteration, "red")
        #print("Ligne séparatrice pour 1500 itérations")
        drawLine(X, y, theta, "black")
        
def CalculeCoutVariationAlpha(X,y,theta,tab_alpha, iterations):
    # Création d'une copy de theta
    theta_alpha = np.zeros_like(theta)
    # Calculer la descente de gradient pour chaque itérations dans le tableau d'alpha
    i = 0
    for alpha in tab_alpha:
        print("Calculer theta pour alpha = ", alpha)
        # Initilaliser un coût local
        couts_local = np.zeros((iterations))
        
        #Calculer la descente de gradient pour un alpha
        theta_alpha, couts_local = gradientDescent(X, y, theta, alpha, iterations)
        cout_alpha  = computeCost(X, y, theta_alpha)
        print("Le coût pour un alpha = ",alpha," est : ", cout_alpha)
        # Afficher notre model en 3D
        print("Affichage du model en 3D , couts 2D pour  alpha = ", alpha)
        Afficher_Sigmoid_3D( X, theta_alpha)
        # Afficher coût en 2D
        #print("Affichage du coût en 2D pour ", iteration," itérations")
        plt.figure(num = i)
        plt.plot(range(iterations), couts_local)
        plt.title("Coût avec alpha = "+str(alpha))
        # Afficher la ligne séparatrice (Boundary line) pour notre theta_iteration et notre ancien theta
        
        drawLine(X, y, theta_alpha, "red")
        #print("Ligne séparatrice pour 1500 itérations")
        drawLine(X, y, theta, "black")
        i = i +1
        

    
        

    

In [36]:
iterations_vector = [5000,7000,50000]

CalculeCoutVariationIteration(X,y,theta,alpha, iterations_vector)

In [37]:
vector_alpha = [0.9,0.55,0.204,0.202,0.104,0.10]
CalculeCoutVariationAlpha(X,y,theta,vector_alpha, 50000)


In [38]:
#Calculer le temps pris pour calculer le gradient pour 50000 itérations
import datetime
a = datetime.datetime.now().replace(microsecond=0)
final_theta, final_cost = gradientDescent(X,y,theta,0.104, 50000)
b = datetime.datetime.now().replace(microsecond=0)
temps_gradient_descente = b - a
print("le temps pris du calcul de la descenete de gradient pour 50000 itérations est ", temps_gradient_descente," microsecondes")

In [39]:
print("Notre theta final = \n",final_theta,"\ntheta de Sklearn = \n",theta_sklearn)

**Les tableaux ne sont pas identiques à 100% mais ils ont des valeurs très proches** 

## Dessiner le coût

In [40]:
plt.figure(1)
plt.plot(range(50000), final_cost)

## Dessiner le model 3D

In [41]:
Afficher_Sigmoid_3D(X, final_theta)

## Dessiner les variations du model en 3D

In [42]:
Afficher_Logistic_pour_Grad(X,y,theta,0.104,50000)

In [43]:
def normalize(X):
    norm = np.copy(X)
    moyenne = np.mean(norm[:,1:2])
    std= np.std(norm[:,1:2])
    norm[:,1] = (norm[:,1] - moyenne)/(std)
    norm[:,2] = (norm[:,2] - moyenne)/(std)

  ## Ajouter un bias
  #norm = np.column_stack((np.ones(norm.shape[0]), norm ))

    return norm
                                                    
        

def Scaling(X):
    scale = np.copy(X)
    scale[:,2] = (X[:,2] - np.min(X[:,2]))/(np.max(X[:,2])  -  np.min(X[:,2]))
    scale[:, 1] = (X[:,1] - np.min(X[:,1]))/(np.max(X[:,1])  -  np.min(X[:,1]))

    return scale

def ScalingY(X):
    scale = np.copy(X)
    scale = (X[:] - np.min(X))/(np.max(X)  -  np.min(X))
  
    return scale

# Normalisation de X et mise à l'échelle de y

In [44]:
import datetime
it = 5000
X_scale = normalize(X)
y_scale = ScalingY(y)
a_s = datetime.datetime.now().replace(microsecond=0)
theta_vectorizaton, c=  gradientDescent(X_scale,y_scale, theta, 0.104,it)
b_s = datetime.datetime.now().replace(microsecond=0)
temps_vectorization = b_s - a_s
print("le temps pris du calcul de la descenete de gradient  pour ",it," itérations est ", temps_vectorization," microsecondes")

In [45]:
computeCost(X_scale,y_scale, theta_vectorizaton)

In [46]:
drawLine(X_scale,y_scale,theta_vectorizaton, "green")
drawLine(X,y,final_theta, "red")

On a pu obtenir la même courbe séparatrice  et dans un temps 2x moins en faisant un vectrization de nos données

# Stochastic Gradient Descent :

On calcule le gradient pour n itérations seulement cette fois pour un exemple aléatoire de notre dataset, c'est une des variation de la descente de gradient.
Un processus **stochastique** signifie un processus random en théorie des probabilités

In [47]:
def StothasticGradientDescent(X, y, theta,alpha, iterations):
    
    
    m = X.shape[0]
    #X  = normalize(X)
    #y = ScalingY(y)
    for i in range(iterations):
        vectuer_index = np.random.randint(0,m, m+1)
        for index in vectuer_index:
            Xn = X[index:index + 1]
            yn = y[index:index + 1]
            theta = theta - alpha * Gradient(Xn,yn,theta)
            
        
    return theta

In [62]:
import datetime
iterations_st = 9700
alpha_st = 0.02
X_scale = normalize(X)
y_scale = ScalingY(y)
a_s = datetime.datetime.now().replace(microsecond=0)
theta_stochastic=  StothasticGradientDescent(X_scale,y, theta,alpha_st,iterations_st)
b_s = datetime.datetime.now().replace(microsecond=0)
temps_sothastic = b_s - a_s
print("le temps pris du calcul de la descenete de gradient sthotastic pour ",it," itérations est ", temps_sothastic," microsecondes")

In [63]:
theta_stochastic

In [64]:
computeCost(X_scale, y, theta_stochastic)

In [65]:
computeCost(X, y, final_theta)

## Différence entre le coût du model précedent et celui avec la stochastic gradient descente

In [66]:
computeCost(X_scale, y, theta_stochastic) - computeCost(X, y, final_theta)

In [67]:
drawLine(X_scale,y_scale,theta_stochastic, "green")
drawLine(X,y,final_theta, "red")

Avec la descenete de gradient stotastic on a pu avoir une meme courbe de decision en moins d'itérations et pour quelques exemples de notre dataset.