# College Admission Prediction using Logistic regression 

### Predict whether a student will be accepted into a university based on their academic performance, standardized tests, etc.


### Analyse des colonnes du dataset :
GPA : Le score moyen académique de l'étudiant (variable numérique).
SAT_Score : Le score de l'examen SAT (variable numérique).
Extracurricular_Activities : Le nombre d'activités parascolaires (variable numérique).
Admission_Status : La colonne cible que tu souhaites prédire, qui est binaire (Rejected ou Accepted).

## Logistic regression algorithm implemented manually 

In [2]:
import numpy as np 
import matplotlib.pyplot as plt 
import math , copy 
import pandas as pd 

## For multiple features  : Regression Logistic 

### Sigmoid Funciton 

In [3]:
def sigmoid(z):

    z = 1 /(1+np.exp(-z))

    return z 


#### Cost function for logistic regression 

In [4]:
def cost_logistic_function(x , y , w ,b ):


    m = x.shape[0]  # number of training set 
    Z = np.dot(x , w) +b   # compute of Z vector of all examples 

    fx = sigmoid(Z)   # prediction for all training set function 

    # add an epsilon number to avoid logarithmic computing errors 

    epsilon = 1e-15

    cost = -(1/m)* (y* np.log(fx +epsilon) + (1-y)*np.log(1-fx +epsilon))

    return cost 



#### Computing gradient descent for logistic regression 

In [5]:
def   compute_gradient_logistic_regression(x , y , w , b):


    m = x.shape[0]
    n = len(w)

    dj_dw = np.zeros(n)

    dj_db = 0.0

    for i in range(m):
 
        f_wb_i = np.dot(x[i], w)+ b 

        err = f_wb_i - y[i]

        for j in range(n):

            dj_dw[j]+= x[i, j] * err
        
        dj_db+=err 
    dj_dw /= m 

    dj_db /=m 

    return dj_dw , dj_db


In [3]:
import numpy as np

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

def compute_gradient_logistic_regression(X, y, w, b):
    """
    X : np.array de taille (m, n) -> m exemples, n caractéristiques
    y : np.array de taille (m,) -> étiquettes de chaque exemple (0 ou 1)
    w : np.array de taille (n,) -> poids (coefficients)
    b : scalaire -> biais
    """
    m = X.shape[0]  # Nombre d'exemples
    n = X.shape[1]  # Nombre de features

    # Calcul des prédictions pour tous les exemples
    Z = np.dot(X, w) + b  # Z = X @ w + b
    f_wb = sigmoid(Z)     # f_wb est un vecteur de probabilités (sigmoïde appliquée à Z)

    # Erreur entre les prédictions et les vraies valeurs
    error = f_wb - y      # error est un vecteur de taille (m,)

    # Calcul du gradient par rapport à w (vectorisé)
    dj_dw = (1/m) * np.dot(X.T, error)  # X.T est de taille (n, m), error est de taille (m,)
    
    # Calcul du gradient par rapport à b (scalaire)
    dj_db = (1/m) * np.sum(error)

    return dj_dw, dj_db




# Données factices
X = np.array([[1, 2], [1, 3], [1, 4], [1, 5]])  # 4 exemples, 2 caractéristiques
y = np.array([0, 0, 1, 1])  # Étiquettes correspondantes
w = np.array([0.1, 0.2])    # Poids initialisés
b = 0.1                     # Biais initialisé

# Calcul des gradients
dj_dw, dj_db = compute_gradient_logistic_regression(X, y, w, b)

print("Gradient dj_dw:", dj_dw)
print("Gradient dj_db:", dj_db)


Gradient dj_dw: [0.20880354 0.28202357]
Gradient dj_db: 0.2088035373706076


#### Gradient descent for logistic regression , find parameters w and b for building logistic regression model 

In [6]:

def gradient_descent_logistic_regression(x , y , w_in , b_in , alpha , number_iterations):


    w = copy.deepcopy(w_in)
    b = b_in
    j_cost_history = []

    for i in range(number_iterations):

        # computing gradient descent to dj_dw , dj_db 
        dj_db , dj_dw = compute_gradient_logistic_regression(x , y ,w ,b )

        # cost value 

        cost = cost_function_logistic_regression(x , y , w , b)

        # update the parameters of the model 

        w = w - alpha * dj_dw
        b = b - alpha * dj_db

        if i % number_iterations ==0:

            j_cost_history.append(cost)

            print(f"{i}:{cost}")
    

    return w , b , j_cost_history






#### Logistic regression model 

In [7]:
def logistic_regression_model(x,w ,b):

    z = np.dot(x, w) + b 

    lr_model = sigmoid(z)

    return lr_model

#### test of our model with college admission data 

In [16]:
# sciki-learn library 
from sklearn.preprocessing import LabelEncoder

df = pd.read_csv('student_admission_dataset.csv')

print(f"{df.head()} \n")

le = LabelEncoder()
df['Admission_Status'] = le.fit_transform(df['Admission_Status']) 

print(df.head())


y = df['Admission_Status'].values 
x = df.drop('Admission_Status', axis=1)

print(f"{x.head()}")

    GPA  SAT_Score  Extracurricular_Activities Admission_Status
0  3.46       1223                           8         Rejected
1  2.54        974                           8         Rejected
2  2.91        909                           9         Rejected
3  2.83       1369                           5         Accepted
4  3.60       1536                           7         Accepted 

    GPA  SAT_Score  Extracurricular_Activities  Admission_Status
0  3.46       1223                           8                 1
1  2.54        974                           8                 1
2  2.91        909                           9                 1
3  2.83       1369                           5                 0
4  3.60       1536                           7                 0
    GPA  SAT_Score  Extracurricular_Activities
0  3.46       1223                           8
1  2.54        974                           8
2  2.91        909                           9
3  2.83       1369                  

In [None]:
def sigmoid(z): 

    return (1/(1+np.exp(-z)))


def logistic_cost_function(x , y , w , b ):

    m = x.shape[0]
    cost = 0.0


    for i in range(m): 

        Z = np.dot(x[i], w)
        fx = sigmoid(Z)

        f_w_i = fx - y[i]

        cost += f_w_i**2

    cost/= 2*m 


    return cost 

#### Nettoyage des données 

In [17]:
print(df.isnull().sum())

GPA                           0
SAT_Score                     0
Extracurricular_Activities    0
Admission_Status              0
dtype: int64


In [1]:
import numpy as np

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

def cost_function(theta, X, y):
    m = len(y)  # Nombre d'exemples d'entraînement
    h = sigmoid(X @ theta)  # Prédictions utilisant la fonction sigmoïde
    # Calcul de la fonction de coût
    cost = (1/m) * (-y.T @ np.log(h) - (1 - y).T @ np.log(1 - h))
    return cost

# Exemple d'utilisation
# X : matrice des caractéristiques (avec une colonne de 1 pour l'interception)
# y : vecteur des étiquettes (0 ou 1)
# theta : vecteur des paramètres (initialement peut être un vecteur de zéros)

X = np.array([[1, 0.1, 0.6], [1, 0.2, 0.9], [1, 0.4, 0.8]])  # 3 exemples, 2 caractéristiques (+ intercept)
y = np.array([0, 1, 1])  # Étiquettes
theta = np.zeros(X.shape[1])  # Paramètres initialisés à 0

cost = cost_function(theta, X, y)
print(f"Le coût initial est : {cost}")


Le coût initial est : 0.6931471805599452


In [18]:
w_in  =(0.2, 0.8, 2)
b_in = 10

number_of_iteration = 10000

cost = cost_function_logistic_regression(x , y, w_in , b_in)

print(f"cost value : {cost}")



KeyError: 0