# Phase 1 : Exploration et Visualisation des Données

In [None]:
# Import des bibliothèques nécessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Paramètres d'affichage
%matplotlib inline
sns.set(style="whitegrid")

In [None]:
# Chargement du fichier CSV
df = pd.read_csv('ex2data1.csv', header=None)
df = df[0].str.split(",", expand=True)
df.columns = ["Exam1", "Exam2", "Admitted"]
df = df.astype(float)
df.head()

In [None]:
# Dimensions et structure des données
print("Dimensions :", df.shape)
print("Colonnes :", df.columns.tolist())

In [None]:
# Types de données et valeurs manquantes
print(df.info())
print("\nValeurs manquantes :\n", df.isnull().sum())

In [None]:
# Statistiques descriptives
df.describe()

## Visualisation des Relations

In [None]:
# Nuage de points : scores des examens vs admission
plt.figure(figsize=(8,6))
sns.scatterplot(data=df, x='Exam1', y='Exam2', hue='Admitted', palette='Set1')
plt.title('Scores aux Examens et Admission')
plt.xlabel('Note à l\'examen 1')
plt.ylabel('Note à l\'examen 2')
plt.legend(title='Admis')
plt.show()

# Phase 2 : Régression Logistique avec scikit-learn

In [None]:
# Séparation des variables explicatives et de la cible
X = df[['Exam1', 'Exam2']]
y = df['Admitted']

# Création et entraînement du modèle
model = LogisticRegression()
model.fit(X, y)

# Phase 3 : Prédictions et Évaluation

In [None]:
# Prédictions sur l'ensemble du jeu de données
y_pred = model.predict(X)
print("Valeurs réelles :", y.values[:10])
print("Valeurs prédites :", y_pred[:10])

In [None]:
# Calcul de l'accuracy
accuracy = accuracy_score(y, y_pred)
print(f"Accuracy du modèle : {accuracy*100:.2f}%")

# Phase 4 : Interprétation du Modèle

In [None]:
# Coefficients appris
coeffs = model.coef_[0]
print(f"Coefficient pour Exam1 : {coeffs[0]:.4f}")
print(f"Coefficient pour Exam2 : {coeffs[1]:.4f}")

In [None]:
# Visualisation de la frontière de décision
plt.figure(figsize=(8,6))
sns.scatterplot(data=df, x='Exam1', y='Exam2', hue='Admitted', palette='Set1')

# Calcul de la frontière
x_values = np.linspace(df['Exam1'].min(), df['Exam1'].max(), 100)
y_values = -(model.intercept_[0] + model.coef_[0][0]*x_values) / model.coef_[0][1]
plt.plot(x_values, y_values, label='Frontière de décision')

plt.xlabel('Exam1')
plt.ylabel('Exam2')
plt.title('Frontière de décision du modèle')
plt.legend()
plt.show()

## Conclusion
Le modèle semble globalement fiable, mais peut échouer sur des cas limites.
Pour une meilleure performance, on pourrait ajouter d'autres variables explicatives (temps de préparation, motivation, etc.).