# dummy 

In [72]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.dummy import DummyClassifier
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# 1. Charger les données
print("Chargement des données...")
df = pd.read_csv('data/application_train.csv')
print("Données chargées avec succès.\n")

# 2. Préparer les données (utiliser toutes les colonnes comme caractéristiques)
print("Préparation des données...")
X = df.drop(columns=['TARGET'])
y = df['TARGET']

# Remplacer les valeurs manquantes pour les colonnes numériques
X = X.fillna(X.median(numeric_only=True))  # Utiliser median pour les colonnes numériques

# Identifier les colonnes numériques et catégorielles
numeric_features = X.select_dtypes(include=['int64', 'float64']).columns
categorical_features = X.select_dtypes(include=['object']).columns

# Prétraitement des caractéristiques
numeric_transformer = SimpleImputer(strategy='median')
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Créer un pipeline
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', DummyClassifier(strategy='most_frequent'))
])

# 3. Vérifier la distribution des classes
print("Distribution des classes dans la cible :")
print(y.value_counts(normalize=True))
print("\n")

# 4. Diviser les données en ensemble d'entraînement et de test
print("Division des données en ensemble d'entraînement et de test...")
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Division effectuée avec succès.\n")

# 5. Entraîner et évaluer le DummyClassifier
print("Entraînement du DummyClassifier...")
pipeline.fit(X_train, y_train)

# 6. Évaluation du modèle
print("Évaluation du modèle...")
train_score = pipeline.score(X_train, y_train)
test_score = pipeline.score(X_test, y_test)
print(f"Score d'entraînement du DummyClassifier: {train_score}")
print(f"Score de test du DummyClassifier: {test_score}\n")


Chargement des données...
Données chargées avec succès.

Préparation des données...
Distribution des classes dans la cible :
TARGET
0    0.919271
1    0.080729
Name: proportion, dtype: float64


Division des données en ensemble d'entraînement et de test...
Division effectuée avec succès.

Entraînement du DummyClassifier...
Évaluation du modèle...
Score d'entraînement du DummyClassifier: 0.919205879483594
Score de test du DummyClassifier: 0.9195323805342829



# régression logistique

In [74]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# 1. Charger les données
print("Chargement des données...")
df = pd.read_csv('data/application_train.csv')
print("Données chargées avec succès.\n")

# 2. Préparer les données (utiliser toutes les colonnes comme caractéristiques)
print("Préparation des données...")
X = df.drop(columns=['TARGET'])
y = df['TARGET']

# Remplacer les valeurs manquantes pour les colonnes numériques
X = X.fillna(X.median(numeric_only=True))  # Utiliser median pour les colonnes numériques

# Identifier les colonnes numériques et catégorielles
numeric_features = X.select_dtypes(include=['int64', 'float64']).columns
categorical_features = X.select_dtypes(include=['object']).columns

# Prétraitement des caractéristiques
numeric_transformer = SimpleImputer(strategy='median')
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Créer un pipeline avec LogisticRegression
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', LogisticRegression(solver='liblinear'))
])

# 3. Diviser les données en ensemble d'entraînement et de test
print("Division des données en ensemble d'entraînement et de test...")
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
print("Division effectuée avec succès.\n")

# 4. Entraîner le modèle de régression logistique
print("Entraînement du modèle de régression logistique...")
pipeline.fit(X_train, y_train)

# 5. Évaluation du modèle
print("Évaluation du modèle...")
train_score = pipeline.score(X_train, y_train)
test_score = pipeline.score(X_test, y_test)

print(f"Score d'entraînement du modèle de régression logistique: {train_score}")
print(f"Score de test du modèle de régression logistique: {test_score}\n")


Chargement des données...
Données chargées avec succès.

Préparation des données...
Division des données en ensemble d'entraînement et de test...
Division effectuée avec succès.

Entraînement du modèle de régression logistique...
Évaluation du modèle...
Score d'entraînement du modèle de régression logistique: 0.9189805674147646
Score de test du modèle de régression logistique: 0.9199059119387777



# Arbre de decision

In [76]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# 1. Charger les données
print("Chargement des données...")
df = pd.read_csv('data/application_train.csv')
print("Données chargées avec succès.\n")

# 2. Préparer les données (utiliser toutes les colonnes comme caractéristiques)
print("Préparation des données...")
X = df.drop(columns=['TARGET'])
y = df['TARGET']

# Remplacer les valeurs manquantes pour les colonnes numériques
X = X.fillna(X.median(numeric_only=True))  # Utiliser median pour les colonnes numériques

# Identifier les colonnes numériques et catégorielles
numeric_features = X.select_dtypes(include=['int64', 'float64']).columns
categorical_features = X.select_dtypes(include=['object']).columns

# Prétraitement des caractéristiques
numeric_transformer = SimpleImputer(strategy='median')
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Créer un pipeline avec DecisionTreeClassifier
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', DecisionTreeClassifier())
])

# 3. Vérifier la distribution des classes
print("Distribution des classes dans la cible :")
print(y.value_counts(normalize=True))
print("\n")

# 4. Diviser les données en ensemble d'entraînement et de test
print("Division des données en ensemble d'entraînement et de test...")
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
print("Division effectuée avec succès.\n")

# 5. Entraîner et évaluer le DecisionTreeClassifier
print("Entraînement du DecisionTreeClassifier...")
pipeline.fit(X_train, y_train)

# 6. Évaluation du modèle
print("Évaluation du modèle...")
train_score = pipeline.score(X_train, y_train)
test_score = pipeline.score(X_test, y_test)
print(f"Score d'entraînement du DecisionTreeClassifier: {train_score}")
print(f"Score de test du DecisionTreeClassifier: {test_score}\n")


Chargement des données...
Données chargées avec succès.

Préparation des données...
Distribution des classes dans la cible :
TARGET
0    0.919271
1    0.080729
Name: proportion, dtype: float64


Division des données en ensemble d'entraînement et de test...
Division effectuée avec succès.

Entraînement du DecisionTreeClassifier...
Évaluation du modèle...
Score d'entraînement du DecisionTreeClassifier: 1.0
Score de test du DecisionTreeClassifier: 0.8524183233247339



# random forests

In [78]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# 1. Charger les données
print("Chargement des données...")
df = pd.read_csv('data/application_train.csv')
print("Données chargées avec succès.\n")

# 2. Préparer les données (utiliser toutes les colonnes comme caractéristiques)
print("Préparation des données...")
X = df.drop(columns=['TARGET'])
y = df['TARGET']

# Remplacer les valeurs manquantes pour les colonnes numériques
X = X.fillna(X.median(numeric_only=True))  # Utiliser median pour les colonnes numériques

# Identifier les colonnes numériques et catégorielles
numeric_features = X.select_dtypes(include=['int64', 'float64']).columns
categorical_features = X.select_dtypes(include=['object']).columns

# Prétraitement des caractéristiques
numeric_transformer = SimpleImputer(strategy='median')
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Créer un pipeline avec RandomForestClassifier
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier())
])

# 3. Diviser les données en ensemble d'entraînement et de test
print("Division des données en ensemble d'entraînement et de test...")
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
print("Division effectuée avec succès.\n")

# 4. Entraîner le modèle Random Forest
print("Entraînement du modèle Random Forest...")
pipeline.fit(X_train, y_train)

# 5. Évaluation du modèle
print("Évaluation du modèle...")
train_score = pipeline.score(X_train, y_train)
test_score = pipeline.score(X_test, y_test)

print(f"Score d'entraînement du modèle Random Forest: {train_score}")
print(f"Score de test du modèle Random Forest: {test_score}\n")


Chargement des données...
Données chargées avec succès.

Préparation des données...
Division des données en ensemble d'entraînement et de test...
Division effectuée avec succès.

Entraînement du modèle Random Forest...
Évaluation du modèle...
Score d'entraînement du modèle Random Forest: 0.999944252684001
Score de test du modèle Random Forest: 0.9181173716044833

