# Baseline 
Pour une baseline naïve, nous pourrions deviner la même valeur pour tous les exemples de l'ensemble de test. On nous demande de prédire la probabilité de ne pas rembourser le prêt, donc si nous sommes totalement incertains, nous devinerions 0,5 pour toutes les observations de l'ensemble de test. Cela nous donnera une zone caractéristique de fonctionnement du récepteur sous la courbe (AUC ROC) de 0,5 dans la compétition ([une classification aléatoire obtiendra un 0,5](https://stats.stackexchange.com/questions/266387/can-auc-roc-be-between-0-0-5)).

Puisque nous savons déjà quel score nous allons obtenir, nous n’avons pas vraiment besoin de faire une estimation naïve. Utilisons un modèle légèrement plus sophistiqué pour notre référence actuelle : la régression logistique.
Nous commencerons par analyse quelles sont les paramètres les plus adaptés à notre régression logistique puis nous les appliquerons à notre modèle.

In [67]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import make_scorer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import GridSearchCV
import matplotlib.pyplot as plt
import seaborn as sns

In [68]:
def custom_penalty(y_true, y_pred):
    precision = accuracy_score(y_test, y_pred)
    penalty = 0.0
    for yt, yp in zip(y_true, y_pred):
        if yt == 1 and yp == 0:
            penalty = precision * 0.1
    return precision - penalty

penalty_scorer = make_scorer(custom_penalty, greater_is_better=False)

In [69]:
X_train = pd.read_csv('X_train_CSV.csv')
X_test = pd.read_csv('X_test_CSV.csv')
y_train = pd.read_csv('y_train_CSV.csv')
y_test = pd.read_csv('y_test_CSV.csv')

In [70]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [71]:
logistic_model = LogisticRegression(C= 1, penalty='l1', solver='liblinear')
logistic_model.fit(X_train_scaled, y_train)

  y = column_or_1d(y, warn=True)


In [72]:
y_pred = logistic_model.predict(X_test_scaled)

In [73]:
accuracy_score(y_test, y_pred)

0.7124977326319608

In [74]:
custom_penalty(y_test, y_pred)

0.7124977326319608

In [75]:
from sklearn import metrics
print("RMSE : %.2f" % np.sqrt(metrics.mean_squared_error(y_test, y_pred)))

RMSE : 0.54


In [76]:
from sklearn.metrics import roc_curve, roc_auc_score
fpr, tpr, thresholds = roc_curve(y_test, y_pred)
auc_score = roc_auc_score(y_test, y_pred)
auc_score

0.691641601231432