# Importation des modules

In [48]:
# Pour manipuler et visualiser les données
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Pour séparer et évaluer les données
from sklearn.model_selection import train_test_split, cross_validate, KFold, learning_curve, GridSearchCV, RandomizedSearchCV

# Pour préparer les données
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import make_column_transformer
from sklearn.pipeline import make_pipeline

# Pour créer des arbres de classification
from sklearn.dummy import DummyClassifier
from sklearn.ensemble import RandomForestClassifier

# Pour utiliser les métriques
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, confusion_matrix

# Pour exporter notre modèle
import pickle

# Création du dataset et Dummy Classifier

On commence par créer un dataset avec les variables :
<p style='color: #FFA07A'> NAICS, NoEmp, NewExist, FranchiseCode,  UrbanRural, CreateJob, RetainedJob, MIS_Status </p>

In [49]:
df = pd.read_csv("archive/SBAnational_clean.csv")

  df = pd.read_csv("archive/SBAnational_clean.csv")


In [51]:
# Dataframe contenant les variables explicatives
X = df[['NAICS', 'NoEmp', 'NewExist', 'CreateJob', 'RetainedJob', 'UrbanRural', 'MIS_Status']]

# On transforme les valeurs de MIS_Status en 0 ou 1
y = X['MIS_Status'].astype('category').cat.codes

On crée maintenant nos jeu de données d'entraînement et de test :

In [52]:
X_train, X_test, y_train, y_test = train_test_split(X, y, shuffle=True, test_size=0.2, random_state=42, stratify=y)

On sépare les variables numériques et catégorielle :

In [53]:
var_num = ['NAICS', 'NoEmp', 'NewExist', 'CreateJob', 'RetainedJob', 'UrbanRural']

Puis on crée un transformateur de colonne :

In [54]:
preprocessor = make_column_transformer(
    (StandardScaler(), var_num)
)

On commence notre modélisation par un Dummy Classifier qui servira de point de comparaison :

In [55]:
dummy = make_pipeline(preprocessor, DummyClassifier())

dummy.fit(X_train, y_train)

y_pred = dummy.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print("Accuracy: ", accuracy)

precision = precision_score(y_test, y_pred)
print("Precision: ", precision)

recall = recall_score(y_test, y_pred)
print("Recall: ", recall)

f1 = f1_score(y_test, y_pred)
print("F1-score: ", f1)

roc_auc = roc_auc_score(y_test, y_pred)
print("AUC-ROC: ", roc_auc)

Accuracy:  0.8237819517017371
Precision:  0.8237819517017371
Recall:  1.0
F1-score:  0.9033776772854687
AUC-ROC:  0.5
