# ESILV --- Python for Data Analysis --- Devoir 2021
## 10 janvier 2021 --- IBO A5 --- Promo 2021

<hr>

#### Clément Jaccarino et Axel Joly

# <hr>
# <hr>

# Dataset : Faillite d'entreprises polonaises Dataset
## Du site de dépôt de l'UCI Machine Learning

<hr>

#### Créé par Sebastian Tomczak de l'École polytechnique de Wroclaw de Pologne. Les donateurs du dataset sont Sebastian Tomczak, Maciej Zieba et Jakub M. Tomczak. Téléphone : (+48) 7 13 20 44 53. Un article pertinent utilisant ce dataset : "Ensemble boosted trees with synthetic features generation in application to bankruptcy prediction" écrit en 2016 par les donateurs ci-dessus.

<hr>

##### Le dataset concerne la prédiction de la faillite des entreprises polonaises. Les données ont été collectées à partir de l'Emerging Markets Information Service (EMIS), qui est une base de données contenant des informations sur les marchés émergents du monde entier. Les sociétés en faillite ont été analysées sur la période 2000-2012, tandis que les sociétés toujours en activité ont été évaluées de 2007 à 2013.

Sur la base des données collectées, cinq cas de classification ont été distingués, qui dépendent de la période de prévision :
- 1ère année: les données contiennent les taux financiers de la 1ère année de la période de prévision et le class label correspondant qui indique l'état de faillite après 5 ans. Les données contiennent 7027 instances (états financiers), 271 représentent des entreprises en faillite, 6756 entreprises qui n'ont pas fait faillite au cours de la période de prévision.
- 2ème année: les données contiennent les taux financiers à partir de la 2e année de la période de prévision et le class label correspondant qui indique l'état de faillite après 4 ans. Les données contiennent 10 173 instances (états financiers), 400 représentent des entreprises en faillite, 9773 entreprises qui n'ont pas fait faillite au cours de la période de prévision.
- 3ème année: les données contiennent les taux financiers à partir de la 3e année de la période de prévision et le class label correspondant qui indique l'état de faillite après 3 ans. Les données contiennent 10 503 instances (états financiers), 495 représentent des entreprises en faillite, 1 0008 entreprises qui n'ont pas fait faillite au cours de la période de prévision.
- 4ème année: les données contiennent les taux financiers à partir de la 4e année de la période de prévision et le class label correspondant qui indique le statut de faillite après 2 ans. Les données contiennent 9792 instances (états financiers), 515 représentent des entreprises en faillite, 9277 entreprises qui n'ont pas fait faillite au cours de la période de prévision.
- 5ème année: les données contiennent les taux financiers à partir de la 5e année de la période de prévision et le class label correspondant qui indique le statut de faillite après 1 an. Les données contiennent 5910 instances (états financiers), 410 représentent des entreprises en faillite, 5 500 entreprises qui n'ont pas fait faillite au cours de la période de prévision.

In [1]:
# Le dataset se télécharge en tant que dossier compressé comprenant 5 fichiers sous format ARFF
# Le format ARFF (Attribute-Relation File Format) décrit une liste d'instances 
# partageant un ensemble d'attributs en ASCII.

In [2]:
# On trouve des outils permettant de basculer du format ARFF vers CSV.
# L'outil que l'on a utilisé : ARFF2CSV (https://pulipulichen.github.io/jieba-js/weka/arff2csv/)

In [None]:
# Importation des 5 fichiers CSV et première visualisation

import warnings
warnings.filterwarnings("ignore")
import pandas as pd

type_colonne ={"hrmn" : str }
df_og_1 = pd.read_csv("final_project_data/csv_result-1year.csv")
df_og_2 = pd.read_csv("final_project_data/csv_result-2year.csv")
df_og_3 = pd.read_csv("final_project_data/csv_result-3year.csv")
df_og_4 = pd.read_csv("final_project_data/csv_result-4year.csv")
df_og_5 = pd.read_csv("final_project_data/csv_result-5year.csv")
df_og_5

In [None]:
# Concaténation des DataFrames tout en gardant les caractéristiques de chaque DataFrame (X année)

dataframes = [df_og_1, df_og_2, df_og_3, df_og_4, df_og_5]

conc_dataframes  = pd.concat(dataframes, keys=["1st year", "2nd year", "3rd year", "4th year", "5th year"])
conc_dataframes

In [None]:
# Vérification que la concaténation a bien marchée

nb_lignes, nb_col = conc_dataframes.shape
print(nb_lignes)
print(nb_lignes == (7027 + 10173 + 10503 + 9792 + 5910))
print(nb_col)

In [None]:
# Visualisation des colonnes originales

conc_dataframes.columns

In [None]:
# Nouvelles colonnes d'après lecture du descriptif de l'UCI et confirmation du changement effectué

nouvelles_colonnes = [
    "id",
    "net profit / total assets",
    "total liabilities / total assets",
    "working capital / total assets",
    "current assets / short-term liabilities",
    "[(cash + short-term securities + receivables - short-term liabilities) / (operating expenses - depreciation)] * 365",
    "retained earnings / total assets",
    "EBIT / total assets",
    "book value of equity / total liabilities",
    "sales / total assets",
    "equity / total assets",
    "(gross profit + extraordinary items + financial expenses) / total assets",
    "gross profit / short-term liabilities",
    "(gross profit + depreciation) / sales",
    "(gross profit + interest) / total assets",
    "(total liabilities * 365) / (gross profit + depreciation)",
    "(gross profit + depreciation) / total liabilities",
    "total assets / total liabilities",
    "gross profit / total assets",
    "gross profit / sales",
    "(inventory * 365) / sales",
    "sales (n) / sales (n-1)",
    "profit on operating activities / total assets",
    "net profit / sales",
    "gross profit (in 3 years) / total assets",
    "(equity - share capital) / total assets",
    "(net profit + depreciation) / total liabilities",
    "profit on operating activities / financial expenses",
    "working capital / fixed assets",
    "logarithm of total assets",
    "(total liabilities - cash) / sales",
    "(gross profit + interest) / sales",
    "(current liabilities * 365) / cost of products sold",
    "operating expenses / short-term liabilities",
    "operating expenses / total liabilities",
    "profit on sales / total assets",
    "total sales / total assets",
    "(current assets - inventories) / long-term liabilities",
    "constant capital / total assets",
    "profit on sales / sales",
    "(current assets - inventory - receivables) / short-term liabilities",
    "total liabilities / ((profit on operating activities + depreciation) * (12/365))",
    "profit on operating activities / sales",
    "rotation receivables + inventory turnover in days",
    "(receivables * 365) / sales",
    "net profit / inventory",
    "(current assets - inventory) / short-term liabilities",
    "(inventory * 365) / cost of products sold",
    "EBITDA (profit on operating activities - depreciation) / total assets",
    "EBITDA (profit on operating activities - depreciation) / sales",
    "current assets / total liabilities",
    "short-term liabilities / total assets",
    "(short-term liabilities * 365) / cost of products sold)",
    "equity / fixed assets",
    "constant capital / fixed assets",
    "working capital",
    "(sales - cost of products sold) / sales",
    "(current assets - inventory - short-term liabilities) / (sales - gross profit - depreciation)",
    "total costs /total sales",
    "long-term liabilities / equity",
    "sales / inventory",
    "sales / receivables",
    "(short-term liabilities *365) / sales",
    "sales / short-term liabilities",
    "sales / fixed assets",
    "Class"
]

conc_dataframes.columns = nouvelles_colonnes
df_og_1.columns = nouvelles_colonnes
df_og_2.columns = nouvelles_colonnes
df_og_3.columns = nouvelles_colonnes
df_og_4.columns = nouvelles_colonnes
df_og_5.columns = nouvelles_colonnes
conc_dataframes.head()

In [None]:
# Visualisation des types de chaque attribut

conc_dataframes.dtypes

In [None]:
# Tous les attributs étant de type numéric (flottant) d'après l'en-tête de chaque fichier ARFF
# Il faut modifier cela. Mais avant, vérifions s'il y a des NaNs

while conc_dataframes.isnull().values.any():
    conc_dataframes.replace(True, 0)
    conc_dataframes.replace(np.nan, 0)
    where_are_NaNs = np.isnan(conc_dataframes)
    conc_dataframes[where_are_NaNs] = 0

In [None]:
# Modification du type de chaque attribut vers float

conc_dataframes = conc_dataframes.apply(pd.to_numeric, errors='coerce')
conc_dataframes.dtypes

In [None]:

df_og_1 = df_og_1.apply(pd.to_numeric, errors='coerce')
df_og_2 = df_og_2.apply(pd.to_numeric, errors='coerce')
df_og_3 = df_og_3.apply(pd.to_numeric, errors='coerce')
df_og_4 = df_og_4.apply(pd.to_numeric, errors='coerce')
df_og_5 = df_og_5.apply(pd.to_numeric, errors='coerce')

meanYear1Company_0 = df_og_1[(df_og_1['Class']==0)]["net profit / total assets"].mean()
meanYear1Company_1 = df_og_1[(df_og_1['Class']==1)]["net profit / total assets"].mean()

meanYear2Company_0 = df_og_2[(df_og_2['Class']==0)]["net profit / total assets"].mean()
meanYear2Company_1 = df_og_2[(df_og_2['Class']==1)]["net profit / total assets"].mean()

meanYear3Company_0 = df_og_3[(df_og_3['Class']==0)]["net profit / total assets"].mean()
meanYear3Company_1 = df_og_3[(df_og_3['Class']==1)]["net profit / total assets"].mean()

meanYear4Company_0 = df_og_4[(df_og_4['Class']==0)]["net profit / total assets"].mean()
meanYear4Company_1 = df_og_4[(df_og_4['Class']==1)]["net profit / total assets"].mean()

meanYear5Company_0 = df_og_5[(df_og_5['Class']==0)]["net profit / total assets"].mean()
meanYear5Company_1 = df_og_5[(df_og_5['Class']==1)]["net profit / total assets"].mean()




In [None]:
import seaborn as sns
import numpy as np
from scipy import stats

def normalize(dataset):
    dataNorm=((dataset-dataset.mean())/dataset.std())
    dataNorm["Class"]=dataset["Class"]
    dataNorm["id"]=dataset["id"]
    return dataNorm

# Remove NaN
if df_og_1.isnull().values.any():
    df_og_1.dropna(inplace=True)
df_og_1[df_og_1['Class']==1]

# Remove outliers
z = np.abs(stats.zscore(df_og_1["net profit / total assets"]))
dataset_cleared_zscore = df_og_1[(z < 3)]

sns.relplot(x="net profit / total assets", y="working capital / total assets", data=dataset_cleared_zscore, hue="Class")


In [None]:
df_og_1

In [None]:
import matplotlib.pyplot as plt

plt.matshow(conc_dataframes.corr(method='pearson'))
plt.show()

In [None]:
import seaborn as sns

corr = conc_dataframes.corr(method='pearson')
sns.heatmap(corr)

In [None]:
pearson = conc_dataframes.corr(method='pearson')
corr_with_target = pearson.iloc[-1,:-1]
corr_with_target = corr_with_target[1:]
corr_with_target.sort_values(ascending=False)

In [None]:
corr_with_target[abs(corr_with_target).argsort()[::-1]][:10]

In [None]:
attributs = pearson.iloc[:-1,:-1]

threshold = 0.5
important_correlations = (attributs[abs(attributs) > threshold][attributs != 1.0]) \
    .unstack().dropna().to_dict()

unique_important_correlations = pd.DataFrame(
    list(set([(tuple(sorted(key)), important_correlations[key]) \
    for key in important_correlations])), columns=['attribute pair', 'correlation'])

unique_important_correlations = unique_important_correlations.iloc[
    abs(unique_important_correlations['correlation']).argsort()[::-1]]

pd.set_option('max_colwidth', 400)
unique_important_correlations

In [None]:
import numpy as np
correlation = conc_dataframes.corr()

invisible = np.zeros_like(correlation, dtype=np.bool)
invisible[np.triu_indices_from(invisible)] = True

fig, ax = plt.subplots(figsize=(20, 20))

vmax = np.abs(correlation.values[~invisible]).max()
sns.heatmap(correlation, mask=invisible, cmap=plt.cm.PuOr, vmin=-vmax, vmax=vmax,
            square=True, linecolor="lightgray", linewidths=1, ax=ax)
for i in range(len(correlation)):
    for j in range(i+1, len(correlation)):
        s = "{:.3f}".format(correlation.values[i,j])
#ax.axis("off")
plt.show()

In [None]:
# Machine Learning
# Supervised learning : classification

In [None]:
conc_dataframes.replace(True, 0)
conc_dataframes.replace(np.nan, 0)
where_are_NaNs = np.isnan(conc_dataframes)
conc_dataframes[where_are_NaNs] = 0
conc_dataframes.isnull().values.any()

In [None]:
# Séparation jeu de données, d'abord en jeu de features/target, puis en jeu de train/test

X = conc_dataframes.iloc[:,:-1]
y = conc_dataframes.iloc[:,-1:]

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33)

In [None]:
# On standardise les valeurs

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test  = scaler.transform(X_test)

In [None]:
# On choisit un premier modèle. Comme nous avons des échantillons appartenant à deux classes
# (0 = pas en faillite, 1 = en faillite), on choisit un premier modèle de type classification
# comme une régression logistique

from sklearn.linear_model import LogisticRegression
logisticRegr = LogisticRegression()
modele = logisticRegr.fit(X_train, y_train)
modele.score(X_test, y_test)

In [None]:
from sklearn.model_selection import  cross_val_score
cross_val_score(logisticRegr, X, y, n_jobs=-1)

In [None]:
# On choisit un second modèle. Comme nous avons des échantillons appartenant à deux classes
# (0 = pas en faillite, 1 = en faillite), on choisit un second modèle de type classification
# comme SVC

from sklearn import svm
svc = svm.SVC()
modele2 = svc.fit(X_train, y_train)
modele2.score(X_test, y_test)

In [None]:
from sklearn.model_selection import  cross_val_score
cross_val_score(svc, X, y, n_jobs=-1)

In [None]:
# On choisit un second modèle. Comme nous avons des échantillons appartenant à deux classes
# (0 = pas en faillite, 1 = en faillite), on choisit un second modèle de type classification
# comme Bernoulli Naive Bayes

from sklearn.naive_bayes import BernoulliNB
gnb = BernoulliNB()
modele2 = gnb.fit(X_train, y_train)
modele2.score(X_test, y_test)

In [None]:
from sklearn.model_selection import  cross_val_score
cross_val_score(gnb, X, y, n_jobs=-1)

In [None]:
# On peut commencer à tuner les paramètres des trois modèles précédents

from sklearn.model_selection import GridSearchCV

def test_hyperparametres(hyperparametres, modele):
    grid = GridSearchCV(modele, hyperparametres, n_jobs=-1)
    grid.fit(X_train, y_train)
    print (grid.best_score_, grid.best_estimator_)    
    return grid.best_score_, grid.best_estimator_
                    
hyperparametres = {'kernel' : ['linear', 'sigmoid'],
                   'C' : [1],
                   'gamma' : [0.1, 0.5]
                  }

test_hyperparametres(hyperparametres, svm.SVC())

In [None]:
hyperparametres = {'penalty' : ['l1', 'l2', 'elasticnet', 'none'],
                   'solver' : ['newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga'],
                   'C' : [1, 5, 10]
                  }

test_hyperparametres(hyperparametres, LogisticRegression())

In [None]:
hyperparametres = {'alpha' : [1.0, 0.5, 0.25, 0.1, 0.01, 0.0],
                   'binarize' : [0.0, 0.01, 0.1, 0.25, 0.5, 0.75, 1.0]
                  }

test_hyperparametres(hyperparametres, BernoulliNB())

In [None]:
# API Django

In [None]:
# DataFrame concaténé vers un fichier csv
conc_dataframes.to_csv('dataset_django.csv', sep=',', encoding='utf-8')