Dans ce notebook, nous avons mis en place un modèle de Machine Learning pour la classification d'électrocardiogrammes.
Le jeu données utilisé est disponible via [OpenML](https://www.openml.org/search?type=data&status=active&sort=runs&id=44793)

L'exécution de la dernière cellule du notebook sauvegarde le modèle former dans le sous-dossier predictions_app/model du dossier de l'application de prédiction développée à l'aide du micro framework Flask.

Le démarrage de l'application de prédictions est relativement simple:

_Pour la première exécution:_
- [créer un environnement virtuel](https://docs.python.org/fr/3/tutorial/venv.html) dans le dossier predictions_app et l'activer
- installer les différents packages à l'aide la commande (venv)..\predictions_app > pip install -r requirements.txt

_Pour les prochaines exécutions:_
- activer l'environnement virtuel
- exécuter la commande > python app.py

In [None]:
# Chargement des packages (librairies)
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
# Chargement du jeu de données
filepath = "datas/dataset.csv"
dataf_ecg = pd.read_csv(filepath)

# Exploration de notre jeu de données

In [None]:
# Affichage des 5 première observations (lignes)
dataf_ecg.head()

In [None]:
# Affichage des 5 dernières observations (lignes)
dataf_ecg.tail()

In [None]:
# Affichage (nombre de lignes, nombre de colonnes)
dataf_ecg.shape

In [None]:
# Apreçu graphique des (10) dix premières lignes de données
data = dataf_ecg.iloc[:,0:140]
abscisses = np.arange(140)
fig, axs = plt.subplots(5, 2, sharex=True, sharey=True, figsize=(10, 10))
ligne = 0
for j in range(5):
    for k in range(2):
        ecg = "ECG-LIGNE" + str(ligne)
        axs[j, k].plot(abscisses, data.iloc[ligne], label=ecg, color='red')
        axs[j, k].legend()
        axs[j, k].grid(True)
        ligne = ligne + 1

plt.show()

In [None]:
# affichage du résumé statistque
dataf_ecg.describe()

In [None]:
# Le jeu de données a-t-elle une distribution équilibrée ?
dataf_ecg.groupby('class').size()

# Pré-traitement

### Encodage des variables catégorielles

In [None]:
# La colonne de variable catégorique déjà encodé

### Traitement des données manquantes

In [None]:
# Pas de données manquantes dans notre jeu de données

### Normalisation des données (mise à l'échelle)

In [None]:
# Normalisation (par le test Z )
# Créer la matrice de données
X = dataf_ecg.iloc[:,:-1].values
# Créer le vecteur d'étiquettes
y = dataf_ecg.iloc[:,-1].values
# Séparation du jeu de données en train et test
# 25% des données pour le test et 75% pour l'entrainement
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)
# Normalisation des données
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train_normalized = sc_X.fit_transform(X_train)
X_test_normalized = sc_X.fit_transform(X_test)

# Entrainements, tests et choit de l'algorithme pour le modèle

In [None]:
# Chargement des métrics
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report

## Regression logistique

In [None]:
# REGRESSION LOGISTIQUE
from sklearn.linear_model import LogisticRegression 
reg = 0.01
modelLogisticRegression= LogisticRegression(C=1/reg, solver='liblinear', max_iter=1000).fit(X_train_normalized, y_train)
predictions = modelLogisticRegression.predict(X_test_normalized)
# print("Étiquettes prédites: ", predictions) 
# print("Étiquettes réelles: ", y_test)
print('Accuracy: ', accuracy_score(y_test, predictions))
print("Rapport de classification:")
print(classification_report(y_test, predictions))

## Argre de décision

In [None]:
# ARBRE DE DECISION
from sklearn.tree import DecisionTreeClassifier 
modelDecisionTree = DecisionTreeClassifier().fit(X_train_normalized, y_train)
predictions = modelDecisionTree.predict(X_test_normalized)
print('Accuracy: ', accuracy_score(y_test, predictions))
print("\nRapport de classification:")
from sklearn.metrics import classification_report
print(classification_report(y_test, predictions))

## Machine vecteurs de supports

In [None]:
# MACHINE A VECTEURS DE SUPORTS
from sklearn.svm import SVC
modelSVC = SVC(gamma='auto').fit(X_train_normalized, y_train)
predictions = modelSVC.predict(X_test_normalized)
print('Accuracy: ', accuracy_score(y_test, predictions))
print("Rapport de classification:")
from sklearn.metrics import classification_report
print(classification_report(y_test, predictions))

## K plus proches voisins

In [None]:
# K PLUS PROCHES VOISINS
from sklearn.neighbors import KNeighborsClassifier 
modelKNeighbors = KNeighborsClassifier().fit(X_train_normalized, y_train)
predictions = modelKNeighbors.predict(X_test_normalized)
print('Accuracy: ', accuracy_score(y_test, predictions))
print("Rapport de classification:")
from sklearn.metrics import classification_report
print(classification_report(y_test, predictions))

## Forêts aléatoires

In [None]:
# FORETS ALEATOIRES
from sklearn.ensemble import RandomForestClassifier 
modelRandomForest = RandomForestClassifier().fit(X_train_normalized, y_train)
predictions = modelRandomForest.predict(X_test_normalized)
print('Accuracy: ', accuracy_score(y_test, predictions))
print("Rapport de classification:")
from sklearn.metrics import classification_report
print(classification_report(y_test, predictions))

In [None]:
# Sauvegarde du modèle
import pickle
pickle.dump(modelRandomForest, open('predictions_app/model/modelRandomForest.pkl','wb'))