**420-A52-SF - Algorithmes d'apprentissage supervisé - Automne 2022 - Spécialisation technique en Intelligence Artificielle**<br/>
MIT License - Copyright (c) 2022 Mikaël Swawola
<br/>
![Travaux Pratiques - Variables explicatives catégorielles](static/07-A1-banner.png)
<br/>
**Objectif:** cette séance de travaux pratiques est consacrée à la transformation des variables explicatives catégorielles en **variables indicatrices**

In [1]:
%reload_ext autoreload
%autoreload 2
%matplotlib inline

### 0 - Chargement des bibliothèques

In [2]:
# Manipulation de données
import numpy as np
import pandas as pd

# Visualisation de données
import matplotlib.pyplot as plt
import seaborn as sns

# Machine Learning
from sklearn.decomposition import PCA

In [3]:
# Configuration de la visualisation
sns.set(style="darkgrid", rc={'figure.figsize':(11.7,8.27)})
sns.set_context("notebook", font_scale=1.5, rc={"lines.linewidth": 2.5})

### 1 - Lecture du jeu de données *Heart*

**Exercice 1: lire le fichier `Heart.csv`**

In [4]:
# Compléter le code ci-dessous ~ 1 ligne
HRT = pd.read_csv("../../data/Heart.csv")

In [5]:
# On supprime les données manquantes. Ceci sera vu plus en détail plus tard dans le cours
HRT = HRT.dropna()

**Exercice 2: afficher les dix premières lignes de la trame de données**

In [6]:
# Compléter le code ci-dessous ~ 1 ligne
HRT.head()

Unnamed: 0.1,Unnamed: 0,Age,Sex,ChestPain,RestBP,Chol,Fbs,RestECG,MaxHR,ExAng,Oldpeak,Slope,Ca,Thal,AHD
0,1,63,1,typical,145,233,1,2,150,0,2.3,3,0.0,fixed,No
1,2,67,1,asymptomatic,160,286,0,2,108,1,1.5,2,3.0,normal,Yes
2,3,67,1,asymptomatic,120,229,0,2,129,1,2.6,2,2.0,reversable,Yes
3,4,37,1,nonanginal,130,250,0,0,187,0,3.5,3,0.0,normal,No
4,5,41,0,nontypical,130,204,0,2,172,0,1.4,1,0.0,normal,No


**Exercice 3: quel est le type de données (dtype) du ndarray sous-jacent ?**

In [7]:
# Compléter le code ci-dessous ~ 1 ligne
type(HRT)

pandas.core.frame.DataFrame

**Exercice 4: trouver tous les niveaux des variables catégorielles**<br/>
Indice: vous devrez utilisez la méthode `unique()` de pandas

In [27]:
# Compléter le code ci-dessous ~ 3 lignes
colsCateg = HRT.select_dtypes(include='object')
colsCateg.columns.values
for c in colsCateg:
    print("[col] = ", c,   " | [values] = " , colsCateg[c].unique())

[col] =  ChestPain  | [values] =  ['typical' 'asymptomatic' 'nonanginal' 'nontypical']
[col] =  Thal  | [values] =  ['fixed' 'normal' 'reversable']
[col] =  AHD  | [values] =  ['No' 'Yes']


### 2 - Création des variables indicatrices

**Exercice 5: créer les variables indicatrices**<br/>

In [43]:
# Compléter le code ci-dessous ~ 7 lignes
lstColNames = colsCateg.columns.values
df = pd.get_dummies(colsCateg, prefix = lstColNames, prefix_sep="_", drop_first=True)
dfHeart = pd.concat([HRT, df], axis=0)
dfHeart.head()
#dfHeart = pd.drop(lstExcl)

Unnamed: 0.1,Unnamed: 0,Age,Sex,ChestPain,RestBP,Chol,Fbs,RestECG,MaxHR,ExAng,...,Slope,Ca,Thal,AHD,ChestPain_nonanginal,ChestPain_nontypical,ChestPain_typical,Thal_normal,Thal_reversable,AHD_Yes
0,1.0,63.0,1.0,typical,145.0,233.0,1.0,2.0,150.0,0.0,...,3.0,0.0,fixed,No,,,,,,
1,2.0,67.0,1.0,asymptomatic,160.0,286.0,0.0,2.0,108.0,1.0,...,2.0,3.0,normal,Yes,,,,,,
2,3.0,67.0,1.0,asymptomatic,120.0,229.0,0.0,2.0,129.0,1.0,...,2.0,2.0,reversable,Yes,,,,,,
3,4.0,37.0,1.0,nonanginal,130.0,250.0,0.0,0.0,187.0,0.0,...,3.0,0.0,normal,No,,,,,,
4,5.0,41.0,0.0,nontypical,130.0,204.0,0.0,2.0,172.0,0.0,...,1.0,0.0,normal,No,,,,,,


**Exercice 6: quel est maintenant le type de données (dtype) du ndarray sous-jacent ?**

In [55]:
# Compléter le code ci-dessous ~ 1 ligne
#dfHeart.drop(index=0, inplace=True)
dfHeart.drop(columns=['Unnamed: 0'], axis=0, inplace=True)
dfHeart.columns.values

array(['Age', 'Sex', 'ChestPain', 'RestBP', 'Chol', 'Fbs', 'RestECG',
       'MaxHR', 'ExAng', 'Oldpeak', 'Slope', 'Ca', 'Thal', 'AHD',
       'ChestPain_nonanginal', 'ChestPain_nontypical',
       'ChestPain_typical', 'Thal_normal', 'Thal_reversable', 'AHD_Yes'],
      dtype=object)

### 3 - Affichages des composante principales (contenu non inclus dans le cours)

In [45]:
X = HRT.drop(['AHD'], axis=1).values
y = HRT.AHD.values
pca = PCA(n_components=2)
pca.fit(X)
X_pca = pca.transform(X)

ValueError: could not convert string to float: 'typical'

In [None]:
ax = sns.scatterplot(x=X_pca[:,0], y=X_pca[:,1], hue=HRT['AHD'], s = 60)
ax.set_xlabel('PC1')
ax.set_ylabel('PC2')

### Fin du TP