# 8 - Hands on Classification
## Minería de Datos 2019

### 1.- Selección de Datos
En este taller utilizaremos un dataset "bien portado", es decir, que no requiere mucho preprocesamiento (i.e. imputación, control de NaNs, variables no númericas, etc.). La idea es que usted se pueda concentrar en las métricas de selección de clasificadores, más que en el preprocesamiento de los datos. Para esto, cargue el dataset llamado `heart.csv` que puede encontrar en el aula (junto a este archivo). Este dataset contiene 303 pacientes con 13 características (resultados de exámenes o datos fisiológicos):
> 1. age 
> 2. sex 
> 3. chest pain type (4 values) 
> 4. resting blood pressure 
> 5. serum cholestoral in mg/dl 
> 6. fasting blood sugar > 120 mg/dl
> 7. resting electrocardiographic results (values 0,1,2)
> 8. maximum heart rate achieved 
> 9. exercise induced angina 
> 10. oldpeak = ST depression induced by exercise relative to rest 
> 11. the slope of the peak exercise ST segment 
> 12. number of major vessels (0-3) colored by flourosopy 
> 13. thal: 3 = normal; 6 = fixed defect; 7 = reversable defect

En la característica 14 encontrara el `target`, que corresponde a 1 si el paciente tiene una affección cardiaca y 0 si que está sano.

Como de costumbre, recuerde describir los datos utilizando pandas para una mayor comprensión.

In [23]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd 

df_heart = pd.read_csv('heart.csv')
df_heart.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 14 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       303 non-null    int64  
 1   sex       303 non-null    int64  
 2   cp        303 non-null    int64  
 3   trestbps  303 non-null    int64  
 4   chol      303 non-null    int64  
 5   fbs       303 non-null    int64  
 6   restecg   303 non-null    int64  
 7   thalach   303 non-null    int64  
 8   exang     303 non-null    int64  
 9   oldpeak   303 non-null    float64
 10  slope     303 non-null    int64  
 11  ca        303 non-null    int64  
 12  thal      303 non-null    int64  
 13  target    303 non-null    int64  
dtypes: float64(1), int64(13)
memory usage: 33.3 KB


In [7]:
df_heart.describe()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
count,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0
mean,54.366337,0.683168,0.966997,131.623762,246.264026,0.148515,0.528053,149.646865,0.326733,1.039604,1.39934,0.729373,2.313531,0.544554
std,9.082101,0.466011,1.032052,17.538143,51.830751,0.356198,0.52586,22.905161,0.469794,1.161075,0.616226,1.022606,0.612277,0.498835
min,29.0,0.0,0.0,94.0,126.0,0.0,0.0,71.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,47.5,0.0,0.0,120.0,211.0,0.0,0.0,133.5,0.0,0.0,1.0,0.0,2.0,0.0
50%,55.0,1.0,1.0,130.0,240.0,0.0,1.0,153.0,0.0,0.8,1.0,0.0,2.0,1.0
75%,61.0,1.0,2.0,140.0,274.5,0.0,1.0,166.0,1.0,1.6,2.0,1.0,3.0,1.0
max,77.0,1.0,3.0,200.0,564.0,1.0,2.0,202.0,1.0,6.2,2.0,4.0,3.0,1.0


**PREGUNTA**: observando los estadísticos del dataset, está de acuerdo de que este dataset es "bien portado" (i.e., sin datos faltantes, datos balanceados, datos numéricos, etc.).

Luego de ver los datos de las 14 columnas y las estadísticas, estoy de acuerdo ya que son en su mayoria números y no nulos.

### 2.- Evaluación de Classificadores

Considere los siguientes clasificadores
1. Nearest Neighbors Classifier with 3 neighbors
1. Support Vector Machine with Linear Kernel with $C=0.03$
1. Support Vector Machine with Radial Basis Function with C=1.0, $\gamma=1.5$
1. Gaussian Process Classifier with a squared exponential kernel of $\sigma = 1.0$ and amplitude also $1.0$
1. Decision Tree with maximum depth of 6
1. Random Forest with maximum depth of 6 and 10 estimators 
1. Artificial Neural Network with $\alpha = 1$
1. AdaBoost
1. Naive Bayes
1. Quadratic Discriminant Analysis


Evalue el desempeño de los clasificadores
* Seleccione 25% de sus datos de forma aleatoria como conjunto de testing, y entrene cada clasificador.
* Imprima la curva ROC de cada clasificador y reporte su accuracy, F1-score y AUC

In [29]:

from matplotlib.colors import ListedColormap
# for splitting data into training and testing
from sklearn.model_selection import train_test_split

# standardize features removing the mean and scaling to unit variance
from sklearn.preprocessing import StandardScaler

# data sets
from sklearn.datasets import make_moons, make_circles, make_classification

# multilayer perceptron classifier
from sklearn.neural_network import MLPClassifier

# K nearest neighbors classifier
from sklearn.neighbors import KNeighborsClassifier

# Support vector machine, C-support vector classifier
from sklearn.svm import SVC

# Gaussian process classifier
from sklearn.gaussian_process import GaussianProcessClassifier

# radial basis function kernel (squared exponential kernel)
from sklearn.gaussian_process.kernels import RBF

# Decision tree classifier
from sklearn.tree import DecisionTreeClassifier

# Ensemble classifiers: Random forest and AdaBoost
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier

# Naive Bayes classifier
from sklearn.naive_bayes import GaussianNB

# Quadratic Discriminant Analysis classifier
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis

h = .02  # step size in the mesh


# different classifiers
names = ["Nearest Neighbors", "Linear SVM", "RBF SVM", "Gaussian Process",
         "Decision Tree", "Random Forest", "Neural Net", "AdaBoost",
         "Naive Bayes", "QDA"]

classifiers = [
    KNeighborsClassifier(3),
    SVC(kernel="linear", C=0.03, probability = True),
    SVC(gamma=1.5, C=1, probability = True),
    GaussianProcessClassifier(1.0 * RBF(1.0), warm_start=True),
    DecisionTreeClassifier(max_depth=6),
    RandomForestClassifier(max_depth=6, n_estimators=10, max_features=1),
    MLPClassifier(alpha=1),
    AdaBoostClassifier(),
    GaussianNB(),
    QuadraticDiscriminantAnalysis()]


# linearly separable datatest
X, y = make_classification(n_features=2, n_redundant=0, n_informative=2,
                           random_state=1, n_clusters_per_class=1)
rng = np.random.RandomState(2)
X += 2 * rng.uniform(size=X.shape)
linearly_separable = (X, y)

# all different datasets
datasets = [df_train= df_heart.sample(round((len(df_heart))*0.25))]

figure = plt.figure(figsize=(27, 15))
i = 1
# iterate over datasets
for ds_cnt, ds in enumerate(datasets):
    # preprocess dataset, split into training and test part
    X, y = ds
    X = StandardScaler().fit_transform(X)
    
    # test_size is 40% of the data
    X_train, X_test, y_train, y_test = \
        train_test_split(X, y, test_size=.25,random_state=42)
                
    # create grid to evaluate classifiers
    x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
    y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))

    # plot the dataset first
    cm = plt.cm.RdBu
    cm_bright = ListedColormap(['#FF0000', '#0000FF'])
    ax = plt.subplot(2 * len(datasets), len(classifiers) + 1, i + ds_cnt * (len(classifiers) + 1))
    if ds_cnt == 0:
        ax.set_title("Input data")
    # Plot the training points
    ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=cm_bright,
               edgecolors='k')
    # plot the testing points
    ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap=cm_bright, alpha=0.6,
               edgecolors='k')
    ax.set_xlim(xx.min(), xx.max())
    ax.set_ylim(yy.min(), yy.max())
    ax.set_xticks(())
    ax.set_yticks(())
    i += 1

    # iterate over classifiers
    for name, clf in zip(names, classifiers):
        ax = plt.subplot(2 * len(datasets), len(classifiers) + 1, i + ds_cnt * (len(classifiers) + 1))

        # fit the model using the training set
        clf.fit(X_train, y_train)

        # compute the mean accuracy of the classifier
        score = clf.score(X_test, y_test)

        Z = clf.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1]

        # Put the result into a color plot
        Z = Z.reshape(xx.shape)
        ax.contourf(xx, yy, Z, cmap=cm, alpha=.8)

        # Plot the training points
        ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=cm_bright,
                   edgecolors='k')

        # plot the testing points
        ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap=cm_bright,
                   edgecolors='k', alpha=0.6)

        # set limits
        ax.set_xlim(xx.min(), xx.max())
        ax.set_ylim(yy.min(), yy.max())

        # remove ticks
        ax.set_xticks(())
        ax.set_yticks(())

        # write title only for the first data set for each classifier
        if ds_cnt == 0:
            ax.set_title(name)

        # plot the accuracy score
        ax.text(xx.max() - .3, yy.min() + .3, ('%.2f' % score).lstrip('0'),
                size=15, horizontalalignment='right')

        # compute ROC curve
        y_test_pred = clf.predict_proba(X_test)[:, 1]
        fpr, tpr, thresholds = metrics.roc_curve(y_test, y_test_pred, pos_label=1)
        auc = metrics.roc_auc_score(y_test, y_test_pred)
        acc = metrics.accuracy_score(y_test, y_test_pred >= 0.5)
        f1 = metrics.f1_score(y_test, y_test_pred >= 0.5)
        ax = plt.subplot(2 * len(datasets), len(classifiers) + 1, i + (ds_cnt + 1) * (len(classifiers) + 1))
        ax.set_xlim(-.05, 1.05)
        ax.set_ylim(-.05, 1.05)
        ax.set_xticks(())
        ax.set_yticks(())
        ax.text(0.95, 0.3, "Acc: %.2f" % acc, ha = 'right')
        ax.text(0.95, 0.2, "F1-score: %.2f" % f1, ha = 'right')
        ax.text(0.95, 0.1, "AUC: %.2f" % auc, ha = 'right')
        ax.plot(fpr, tpr, lw = 5)
        idx = np.argmin(np.abs(thresholds - 0.5))
        ax.scatter(fpr[idx], tpr[idx], marker = 'o', c = 'r')

        # counter 
        i += 1

ValueError: too many values to unpack (expected 2)

<Figure size 1944x1080 with 0 Axes>

**PREGUNTA**: ¿Qué comportamiento observa en las métricas para distintos muestreos del conjunto testing? ¿Por qué este análysis sería considerado "trampa" en un caso real?

### 2.1 - Selección de Modelo
Seleccione ahora un conjunto de testing del 30% de los datos, usando una semilla aleatoria fija (por ejemplo 42).
Realice una validación cruzada con un K-Fold de 20 y reporte los promedios de accuracy, F1-score y AUC utilizando sólo los conjuntos de validación (no testing!).

In [31]:
#Here your code

**PREGUNTA**: Haga un ranking de los 3 mejores clasificadores para este problema (con una semilla fija la selección del conjunto de training). Justifique su elección utilizando las métricas computadas.

### 2.2 - Selección de Parámetros
Seleccione uno de los 3 clasificadores de su ranking. Seleccione un parámetro del modelo y haga un [gridsearch](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) (o puede hacerlo manualmente también) para elegir un parámetro adecuado para su clasificador. Muestre sus resultados utilizando un gráfico con el parámetro como la abcisa (eje x).

In [33]:
#Here your code

**PREGUNTA**: ¿Tiene sentido el resultado considerando el sigificado del parámetro dentro del contexto de su clasificador? Justifique.

### 3 - Reporte de Resultados
Entrene ahora su clasificador con el 70% de los datos (training) utilizando el **mejor** parámetro encontrado mediante cross-validation, y otra instancia con el parámetro original entregado (o el que venía por defecto). Evalúe en el restante 30% (testing) usando los 3 criterios (i.e., accuracy, F1-score y AUC) para ambos casos. 

In [1]:
#Here your code

**PREGUNTA FINAL**: ¿Le fue útil realizar el ejercicio de cross-validation para obtener mejores resultados?. Comente brevemente porqué hacer cross-validation "no es trampa", haciendo referencia a lo comentado en la sección 2.