<br/>
<img src="images/cd-logo-blue-600x600.png" alt="" width="130px" align="left"/>
<img src="images/cd-logo-blue-600x600.png" alt="" width="130px" align="right"/>
<div align="center">
<h2>Bootcamp Data Science - Módulo 2</h2><br/>
<h1>Modelos de clasificación</h1>
<br/><br/>
    <b>Instructor Principal:</b> Patricio Olivares polivares@codingdojo.cl <br/>
    <b>Instructor Asistente:</b> Jesús Ortiz jortiz@codingdojo.cl<br/><br/>
    <b>Coding Dojo</b>
</div>
<br>
Fuente: "Hands-on Machine Learning with Scikit-Learn, Keras & TensorFlow"

# Modelos de clasificación

- Así como los modelos de regresión aprenden a predecir valores, los modelos de clasificación son aquellos enfocados en la **predicción de clases**.
- Algunos modelos de clasificación:
    * Decision Trees
    * Random Forest 
    * KNN
    * Regresión Logística
    * Naive Bayes
    * Redes Neuronales
    * Etc.
- Nota como muchos de los modelos ya aprendidos para regresión también pueden ser utilizados para clasificación (con leves modificaciones)
- A diferencia de los modelos de regresión, en los modelos de clasificación es importante tener en cuenta la cantidad de datos para cada clase. Tener exceso de una clase respecto a otra puede generar graves problemas en el proceso de aprendizaje (aprender mucho mejor de aquella clase que existan más datos).

# Tipos de modelos de clasificación

Los modelos de clasificación pueden ser de tipo
- **Clasificación binaria**: El modelo solo debe predecir entre dos posibles clases
- **Clasificación multiclase**: El modelo debe predecir entre múltiples posibles clases.

# Árboles de decisión para clasificación

- A diferencia de los árboles de decisión para problemas de regresión, donde la función de costo dependía directamente del *MSE*, al utilizarlo en problemas de clasificación, la función de costo dependerá de una función de *impureza* llamada **Impureza Gini**.
- En este caso se opera dividiendo el dataset de entrenamiento en dos grupos en base a una característica $k$ y un umbral $t_k$ tales que $k$ y $t_k$ produzcan el menor grado de impureza.
- Ejemplo de cálculo de la impureza de Gini:

$$ G_i = 1 - \sum_{k=1}^n p_{i,k}^2 = 1 - \left(\frac{0}{54}\right)^2 + \left(\frac{49}{54}\right)^2 + \left(\frac{5}{54}\right)^2 \approx 0.168$$

$p_{i,k}$ es la razón entre instancias de clase $k$ vs instancias del nodo $i$ (revisar *value*)

In [None]:
# Ejemplo
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

iris = load_iris()
X = iris.data[:, 2: ] # Solo columnas de largo y ancho del pétalo
y = iris.target

y

In [None]:
tree_clf = DecisionTreeClassifier(max_depth=2)
tree_clf.fit(X, y)

In [None]:
# Visualizando árbol de decisión
from sklearn import tree
import matplotlib.pyplot as plt

plt.figure(figsize=(100,100))
tree.plot_tree(
    tree_clf,
    feature_names=iris.feature_names[2:],
    class_names=iris.target_names,
    rounded=True,
    filled=True
)

- A partir del árbol de decisión es posible obtener la probabilidad de que una nueva instancia pertenezca a una cierta clase.
- La nueva instancia pertenecerá a aquella clase con mayor probabilidad

In [None]:
# Nueva instancia
x_new = [[5, 1.5]]
# Probabilidades por cada clase
print(tree_clf.predict_proba(x_new))
# Clase predicha
print("Esta instancia pertenece a la clase",tree_clf.predict(x_new))

# KNN - K Nearest Neighbors (K Vecinos más próximos)

- Modelo basado en instancias y uno de los algoritmos de ML más simples de implementar.
- Permite clasificación y regresión de datos.
- Una nueva instancia se asigna como perteneciente a la clase con las k instancias más cercanas a esta.

<img src="images/KnnClassification.png" alt="" width="300px" align="center"/>
Fuente imagen: https://commons.wikimedia.org/wiki/File:KnnClassification.svg

# KNN con Scikit-Learn

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
import pandas as pd

data = load_iris()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target
df

In [None]:
from sklearn.model_selection import train_test_split

X = df.drop(columns=['target']) # Separación de las características
y = df['target'] # Separación del target (corresponde a lo que quiero predecir)

X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.3,
                                                    random_state=42)


scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test) # Ojo: escalamiento de test se hace en base al train

In [None]:
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train) # Ojo: fit en base a los de entrenamiento!!
predictions = knn.predict(X_test)
print(predictions.tolist())
print(y_test.tolist())
print('Accuracy:',knn.score(X_test, y_test))

# Regresión Logística (Logistic Regression)

- **Contexto**: Intentemos utilizar la regresión lineal como un clasificador

In [None]:
from sklearn.datasets import load_breast_cancer

# Set de datos sobre datos de cancer de mamas en Wisconsin 
# Objetivo: clasificación de tumores benignos y malignos
br_cancer = load_breast_cancer()
print('Características', br_cancer.feature_names)
# Originalmente 0 es maligno y 1 es benigno. Lo invertiremos
print('Target', br_cancer.target_names[::-1]) 

In [None]:
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

X = br_cancer.data[:, 0].reshape(-1,1) # mean_radius
y = 1 - br_cancer.target # Nuevamente inversión maligno/benigno 0/1
# Luego de inversión: benigno 0 y maligno 1

X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.2, 
                                                    random_state=42)

plt.plot(X_train, y_train,'bo')
plt.show()

In [None]:
# Ajustando modelo de regresión lineal

from sklearn.linear_model import LinearRegression

# Entrenamiento regresor lineal
lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)

print('Intercepto:', lin_reg.intercept_, )
print('Coeficientes:', lin_reg.coef_ )

# Gráfico datos reales test vs predicciones de test
plt.plot(X_test, y_test,'bo')
plt.plot(X_test, lin_reg.predict(X_test),'r.')
plt.xlabel('Radio promedio tumor')
plt.ylabel('Tipo tumor 0/benigno 1/maligno')
plt.show()

- Regresión lineal simplemente hace regresión sobre los datos. ¿Cómo podemos clasificar usando este modelo? 
    - R: *umbral*
    
\begin{align}
    \hat{y}=\left\{
    \begin{array}{ll}
      0, & \mbox{si $\hat{p} <0.5$}.\\
      1, & \mbox{si $\hat{p} \geq0.5$}.
    \end{array}
  \right.
\end{align}

donde $\hat{p}$ es el valor predicho por el regresor lineal e $\hat{y}$ es la clase predicha. En este ejemplo, escogeremos el umbral en 0.5 para clasificación
- Problema: ¿Cómo interpretamos los valores de la regresión lineal? por ejemplo  $\hat{p}=-0.25$
- La regresión logística hace la regresión lineal **interpretable**

### Regresión logística

- A pesar de hacer regresión, se utiliza normalmente para clasificación
- Permite darle una interpretación a los valores obtenidos por la regresión: Probabilidad de pertenecer a cierta clase
- Ecuación de función logística

$$ \sigma(t) = \frac{1}{1+e^{-t}} = \frac{1}{1+\frac{1}{e^t}}$$

<img src='images/logisticFunction.png' width=600>

In [None]:
from sklearn.linear_model import LogisticRegression

# Entrenamiento regresión logística
log_reg = LogisticRegression()
log_reg.fit(X_train, y_train)

# Gráfico datos reales test vs predicciones de test
plt.plot(X_test, y_test,'bo')
plt.plot(X_test, log_reg.predict(X_test), 'ro', alpha=0.2)

In [None]:
import numpy as np
print("Predicción de regresión logística", log_reg.predict(X_test))
print("Valor target real", y_test)
print(log_reg.predict_proba(X_test))
print(np.sum(log_reg.predict_proba(X_test),axis=1))

# Recordatorio: Tipos de errores

- **Errores de Tipo 1 - Falso Positivo**: Clasificamos un elemento como *perteneciente* (positivo) a la clase **incorrectamente** (falso)

<img src="images/un5.jpeg" alt="" width="300px" align="center"/>

- **Errores de Tipo 2 - Falso Negativo**: Clasificamos un elemento como *no perteneciente* (negativo) a la clase **incorrectamente** (falso)

<img src="images/noUn5.jpeg" alt="" width="300px" align="center"/>

# Recordatorio: Matriz de confusión

- **Matriz de confusión**: Permite contar la cantidad de veces que instancias de la clase A son clasificadas como clase B
<img src="images/matrizConfusion.png" alt="" width="700px" align="center"/>
Fuente: "Hands-on Machine Learning with Scikit-Learn, Keras & Tensorflow", O'Reilly

# Recordatorio: métricas

- **True Positive Rate** (sensibilidad)

$$ TPR = \frac{TP}{TP + FN}$$

- **False Positive Rate** 
$$ FPR = \frac{FP}{FP + TN} $$

# Curvas ROC

- La curva **Característica Operativa del Receptor** (Receiver Operative Characteristic/ROC) muestra la relación entre el True Positive Rate (sensibilidad) y el False Positive Rate. (Visualización [aquí](http://www.navan.name/roc/))
- El **Área Bajo la Curva** (Area Under Curve/AUC) se utiliza como un valor de medida que proyecta lo visualizado en la curva ROC. Un clasificador perfecto tendrá valor $AUC=1$, mientras que para un clasificador aleatorio, $AUC=0.5$. En scikit-learn, para que se pueda calcular el auc_score de un modelo, este **debe** tener el método *predict_proba* (Ej. El modelo Ridge, no posee este método, por lo que no sería posible calcular el auc_score de este).

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import roc_auc_score, plot_roc_curve

# Set de datos de flores con solo 2 clases en vez de 3
df = pd.read_csv('data/modifiedIris2Classes.csv')
df.head()

In [None]:
df['target'].value_counts()

In [None]:
from sklearn.linear_model import LogisticRegression
# Dividir en X e y
X = df.drop(columns = 'target')
y = df['target']
# Crea una instancia del modelo
logreg = LogisticRegression()
# División entrenamiento prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Escalar la regresión logística
scaler = StandardScaler()
# Ajustar solo al conjunto de entrenamiento
scaler.fit(X_train)
# Apply transform to both the training set and the test set.
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)
# Entrenamiento del modelo con los datos, almacenando la información aprendida de los datos
# Model está aprendiendo la relación entre X e y
logreg.fit(X_train, y_train)

In [None]:
# Visualizar la curva ROC
plot_roc_curve(logreg, X_test, y_test)
plt.plot([0, 1], [0, 1], ls = '--', label = 'Baseline (AUC = 0.5)')
plt.legend();

In [None]:
# Calcular el AUC para conjuntos de entrenamiento y prueba
print(f'Training AUC: {roc_auc_score(y_train, logreg.predict_proba(X_train)[:,1])}')
print(f'Testing AUC: {roc_auc_score(y_test, logreg.predict_proba(X_test)[:,1])}')

# Clasificación multiclase

- Hasta ahora hemos estudiado clasificadores binarios: solo son capaces de distinguir entre dos clases.
- Es posible extender algoritmos binarios para poder identificar múltiples clases
- Estrategias:
    - Uno contra Todos (One versus All/One versus the Rest) (OvA/OvR)
    - Uno contra Uno (One versus One) (OvO)

In [None]:
# Usando dataset MNIST para clasificación multiclase
from sklearn.datasets import load_digits
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

digits = load_digits()
X = digits.data # Ojo, en scikit learn, ya vienen los datos en formato fila!!
y = digits.target


# Ejemplos de datos
import matplotlib.pyplot as plt
import numpy as np

np.random.seed(42)

fig = plt.figure(dpi=300)
fig.suptitle('Algunos ejemplos de MNIST')

ax = []
rand_numbers = np.random.choice(len(y), 9, replace=False)
for i in range(0,9):
    ax.append(fig.add_subplot(3,3,i+1))
    ax[i].imshow(X[rand_numbers[i]].reshape(8,8), cmap='gray')
    ax[i].title.set_text(f'Número {y[rand_numbers[i]]}')
fig.tight_layout()
plt.show()


In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.2, 
                                                    random_state=42)
log_reg = LogisticRegression(solver='liblinear',
                            multi_class='ovr')
log_reg.fit(X_train, y_train)

print('Accuracy test: ', log_reg.score(X_test,y_test))
print('Valores reales', y_test)
print('Predicciones:',log_reg.predict(X_test))

In [None]:
import matplotlib.pyplot as plt
# Ejemplos de predicciones
# i = 20
i = 11 # Error de predicción

image = X_test[i].reshape(8,8)
plt.imshow(image,cmap='gray')
print('Valor real', y_test[i])
print('Predicción', log_reg.predict(X_test[i].reshape(1,-1)))

# Actividad 6

A partir del dataset de supervivencia del titanic, disponible [aquí](data/titanic.csv)
- Utilice los algoritmos de clasificación aprendidos para predecir la supervivencia de los pasajeros.
- Obtenga y compare la curva ROC para cada clasificador utilizado.