In [None]:
! mkdir -p datasets
%cd datasets
! wget -nc https://raw.githubusercontent.com/pablonoya/zigzag-ml/master/datasets/Iris.csv
%cd ..

# Clasificaci√≥n Multiclase
Cambiamos el nombre porque ¬°tenemos una nueva tarea!, otra vez üòÉ.   
Tenemos **tres estrategias** para predecir a cu√°l de las especies de iris pertenece un ejemplo, aplicamos una de ellas a medias (¬øo a tercias?) en el cap√≠tulo anterior, veamos cu√°l es.

## One vs the Rest
La idea es etiquetar **una clase como positiva** y **todas las dem√°s como negativas**, es **una contra el resto**. En el cap√≠tulo anterior distinguimos entre **setosa** y **no-setosa**, esto lo hacemos para todas las clases, entrenando un **clasificador binario distinto** para cada caso.

Completa el siguiente c√≥digo para importar los datos üòâ.

In [None]:
import pandas ___
from sklearn.model_selection import ___
import numpy as np

np.random.___

df = ___.read_csv("./datasets/Iris.csv")
y = df["___"]

# no necesitamos estas columnas
# guardamos las dem√°s en X
X = df.drop(columns=['Id', 'Species'])

_, _, _, _ = train_test_split(X, y, test_size=0.2)

Esto no es muy complicado de implementar, pero el objeto `LogisticRegression` ya cuenta con la opci√≥n de usar dicha estrategia, estableciento su par√°metro `multi_class` en `'ovr'`.  
El modelo espera que `y` sea un array 1D, por lo que **no es necesario que realicemos el one-hot encoding**.  

In [None]:
from sklearn.linear_model import LogisticRegression

model_log = LogisticRegression(multi_class="ovr")
model_log.fit(X_train, y_train)

# realicemos algunas predicciones
X_sample = X_test.sample(5)
model_log.predict(X_sample)

Tambi√©n tenemos la implementaci√≥n en `OneVsRestClassifier` de `sklearn.multiclass`, este recibe una **instancia del modelo** que usaremos, por supuesto, debe ser uno de **regresi√≥n log√≠stica**.

In [None]:
from sklearn.multiclass import OneVsRestClassifier

model_ovr = OneVsRestClassifier( LogisticRegression() )
model_ovr.fit(X_train, y_train)
model_ovr.predict(X_sample)

## One vs One
Entrenamos clasificadores por pares, **uno contra uno** distinguimos setosa de versicolor, setosa de virginica, versicolor de virginica, y as√≠ hasta entrenar todas las posibles combinaciones, siendo en total:

$\dfrac{K (K-1)}{2} $

Donde $K$ es el n√∫mero de clases.

La ventaja es que cada clasificador se entrena **s√≥lo con los datos que contienen los pares de clases a distinguir**, algunos modelos **no escalan bien con el tama√±o del dataset**, es decir, rinden peor con un dataset m√°s grande.  
En estos casos, **es m√°s r√°pido entrenar muchos clasificadores en peque√±os datasets** en lugar de  **pocos clasificadores en datasets m√°s grandes**. 

Usaremos `OneVsOneClassifier` tambi√©n de `sklearn.multiclass` pues `LogisticRegression` no soporta esta estrategia. Completa para ver la predicci√≥n üò±.

In [None]:
from sklearn.multiclass import OneVsOneClassifier

model_ovo = OneVsOneClassifier(LogisticRegression())
model_ovo.fit(X_train, y_train)
model_ovo.predict(___)

## Regresi√≥n log√≠stica multinomial
Es una **generalizaci√≥n** de la regresi√≥n log√≠stica, que cubre **m√∫ltiples clases** directamente, eliminando la necesidad de entrenar varios clasificadores binarios.

El par√°metro `multiclass` que vimos antes acepta los par√°metros `'auto'`, `'ovr'` y `'multinomial'`, **auto** es la opci√≥n por defecto, y esta selecciona **ovr** si la variable `y` es **binaria**.

Como no es nuestro caso, seleccionar√° **multinomial**, por lo que ser√≠a opcional especificarlo.

In [None]:
model_multi = LogisticRegression(multi_class='___')
model_multi.fit(X_train, y_train)

model_multi.predict(X_sample)

# Regresi√≥n Softmax
Esta generalizaci√≥n es tambi√©n conocida como **regresi√≥n Softmax**. Dado un ejemplo $x$, esta calcula primero un puntaje $s_k(x)$ para cada clase $k$

$$ s_k(x) = x^T\theta^{(k)} $$

Nota que **cada clase** tiene su propio **vector** $\theta^{(k)}$. Cada uno se guarda en una fila de la matr√≠z $\theta$ que est√° repartida en los atributos `coef_` e `intercept_` de nuestro modelo. A diferencia de lo que vimos al implementar el [descenso del gradiente](5_descenso_del_gradiente.ipynb), donde nuestra variable `theta` conten√≠a los coeficientes y el t√©rmino independiente en una sola matriz.

In [None]:
 model_multi.coef_

In [None]:
model_multi.intercept_

Una columna por cada feature, una fila por cada clase üòâ

Luego se aplica la funci√≥n **softmax** para calcular las probabilidades $\hat{p}_k$ de que nuestro ejemplo $x$ **pertenezca a una clase $k$** calculando una f√≥rmula usando exponenciales, cada una de estas representan al n√∫mero $e$ elevado a los puntajes $ s_k(x) $ que antes calculamos.

$\hat{p}_k = \dfrac{\exp s_k(x)}{\sum^K_{j=1}\exp s_j(x)}$

Donde $K$ es el n√∫mero total de clases

In [None]:
len(model_multi.classes_)

Al final, la predicci√≥n toma en cuenta la clase con **la probabilidad m√°s alta como respuesta**

## Implementaci√≥n de sus f√≥rmulas
Primero calculemos $s(x)$ como un vector que contega los **puntajes de cada clase**, por lo que tendr√° 3 elementos al ser el resultado de una multiplicaci√≥n de matrices, y no olvidemos sumar los t√©rminos independientes üòâ.

In [None]:
# Operamos con una matriz de numpy
# y guardamos la primera fila
X_sample1 = X_sample.to_numpy()[0]

s = X_sample1 @ model_multi.coef_.T + model_multi.intercept_
s

Luego $p$ como otro vector de tres elementos que contiene las **probabilidades** de que nuestro ejemplo **pertenezca a alguna de las clases** 0, 1 o 2, setosa, versicolor o virginica, respectivamente üòÑ

In [None]:
p = np.exp(s) / np.sum(np.exp(s))
p

Finalmente obtenemos a qu√© clase pertenece nuestro ejemplo üòÉ.  
Podemos usar `np.argmax` sobre el **vector que conteniene las probabilidades**, y esto nos retorna el **√≠ndice donde se encuentra la probabilidad m√°s alta**.

In [None]:
# Clase de nuestro primer ejemplo
pred = np.argmax(p)
pred

Es **versicolor**, como nuestros anteriores modelos lo predijeron üòÑ

# Ejercicios
Intenta predecir **todo** `X_sample`, usando esta implementaci√≥n al final `pred` deber√≠a ser un **array de 5 elementos** con cada una de las clases predichas para cada ejemplo üòâ.    
Adem√°s, `s` y `p` deber√≠an ser matrices de 3x5 

In [None]:
# reemplaza X_sample1


¬øAlguna estrategia rendir√° mejor sobre las otras?
Compr√∫ebalo evaluando los 3 modelos sobre precision y recall

In [None]:
# importa las m√©tricas, eval√∫a siempre sobre el test set


Cada estrategia tiene su momento: **OvR** si el modelo necesitamos algo **estrictamente binario**, **OvO**  si el modelo **no escala bien con la cantidad de datos** y la **regresi√≥n softmax** es una regresi√≥n log√≠stica generalizada üòÉ.

Las primeras dos nos dicen que existen **m√°s tipos de modelos de clasificaci√≥n**, pero el pr√≥ximo que veremos usa softmax al final üòÇ pero no por ello es menos interesante, es m√°s, te aseguro que su nombre te despierta inter√©s üß†:

Te presento a las [redes neuronales artificiales](10_Redes_neuronales.ipynb) 