# Clasificadores lineales

## Aplicando la regresión logística y SVM

Empecemos recordando algunos pasos típicos de aprendizaje supervisado.

In [24]:
# LEBRERIA
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.datasets import load_breast_cancer
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
from sklearn.svm import SVC
from scipy.optimize import minimize

In [None]:
# Cargar los datos de los grupos de noticias del repositorio 
# de conjunto de datos integrados en scikit-learn
newsgroups = sklearn.datasets.fetch_20newsgroups_vectorized()
X, y = newsgroups.data, newsgroups.target

# Inspeccionar la forma de X e y.
print(X.shape)
print()
print(y.shape)

-  En este caso las características se derivan de las palabras que aparencen en cada articulo de noticia y los valores son los temas del artículo que es lo que intentamos predecir.

In [None]:
# Intanciar KNN
knn = KNeighborsClassifier(n_neighbors = 1)

# Ajustar el modelo con el conjunto de datos
knn.fit(X, y)

# Precedir 
y_pred = knn.predict(X)

is_alive()

### Evaluando el modelo

In [None]:
# Usar .score() para evaluar el modelo
knn.score(X, y)

- El número no es particularmente significativo, ya que queremos saber cómo se generaliza el modelo a datos no vistos.

In [None]:
# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y)

# Volver a ajustar al conjunto de datos
knn.fit(X_train, y_train)

# Calcular la puntación de la prueba
knn.score(X_test, y_test)

### Ejecutar regresión lineal y SVM

Pongamos cómo ejemplo el conjunto de datos de vino de sklearn.

In [None]:
# Cargar el cojunto de datos
wine = sklearn.datasets.load_wine()

# Instanciar el clasificador
lr = LogisticRegression()

# Ajustar el clasificador al conjunto de datos 
lr.fit(X_train, y_train)

# Predecir
lr.predict(X_test)

# Calcular la precisión del entrenamiento
lr.score(wine.data, wine.target)

- `LogicticRegression()` puede también generar puntajes de confianza en lugar de predicciones "duras" y definitivas
- Esto se realiza con `predic_proba()`. 

In [None]:
# Calcular el puntaje de confianza
lr.prodict_proba(wine.data[:1])

#### Usando el clasificador SVM

- Usaremos `LinearSVC()` que funciona de la misma manera que `LogisticRegression()`

In [None]:
# Cargar el cojunto de datos
wine = sklearn.datasets.load_wine()

# Instanciar SVM
svm = LinearSVC()

# Ajustar a los datos
smv.fit(wine.data, wine.target)

# calcular la precisión 
smv.score(wine.data, wine.target)

#### Usando la clase SVC

- Se ajusta a una SVM no lineal por defecto.

In [None]:
# Instanciar SVC
svm = SVC()

# Ajustar a los datos
smv.fit(wine.data, wine.target)

# calcular la precisión 
smv.score(wine.data, wine.target)

- Con los hiperparámetros predeterminados, la precisión no es particularmente alta, pero es posible que al ajustar los hiperparámetros de este model lleguemos a una precisión del 100%.
- Pero tal clasificador podría estar sobreajustado, lo cual es un riesgo que corremos cuando usamos modelos más complejos como `SVM` *no lineales*.
- Un ***hiperparámetro*** es una elección sobre el modelo que haces antes de ajustar a los datos, y a menudo contrala la complejidad del modelo.
    - Si el modelo es muy simple, es posible que no pueda capturar los patrones en los datos, lo que lleva a una baja precisión del entrenamiento o **Desajuste**.
    - Si el modelo es demasiado complejo, puede aprender las peculiaridades de su conjunto de entrenamiento particular, lo que lleva a una mejor precisión con los datos de prueba o **Sobreajuste**.

### Clasificadores lineales

Discutiremos lo que significa que un clasificador sea lineal
- Comencemos hablando del **límite de decisión**
    - Nos dice qué clase predecirá nuestro clasificador para cualquier valor de $X$. En otras palabras, es ***la linea que parte a dos regiones.***
    - Esta linea no tiene porque ser horizontal, puede estar en cualquier orientación.
    - Esta definición se extiende a más de 2 características también. Lo que sería un **hiperplano** de dimensión superior que corta el espacio en dos mitadas
- Un límite no lineal es cualquier otro tipo de límite.
- En sus formas básicas, la regresión logística y las SVM son clasificadores que aprenden de límites de decisión lineal.

**DEFINICIONES**
- *Clasificación:* Es aprendizaje supervisado cuando los valores de $y$ son categóricos, ya que está en contraste con la regresión, donde estamos tratando de predecir un valor continuo.
- *Límites de decisión:* Superficie que separa en diferentes clases. 
- *Clasificadores lineales:* Un clasificador que aprende de los límites de decisión lineales.
- *Linealmente separable:* Es un conjunto de datos si puede ser perfectamente explicado por un clasificador lineal.

#### Visualización de los límites de decisión

Visualizaremos los límites de decisión de varios tipos de clasificadores en el conjunto de datos `wine`.

In [None]:
# Definir los clasificadores
classifiers = [LogisticRegression(), LinearSVC(), SVC(), KNeighborsClassifier()]

# Entrenar los clasificadores
for c in classifiers:
    c.fit(X, y)

# Graficar los clasificadores
plot_4_classifiers(X, y, classifiers)
plt.show()

## Funciones de pérdida (loss functions)

### Clasificadores lineales: los coeficientes

#### Producto escalar
- Empecemos creando un *array*

In [8]:
# Array x
x = np.arange(3)

# Array y
y = np.arange(3,6)

# Multiplicamos x e y
x*y

array([ 0,  4, 10])

- El resultado es 0 (0 por 3), 4 (de 1 por 4) y 10 (de 2 por 5).

In [10]:
np.sum(x*y)

# o
x@y

14

- La suma de estos número, también conocida como **producto escalar** es 14
$$x\cdot y$$

#### Predicción del clasificador lineal

- Usando productos escalares, podemos expresar cómo los clasificadores lineales hacen predicciones.
    1. Calculamos lo que llamaremos **resultado del modelo sin procesar** que es el producto escalar de los coeficientes y las características mas una intersección.
      $$\text{Salida del modelo sin procesar} = \text{Coeficientes}\cdot \text{características} + \text{intercepto}$$
    2. Luego tomamos el signo de esta cantidad. Es decir, comprobamos si es positivo o negativo.
- Fundamentalmente, ***este patrón es el mismo tanto para la regresión logística como para las SVM lineales.***
- En `scikit-learn` la regresión logística y las SVM tiene diferentes funciones de ajuste pero la misma función de predicción.
- Las diferencias en el "ajuste" se relacionan con la funciones de pérdida.

Veamos la ecuación:
  $$\text{Salida del modelo sin procesar} = \text{Coeficientes}\cdot \text{características} + \text{intercepto}$$
en acción con el conjunto de datos de clasificación de cáncer de mama.

In [40]:
# Cargar el cojunto de datos
X, y = load_breast_cancer(return_X_y = True)

# Crear un objeto de regresión logística
lr = LogisticRegression(max_iter = 3361)

# Ajustar a los datos
lr.fit(X, y)

# Predecir en lo ejemplos 10 y 20
print(lr.predict(X)[20])
print(lr.predict(X)[10])

1
0


- Analicemos a profundidad. Podemos obtener los coeficientes aprendidos e interceptarlos con `lr.coef_` y `lr[10]`.
    - Calculemos la salida del modelo sin procesar para el ejemplo 10

In [41]:
# Salida del modelo 10 sin procesar
lr.coef_ @ X[10] + lr.intercept_

array([-6.06636689])

- Dado que es negativo, predecimos la clases negativa, llamada "0" en este conjunto de datos.

-  Para el ejemplo 20 la salida del modelo sin procesar es

In [42]:
# Salida del modelo para 20 sin procesar
lr.coef_ @ X[20] + lr.intercept_

array([5.24316423])

- Dado que es positivo, predecimos la otra clase, llamada "1" en este conjunto de datos.
- En general, esto es lo que hace la función de predicción para cualquier X, calcula la salida del modelo sin procesar, verifica si es posiivo o negatico y luego regresa un resultado basado en los nombres de las clases en su conjunto de datos, en este caso 0 y 1.
- En resumen, el signo, positivo o negativo, te dice de qué lado del límite de decisión esta "y".
- Además, los valores de los coeficientes y la intersección determinan el límite. Para cambiar la orientación del límite, podemos cambiar los coeficientes.

#### Cambio de los coeficientes del modelo

Cuando se llama a ajustar con scikit-learn, los coeficientes de regresión logística se aprenden automáticamente de su conjunto de datos. Exploraremos cómo el límite de decisión está representado por los coeficientes. Para ello, cambiará los coeficientes manualmente (en lugar de con fit), y visualizará los clasificadores resultantes.

Crearemos un conjunto de datos 2D como X e y, junto con un modelo de objeto clasificador lineal.

In [4]:
X = np.array([[ 1.78862847,  0.43650985],
       [ 0.09649747, -1.8634927 ],
       [-0.2773882 , -0.35475898],
       [-3.08274148,  2.37299932],
       [-3.04381817,  2.52278197],
       [-1.31386475,  0.88462238],
       [-2.11868196,  4.70957306],
       [-2.94996636,  2.59532259],
       [-3.54535995,  1.45352268],
       [ 0.98236743, -1.10106763],
       [-1.18504653, -0.2056499 ],
       [-1.51385164,  3.23671627],
       [-4.02378514,  2.2870068 ],
       [ 0.62524497, -0.16051336],
       [-3.76883635,  2.76996928],
       [ 0.74505627,  1.97611078],
       [-1.24412333, -0.62641691],
       [-0.80376609, -2.41908317],
       [-0.92379202, -1.02387576],
       [ 1.12397796, -0.13191423]])
y = np.array([-1, -1, -1,  1,  1, -1,  1,  1,  1, -1, -1,  1,  1, -1,  1, -1, -1,
       -1, -1, -1])

# Cargar el cojunto de datos
X, y = load_breast_cancer(return_X_y = True)

# Crear un objeto de regresión logística
lr = LogisticRegression(max_iter = 3361)

# Ajustar a los datos
lr.fit(X, y)

# Establecer los coeficientes
lr.coef_ = np.array([np.ones(30)])
lr.intercept_ = np.array([-3])

# Graficar los datos y la frontera de decisión
# plot_classifier(X,y,lr)

# Imprimir el número de errores
num_err = np.sum(y != lr.predict(X))
print("Número de errores:", num_err)

Número de errores: 212


### ¿Qué es la función de pérdida?

- Muchos algoritmos de aprendije automático implican minimizar una pérdida. Por ejemplo, la reresión lineal de mínimos cuadrados.
- ***Puede pensar en minimizar la pérdida como mover los coeficientes o parámetros del modelo hasta que este término de error, o función de pérdida, sea lo más pequeño posible.***
- En otras palabras, la función de pérdida es una puntuación de penalización que nos dice cómo bien (o que tan mal) está funcionando el modelo con los datos de entrenamiento.
- Podemos pensar en la función de "ajuste" como código en ejecución que minimiza la pérdida.
- Tenga en cuenta que `.score()` de scikit-learn no es necesariamente la misma que la función de pérdida.
- La pérdida se usa para ajustar el modelo a los datos y la puntuación `score()` se usa para ver que tan bien lo estamos haciendo.
- El error cuatrático de `LinearRegression()` no es apropiado para problemas de clasificación, ya que nuestros valores de $y$ son categorías, no número.
- Para ***la clasificación, una cantidad natural en la que pensar es la cantidad de errores que hemos cometido.*** Dado que nos gustaría que esto fuera lo más pequeño posible, la cantidad de errores podría ser una buena función de pérdida.
- Nos referimos a esta función como la pérdida 0-1, porque está definida para 0 (prediccion correcta) o 1 (predicción incorrecta).
- Al sumar esta función sobre todos los ejemplos de entrrenamiento, obtenemos el número de errores que hemos cometido en el conjunto de entrenamient, ya que sumamos 1 al total por cada error. Pero resulta ser muy difícil para minimizar directamente en la práctica. Razón por la cual la regresión logística y SVM no la usan.
- Para minimizar todo tipo de funciones utilizaremos `from scipy.optimize import minimize`.

In [7]:
# Minimizar x^2
minimize(np.square, 0).x

array([0.])

- Intentemos otra suposición inicial para ver si realmente está haciendo algo.

In [8]:
# Minimizar x^2
minimize(np.square, 2).x

array([-1.88846401e-08])

- En el contexto de la regresión nos preguntaremos 
**¿Qué valores de los coeficientes del modelo hacen que mi error cuadrático sea lo más pequeño posible?**

### Diagramas de función de pérdida

- Supongamos que queremos dibujar funciones de pérdida, así que configuremos un gráfico con pérdida en el eje vertical.
- En el eje horizontal trazaremos la salida del modelo sin procesar.
    - La mitad izquierda predecimos una clase (-1) y en la mitad derecha predecimos la otra clase (+1).
    - Osea, la mitad izquierda representa predicciónes correctas y la mitad izquierda representa predicciones incorrectas.