# Modelos lineales (ejercicio)

**Importante: comentar adecuadamente cada paso realizado**, relacionándolo con lo visto en la teoría.

## Parte 1: aplicación de modelos lineales a análisis de sentimientos

Se pide aplicar algunos de los clasificadores lineales vistos al problema de decidir si una crítica de cine es positiva o negativa. Para ello volvemos a usar los datos de IMDB (Internet Movie Database) que vimos en el módulo 2 (modelo probabilístico).

Los datos están disponibles en http://ai.stanford.edu/~amaas/data/sentiment/

Vectorizar los textos exactamente como se hizo en la sesión de trabajo del módulo 2, **con *stop_words* y *min_df=100***. 

Una vez los datos (entrenamiento y prueba) estén vectorizados, aplicar los siguientes clasificadores de scikit learn y medir el rendimiento obtenido:

* `LogisticRegression`
* `LinearSVC`

Probar en cada caso con distintos valores del parámetro `C` de regularización, para obtener el mejor rendimiento sobre el conjunto de test. Explicar claramente el efecto que tiene variar ese parámetro en un sentido o en otro. 

## Parte 2: modelos lineales para reconocimiento de dígitos escritos a mano


La función `load_digits` nos permite cargar una versión reducida de un conjunto de imágenes de dígitos escritos a mano (ver detalles en el manual):

In [None]:
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits

In [None]:
digits = load_digits()

Podemos incluso visualizar los dígitos. Por ejemplo, este es el primero de ellos (un cero):

In [None]:
plt.gray()
plt.matshow(digits.images[0]) 
plt.show() 
print(digits.target[0])

### 2.1 Clasificación de dígitos escritos a mano con regresión logística (multiclase)

Se pide aplicar regresión logística para obtener un clasificador para este problema multiclase. Probar con varios valores del parámetro `C` para obtener el mejor rendimiento sobre un conjunto de prueba. 

Algunas observaciones:

* Originalmente, en `digits.images` tenemos un array con 1797 arrays 8x8 (es decir, cada imagen viene en 64 pixeles distribuidos en 8 filas y 8 clolumnas). Para poder aplicar los clasificadores, cada imagen debe ser un vector de 64 componentes. Esto se consigue de manera sencilla con el método `reshape`de numpy. 
* Es necesario separar el conjunto de imágenes en entrenamiento y prueba. No olvidar hacerlo de manera estratificada (usando la opción `stratify`de `train_test_split`)
* Medir el rendimiento usando `score`. 

### 2.2 Clasificación binaria usando regresión logística

Una vez encontrado un buen clasificador para el problema multiclase, mostrar la matriz de confusión finalmente obtenida sobre el conjunto de prueba. También mostrar las imágenes de un par de dígitos respectivamente hayan sido bien y mal clasificados.  Usando `predict_proba` mostrar las predicciones que realiza el modelo sobre esos dos dígitos, y comentar los resultados. 

Deducir de la matriz de confusión un par de dígitos que en general cueste más trabajo distinguir entre sí, y extraer de los datos sólo las imágenes correspondientes a esos dos dígitos. Por ejemplo: si se observa que entre el 8 y el 9 hay más errores de predicción, habría que extraer todas las imágenes de ochos y nueves y crear un conjunto de datos con ellas.  

Crear a partir de esos datos extraidos,  conjuntos de entrenamiento y prueba para aprender con regresión logística un clasificador que sea "especialista" es distinguir un dígito del otro. Como antes, probar con varios valores del parámetro para intentar obtener un buen rendimiento sobre el conjunto de prueba.

**Nota**: para extraer los datos correspondiente a un dígito, aplicar selección condicional de numpy. Por ejemplo, con `digits.target==8` obtenemos un array booleano en el que están a `True` solo las posiciones de los ejemplos cuyo target es 8. Si tenemos un array `a`, entonces `a[digits.target ==8]` es el array en el que se han seleccionado sólo esas posiciones.  
`  

### 2.3 Clasificación de dígitos con SVC (multiclase)

Volviendo al problema multiclase de 2.1, aplicar ahora máquinas de vectores soporte con kernel (`SVC`) para el problema de reconocer los dígitos. Probar al menos con varios valores de los parámetros `C` y `gamma`, para obtener un buen rendimiento sobre el conjunto de prueba. 