# Redes neuronales: Clasificación

## ¿Qué vamos a hacer?
- Usar el dataset de Labeled Faces in the Wild
- Entrenar una red neuronal multicapa de clasificación
- Optimizar su regularización por validación cruzada
- Evaluar la red neuronal sobre el subset de test

Vamos a entrenar otra red neuronal (RNN), en este caso de clasificación. Para ello entrenaremos una RNN profunda o multicapa para clasificación multiclase, con la función de activación sigmoide.

El dataset de regresión sobre el que entrenaremos el modelo será un dataset real: el dataset de caras de famosos Labeled Faces in the Wild, incluido en Scikit-learn, en su versión para el problema de reconocer caras.

Referencias:
- [The Labeled Faces in the Wild face recognition dataset](https://scikit-learn.org/stable/datasets/index.html#labeled-faces-in-the-wild-dataset)
- [sklearn.datasets.fetch_lfw_people](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_lfw_people.html)
- [Neuronal network models: Classification](https://scikit-learn.org/stable/modules/neural_networks_supervised.html#classification)
- [sklearn.neural_network.MLPClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html)

In [None]:
# TODO: Importa todos los módulos necesarios en esta celda

## Descargar el dataset y analizarlo

Descarga el dataset de California Housing en formato *(dataset.data, dataset.target)* y analízalo para hacerte una idea de sus características, dimensionalidad, etc..

P. ej., *¿necesita ser normalizado? ¿Están ordenados aleatoriamente los ejemplos?*

In [None]:
# TODO: Descarga el dataset y analiza algunos de sus ejemplos

## Preprocesar los datos

De nuevo, vamos a preprocesar los datos siguiendo nuestros pasos habituales, siempre que sea necesario:
- Reordena los datos aleatoriamente.
- Normalízalos.
- Divídelos en subset de entrenamiento y test (usaremos validación cruzada por K-fold).

In [None]:
# TODO: Reordena los datos aleatoriamente

In [None]:
# TODO: Normaliza los datos

In [None]:
# TODO: Divídelos en subset de entrenamiento y test

## Entrena una RNN multicapa inicial

De nuevo, para comprobar nuestra implementación y que un modelo de regresión lineal por RNN multicapa podría resolver este dataset, vamos a entrenar una RNN inicial, sin regularización.

Entrénalo sobre el subset de entrenamiento y evalúalo con su método *score()* sobre el subset de test:

In [None]:
# TODO: Entrena una RNN multicapa sin regularización
# Como topología, usa 2 capas intermedias de 25 nodos cada una
hidden_layer_sizes = (25, 25)

# Usa la función de activación logística sigmoide para entrenar la RNN
activation = 'logistic'

## Optimiza la RNN por validación cruzada

Vamos a optimizar los diferentes hiper-parámetros de la RNN para nuestro modelo por CV, usando K-fold.

Vamos a usar [sklearn.model_selection.GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) puesto que tenemos que optimizar 2 valores a la vez:
- *hidden_layer_sizes*: el nº de capas ocultas y nº de neuronas por capa, en el rango [1, 4] capas ocultas y [10, 50] neuronas por capa.
- *alpha*: parámetro de regularización L2, en el rango [10^0, 10^7].

Según los recursos de tu entorno de trabajo y el tiempo que le lleve entrenar los modelos, puedes evaluar cuantos valores consideres convenientes en dichos rangos:

In [None]:
# TODO: Entrena una RNN multicapa optimizando sus hiper-parámetros hidden_layer_sizes y alpha por CV

In [None]:
# TODO: Escoge el modelo más óptimo entre los entrenados

## Evalúa la RNN sobre el subset de test

Finalmente, evalúa la RNN sobre el subset de test usando su método *score()*, la precisión media de las clasificaciones:

In [None]:
# TODO: Evalúa la RNN sobre el subset de test

Representa algunas de las caras predichas.

Para ello, puedes seguir este ejemplo: [Faces recognition example using eigenfaces and SVMs](https://scikit-learn.org/stable/auto_examples/applications/plot_face_recognition.html) (no te preocupes por las *eigenfaces* ni los *eigenvalues*, no hemos explicado aún este concepto en el curso).

*Bonus*: Compara la precisión de tu RNN con la del modelo de SVM de clasificación que usaste sobre este mismo dataset, *¿qué modelo ha conseguido mayor precisión final?*