## Redes neuronales

Las redes neuronales se pueden entender como un modelo en 2 pasos:

   * Creamos combinaciones no lineales de las variables de entrada
   
   
   * Ajustamos una regresión lineal (regresión) o regresión logística (clasificación) usando las nuevas variables

[<img src=https://upload.wikimedia.org/wikipedia/commons/thumb/4/46/Colored_neural_network.svg/560px-Colored_neural_network.svg.png width=300>](https://en.wikipedia.org/wiki/Artificial_neural_network)

Comparadas con otros modelos:

  * Automatizan el proceso de generar nuevas variables (*feature engineering*), que suele ser crítico para obtener buen rendimiento
  
  
  * Simplifica la resolución de nuevos problemas, ya que no es necesario conocimiento específico
  
  
  * La creación de esta nueva representación forma parte del aprendizaje $\Longrightarrow$ específicas para la tarea a resolver
  
<img src=../../img/nn_vs_rest_ex.png width=800>

[Guía de usuario](https://scikit-learn.org/stable/modules/neural_networks_supervised.html)

### Parámetros

  * `alpha`, regularización $l_2$
  
  
  * `batch_size`, tamaño del *mini-batch*
  
  
  * `learning_rate`, estrategia para actualizar la tasa de aprendizaje
  
  
  * `learning_rate_init`, valor inicial de la tasa de aprendizaje
  
  
  * `early_stopping`, reservar un porcentaje del conjunto de entrenamiento para parar cuando el error en ese conjunto no mejora
  
  
  * `hidden_layer_sizes`, arquitectura de la red (número de capas ocultas y número de neuronas en cada capa)
  
  
  * `activation`, función de activación (`relu`, `tanh` o `logistic`)

In [1]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier

X, y = load_digits(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

mlp = MLPClassifier(hidden_layer_sizes=(50,), alpha=1e-4,
                    solver='sgd', verbose=10, random_state=0,
                    learning_rate_init=.1)

mlp.fit(X_train, y_train)

Iteration 1, loss = 15.28238769
Iteration 2, loss = 2.34694639
Iteration 3, loss = 2.23167333
Iteration 4, loss = 2.16162691
Iteration 5, loss = 2.10453294
Iteration 6, loss = 2.07952288
Iteration 7, loss = 2.06542957
Iteration 8, loss = 2.04938601
Iteration 9, loss = 2.05896466
Iteration 10, loss = 2.08961723
Iteration 11, loss = 2.06511940
Iteration 12, loss = 2.05853446
Iteration 13, loss = 2.05627295
Iteration 14, loss = 2.04366026
Iteration 15, loss = 2.04085845
Iteration 16, loss = 2.03395207
Iteration 17, loss = 2.03972563
Iteration 18, loss = 2.04973060
Iteration 19, loss = 2.03927495
Iteration 20, loss = 2.03289361
Iteration 21, loss = 2.03124502
Iteration 22, loss = 2.02189443
Iteration 23, loss = 1.99288669
Iteration 24, loss = 1.99002742
Iteration 25, loss = 2.29124781
Iteration 26, loss = 2.09662035
Iteration 27, loss = 2.34340163
Iteration 28, loss = 2.46969258
Iteration 29, loss = 2.43005033
Iteration 30, loss = 2.38740980
Iteration 31, loss = 2.35286730
Iteration 32, lo

MLPClassifier(hidden_layer_sizes=(50,), learning_rate_init=0.1, random_state=0,
              solver='sgd', verbose=10)

In [2]:
mlp.score(X_test, y_test)

0.11555555555555555

### Ejercicios

* Con el conjunto de datos `digits` entrenar un clasificador como el del ejemplo y calcular la matriz de confusión. ¿Cuales son los dígitos más fáciles de predecir? ¿Cuales los más difíciles?

* Usar `RandomSearchCV` para probar distintas combinaciones de parámetros. ¿Cuál es la mejor?