# Deep Learning en Scikit Learn

Scikit Learn se especializa más en el proceso de ciencia de datos y machine learning, incorpora clases para aprendizaje profundo (deep learning) pero no es una librería especializada en aprendizaje profundo o deep learning.

* Perceptron: modelo más básico de una neurona artificial. Utilizado para clasificación binaria.
* MLPClassifier: Red neuronal para clasificación.
* MLPRegressor: Red neuronal para regresión.

## Perceptron

El **Perceptrón** es el modelo más básico de neurona artificial, introducido por Frank Rosenblatt en 1958.

Se limita a tomar una combinación lineal de entradas, aplicarle un umbral (threshold) y devolver una salida binaria. **No admite funciones de activación no lineales**, lo que limita su capacidad de resolver problemas complejos.

- **Estructura**: Consta de una sola neurona (una única capa de pesos) que recibe entradas $x_1, x_2, \ldots, x_n$ y produce una salida binaria (generalmente $\{0,1\}$ o $\{-1,1\}$) usando una función de activación tipo umbral (step function).  

- **Aprendizaje**: El aprendizaje del perceptrón consiste en ajustar los pesos de la neurona para separar correctamente los datos en dos clases (linealmente separables).  

- **Limitaciones**: El perceptrón estándar solo puede aprender fronteras lineales. Si el conjunto de datos no es linealmente separable, el algoritmo no convergerá usando la regla de actualización clásica.  

Básicamente es una función matemática que recibe una entrada y da una salida.

La entrada son las features (X) a las cuales se puede asignar un peso (weight).

Fórmula del perceptrón:

1. **Entradas y pesos:**  

Se parte de un conjunto de características o entradas representadas por un vector "X"  
$$
\mathbf{x} = (x_1, x_2, \dots, x_n)
$$  
y cada entrada tiene un peso asociado, conformando el vector de pesos  
$$
\mathbf{w} = (w_1, w_2, \dots, w_n).
$$

2. **Cálculo de la suma ponderada:**  
Se multiplica cada entrada por su peso y se suman todos los resultados:
$$
S = w_1x_1 + w_2x_2 + \dots + w_nx_n = \sum_{i=1}^{n} w_i x_i.
$$

3. **Incorporar el sesgo (bias):**  
Al resultado anterior se le añade un valor adicional llamado sesgo $ b $, que permite ajustar el umbral de activación:
$$
z = \sum_{i=1}^{n} w_i x_i + b.
$$

4. **Aplicar la función de activación:**  
Finalmente, se pasa el valor $ z $ a través de una función de activación $ f(z) $ para determinar la salida del perceptrón.  

En un perceptrón clásico se utiliza la función escalón:

$$
f(z) =
\begin{cases}
1 & \text{si } z \ge 0, \\
0 & \text{si } z < 0.
\end{cases}
$$
Por lo tanto, la salida final es:
$$
y = f(z).
$$

Parámetros en scikit:

* ``max_iter``: Es el número máximo de epochs o iteraciones sobre el conjunto de datos que el algoritmo realizará durante el entrenamiento.
* ``tol``: Es la tolerancia o umbral mínimo de cambio en el error (o en la función de costo) entre iteraciones para considerar que el algoritmo ha convergido.
* ``penalty`` y ``alpha``:
    * ``penalty``: Define el tipo de regularización a aplicar (por ejemplo, 'l2', 'l1', o 'elasticnet').
    * ``alpha``: Es el coeficiente que multiplica el término de regularización, controlando su fuerza.
    * Estas opciones ayudan a controlar la complejidad del modelo, evitando que se ajuste demasiado a los datos de entrenamiento (overfitting).
* ``eta0`` y ``learning_rate``:
    * ``eta0``: Es la tasa de aprendizaje inicial, que determina el tamaño de los pasos con los que se actualizan los pesos durante cada iteración.
    * ``learning_rate``: Define la estrategia para ajustar la tasa de aprendizaje a lo largo del entrenamiento (por ejemplo, "constant", "optimal", "invscaling").
    * Una tasa de aprendizaje demasiado alta puede hacer que el algoritmo oscile o incluso diverja, saltándose la solución óptima.
    * Una tasa muy baja puede ralentizar el proceso de convergencia, haciendo que el entrenamiento sea ineficiente.

In [3]:
from sklearn.linear_model import Perceptron
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

X, y = load_iris(return_X_y=True)
# para que sea clasificación multiclase filtramos solo clases 0 y 1
X, y = X[y < 2], y[y < 2]

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

In [9]:
model = Perceptron(max_iter=50, random_state=42) # por defecto 1000 epochs
model.fit(X_train, y_train)

print('accuracy en train', model.score(X_train, y_train))
print('accuracy en test', model.score(X_test, y_test))

accuracy en train 1.0
accuracy en test 1.0


## Red neuronal clasificación: MLPClassifier

Los **MLP (Multi-Layer Perceptrons)** son redes neuronales feedforward con una o varias capas ocultas, que suelen utilizar activaciones no lineales (ReLU, tanh, logistic, etc.). 

- **Arquitectura**: Múltiples capas densas (fully-connected). 
- **Aprendizaje**: 
  - Se optimiza una función de coste adecuada para clasificación (generalmente entropía cruzada).
  - Incluye diferentes funciones de activación (relu, logistic, tanh, identity).
  - Diversos *solvers* para realizar la optimización (adam, sgd, lbfgs, etc.).  

El objetivo es realizar predicciones de clase o probabilidades de clase cuando se usan funciones como la softmax en la última capa.

- `hidden_layer_sizes`: tupla que indica el número de neuronas en cada capa oculta. Por ejemplo, `(100,)` sería una sola capa con 100 neuronas; `(100, 50)` serían dos capas ocultas, la primera de 100 neuronas y la segunda de 50.
- `activation`: función de activación de las capas ocultas (por defecto `'relu'`, pero también `'logistic'`, `'tanh'`, `'identity'`).
- `solver`: optimizador que se usará, puede ser `'adam'`, `'sgd'` o `'lbfgs'`.
- `alpha`: parámetro de regularización L2.
- `batch_size`: tamaño del minibatch (si se usa `'sgd'` o `'adam'`).
- `learning_rate`: puede ser `'constant'`, `'invscaling'` o `'adaptive'`.  
- `max_iter`: número máximo de iteraciones (épocas).
- `shuffle`: si se barajan los datos en cada iteración.
- `early_stopping`: si se activa, separa automáticamente un 10% de los datos de entrenamiento para validación y detiene el entrenamiento cuando no mejora.
- `random_state`: semilla para reproducibilidad.
- `tol`: tolerancia para la parada anticipada.  

In [29]:
from sklearn.neural_network import MLPClassifier
# clasificación binaria:

X, y = load_iris(return_X_y=True)
X, y = X[y < 2], y[y < 2]

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

model = MLPClassifier(hidden_layer_sizes=(2), max_iter=2000, random_state=42)
model.fit(X_train, y_train)

print('accuracy en train', model.score(X_train, y_train))
print('accuracy en test', model.score(X_test, y_test))

accuracy en train 1.0
accuracy en test 1.0


In [None]:
# clasificación multiclase:
X, y = load_iris(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

model = MLPClassifier(hidden_layer_sizes=(50), max_iter=1000, random_state=42)
model.fit(X_train, y_train)

print('accuracy en train', model.score(X_train, y_train))
print('accuracy en test', model.score(X_test, y_test))

accuracy en train 0.9732142857142857
accuracy en test 1.0
