# Qué tener en cuenta al crear una red neuronal con **Keras**

Esta es una **guía práctica y didáctica** para diseñar redes neuronales con Keras, pensada para evitar errores comunes y tomar buenas decisiones desde el inicio.

---

## 1. Antes de empezar: preguntas clave.

Antes de escribir código, pregúntate:

- ¿Es **clasificación** o **regresión**?
- ¿Tengo **pocos o muchos datos**?
- ¿Cuántas **variables de entrada** tengo?
- ¿Cuántas **salidas** necesito?

El diseño de la red depende más del problema que de Keras.

---

## 2. Preparación de los datos (MUY IMPORTANTE) 

Antes de entrenar cualquier red:

- Normaliza o estandariza los datos
- Divide en:
  - Entrenamiento
  - Validación
  - Test
- Elimina valores nulos o erróneos

Ejemplo típico:
- `MinMaxScaler`
- `StandardScaler`

> Una red mal entrenada casi siempre es un problema de datos, no del modelo.

---

## 3. Número de capas ocultas 

### Reglas prácticas:

- **1 capa oculta**  
  - Problemas simples
  - Buena línea base

- **2–3 capas ocultas**  
  - La mayoría de los problemas reales
  - Punto óptimo para empezar

- **Más de 4 capas**  
  - Deep Learning
  - Solo si tienes muchos datos

Recomendación general:
> Empieza con **2 capas ocultas** y ajusta.

---

## 4. Número de neuronas por capa 

No hay una fórmula exacta, pero sí buenas prácticas:

### Reglas orientativas:
- Entre el tamaño de entrada y el de salida
- Potencias de 2: `16, 32, 64, 128`

### Estrategias comunes:
- Capas grandes al inicio y más pequeñas al final  
  Ejemplo: `64 → 32 → 16`

- Evita:
  - Demasiadas neuronas → overfitting
  - Muy pocas → underfitting

Empieza simple y aumenta solo si es necesario.

---

## 5. Funciones de activación

### Capas ocultas (elección estándar)
**ReLU**

**Por qué usar ReLU:**
- Simple y rápida
- Reduce problemas de gradiente
- Funciona bien en la mayoría de casos

Opciones alternativas:
- LeakyReLU → evita neuronas muertas
- ELU → más suave, pero más costosa

---

### Capa de salida (MUY IMPORTANTE)
La función de activación de salida depende del tipo de problema:

#### Clasificación binaria
- Activación: sigmoid
- Pérdida: binary_crossentropy

#### Clasificación multiclase
- Activación: softmax
- Pérdida: categorical_crossentropy

#### Regresión
- Activación: lineal (sin activación)
- Pérdida: mse o mae


---

## 6. Función de pérdida (loss)
La función de pérdida mide qué tan bien está aprendiendo la red.

| Tipo de problema | Función de pérdida |
|-----------------|------------------|
| Clasificación binaria | binary_crossentropy |
| Clasificación multiclase | categorical_crossentropy |
| Multiclase (labels enteros) | sparse_categorical_crossentropy |
| Regresión | mse o mae |

La función de pérdida debe coincidir con la activación de salida.

---

## 7. Optimizador
### Recomendación general
Adam

**Ventajas:**
- Rápido y estable
- Funciona bien sin ajustes finos
- Muy usado en deep learning

Opciones alternativas:
- RMSprop
- SGD (requiere ajuste del learning rate)

---

## 8. Learning rate (tasa de aprendizaje)
Controla el tamaño de los pasos durante el entrenamiento.

- Muy alto → el modelo no converge
- Muy bajo → aprendizaje muy lento

Valor estándar inicial:
- 0.001 (Adam)

---

## 9. Batch size
Número de muestras por actualización de pesos.

Valores comunes:
- 16, 32, 64

32 es un buen valor inicial.

---

## 10. Número de épocas
Número de veces que el modelo recorre todo el dataset.

- No existe un número fijo
- Se recomienda Early Stopping:


Suele empezarse con 100 épocas.

---

## 11. Overfitting y cómo evitarlo
### Síntomas
- Muy buen rendimiento en entrenamiento
- Mal rendimiento en validación

### Soluciones
- Aumentar datos
- Usar Dropout (0.2 – 0.5)
- Reducir neuronas o capas
- Early stopping


---

## 12. Arquitectura base recomendada
Ejemplo simple para clasificación binaria:


Empieza simple y ajusta según resultados.

---

## 13. Errores comunes
- No normalizar los datos
- Redes demasiado grandes
- Activación de salida incorrecta
- No usar conjunto de validación
- Cambiar muchos parámetros a la vez

---

## 14. Regla de oro
> “Menos es más al principio: empieza simple, ajusta progresivamente.”


---

---

## Tabla funciones de activación y perdida

| Tipo de problema | Función de activación de salida | Función de pérdida recomendada | Rango de salida | Explicación |
|------------------|--------------------------------|--------------------------------|-----------------|-------------|
| Clasificación binaria | **Sigmoid** | **Binary Crossentropy** | 0 a 1 | Devuelve la probabilidad de pertenecer a una de dos clases. Es la combinación más usada en deep learning. |
| Clasificación multiclase (una sola clase correcta) | **Softmax** | **Categorical Crossentropy** | 0 a 1 (suma = 1) | Produce una distribución de probabilidad sobre todas las clases posibles. |
| Clasificación multiclase (labels enteros) | **Softmax** | **Sparse Categorical Crossentropy** | 0 a 1 (suma = 1) | Igual que la anterior, pero usando etiquetas numéricas en lugar de one-hot. |
| Clasificación multietiqueta (varias clases posibles) | **Sigmoid (una por neurona)** | **Binary Crossentropy** | 0 a 1 por salida | Cada neurona aprende una probabilidad independiente para cada etiqueta. |
| Regresión (valores continuos) | **Lineal (sin activación)** | **MSE / MAE** | -∞ a +∞ | La salida no está acotada; se usa para predecir valores numéricos reales. |
| Regresión con valores positivos | **ReLU** | **MSE / MAE** | 0 a +∞ | Garantiza salidas no negativas (ej: precios, cantidades). |
| Regresión acotada | **Sigmoid / Tanh** | **MSE / MAE** | 0 a 1 / -1 a 1 | Se usa cuando la salida debe mantenerse dentro de un rango fijo. |
| Modelos modernos de deep learning | **Sigmoid / Softmax / Lineal** | Dependiente del problema | Variable | La función de pérdida debe ser coherente con el tipo de salida y la tarea. |
| Modelos educativos / históricos | **Escalón (Step)** | No entrenable | 0 o 1 | Función histórica usada para explicar perceptrones; no se utiliza en entrenamiento moderno. |
| Deep learning para clasificación | **Softmax** | **Categorical Crossentropy** | 0 a 1 | Combinación estándar para clasificación multiclase en redes profundas. |


## EJEMPLO

In [2]:
from tensorflow.keras.datasets import boston_housing
import numpy as np
import pandas as pd

(X_train, y_train), (X_test, y_test) = boston_housing.load_data()


column_names = [
    'CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM',
    'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT'
]

# Convertir a DataFrame
df_train = pd.DataFrame(X_train, columns=column_names)
df_train['PRICE'] = y_train  # Añadir la columna objetivo

df_test = pd.DataFrame(X_test, columns=column_names)
df_test['PRICE'] = y_test  # Añadir la columna objetivo

In [3]:
df_train

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,PRICE
0,1.23247,0.0,8.14,0.0,0.5380,6.142,91.7,3.9769,4.0,307.0,21.0,396.90,18.72,15.2
1,0.02177,82.5,2.03,0.0,0.4150,7.610,15.7,6.2700,2.0,348.0,14.7,395.38,3.11,42.3
2,4.89822,0.0,18.10,0.0,0.6310,4.970,100.0,1.3325,24.0,666.0,20.2,375.52,3.26,50.0
3,0.03961,0.0,5.19,0.0,0.5150,6.037,34.5,5.9853,5.0,224.0,20.2,396.90,8.01,21.1
4,3.69311,0.0,18.10,0.0,0.7130,6.376,88.4,2.5671,24.0,666.0,20.2,391.43,14.65,17.7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
399,0.21977,0.0,6.91,0.0,0.4480,5.602,62.0,6.0877,3.0,233.0,17.9,396.90,16.20,19.4
400,0.16211,20.0,6.96,0.0,0.4640,6.240,16.3,4.4290,3.0,223.0,18.6,396.90,6.59,25.2
401,0.03466,35.0,6.06,0.0,0.4379,6.031,23.3,6.6407,1.0,304.0,16.9,362.25,7.83,19.4
402,2.14918,0.0,19.58,0.0,0.8710,5.709,98.5,1.6232,5.0,403.0,14.7,261.95,15.79,19.4


In [4]:
df_train.describe()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,PRICE
count,404.0,404.0,404.0,404.0,404.0,404.0,404.0,404.0,404.0,404.0,404.0,404.0,404.0,404.0
mean,3.745111,11.480198,11.104431,0.061881,0.557356,6.267082,69.010644,3.740271,9.440594,405.898515,18.47599,354.783168,12.740817,22.39505
std,9.240734,23.767711,6.811308,0.241238,0.117293,0.709788,27.940665,2.030215,8.69836,166.374543,2.200382,94.111148,7.254545,9.210442
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,188.0,12.6,0.32,1.73,5.0
25%,0.081437,0.0,5.13,0.0,0.453,5.87475,45.475,2.0771,4.0,279.0,17.225,374.6725,6.89,16.675
50%,0.26888,0.0,9.69,0.0,0.538,6.1985,78.5,3.1423,5.0,330.0,19.1,391.25,11.395,20.75
75%,3.674808,12.5,18.1,0.0,0.631,6.609,94.1,5.118,24.0,666.0,20.2,396.1575,17.0925,24.8
max,88.9762,100.0,27.74,1.0,0.871,8.725,100.0,10.7103,24.0,711.0,22.0,396.9,37.97,50.0


In [5]:
y_train

array([15.2, 42.3, 50. , 21.1, 17.7, 18.5, 11.3, 15.6, 15.6, 14.4, 12.1,
       17.9, 23.1, 19.9, 15.7,  8.8, 50. , 22.5, 24.1, 27.5, 10.9, 30.8,
       32.9, 24. , 18.5, 13.3, 22.9, 34.7, 16.6, 17.5, 22.3, 16.1, 14.9,
       23.1, 34.9, 25. , 13.9, 13.1, 20.4, 20. , 15.2, 24.7, 22.2, 16.7,
       12.7, 15.6, 18.4, 21. , 30.1, 15.1, 18.7,  9.6, 31.5, 24.8, 19.1,
       22. , 14.5, 11. , 32. , 29.4, 20.3, 24.4, 14.6, 19.5, 14.1, 14.3,
       15.6, 10.5,  6.3, 19.3, 19.3, 13.4, 36.4, 17.8, 13.5, 16.5,  8.3,
       14.3, 16. , 13.4, 28.6, 43.5, 20.2, 22. , 23. , 20.7, 12.5, 48.5,
       14.6, 13.4, 23.7, 50. , 21.7, 39.8, 38.7, 22.2, 34.9, 22.5, 31.1,
       28.7, 46. , 41.7, 21. , 26.6, 15. , 24.4, 13.3, 21.2, 11.7, 21.7,
       19.4, 50. , 22.8, 19.7, 24.7, 36.2, 14.2, 18.9, 18.3, 20.6, 24.6,
       18.2,  8.7, 44. , 10.4, 13.2, 21.2, 37. , 30.7, 22.9, 20. , 19.3,
       31.7, 32. , 23.1, 18.8, 10.9, 50. , 19.6,  5. , 14.4, 19.8, 13.8,
       19.6, 23.9, 24.5, 25. , 19.9, 17.2, 24.6, 13

In [6]:
X_train.shape[1]

13

In [7]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow import keras

capas = [
    keras.layers.Flatten(input_dim = X_train.shape[1]),
    keras.layers.Dense(units = 300, activation='relu'),
    keras.layers.Dense(units = 100, activation='relu'),
    keras.layers.Dense(units = 1, activation='linear')
]

model = keras.models.Sequential(capas)

  super().__init__(**kwargs)


### Compilamos el modelo

In [8]:
from tensorflow.keras.optimizers import Adam

model.compile(optimizer=Adam(learning_rate=0.01),
              loss='mse',
              metrics=['mae'])


### Entrenamos el modelo

In [9]:
model.fit(X_train, y_train, epochs=100, batch_size=32, verbose=1, validation_split=0.2)

Epoch 1/100
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 13ms/step - loss: 23975.5449 - mae: 94.2836 - val_loss: 912.0790 - val_mae: 26.8047
Epoch 2/100
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 6ms/step - loss: 559.8275 - mae: 18.9407 - val_loss: 167.2194 - val_mae: 9.7715
Epoch 3/100
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 7ms/step - loss: 122.4217 - mae: 8.0106 - val_loss: 101.3077 - val_mae: 7.9423
Epoch 4/100
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 6ms/step - loss: 86.3587 - mae: 7.0566 - val_loss: 88.5008 - val_mae: 6.6437
Epoch 5/100
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step - loss: 78.3223 - mae: 5.9865 - val_loss: 77.0679 - val_mae: 6.1676
Epoch 6/100
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 6ms/step - loss: 67.1196 - mae: 5.8402 - val_loss: 72.9591 - val_mae: 5.9010
Epoch 7/100
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0

<keras.src.callbacks.history.History at 0x1bcb9003c10>

In [10]:
loss, mae = model.evaluate(X_test, y_test)
print(f"Loss (MSE): {loss:.4f}, MAE: {mae:.4f}")

[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 8ms/step - loss: 30.4356 - mae: 4.0440 
Loss (MSE): 34.0826, MAE: 4.3653


In [11]:
model.summary()