# Qué tener en cuenta al crear una red neuronal con **Keras**

Esta es una **guía práctica y didáctica** para diseñar redes neuronales con Keras, pensada para evitar errores comunes y tomar buenas decisiones desde el inicio.

---

## 1. Antes de empezar: preguntas clave.

Antes de escribir código, pregúntate:

- ¿Es **clasificación** o **regresión**?
- ¿Tengo **pocos o muchos datos**?
- ¿Cuántas **variables de entrada** tengo?
- ¿Cuántas **salidas** necesito?

El diseño de la red depende más del problema que de Keras.

---

## 2. Preparación de los datos (MUY IMPORTANTE) 

Antes de entrenar cualquier red:

- Normaliza o estandariza los datos
- Divide en:
  - Entrenamiento
  - Validación
  - Test
- Elimina valores nulos o erróneos

Ejemplo típico:
- `MinMaxScaler`
- `StandardScaler`

> Una red mal entrenada casi siempre es un problema de datos, no del modelo.

---

## 3. Número de capas ocultas 

### Reglas prácticas:

- **1 capa oculta**  
  - Problemas simples
  - Buena línea base

- **2–3 capas ocultas**  
  - La mayoría de los problemas reales
  - Punto óptimo para empezar

- **Más de 4 capas**  
  - Deep Learning
  - Solo si tienes muchos datos

Recomendación general:
> Empieza con **2 capas ocultas** y ajusta.

---

## 4. Número de neuronas por capa 

No hay una fórmula exacta, pero sí buenas prácticas:

### Reglas orientativas:
- Entre el tamaño de entrada y el de salida
- Potencias de 2: `16, 32, 64, 128`

### Estrategias comunes:
- Capas grandes al inicio y más pequeñas al final  
  Ejemplo: `64 → 32 → 16`

- Evita:
  - Demasiadas neuronas → overfitting
  - Muy pocas → underfitting

Empieza simple y aumenta solo si es necesario.

---

## 5. Funciones de activación

### Capas ocultas (elección estándar)
**ReLU**

**Por qué usar ReLU:**
- Simple y rápida
- Reduce problemas de gradiente
- Funciona bien en la mayoría de casos

Opciones alternativas:
- LeakyReLU → evita neuronas muertas
- ELU → más suave, pero más costosa

---

### Capa de salida (MUY IMPORTANTE)
La función de activación de salida depende del tipo de problema:

#### Clasificación binaria
- Activación: sigmoid
- Pérdida: binary_crossentropy

#### Clasificación multiclase
- Activación: softmax
- Pérdida: categorical_crossentropy

#### Regresión
- Activación: lineal (sin activación)
- Pérdida: mse o mae


---

## 6. Función de pérdida (loss)
La función de pérdida mide qué tan bien está aprendiendo la red.

| Tipo de problema | Función de pérdida |
|-----------------|------------------|
| Clasificación binaria | binary_crossentropy |
| Clasificación multiclase | categorical_crossentropy |
| Multiclase (labels enteros) | sparse_categorical_crossentropy |
| Regresión | mse o mae |

La función de pérdida debe coincidir con la activación de salida.

---

## 7. Optimizador
### Recomendación general
Adam

**Ventajas:**
- Rápido y estable
- Funciona bien sin ajustes finos
- Muy usado en deep learning

Opciones alternativas:
- RMSprop
- SGD (requiere ajuste del learning rate)

---

## 8. Learning rate (tasa de aprendizaje)
Controla el tamaño de los pasos durante el entrenamiento.

- Muy alto → el modelo no converge
- Muy bajo → aprendizaje muy lento

Valor estándar inicial:
- 0.001 (Adam)

---

## 9. Batch size
Número de muestras por actualización de pesos.

Valores comunes:
- 16, 32, 64

32 es un buen valor inicial.

---

## 10. Número de épocas
Número de veces que el modelo recorre todo el dataset.

- No existe un número fijo
- Se recomienda Early Stopping:


Suele empezarse con 100 épocas.

---

## 11. Overfitting y cómo evitarlo
### Síntomas
- Muy buen rendimiento en entrenamiento
- Mal rendimiento en validación

### Soluciones
- Aumentar datos
- Usar Dropout (0.2 – 0.5)
- Reducir neuronas o capas
- Early stopping


---

## 12. Arquitectura base recomendada
Ejemplo simple para clasificación binaria:


Empieza simple y ajusta según resultados.

---

## 13. Errores comunes
- No normalizar los datos
- Redes demasiado grandes
- Activación de salida incorrecta
- No usar conjunto de validación
- Cambiar muchos parámetros a la vez

---

## 14. Regla de oro
> “Menos es más al principio: empieza simple, ajusta progresivamente.”


---

## EJEMPLO

In [10]:
from tensorflow.keras.datasets import boston_housing
import numpy as np
import pandas as pd

(X_train, y_train), (X_test, y_test) = boston_housing.load_data()


column_names = [
    'CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM',
    'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT'
]

# Convertir a DataFrame
df_train = pd.DataFrame(X_train, columns=column_names)
df_train['PRICE'] = y_train  # Añadir la columna objetivo

df_test = pd.DataFrame(X_test, columns=column_names)
df_test['PRICE'] = y_test  # Añadir la columna objetivo

In [11]:
df_train

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,PRICE
0,1.23247,0.0,8.14,0.0,0.5380,6.142,91.7,3.9769,4.0,307.0,21.0,396.90,18.72,15.2
1,0.02177,82.5,2.03,0.0,0.4150,7.610,15.7,6.2700,2.0,348.0,14.7,395.38,3.11,42.3
2,4.89822,0.0,18.10,0.0,0.6310,4.970,100.0,1.3325,24.0,666.0,20.2,375.52,3.26,50.0
3,0.03961,0.0,5.19,0.0,0.5150,6.037,34.5,5.9853,5.0,224.0,20.2,396.90,8.01,21.1
4,3.69311,0.0,18.10,0.0,0.7130,6.376,88.4,2.5671,24.0,666.0,20.2,391.43,14.65,17.7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
399,0.21977,0.0,6.91,0.0,0.4480,5.602,62.0,6.0877,3.0,233.0,17.9,396.90,16.20,19.4
400,0.16211,20.0,6.96,0.0,0.4640,6.240,16.3,4.4290,3.0,223.0,18.6,396.90,6.59,25.2
401,0.03466,35.0,6.06,0.0,0.4379,6.031,23.3,6.6407,1.0,304.0,16.9,362.25,7.83,19.4
402,2.14918,0.0,19.58,0.0,0.8710,5.709,98.5,1.6232,5.0,403.0,14.7,261.95,15.79,19.4


### Creamos una red con solo una neurona.

In [13]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense


model = Sequential([
    Dense(1, input_dim=X_train.shape[1], activation='linear')
])


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


### Compilamos el modelo

In [14]:
from tensorflow.keras.optimizers import Adam

model.compile(optimizer=Adam(learning_rate=0.01),
              loss='mse',
              metrics=['mae'])


### Entrenamos el modelo

In [15]:
model.fit(X_train, y_train, epochs=100, batch_size=32, verbose=1, validation_split=0.2)

Epoch 1/100
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 18ms/step - loss: 43579.3164 - mae: 203.5295 - val_loss: 20347.0117 - val_mae: 139.3061
Epoch 2/100
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 8ms/step - loss: 14118.6943 - mae: 112.6728 - val_loss: 4697.1753 - val_mae: 64.0445
Epoch 3/100
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 8ms/step - loss: 3100.8567 - mae: 49.3966 - val_loss: 1807.7805 - val_mae: 35.5768
Epoch 4/100
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 8ms/step - loss: 2046.2849 - mae: 35.1619 - val_loss: 1708.8357 - val_mae: 31.4320
Epoch 5/100
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 9ms/step - loss: 2089.3022 - mae: 33.7440 - val_loss: 1330.1239 - val_mae: 29.9798
Epoch 6/100
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 8ms/step - loss: 1549.2736 - mae: 30.8959 - val_loss: 1156.5594 - val_mae: 28.9909
Epoch 7/100
[1m11/11[0m [32m━━━━━━━━

<keras.src.callbacks.history.History at 0x1edccd29390>

In [16]:
loss, mae = model.evaluate(X_test, y_test)
print(f"Loss (MSE): {loss:.4f}, MAE: {mae:.4f}")

[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 6ms/step - loss: 47.7230 - mae: 4.9067 
Loss (MSE): 52.2502, MAE: 5.3358


In [17]:
model.summary()

---

## Tabla funciones de activación y perdida

| Tipo de problema | Función de activación de salida | Función de pérdida recomendada | Rango de salida | Explicación |
|------------------|--------------------------------|--------------------------------|-----------------|-------------|
| Clasificación binaria | **Sigmoid** | **Binary Crossentropy** | 0 a 1 | Devuelve la probabilidad de pertenecer a una de dos clases. Es la combinación más usada en deep learning. |
| Clasificación multiclase (una sola clase correcta) | **Softmax** | **Categorical Crossentropy** | 0 a 1 (suma = 1) | Produce una distribución de probabilidad sobre todas las clases posibles. |
| Clasificación multiclase (labels enteros) | **Softmax** | **Sparse Categorical Crossentropy** | 0 a 1 (suma = 1) | Igual que la anterior, pero usando etiquetas numéricas en lugar de one-hot. |
| Clasificación multietiqueta (varias clases posibles) | **Sigmoid (una por neurona)** | **Binary Crossentropy** | 0 a 1 por salida | Cada neurona aprende una probabilidad independiente para cada etiqueta. |
| Regresión (valores continuos) | **Lineal (sin activación)** | **MSE / MAE** | -∞ a +∞ | La salida no está acotada; se usa para predecir valores numéricos reales. |
| Regresión con valores positivos | **ReLU** | **MSE / MAE** | 0 a +∞ | Garantiza salidas no negativas (ej: precios, cantidades). |
| Regresión acotada | **Sigmoid / Tanh** | **MSE / MAE** | 0 a 1 / -1 a 1 | Se usa cuando la salida debe mantenerse dentro de un rango fijo. |
| Modelos modernos de deep learning | **Sigmoid / Softmax / Lineal** | Dependiente del problema | Variable | La función de pérdida debe ser coherente con el tipo de salida y la tarea. |
| Modelos educativos / históricos | **Escalón (Step)** | No entrenable | 0 o 1 | Función histórica usada para explicar perceptrones; no se utiliza en entrenamiento moderno. |
| Deep learning para clasificación | **Softmax** | **Categorical Crossentropy** | 0 a 1 | Combinación estándar para clasificación multiclase en redes profundas. |


## Red neuronal completa

### Importaciones

In [20]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.optimizers import Adam
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_diabetes

In [21]:
# Cargamos dataset de diabetes
data = load_diabetes()
X = data.data
y = (data.target > data.target.mean()).astype(int)  # Convertimos a clasificación binaria

# Dividir en entrenamiento y test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalizar los datos
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)


### Creamos la red neuronal.

In [22]:
model = Sequential([
    Dense(64, activation='relu', input_dim=X_train.shape[1]),
    Dropout(0.3),
    Dense(128, activation='relu'),
    Dropout(0.3),
    Dense(64, activation='relu'),
    Dense(1, activation='sigmoid')  # salida binaria
])


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


In [23]:
model.compile(optimizer=Adam(learning_rate=0.001),
              loss='binary_crossentropy',
              metrics=['accuracy'])

In [24]:
history = model.fit(X_train, y_train,
                    epochs=50,
                    batch_size=32,
                    validation_split=0.2,
                    verbose=1)

Epoch 1/50
[1m9/9[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 26ms/step - accuracy: 0.4930 - loss: 0.7315 - val_accuracy: 0.7042 - val_loss: 0.6322
Epoch 2/50
[1m9/9[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 11ms/step - accuracy: 0.7296 - loss: 0.6082 - val_accuracy: 0.6901 - val_loss: 0.5991
Epoch 3/50
[1m9/9[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 10ms/step - accuracy: 0.7204 - loss: 0.5648 - val_accuracy: 0.6901 - val_loss: 0.5712
Epoch 4/50
[1m9/9[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 10ms/step - accuracy: 0.7757 - loss: 0.5002 - val_accuracy: 0.6761 - val_loss: 0.5598
Epoch 5/50
[1m9/9[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 12ms/step - accuracy: 0.7587 - loss: 0.4824 - val_accuracy: 0.6901 - val_loss: 0.5550
Epoch 6/50
[1m9/9[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 10ms/step - accuracy: 0.7825 - loss: 0.4933 - val_accuracy: 0.6901 - val_loss: 0.5669
Epoch 7/50
[1m9/9[0m [32m━━━━━━━━━━━━━━━━━━

In [25]:
loss, accuracy = model.evaluate(X_test, y_test)
print(f"Loss: {loss:.4f}, Accuracy: {accuracy:.4f}")

[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 11ms/step - accuracy: 0.8364 - loss: 0.4830
Loss: 0.5597, Accuracy: 0.7978



### 1. Qué significa el **loss**

- El **loss** es `binary_crossentropy` porque es un problema de **clasificación binaria**.
- Valor: `0.5597`
- Interpretación:
  - No es un valor perfecto (0), pero tampoco es demasiado alto.
  - Indica que, en promedio, la probabilidad predicha por el modelo está **moderadamente cercana** al valor real.
  - El modelo aún comete algunos errores al predecir la clase.


### 2. Qué significa la **accuracy**

- La **accuracy** es `0.7978` → ~79,8%
- Interpretación:
  - Aproximadamente **8 de cada 10 predicciones** son correctas.
  - Buen desempeño inicial para un modelo simple, aunque no perfecto.
  - En datasets desbalanceados, la accuracy puede ser engañosa; conviene revisar **precision, recall o F1-score**.

### 3. Conclusión práctica

- **El modelo funciona razonablemente bien**, prediciendo casi 80% correctamente.
- **El loss no es 0**, así que hay margen de mejora:
  - Probar más neuronas o capas
  - Ajustar learning rate
  - Usar regularización (Dropout)
  - Revisar el preprocesamiento de los datos


