# REDES NEURONALES ARTIFICIALES (RNA)

## 1. Fundamentos de las RNA

Las **Redes Neuronales Artificiales (RNA)** son modelos computacionales inspirados en el funcionamiento del cerebro humano. Su objetivo es aprender representaciones complejas a partir de datos mediante un conjunto de **nodos (neuronas)** interconectados organizados en capas.

Formalmente, una red neuronal define una función:
$$
f(x; \theta): \mathbb{R}^d \rightarrow \mathbb{R}^k
$$
donde $x$ es el vector de entrada y $\theta$ representa los parámetros (pesos y sesgos) aprendidos durante el entrenamiento.

Cada neurona aplica una transformación lineal seguida de una función de activación no lineal:
$$
a = \sigma(w^T x + b)
$$

## 2. Neurona Artificial

Una **neurona artificial** es la unidad básica de procesamiento. Inspirada en las neuronas biológicas, recibe entradas, aplica pesos, suma los resultados y pasa el valor por una función de activación.

### Modelo matemático:
$$
y = \sigma\left(\sum_{i=1}^n w_i x_i + b\right)
$$
donde:
- $x_i$ son las entradas,
- $w_i$ los pesos sinápticos,
- $b$ es el sesgo,
- $\sigma(\cdot)$ es la función de activación (sigmoide, ReLU, tanh, etc.).

In [None]:
# Ejemplo: Neurona artificial simple
import numpy as np

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

x = np.array([0.5, 0.8, 0.2])
w = np.array([0.4, -0.7, 0.1])
b = 0.2

y = sigmoid(np.dot(w, x) + b)
print(f"Salida de la neurona: {y:.3f}")

## 3. Problemas manejados por las RNA

Las redes neuronales se aplican en múltiples dominios:
- **Clasificación:** reconocimiento de imágenes, detección de spam.
- **Regresión:** predicción de precios, demanda o señales continuas.
- **Series de tiempo:** predicción meteorológica, análisis financiero.
- **Procesamiento de lenguaje natural:** traducción, chatbots.
- **Visión por computadora:** segmentación, reconocimiento facial.

## 4. Características Generales

- Aprenden de los datos de forma no lineal.
- Se adaptan a problemas complejos con muchas variables.
- Requieren grandes volúmenes de datos y potencia computacional.
- Son aproximadores universales: pueden aproximar cualquier función continua bajo ciertas condiciones (Teorema de Cybenko, 1989).

## 5. Tipos de RNA

| Tipo | Característica principal |
|------|---------------------------|
| **Perceptrón simple** | Red de una sola capa. |
| **Multicapa (MLP)** | Varias capas con activaciones no lineales. |
| **Convolucional (CNN)** | Procesamiento espacial, ideal para imágenes. |
| **Recurrente (RNN, LSTM)** | Procesamiento secuencial o temporal. |
| **Hopfield / Boltzmann** | Redes autoasociativas o de energía. |

## 6. Redes Neuronales de un Nivel: Perceptrón

### Representación del Perceptrón
El perceptrón calcula:
$$
y = \text{sign}(w^T x + b)
$$
donde $y \in \{-1, 1\}$.

### Entrenamiento del Perceptrón
El algoritmo ajusta los pesos mediante actualización iterativa:
$$
w \leftarrow w + \eta (y_i - \hat{y}_i) x_i
$$
donde $\eta$ es la tasa de aprendizaje.

In [None]:
# Ejemplo: Perceptrón para clasificación binaria
from sklearn.linear_model import Perceptron
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

X, y = make_classification(n_samples=200, n_features=2, n_classes=2, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = Perceptron(eta0=0.1, max_iter=1000)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print(f"Accuracy: {accuracy_score(y_test, y_pred):.3f}")

## 7. Redes de Hopfield

### Modelo Básico
Las **redes de Hopfield** son redes **recurrentes completamente conectadas** donde cada neurona está conectada a todas las demás. Se utilizan para el almacenamiento de patrones y la recuperación asociativa.

La energía del sistema se define como:
$$
E = -\frac{1}{2} \sum_{i \neq j} w_{ij} s_i s_j + \sum_i \theta_i s_i
$$
donde $s_i \in \{-1, 1\}$ son los estados neuronales y $w_{ij}$ los pesos.

### Entrenamiento
Los pesos se calculan mediante la **regla de Hebb**:
$$
w_{ij} = \frac{1}{N} \sum_{p=1}^P s_i^p s_j^p
$$
donde $s_i^p$ es el estado de la neurona $i$ en el patrón $p$.

## 8. Red Neuronal Multicapa (MLP)

### Representación de la MLP
Una MLP está compuesta por capas de neuronas donde la salida de una capa es la entrada de la siguiente:
$$
h^{(l)} = \sigma(W^{(l)} h^{(l-1)} + b^{(l)})
$$

### Algoritmo de Retropropagación
El entrenamiento se realiza minimizando una función de pérdida mediante **descenso del gradiente** y el **algoritmo de retropropagación (backpropagation)**.

Actualización de pesos:
$$
W^{(l)} \leftarrow W^{(l)} - \eta \frac{\partial L}{\partial W^{(l)}}
$$

In [None]:
# Ejemplo: MLP con sklearn
from sklearn.neural_network import MLPClassifier
from sklearn.datasets import load_digits

X, y = load_digits(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

mlp = MLPClassifier(hidden_layer_sizes=(64, 32), activation='relu', max_iter=300, random_state=42)
mlp.fit(X_train, y_train)
print(f"Accuracy: {mlp.score(X_test, y_test):.3f}")

## 9. Redes Neuronales Convolucionales (CNN)

Las **CNN** son redes diseñadas para procesar datos con estructura espacial (imágenes, video). Emplean operaciones de **convolución** y **pooling** para extraer características locales y reducir dimensionalidad.

### Convolución
Operación matemática que combina una imagen con un filtro (kernel):
$$
(I * K)(x, y) = \sum_m \sum_n I(x-m, y-n) K(m, n)
$$

### Pooling
Reduce la dimensionalidad manteniendo las características más importantes. Los tipos comunes son *max pooling* y *average pooling*.

### Arquitectura LeNet (LeCun, 1998)
Estructura clásica para reconocimiento de dígitos:
1. Capas convolucionales con activaciones sigmoides.
2. Capas de *pooling* (subsampling).
3. Capas totalmente conectadas.

### Arquitectura AlexNet (Krizhevsky et al., 2012)
Profundizó el diseño de LeNet con:
- Funciones de activación ReLU.
- Normalización por lotes.
- Dropout para evitar sobreajuste.
- Entrenamiento en GPU.

In [None]:
# python
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import DataLoader, random_split
from torchvision import datasets, transforms

# Reproducibility and device
torch.manual_seed(42)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Data: MNIST with ToTensor (scales pixels to [0,1])
transform = transforms.ToTensor()
full_train = datasets.MNIST(root=".", train=True, download=True, transform=transform)

# Train / validation split (90/10)
train_len = int(0.9 * len(full_train))
val_len = len(full_train) - train_len
train_ds, val_ds = random_split(full_train, [train_len, val_len], generator=torch.Generator().manual_seed(42))

batch_size = 128
train_loader = DataLoader(train_ds, batch_size=batch_size, shuffle=True, num_workers=0)
val_loader = DataLoader(val_ds, batch_size=batch_size, shuffle=False, num_workers=0)

# CNN model similar to the Keras example
class SimpleCNN(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv = nn.Conv2d(1, 32, kernel_size=3)        # input 1x28x28 -> 32x26x26
        self.pool = nn.MaxPool2d(2)                        # -> 32x13x13
        self.flatten = nn.Flatten()
        self.fc1 = nn.Linear(32 * 13 * 13, 64)
        self.fc2 = nn.Linear(64, 10)

    def forward(self, x):
        x = F.relu(self.conv(x))
        x = self.pool(x)
        x = self.flatten(x)
        x = F.relu(self.fc1(x))
        x = self.fc2(x)   # logits (CrossEntropyLoss expects raw logits)
        return x

model = SimpleCNN().to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
criterion = nn.CrossEntropyLoss()

# Training for one epoch with validation
model.train()
running_correct = 0
running_total = 0
for inputs, targets in train_loader:
    inputs, targets = inputs.to(device), targets.to(device)
    optimizer.zero_grad()
    outputs = model(inputs)
    loss = criterion(outputs, targets)
    loss.backward()
    optimizer.step()

    preds = outputs.argmax(dim=1)
    running_correct += (preds == targets).sum().item()
    running_total += targets.size(0)

train_acc = running_correct / running_total
# Validation
model.eval()
val_correct = 0
val_total = 0
with torch.no_grad():
    for inputs, targets in val_loader:
        inputs, targets = inputs.to(device), targets.to(device)
        outputs = model(inputs)
        preds = outputs.argmax(dim=1)
        val_correct += (preds == targets).sum().item()
        val_total += targets.size(0)

val_acc = val_correct / val_total
print(f"Train accuracy: {train_acc:.3f} | Validation accuracy: {val_acc:.3f}")


## 10. Aplicación Social con RNA

Como ejemplo de **impacto social**, una RNA puede usarse para detectar **enfermedades a partir de imágenes médicas**, **analizar desastres naturales** mediante visión satelital, o **predecir pobreza** usando datos socioeconómicos y geoespaciales.

Ejemplo conceptual:
- Datos: imágenes satelitales de viviendas.
- Objetivo: predecir índice de bienestar.
- Modelo: CNN entrenada sobre etiquetas socioeconómicas.
- Beneficio: focalización de políticas públicas más efectivas.

---
### Bibliografía recomendada
- Haykin, S. (1999). *Neural Networks: A Comprehensive Foundation*. Prentice Hall.
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). *Deep Learning*. MIT Press.
- LeCun, Y., Bengio, Y., & Hinton, G. (2015). *Deep learning*. Nature.