# üß© Neurona log√≠stica (PyTorch) 

## üéØ Objetivo
Entrenar **una neurona log√≠stica**  para que aprenda la tabla l√≥gica **OR**.

Dado un par de entradas binarias $( (x_1, x_2) )$, el modelo predice la **probabilidad** de que $( y = 1 )$ (verdadero).  
Matem√°ticamente, la neurona calcula:

$$
\begin{align*}
z &= w_1 x_1 + w_2 x_2 + b \\
\hat{y} &= \sigma(z) = \frac{1}{1 + e^{-z}}
\end{align*}
$$

donde:

Los par√°metros del modelo son:  
$w_1, w_2$ ‚Äî **pesos** o par√°metros aprendidos,  
$b$ ‚Äî **sesgo (bias)** que ajusta la frontera de decisi√≥n,  
$\sigma(z)$ ‚Äî **funci√≥n sigmoide** que mapea cualquier n√∫mero real al rango $(0,1)$.



---

## üèóÔ∏è ¬øQu√© hace el c√≥digo?
1. **Definimos el modelo**  
   - `nn.Linear(2,1)` crea la transformaci√≥n lineal $( z = W X + b ) $ con 2 entradas y 1 salida.  
   - `nn.Sigmoid()` aplica la funci√≥n log√≠stica $\sigma(z)$.  
   - Ambas se combinan con `nn.Sequential()` para formar una **neurona log√≠stica completa**.

2. **Preparamos los datos (X, Y)**  
   - Representamos la tabla OR:

      | \(x_1\) | \(x_2\) | \(y\) |
      |:---:|:---:|:---:|
      | 0 | 0 | 0 |
      | 0 | 1 | 1 |
      | 1 | 0 | 1 |
      | 1 | 1 | 1 |

   - Cada fila es un ejemplo de entrenamiento.  
   - Los tensores se declaran con `dtype=torch.float32` para operar correctamente con funciones continuas.

3. **Funci√≥n de p√©rdida**
   - Se usa **Binary Cross Entropy (BCE)**:
     $$
     L = -\frac{1}{N} \sum_i \left[ y_i \log(\hat{y}_i) + (1 - y_i)\log(1 - \hat{y}_i) \right]
     $$
   - Minimizar esta p√©rdida equivale a **maximizar la log-verosimilitud** en la regresi√≥n log√≠stica.

4. **Optimizador (gradiente descendente)**  
   - `torch.optim.SGD` actualiza los par√°metros siguiendo la regla:

     $$
     \theta \;:=\; \theta \;-\; \eta \, \nabla_\theta L
     $$

     donde:  
     - $\eta$ ‚Üí *learning rate* (tasa de aprendizaje)  
     - $\nabla_\theta L$ ‚Üí gradiente de la p√©rdida respecto a los par√°metros del modelo  

     üí° En cada paso, el optimizador **ajusta los pesos** en la direcci√≥n que **reduce la p√©rdida**, aplicando el concepto te√≥rico del **m√©todo del gradiente** que vimos en clase.

5. **Entrenamiento (ciclo de aprendizaje)**  
   En cada iteraci√≥n del entrenamiento, el proceso sigue estos pasos:

   1. Calculamos las predicciones: $ \hat{y} = \sigma(WX + b) $
   2. Calculamos la funci√≥n de p√©rdida: $L(\hat{y}, y)$
   3. Vaciamos gradientes previos con `zero_grad()`  
   4. Calculamos los gradientes mediante `backward()`  
   5. Actualizamos los par√°metros con `step()`  

   üß† Este ciclo es la **implementaci√≥n pr√°ctica del gradiente descendente**:  
   el modelo ajusta sus pesos poco a poco hasta minimizar la p√©rdida y aprender la relaci√≥n correcta entre las entradas y las salidas.


6. **Resultados**
   - Despu√©s de ~10,000 iteraciones, la p√©rdida se aproxima a cero.
   - El modelo predice:

      | $(x_1)$ | $(x_2)$ | $(y_{real})$ | $(\hat{y}_{pred})$ esperado |
      |:---:|:---:|:---:|:---:|
      | 0 | 0 | 0 | ‚âà 0.0 |
      | 0 | 1 | 1 | ‚âà 0.99 |
      | 1 | 0 | 1 | ‚âà 0.99 |
      | 1 | 1 | 1 | ‚âà 1.0 |

   - Los pesos $( w_1, w_2 )$ son positivos y el sesgo $( b )$ negativo,  
     lo que genera una frontera de decisi√≥n que activa la salida (‚âà1) cuando al menos una entrada es 1.

---

## üß† ¬øC√≥mo lo hace PyTorch?
- **Autograd:** PyTorch crea un *grafo computacional* que rastrea todas las operaciones sobre tensores con `requires_grad=True`.  
  Al llamar `loss.backward()`, el sistema calcula autom√°ticamente los gradientes de cada par√°metro.
  
- **Optimizador:** Usa los gradientes para ajustar \( w_1, w_2, b \), reduciendo la p√©rdida en cada paso.  
  Este proceso repite el concepto te√≥rico del **gradiente descendente** que viste en clase.

---

## üìà Resultados esperados
- **Predicciones**: el modelo aprende perfectamente la l√≥gica OR.  
- **P√©rdida**: desciende hasta valores muy peque√±os (~0.001).  
- **Pesos aprendidos**:
  $$
  w_1, w_2 > 0, \quad b < 0
  $$
  indicando que basta una entrada activa (1) para obtener una probabilidad alta.

---


In [None]:
# ====================================================
# üß© Neurona Log√≠stica para la funci√≥n OR (PyTorch - CPU)
# ====================================================
# Objetivo:
# Entrenar una neurona log√≠stica (regresi√≥n log√≠stica binaria) para que aprenda
# la tabla l√≥gica OR usando PyTorch, sin necesidad de GPU.

import torch
import torch.nn as nn

# ----------------------------------------------------
# Elegir el dispositivo de c√≥mputo
# ----------------------------------------------------
# torch.device() permite definir si el modelo y los tensores se ejecutan en:
#  - "cuda" ‚Üí GPU (si est√° disponible)
#  - "cpu"  ‚Üí procesador normal
# torch.cuda.is_available() devuelve True si hay GPU compatible con CUDA.
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Usando dispositivo: {device}")

# ----------------------------------------------------
# 1Ô∏è‚É£ Definici√≥n de la capa lineal (modelo lineal)
# ----------------------------------------------------
# nn.Linear(in_features, out_features)
# Crea una transformaci√≥n lineal:  y = X¬∑W^T + b
#  - in_features = n√∫mero de variables de entrada (x1, x2 ‚Üí 2)
#  - out_features = n√∫mero de salidas (una sola neurona ‚Üí 1)
# Internamente guarda dos par√°metros entrenables:
#  - weight ‚Üí matriz de pesos (w1, w2)
#  - bias   ‚Üí t√©rmino independiente b
capa_lineal = nn.Linear(2, 1)

# ----------------------------------------------------
# 2Ô∏è‚É£ Funci√≥n de activaci√≥n (sigmoide)
# ----------------------------------------------------
# nn.Sigmoid() aplica la funci√≥n log√≠stica œÉ(z) = 1 / (1 + e^(-z))
# Convierte el resultado lineal (z) en una probabilidad entre 0 y 1.
# No recibe argumentos.
activacion = nn.Sigmoid()

# ----------------------------------------------------
# 3Ô∏è‚É£ Construcci√≥n del modelo secuencial
# ----------------------------------------------------
# nn.Sequential() agrupa varias capas en orden:
#   - Primero aplica la capa lineal (z = WX + b)
#   - Luego la sigmoide (œÉ(z))
# to(device) mueve el modelo al CPU o GPU definido antes.
modelo = nn.Sequential(
    capa_lineal,
    activacion
).to(device)

# ----------------------------------------------------
# 4Ô∏è‚É£ Datos de entrenamiento (Tabla OR)
# ----------------------------------------------------
# torch.tensor(data, device, dtype)
#   - data: lista o arreglo de valores num√©ricos
#   - device: en qu√© dispositivo se guardan (CPU o GPU)
#   - dtype: tipo de dato (float32 ‚Üí n√∫mero decimal)
#
# Entradas X: todas las combinaciones de (x1, x2)
# Salidas Y: resultados de x1 OR x2
X = torch.tensor([
    [0, 0],
    [0, 1],
    [1, 0],
    [1, 1]
], device=device, dtype=torch.float32)

Y = torch.tensor([
    [0],
    [1],
    [1],
    [1]
], device=device, dtype=torch.float32)

# ----------------------------------------------------
# 5Ô∏è‚É£ Funci√≥n de p√©rdida y optimizador
# ----------------------------------------------------
# nn.BCELoss() ‚Üí Binary Cross Entropy Loss
#   - Calcula la diferencia entre las predicciones y los valores reales.
#   - Mide qu√© tan buena es la predicci√≥n de una probabilidad binaria.
#   - F√≥rmula: L = -[y¬∑log(≈∑) + (1 - y)¬∑log(1 - ≈∑)]
fn_perdida = nn.BCELoss()

# torch.optim.SGD(params, lr)
#   - Implementa el m√©todo del Gradiente Descendente Estoc√°stico.
#   - params: par√°metros del modelo (pesos y sesgos)
#   - lr: tasa de aprendizaje (learning rate)
# Actualiza los par√°metros del modelo en cada iteraci√≥n:
#   Œ∏ := Œ∏ - Œ∑ * ‚àáŒ∏ L
optimizador = torch.optim.SGD(modelo.parameters(), lr=0.1)

# ----------------------------------------------------
# 6Ô∏è‚É£ Ciclo de entrenamiento
# ----------------------------------------------------
# Repite el proceso 10,000 veces para que el modelo aprenda (epochs)
for epoch in range(10000):

    # --- Forward pass ---
    # Calcula las salidas del modelo para las entradas X
    # Internamente: ≈∑ = œÉ(WX + b)
    y_pred = modelo(X)

    # --- Calcular p√©rdida ---
    # Compara las predicciones (y_pred) con los valores reales (Y)
    perdida = fn_perdida(y_pred, Y)
    
    # --- Limpiar gradientes ---
    # Antes de calcular nuevos gradientes, se limpian los anteriores
    optimizador.zero_grad()

    # --- Backpropagation ---
    # Calcula autom√°ticamente las derivadas parciales (gradientes)
    # de la p√©rdida con respecto a cada par√°metro del modelo
    perdida.backward()

    # --- Actualizaci√≥n de par√°metros ---
    # Modifica los pesos (w1, w2) y el sesgo (b)
    # seg√∫n la direcci√≥n del gradiente y la tasa de aprendizaje
    optimizador.step()
    
    # --- Monitoreo del entrenamiento ---
    # Cada 1000 iteraciones imprime la p√©rdida para ver la convergencia
    if epoch % 1000 == 0:
        print(f"Iteraci√≥n {epoch} - P√©rdida: {perdida.item():.4f}")

# ----------------------------------------------------
# 7Ô∏è‚É£ Predicciones finales
# ----------------------------------------------------
# Despu√©s del entrenamiento, volvemos a pasar los datos por el modelo
# para ver qu√© probabilidades produce.
print("\nüîπ Predicciones despu√©s de entrenar:")
print(modelo(X))
# Deber√≠an aproximarse a:
# [ [0.0], [0.99], [0.99], [1.0] ]

# ----------------------------------------------------
# 8Ô∏è‚É£ Par√°metros finales (pesos y sesgo)
# ----------------------------------------------------
# modelo.named_parameters() devuelve un iterable con:
#  - el nombre del par√°metro ("weight" o "bias")
#  - el valor entrenado (tensor con los pesos aprendidos)
print("\nüîπ Par√°metros aprendidos:")
for nombre, param in modelo.named_parameters():
    print(f"{nombre}: {param.data}")


Usando dispositivo: cpu
Iteraci√≥n 0 - P√©rdida: 0.7678
Iteraci√≥n 1000 - P√©rdida: 0.0898
Iteraci√≥n 2000 - P√©rdida: 0.0471
Iteraci√≥n 3000 - P√©rdida: 0.0315
Iteraci√≥n 4000 - P√©rdida: 0.0236
Iteraci√≥n 5000 - P√©rdida: 0.0188
Iteraci√≥n 6000 - P√©rdida: 0.0156
Iteraci√≥n 7000 - P√©rdida: 0.0134
Iteraci√≥n 8000 - P√©rdida: 0.0117
Iteraci√≥n 9000 - P√©rdida: 0.0104

üîπ Predicciones despu√©s de entrenar:
tensor([[0.0205],
        [0.9918],
        [0.9918],
        [1.0000]], grad_fn=<SigmoidBackward0>)

üîπ Par√°metros aprendidos:
0.weight: tensor([[8.6612, 8.6605]])
0.bias: tensor([-3.8653])


## üß† Resumen de las funciones usadas

- **`torch.device(type)`**  
  Define si se usar√° **CPU** o **GPU** para ejecutar el modelo y los tensores.  
  Argumento: `"cpu"` o `"cuda"`.

---

- **`torch.cuda.is_available()`**  
  Devuelve `True` si existe una **GPU compatible con CUDA** disponible en el sistema.  
  *(Sin argumentos).*

---

- **`nn.Linear(in_features, out_features)`**  
  Crea una capa lineal que aplica la transformaci√≥n:  
  $$
  y = W X + b
  $$
  donde \( W \) son los **pesos** y \( b \) el **sesgo**.  
  Argumentos:  
  - `in_features`: n√∫mero de entradas (columnas de \( X \)).  
  - `out_features`: n√∫mero de salidas (neuronas de salida).

---

- **`nn.Sigmoid()`**  
  Aplica la funci√≥n log√≠stica:  
  $$
  \sigma(z) = \frac{1}{1 + e^{-z}}
  $$
  Convierte un valor real \( z \) en una probabilidad entre 0 y 1.  
  *(Sin argumentos).*

---

- **`nn.Sequential(...)`**  
  Combina varias capas en orden, de modo que la salida de una es la entrada de la siguiente.  
  Argumento: lista de capas (por ejemplo `[nn.Linear(), nn.Sigmoid()]`).

---

- **`torch.tensor(data, device, dtype)`**  
  Crea un **tensor** (estructura de datos multidimensional).  
  Argumentos:  
  - `data`: lista o arreglo NumPy.  
  - `device`: `"cpu"` o `"cuda"`.  
  - `dtype`: tipo de dato, por ejemplo `torch.float32`.

---

- **`nn.BCELoss()`**  
  Calcula la **p√©rdida de entrop√≠a cruzada binaria**, que mide la diferencia entre las probabilidades predichas y las reales:  
  $$
  L = -[y \log(\hat{y}) + (1-y)\log(1-\hat{y})]
  $$
  *(Sin argumentos).*

---

- **`torch.optim.SGD(params, lr)`**  
  Implementa el **Gradiente Descendente Estoc√°stico (SGD)**, actualizando los par√°metros seg√∫n:  
  $$
  \theta := \theta - \eta \nabla_\theta L
  $$
  Argumentos:  
  - `params`: par√°metros del modelo (pesos y sesgos).  
  - `lr`: tasa de aprendizaje (\( \eta \)).

---

- **`optimizer.zero_grad()`**  
  Limpia los **gradientes acumulados** antes de calcular los nuevos.  
  *(Sin argumentos).*

---

- **`loss.backward()`**  
  Calcula los **gradientes** de la p√©rdida con respecto a cada par√°metro del modelo usando *backpropagation*.  
  *(Sin argumentos).*

---

- **`optimizer.step()`**  
  Actualiza los par√°metros (\( W \), \( b \)) usando los gradientes calculados.  
  *(Sin argumentos).*

---

- **`model(X)`**  
  Aplica el **modelo completo** (capa lineal + sigmoide) a las entradas \( X \) y devuelve las predicciones \( \hat{y} \).  
  Argumento: `X` ‚Äî tensor con los datos de entrada.
