# üßÆ Gradiente Ascendente con Vectores

En este notebook vamos a implementar **el algoritmo de Gradiente Ascendente** aplicado a la **regresi√≥n log√≠stica**.  
La idea es aprender a *maximizar* la **verosimilitud** del modelo ajustando los par√°metros (pesos) del vector Œ≤.

Aprenderemos:
- Qu√© son los vectores y matrices en NumPy.
- C√≥mo se calcula el **producto punto**.
- Qu√© hace la **funci√≥n sigmoide**.
- C√≥mo funciona el **gradiente ascendente** paso a paso.

---



## üìå Conceptos Clave

### üîπ Vectores
Un **vector** es una lista ordenada de n√∫meros, por ejemplo:  
\[
v = [1, 2, 3]
\]  
Los usamos para representar **caracter√≠sticas (features)** de una observaci√≥n.

- **Producto punto (`np.dot`)**:  
  Multiplica elemento a elemento y suma los resultados.  
  Ejemplo:  
  \[
  [1,2,3] \cdot [1,0,1] = 1*1 + 2*0 + 3*1 = 4
  \]
  Se usa much√≠simo en modelos lineales y redes neuronales.

- **Producto cruz (`np.cross`)**:  
  Aplica en vectores 3D y devuelve un vector **perpendicular** a ambos.

---

### üîπ Matrices
Una **matriz** es una colecci√≥n bidimensional de n√∫meros (filas √ó columnas).  
Ejemplo:
\[
\begin{bmatrix}
1 & 2 & 3 \\
4 & 5 & 6
\end{bmatrix}
\]
- `np.array([[1,2,3],[4,5,6]])` crea una matriz.  
- El atributo `.shape` te dice su tama√±o `(renglones, columnas)`.

---

### üîπ Operaciones importantes

| Operaci√≥n | C√≥digo | Descripci√≥n |
|------------|--------|-------------|
| **Multiplicaci√≥n matricial** | `A @ B` | Multiplica matrices (n√óm)*(m√ók) = (n√ók) |
| **Transpuesta** | `A.T` | Invierte renglones y columnas |
| **Matriz de ceros** | `np.zeros((n,m))` | Llena con 0.0 |
| **Matriz de unos** | `np.ones((n,m))` | Llena con 1.0 |
| **Forma** | `A.shape` | Devuelve tama√±o (renglones, columnas) |
| **Reshape** | `A.reshape((n,m))` | Cambia la forma de un arreglo |
| **Stack horizontal** | `np.hstack((A,B))` | Une matrices por columnas |

---




In [4]:
# importamos la libreria numpy
import numpy as np # Para hacer calculos num√©ricos

# ------------------------------------------------------
# üìå 1. VECTORES
# ------------------------------------------------------

# definimos vectores (arreglos 1D)
v1 = np.array([1,2,3])
v2 = np.array([1,0,1])
print("Vector 1:", v1)
print("Vector 2:", v2)

# Producto punto (dot product)
# Multiplica elemento a elemento y luego suma los resultados:
#  (1*1) + (2*0) + (3*1) = 4
a = np.dot(v1,v2)
print("Producto punto:", a)

# Producto cruz (cross product)
# Devuelve un nuevo vector perpendicular a los dos vectores de entrada
b = np.cross(v1,v2)
print("Producto cruz:", b)

# ------------------------------------------------------
# üìå 2. MATRICES
# ------------------------------------------------------

# Creamos una matriz 3x4 (3 renglones, 4 columnas)
m1 = np.array([
      [1,2,3,0],
      [4,5,6,1],
      [7,8,9,8]
])

# Creamos una matriz 4x3
m2 = np.array([
      [1,2,3],
      [4,5,6],
      [7,8,9],
      [10,11,12]
])

print("Matriz 1:")
print(m1)
print("\nMatriz 2:")
print(m2)

# Multiplicamos matrices
# Regla: (n√óm) * (m√ók) = (n√ók)
# Aqu√≠: (3x4) * (4x3) = (3x3)
m3 = m1 @ m2 # @ es un operador de numpy para mult de matrices
print("\nMatriz multiplicada m3:")
print(m3)

# La transpuesta invierte renglones por columnas
m3t = m3.T
print("\nTranspuesta de m3:")
print(m3t)

# ------------------------------------------------------
# üìå 5. MATRICES DE CEROS Y UNOS
# ------------------------------------------------------

# Matriz de ceros: llena con 0.0
m4 = np.zeros((3, 5))  # 3 renglones, 5 columnas
print("\nMatriz m4 (ceros):")
print(m4)

# creamos matriz de unos
# Matriz de unos: llena con 1.0
m5 = np.ones((3, 2))   # 3 renglones, 2 columnas
print("\nMatriz m5 (unos):")
print(m5)

# ------------------------------------------------------
# üìå 6. OBTENER DIMENSIONES DE UNA MATRIZ
# ------------------------------------------------------

# La propiedad .shape devuelve una tupla (renglones, columnas)
print("\nForma de m5:", m5.shape) # (3, 2)

# Guardamos los valores de renglones y columnas
r = m5.shape[0]  # n√∫mero de renglones
c = m5.shape[1]  # n√∫mero de columnas
print("Renglones:", r)
print("Columnas:", c)

# Tambi√©n se puede "desempaquetar" directamente
r, c = m5.shape
print("\nDesempaquetamiento de tupla .shape:")
print("Renglones:", r)
print("Columnas:", c)

# ------------------------------------------------------
# üìå 7. REFORMA (RESHAPE) DE MATRICES Y VECTORES
# ------------------------------------------------------

# Podemos cambiar la forma de un vector

# Creamos un vector columna de 4x1 con unos
v4 = np.ones((4,1)) # vector columna (4 renglones, 1 columna)
print("\nVector columna (4x1):")
print(v4)

# Cambiamos su forma a vector fila (1x4)
v5 = v4.reshape((1, 4))
print("\nDespu√©s del reshape (1x4):")
print(v5)

# ------------------------------------------------------
# üìå 8. APILAMIENTO DE MATRICES (STACK)
# ------------------------------------------------------

# Creamos una matriz base 2x2
m6 = np.array([
    [1, 2],
    [3, 4]
])

# Agregamos una columna de unos al inicio
# np.hstack concatena matrices horizontalmente
print("Matriz original m6:")
print(m6)
m7 = np.hstack((np.ones((2, 1)), m6))
print("\nMatriz resultante de m6 despu√©s del hstack (columna de unos agregada):")
print(m7)




Vector 1: [1 2 3]
Vector 2: [1 0 1]
Producto punto: 4
Producto cruz: [ 2  2 -2]
Matriz 1:
[[1 2 3 0]
 [4 5 6 1]
 [7 8 9 8]]

Matriz 2:
[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]

Matriz multiplicada m3:
[[ 30  36  42]
 [ 76  92 108]
 [182 214 246]]

Transpuesta de m3:
[[ 30  76 182]
 [ 36  92 214]
 [ 42 108 246]]

Matriz m4 (ceros):
[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]

Matriz m5 (unos):
[[1. 1.]
 [1. 1.]
 [1. 1.]]

Forma de m5: (3, 2)
Renglones: 3
Columnas: 2

Desempaquetamiento de tupla .shape:
Renglones: 3
Columnas: 2

Vector columna (4x1):
[[1.]
 [1.]
 [1.]
 [1.]]

Despu√©s del reshape (1x4):
[[1. 1. 1. 1.]]
Matriz original m6:
[[1 2]
 [3 4]]

Matriz resultante de m6 despu√©s del hstack (columna de unos agregada):
[[1. 1. 2.]
 [1. 3. 4.]]


# üß† Funci√≥n Sigmoide y Algoritmo de Gradiente Ascendente

En esta secci√≥n implementamos dos piezas fundamentales de la **regresi√≥n log√≠stica**:

1. **Funci√≥n sigmoide (œÉ)**  
   Convierte cualquier n√∫mero real en un valor entre 0 y 1, lo que nos permite
   interpretar las salidas del modelo como **probabilidades**.

2. **Algoritmo de gradiente ascendente**  
   Ajusta los par√°metros del modelo (Œ≤) de forma iterativa, buscando los valores
   que **maximizan la verosimilitud** ‚Äî es decir, los que hacen que las predicciones
   del modelo se parezcan lo m√°s posible a los datos reales.

üîç En t√©rminos pr√°cticos:
- La sigmoide act√∫a como la ‚Äúpuerta‚Äù que transforma valores continuos en decisiones probabil√≠sticas.
- El gradiente ascendente es el **motor de aprendizaje** que optimiza esos valores.

üì¶ Estos dos componentes son la base no solo de la regresi√≥n log√≠stica,
sino tambi√©n de redes neuronales y muchos algoritmos de clasificaci√≥n modernos.


In [5]:
# ======================================================
# üß† FUNCI√ìN SIGMOIDE Y GRADIENTE ASCENDENTE
# ======================================================

# ------------------------------------------------------
# üìå 1. FUNCI√ìN SIGMOIDE
# ------------------------------------------------------
def sigmoide(z):
    """
    Funci√≥n de activaci√≥n sigmoide:
    œÉ(z) = 1 / (1 + e^(-z))

    Convierte cualquier n√∫mero real (positivo o negativo)
    en un valor dentro del rango (0, 1).

    En regresi√≥n log√≠stica, esta salida se interpreta como una probabilidad:
    - Valores cercanos a 1 ‚Üí alta probabilidad de que Y sea 1 (clase positiva).
    - Valores cercanos a 0 ‚Üí alta probabilidad de que Y sea 0 (clase negativa).
    - Valores alrededor de 0.5 ‚Üí el modelo est√° indeciso.

    """

    return 1 / (1 + np.exp(-z))


# ------------------------------------------------------
# üìå 2. FUNCI√ìN DE GRADIENTE ASCENDENTE
# ------------------------------------------------------
def grad_asc(Xc, Y, eta=0.1, max_it=10000):
    """
    Entrena un modelo de regresi√≥n log√≠stica usando **gradiente ascendente**.

    üí° Idea general:
    ----------------
    Ajusta los par√°metros Œ≤ para que las predicciones del modelo
    se acerquen lo m√°s posible a los valores reales observados en Y.

    üîç En otras palabras:
    El algoritmo busca los Œ≤ que maximizan la probabilidad (verosimilitud)
    de que el modelo haya generado los datos que tenemos.

    üîÅ Retorna:
    -----------
    beta : np.ndarray (n+1, 1)
        Vector de pesos aprendidos (incluye el sesgo Œ≤‚ÇÄ).
    """

    # m = n√∫mero de ejemplos (filas), n = n√∫mero de caracter√≠sticas (columnas)
    m, n = Xc.shape # obtenemos dimensiones de Xc

    # Inicializamos los pesos en cero (Œ≤‚ÇÄ + Œ≤‚ÇÅ ... Œ≤n)
    beta = np.zeros((n + 1, 1)) 

    # Agregamos una columna de unos al inicio ‚Üí representa el sesgo Œ≤‚ÇÄ
    X = np.hstack((np.ones((m, 1)), Xc))

    # --------------------------------------------------
    # üîÅ Bucle de entrenamiento
    # --------------------------------------------------
    for i in range(max_it):

        # 1Ô∏è‚É£ Predicci√≥n del modelo: œÉ(X¬∑Œ≤)
        # La sigmoide transforma la combinaci√≥n lineal X¬∑Œ≤ en probabilidades (0 a 1)
        p = sigmoide(X @ beta) 
        #X: matriz de caracter√≠sticas con columna de unos
        #beta: vector de pesos

        # 2Ô∏è‚É£ C√°lculo del gradiente:
        # (Y - p) mide el error entre lo real y lo predicho.
        # X.T @ (Y - p) indica hacia d√≥nde mover los Œ≤ para mejorar las predicciones.
        grad = X.T @ (Y - p)
        #X.T: transpuesta de la matriz de caracter√≠sticas
        #Y: etiquetas reales
        #p: probabilidades predichas por el modelo
        

        # 3Ô∏è‚É£ Evaluar el tama√±o del cambio
        # Si el gradiente es casi 0, significa que ya llegamos al ‚Äúpunto √≥ptimo‚Äù.
        norm_grad = np.linalg.norm(grad)

        if norm_grad < 1e-4:
            print(f"‚úÖ Convergencia alcanzada en la iteraci√≥n {i}")
            break

        # 4Ô∏è‚É£ Actualizamos los par√°metros (subimos por la "monta√±a" de verosimilitud)
        #   beta ‚Üê beta + Œ∑ * grad
        # eta controla el tama√±o del paso (tasa de aprendizaje)
        beta = beta + eta * grad

    # Retorna los Œ≤ finales: los valores que mejor ajustan el modelo
    return beta





# üß™ Ejemplo pr√°ctico: entrenamiento del modelo

En este ejemplo creamos un conjunto de datos muy simple para probar el algoritmo:

- **Xc** representa las caracter√≠sticas de entrada (cada fila es un ejemplo y cada columna una variable).  
- **Y** son las *etiquetas reales*, es decir, los valores correctos que el modelo debe aprender a predecir (0 o 1).  
- Luego entrenamos el modelo con `grad_asc()`, que ajusta los pesos **Œ≤** para que las predicciones se acerquen lo m√°s posible a los valores reales.

Al final se imprimen los par√°metros aprendidos:
- **Œ≤‚ÇÄ** es el sesgo o intercepto.  
- **Œ≤‚ÇÅ, Œ≤‚ÇÇ, ...** son los pesos de cada caracter√≠stica, indicando su influencia en la probabilidad de que la salida sea 1.


In [6]:

# Cada fila representa un ejemplo y cada columna una caracter√≠stica (feature)
Xc = np.array([
    [0, 0, 1, 0],
    [1, 1, 1, 1],
    [0, 0, 0, 1]
])

# Etiquetas reales (valores correctos que el modelo debe aprender a predecir)
# 1 = clase positiva, 0 = clase negativa
Y = np.array([1, 0, 1]).reshape((-1, 1))

# Entrenamiento del modelo: ajusta los pesos Œ≤ para que las predicciones
# se acerquen lo m√°s posible a las etiquetas reales (Y)
betas = grad_asc(Xc, Y)

# Œ≤‚ÇÄ es el sesgo (intercepto) y los dem√°s Œ≤ son los pesos de cada caracter√≠stica
print("\nPar√°metros Œ≤ aprendidos:")
print(betas)



Par√°metros Œ≤ aprendidos:
[[ 6.90214847e+00]
 [-6.90214847e+00]
 [-6.90214847e+00]
 [-3.91173639e-15]
 [-3.91173639e-15]]
