In [None]:
import time
import numpy as np
import pandas as pd

# 📊 Complejidad Computacional: ¿Qué tan rápido es un algoritmo?

Cuando escribimos un programa, muchas veces queremos saber **qué tan eficiente es**. La **complejidad computacional** es una forma de medir cuánto **tiempo** o **memoria** necesita un algoritmo a medida que los datos crecen.

---

## 🎯 ¿Por qué importa esto?

Imagina que tienes una lista con 10 contactos y haces una búsqueda. ¡Es rápido!

Pero... ¿y si fueran 1 millón de contactos?  
Ahí es donde se nota si tu algoritmo es **eficiente** o no.

---

## 🕒 Tipos comunes de complejidad de tiempo (Big O)

| Notación | Nombre                    | Qué significa en palabras simples |
|----------|----------------------------|-----------------------------------|
| O(1)     | Constante                 | Siempre se tarda lo mismo         |
| O(n)     | Lineal                    | Tarda más si hay más datos        |
| O(n²)    | Cuadrática                | Muy lento si crecen los datos     |
| O(log n) | Logarítmica               | Muy eficiente con muchos datos    |

---

## 🧁 Ejemplo de la vida real:

Imagina que estás buscando un ingrediente en la despensa.

- Si tienes solo 3 cajones y sabes exactamente cuál es: **O(1)**  
- Si tienes que revisar cada cajón uno por uno: **O(n)**  
- Si por cada cajón tienes que revisar 10 frascos y hay 10 cajones: **O(n²)**

---

## 📌 En resumen:

La complejidad computacional nos ayuda a decidir **qué tan bueno es un algoritmo** cuando los datos crecen. No es solo que funcione, sino que funcione **rápido y con pocos recursos**.


In [None]:
# O(1): Constante
def obtener_primer_elemento(lista):
    return lista[0]

# O(n): Lineal
def imprimir_todos(lista):
    for elemento in lista:
        elemento

# O(n^2): Cuadrática
def comparar_todos(lista):
    for i in lista:
        for j in lista:
            i+j


def medir_tiempo(funcion, lista, etiqueta):
    inicio = time.time()
    funcion(lista)
    fin = time.time()
    print(f"{etiqueta}: {fin - inicio:.6f} segundos")

# Generamos listas de diferentes tamaños
lista_pequeña = list(range(1000))
lista_grande = list(range(10000))

## Listas pequeñas

In [None]:
medir_tiempo(obtener_primer_elemento, lista_pequeña, "O(1)")
medir_tiempo(imprimir_todos, lista_pequeña, "O(n)")
medir_tiempo(comparar_todos, lista_pequeña, "O(n^2)")

O(1): 0.000001 segundos
O(n): 0.000011 segundos
O(n^2): 0.021925 segundos


## Listas grandes

In [None]:
medir_tiempo(obtener_primer_elemento, lista_grande, "O(1)")
medir_tiempo(imprimir_todos, lista_grande, "O(n)")
medir_tiempo(comparar_todos, lista_grande, "O(n^2)")

O(1): 0.000001 segundos
O(n): 0.000139 segundos
O(n^2): 2.031842 segundos


## Ejercicio: Inversión de palabras en una cadena de texto



### Descripción
Desarrolla una función llamada `invertir_palabras` que reciba como parámetro una cadena de texto (string) y realice las siguientes operaciones:

1. Eliminar los espacios adicionales al inicio y al final de la cadena
2. Convertir todas las palabras a minúsculas
3. Invertir el orden de las palabras en la cadena
4. Retornar la nueva cadena con las palabras en orden inverso

### Ejemplo
Si la función recibe como entrada:

```" El   Cielo Es aZul claro   "```

Debe retornar:

```"claro azul es cielo el"```

## Solución

In [None]:
def invertir_palabras(texto):
   # 1. Eliminar espacios adicionales al inicio y final, y convertir a minúsculas
   texto_limpio = texto.strip().lower()

   # 2. Dividir el texto en palabras, usando split() que maneja automáticamente
   # múltiples espacios como un solo separador
   palabras = texto_limpio.split()

   # 3. Invertir el orden de las palabras y unirlas con un espacio
   resultado = " ".join(palabras[::-1])

   return resultado

texto_prueba = " El   Cielo Es aZul claro   "

inicio = time.time()
resultado = invertir_palabras(texto_prueba)
fin = time.time()
print(f"{fin - inicio:.6f} segundos")
print(resultado)  # Debería imprimir: "claro azul es cielo el"

0.000054 segundos
claro azul es cielo el


# Gradiente Descendente para Regresión Lineal con Dos Variables

## 1. Definición del modelo
La regresión lineal con dos variables se representa como:
$$y = \theta_0 + \theta_1 x_1 + \theta_2 x_2$$

Donde:
- $y$ es la variable dependiente (lo que queremos predecir)
- $x_1$ y $x_2$ son las variables independientes (características)
- $\theta_0$, $\theta_1$ y $\theta_2$ son los parámetros del modelo que debemos optimizar

## 2. Definición de la función de costo
Utilizamos el Error Cuadrático Medio (MSE):
$$J(\theta_0, \theta_1, \theta_2) = \frac{1}{2m} \sum_{i=1}^{m} (h(x^{(i)}) - y^{(i)})^2$$

Donde:
- $m$ es el número de ejemplos de entrenamiento
- $h(x^{(i)}) = \theta_0 + \theta_1 x_1^{(i)} + \theta_2 x_2^{(i)}$ es la predicción para el ejemplo $i$
- $y^{(i)}$ es el valor real para el ejemplo $i$

## 3. Cálculo de los gradientes
Para actualizar los parámetros, necesitamos calcular las derivadas parciales:

$$\frac{\partial J}{\partial \theta_0} = \frac{1}{m} \sum_{i=1}^{m} (h(x^{(i)}) - y^{(i)})$$

$$\frac{\partial J}{\partial \theta_1} = \frac{1}{m} \sum_{i=1}^{m} (h(x^{(i)}) - y^{(i)}) \cdot x_1^{(i)}$$

$$\frac{\partial J}{\partial \theta_2} = \frac{1}{m} \sum_{i=1}^{m} (h(x^{(i)}) - y^{(i)}) \cdot x_2^{(i)}$$

## 4. Inicialización de los parámetros
Establecemos valores iniciales para $\theta_0$, $\theta_1$ y $\theta_2$, generalmente en cero:
```python
theta_0 = 0
theta_1 = 0
theta_2 = 0
```

## 5. Algoritmo iterativo
Para cada iteración hasta la convergencia:

a) Calculamos las predicciones para todos los ejemplos:
   $$h(x^{(i)}) = \theta_0 + \theta_1 x_1^{(i)} + \theta_2 x_2^{(i)}, \quad \text{para } i = 1 \text{ hasta } m$$

b) Calculamos los errores:
   $$\text{error}^{(i)} = h(x^{(i)}) - y^{(i)}, \quad \text{para } i = 1 \text{ hasta } m$$

c) Calculamos los gradientes:
   $$\text{grad}_{\theta_0} = \frac{1}{m} \sum_{i=1}^{m} \text{error}^{(i)}$$
   
   $$\text{grad}_{\theta_1} = \frac{1}{m} \sum_{i=1}^{m} \text{error}^{(i)} \cdot x_1^{(i)}$$
   
   $$\text{grad}_{\theta_2} = \frac{1}{m} \sum_{i=1}^{m} \text{error}^{(i)} \cdot x_2^{(i)}$$

d) Actualizamos los parámetros simultáneamente:
   $$\theta_0 = \theta_0 - \alpha \cdot \text{grad}_{\theta_0}$$
   
   $$\theta_1 = \theta_1 - \alpha \cdot \text{grad}_{\theta_1}$$
   
   $$\theta_2 = \theta_2 - \alpha \cdot \text{grad}_{\theta_2}$$

   Donde $\alpha$ es la tasa de aprendizaje (un valor pequeño positivo)

## 6. Criterio de detención
Continuamos las iteraciones hasta que:
- El número de iteraciones alcance un máximo predefinido
- El cambio en la función de costo sea menor que un umbral $(|J(\theta)_{new} - J(\theta)_{old}| < \varepsilon)$
- La magnitud de los gradientes sea menor que un umbral

## 7. Resultado final
Una vez que el algoritmo converge, obtenemos los valores óptimos de $\theta_0$, $\theta_1$ y $\theta_2$ que minimizan la función de costo.


## Ejemplo

In [None]:
# Datos de entrada: 2 ejemplos (filas), 3 características (columnas)
X = np.array([
    [1.0, 2.0, 3.0],
    [4.0, 5.0, 6.0]
])

# Etiquetas reales
y = np.array([14.0, 32.0])

# Número de ejemplos
m = len(y)

# Inicializamos los pesos y el bias
w = np.array([0.0, 0.0, 0.0])  # pesos w1, w2, w3
b = 0.0  # bias w0

# Tasa de aprendizaje
alpha = 0.01

### 📘 Derivadas parciales respecto a los pesos

$$
\frac{\partial J}{\partial w_1} = \frac{2}{m} \sum_{i=1}^m \left( \hat{y}^{(i)} - y^{(i)} \right) \cdot x_1^{(i)}
$$

$$
\frac{\partial J}{\partial w_2} = \frac{2}{m} \sum_{i=1}^m \left( \hat{y}^{(i)} - y^{(i)} \right) \cdot x_2^{(i)}
$$

$$
\frac{\partial J}{\partial w_3} = \frac{2}{m} \sum_{i=1}^m \left( \hat{y}^{(i)} - y^{(i)} \right) \cdot x_3^{(i)}
$$

$$
\frac{\partial J}{\partial b} = \frac{2}{m} \sum_{i=1}^m \left( \hat{y}^{(i)} - y^{(i)} \right)
$$


### 1 Iteración

In [None]:
# Predicciones
y_hat_1 = b + np.dot(X[0], w)
y_hat_2 = b + np.dot(X[1], w)

# Errores
error_1 = y_hat_1 - y[0]
error_2 = y_hat_2 - y[1]

# Gradientes
grad_b = (2/m) * (error_1 + error_2)
grad_w = (2/m) * (error_1 * X[0] + error_2 * X[1])

# Actualización
b = b - alpha * grad_b
w = w - alpha * grad_w

print("Iteración 1:")
print("  b =", b)
print("  w =", w)


Iteración 1:
  b = 0.46
  w = [1.42 1.88 2.34]


### 2 Iteración

In [None]:
# Nuevas predicciones
y_hat_1 = b + np.dot(X[0], w)
y_hat_2 = b + np.dot(X[1], w)

# Nuevos errores
error_1 = y_hat_1 - y[0]
error_2 = y_hat_2 - y[1]

# Nuevos gradientes
grad_b = (2/m) * (error_1 + error_2)
grad_w = (2/m) * (error_1 * X[0] + error_2 * X[1])

# Actualización
b = b - alpha * grad_b
w = w - alpha * grad_w

print("\nIteración 2:")
print("  b =", b)
print("  w =", w)


Iteración 2:
  b = 0.49760000000000004
  w = [1.5302 2.0278 2.5254]


### 3 Iteración

In [None]:
# Nuevas predicciones
y_hat_1 = b + np.dot(X[0], w)
y_hat_2 = b + np.dot(X[1], w)

# Nuevos errores
error_1 = y_hat_1 - y[0]
error_2 = y_hat_2 - y[1]

# Nuevos gradientes
grad_b = (2/m) * (error_1 + error_2)
grad_w = (2/m) * (error_1 * X[0] + error_2 * X[1])

# Actualización
b = b - alpha * grad_b
w = w - alpha * grad_w

print("\nIteración 3:")
print("  b =", b)
print("  w =", w)


Iteración 3:
  b = 0.5019060000000001
  w = [1.537212 2.039118 2.541024]


## Ejercicio

Genera una función de python que generalice el proceso anterior.

La función debe recibir como paramentros:

- X: matriz de características (shape: m x n)
- y: vector de etiquetas verdaderas (shape: m)
- w_inicial: vector de pesos iniciales (shape: n)
- b_inicial: valor inicial del bias
- alpha: tasa de aprendizaje
- num_iteraciones: número de iteraciones del gradiente descendiente.

Debe retornar:
- Los pesos para cada caracteristica.

In [None]:
# Configuración de semillas para reproducibilidad
np.random.seed(42)

# Número de ejemplos y características
num_samples = 100
num_features = 3

# Generar características aleatorias
X = np.random.randn(num_samples, num_features)

# Definir pesos reales para la regresión lineal (incluyendo un sesgo)
true_weights = np.array([2, -3, 5, 10])  # El primer peso es el sesgo (bias)
X_bias = np.c_[np.ones(num_samples), X]  # Añadir una columna de 1's para el sesgo

# Generar las etiquetas Y (target) usando la fórmula Y = X * pesos + ruido
Y = np.dot(X_bias, true_weights) + np.random.randn(num_samples) * 0.1  # Añadimos algo de ruido

# Convertir en un DataFrame
df = pd.DataFrame(X, columns=[f'feature_{i+1}' for i in range(num_features)])
df['target'] = Y

# Ver los primeros datos generados
df

Unnamed: 0,feature_1,feature_2,feature_3,target
0,0.496714,-0.138264,0.647689,6.212522
1,1.523030,-0.234153,-0.234137,-6.137244
2,1.579213,0.767435,-0.469474,-3.520479
3,0.542560,-0.463418,-0.465730,-6.541029
4,0.241962,-1.913280,-1.724918,-25.543557
...,...,...,...,...
95,-1.952088,-0.151785,0.588317,12.933592
96,0.280992,-0.622700,-0.208122,-4.209009
97,-0.493001,-0.589365,0.849602,9.163587
98,0.357015,-0.692910,0.899600,6.448950


In [None]:
def gradient_descent(X, Y, learning_rate, initial_weights, num_iterations):
    """
    Entrena los pesos para una regresión lineal utilizando el algoritmo de gradiente descendente.

    Parameters:
    X : numpy array
        Array de características (features), donde cada fila es un ejemplo y cada columna es una característica.
    Y : numpy array
        Array de etiquetas (target).
    learning_rate : float
        Tasa de aprendizaje para el gradiente descendente.
    initial_weights : numpy array
        Pesos iniciales (un vector con la misma cantidad de elementos que las columnas de X).
    num_iterations : int
        Número de iteraciones para realizar el entrenamiento.

    Returns:
    numpy array
        Los pesos entrenados después de las iteraciones.
    """

    # Inicializar los pesos con los valores proporcionados
    weights = initial_weights.copy()

    # Agregar una columna de 1's a X para incluir el término de sesgo (bias)
    X = np.c_[np.ones(X.shape[0]), X]  # Añade una columna de 1's al principio de X


    # Realizar las iteraciones del gradiente descendente
    for i in range(num_iterations):
        # Calcular la predicción (Y_pred = X * pesos)
        Y_pred = np.dot(X, weights)

        # Calcular el error (diferencia entre la predicción y los valores reales)
        error = Y_pred - Y

        # Calcular el gradiente (derivada parcial del error con respecto a los pesos)
        gradient = np.dot(X.T, error) * (2/len(Y))

        # Actualizar los pesos utilizando el gradiente descendente
        weights -= learning_rate * gradient

        # Opcional: Imprimir el error en cada iteración para ver cómo disminuye
        if i % 50 == 0:  # Imprimir cada 100 iteraciones
            mse = np.mean(error ** 2)
            print(f"Iteración {i}, MSE: {mse:.4f}")

    return weights

In [None]:
X = df[['feature_1','feature_2','feature_3']].values
y = df['target'].values
w_inicial = np.array([0.0, 0.0, 0.0,0.0])
alpha = 0.1
iteraciones = 500

# Entrenamiento
w_final= gradient_descent(X, y, alpha, w_inicial, iteraciones)

Iteración 0, MSE: 149.0272
Iteración 50, MSE: 0.0076
Iteración 100, MSE: 0.0076
Iteración 150, MSE: 0.0076
Iteración 200, MSE: 0.0076
Iteración 250, MSE: 0.0076
Iteración 300, MSE: 0.0076
Iteración 350, MSE: 0.0076
Iteración 400, MSE: 0.0076
Iteración 450, MSE: 0.0076


In [None]:
true_weights

array([ 2, -3,  5, 10])

In [None]:
w_final

array([ 2.01128623, -3.00776633,  4.99500364,  9.98924067])

## Explicación del código de la función `gradient_descent`

La función `gradient_descent` entrena los pesos de un modelo de regresión lineal utilizando el algoritmo de **gradiente descendente**. Este algoritmo ajusta los pesos del modelo para minimizar la diferencia entre las predicciones del modelo y los valores reales de la variable objetivo (Y).

### Parámetros de la función:

- `X`: **numpy array**
  - Conjunto de características (features) de los datos, donde cada fila representa un ejemplo y cada columna representa una característica.
  
- `Y`: **numpy array**
  - Conjunto de etiquetas o valores objetivo (target) correspondientes a las filas de `X`.
  
- `learning_rate`: **float**
  - Tasa de aprendizaje que controla el tamaño de los pasos al actualizar los pesos en cada iteración.

- `initial_weights`: **numpy array**
  - Pesos iniciales del modelo (un vector con la misma cantidad de elementos que las columnas de `X`), que se utilizarán al inicio del entrenamiento.

- `num_iterations`: **int**
  - Número de iteraciones que se realizarán durante el entrenamiento para ajustar los pesos.

### Proceso paso a paso:

1. **Inicialización de los pesos:**
   ```python
   weights = initial_weights.copy()
   ```
  
    Se inicializan los pesos con los valores proporcionados en el parámetro initial_weights. Se hace una copia para no modificar la variable original.

2. **Agregar término de sesgo (bias):**

    ```python
    X = np.c_[np.ones(X.shape[0]), X]
    ```
    Se agrega una columna de 1's al principio de la matriz X para incluir el término de sesgo (bias) en el modelo. Esto permite que el modelo aprenda un valor constante adicional que se suma a las predicciones.

3. **Iteraciones del gradiente descendente:**

    La función realiza un ciclo que se repite durante num_iterations iteraciones, donde en cada paso:

    - **Predicción:**:

      ```python
      Y_pred = np.dot(X, weights)
      ```
      Se calcula la predicción del modelo multiplicando la matriz de características X por los pesos actuales.

    - **Cálculo del error:**:

      ```python
      error = Y_pred - Y
      ```
      Se calcula el error o la diferencia entre la predicción Y_pred y los valores reales Y.

    - **Cálculo del gradiente:**:

      ```python
      gradient = np.dot(X.T, error) * (2/len(Y))
      ```
      Se calcula el gradiente, que es la derivada parcial del error con respecto a los pesos. Este gradiente indica la dirección en la que deben ajustarse los pesos para reducir el error.
    
    - **Cálculo del gradiente:**:

      ```python
      weights -= learning_rate * gradient
      ```
      Se actualizan los pesos utilizando el gradiente calculado y la tasa de aprendizaje. El ajuste es proporcional al gradiente, es decir, los pesos se mueven en la dirección opuesta al gradiente para minimizar el error.


