# 🐍 Fundamentos: Python, NumPy y Vectorización

## 📚 Objetivos de Aprendizaje
En este notebook aprenderás:
- Los fundamentos de NumPy para machine learning
- Operaciones vectoriales y su importancia
- Diferencias de rendimiento entre loops y vectorización
- Manipulación de matrices y vectores

## 🛠️ Herramientas
- **NumPy**: Computación científica
- **Matplotlib**: Visualización
- **Time**: Medición de rendimiento

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import time

# Configuración para mejores visualizaciones
plt.style.use('default')
np.set_printoptions(precision=2)

print("✅ Librerías importadas correctamente")

## 1. 📊 Vectores en NumPy

### 1.1 ¿Qué es un Vector?
Un vector es un array ordenado de números del mismo tipo. En machine learning:
- Representan **features** de un ejemplo
- Almacenan **parámetros** del modelo
- Contienen **predicciones** y **targets**

In [None]:
# 📍 CREACIÓN DE VECTORES

# Diferentes formas de crear vectors
print("🔹 Diferentes formas de crear vectores:")

# Vector de ceros
a = np.zeros(4)
print(f"Zeros: {a}, shape: {a.shape}, dtype: {a.dtype}")

# Vector de valores aleatorios
b = np.random.random_sample(4)
print(f"Random: {b}, shape: {b.shape}")

# Vector manual
c = np.array([5, 4, 3, 2])
print(f"Manual: {c}, shape: {c.shape}")

# Vector con rango
d = np.arange(4.)
print(f"Arange: {d}, shape: {d.shape}")

### 1.2 🎯 Indexing y Slicing

In [None]:
# 📍 INDEXING Y SLICING

# Vector ejemplo
vector = np.arange(10)
print(f"Vector original: {vector}")
print(f"Shape: {vector.shape}")

# Acceso a elementos individuales
print(f"\n🔹 Indexing:")
print(f"Primer elemento (index 0): {vector[0]}")
print(f"Segundo elemento (index 1): {vector[1]}")
print(f"Último elemento: {vector[-1]}")

# Slicing
print(f"\n🔹 Slicing:")
print(f"Elementos 2 al 7: {vector[2:7]}")
print(f"Elementos 2 al 7, cada 2: {vector[2:7:2]}")
print(f"Desde el índice 3 hasta el final: {vector[3:]}")
print(f"Desde el inicio hasta el índice 3: {vector[:3]}")
print(f"Todo el vector: {vector[:]}")

### 1.3 ⚡ Operaciones con Vectores

In [None]:
# 📍 OPERACIONES VECTORIALES

a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])

print(f"Vector a: {a}")
print(f"Vector b: {b}")

# Operaciones elemento por elemento
print(f"\n🔹 Operaciones elemento por elemento:")
print(f"a + b = {a + b}")
print(f"a - b = {a - b}")
print(f"a * b = {a * b}")
print(f"a / b = {a / b}")

# Operaciones con escalares
print(f"\n🔹 Operaciones con escalares:")
print(f"a * 2 = {a * 2}")
print(f"a + 10 = {a + 10}")

# Funciones matemáticas
print(f"\n🔹 Funciones matemáticas:")
print(f"Suma total: np.sum(a) = {np.sum(a)}")
print(f"Media: np.mean(a) = {np.mean(a)}")
print(f"Cuadrado: a**2 = {a**2}")

## 2. 🎯 Producto Punto (Dot Product)

**El producto punto es FUNDAMENTAL en machine learning:**
- Cálculo de predicciones: $f_{w,b}(x) = w \cdot x + b$
- Operaciones en redes neuronales
- Cálculo de similitudes

### Fórmula: $a \cdot b = \sum_{i=0}^{n-1} a_i b_i$

In [None]:
# 📍 IMPLEMENTACIÓN MANUAL DEL PRODUCTO PUNTO

def dot_product_manual(a, b):
    """
    Implementa el producto punto manualmente con un loop
    
    Args:
        a (ndarray): vector 1
        b (ndarray): vector 2
    
    Returns:
        resultado (scalar): producto punto
    """
    resultado = 0
    for i in range(len(a)):
        resultado += a[i] * b[i]
    return resultado

# Vectores de ejemplo
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])

print(f"Vector a: {a}")
print(f"Vector b: {b}")

# Comparar implementaciones
manual_result = dot_product_manual(a, b)
numpy_result = np.dot(a, b)

print(f"\n🔹 Resultados:")
print(f"Producto punto manual: {manual_result}")
print(f"Producto punto NumPy: {numpy_result}")
print(f"¿Son iguales? {manual_result == numpy_result}")

# Verificación paso a paso
print(f"\n🔹 Cálculo paso a paso:")
print(f"1×5 + 2×6 + 3×7 + 4×8 = {1*5} + {2*6} + {3*7} + {4*8} = {1*5 + 2*6 + 3*7 + 4*8}")

## 3. ⚡ La Necesidad de Velocidad: Vectorización vs Loops

**¿Por qué usar NumPy?**
- 🚀 **Velocidad**: 100x-1000x más rápido que loops de Python
- 💻 **Paralelización**: Aprovecha hardware moderno (SIMD)
- 🧠 **Memoria**: Uso más eficiente de memoria

In [None]:
# 📍 COMPARACIÓN DE RENDIMIENTO

# Crear vectores muy grandes
print("🔹 Creando vectores de 10 millones de elementos...")
np.random.seed(1)
a_large = np.random.rand(10_000_000)
b_large = np.random.rand(10_000_000)

print(f"Tamaño de vectores: {len(a_large):,} elementos")

# Prueba con NumPy (vectorizado)
print("\n⚡ Probando versión vectorizada (NumPy)...")
start_time = time.time()
resultado_numpy = np.dot(a_large, b_large)
tiempo_numpy = time.time() - start_time

print(f"Resultado NumPy: {resultado_numpy:.4f}")
print(f"Tiempo NumPy: {tiempo_numpy*1000:.2f} ms")

# Prueba con loop manual (solo una muestra pequeña para no esperar mucho)
print("\n🐌 Probando versión con loop (muestra de 100,000)...")
a_small = a_large[:100_000]
b_small = b_large[:100_000]

start_time = time.time()
resultado_manual = dot_product_manual(a_small, b_small)
tiempo_manual = time.time() - start_time

print(f"Resultado Manual: {resultado_manual:.4f}")
print(f"Tiempo Manual (solo 100K elementos): {tiempo_manual*1000:.2f} ms")

# Cálculo de speedup
# Extrapolamos el tiempo manual para 10M elementos
tiempo_extrapolado = tiempo_manual * 100  # 10M / 100K = 100
speedup = tiempo_extrapolado / tiempo_numpy

print(f"\n🚀 Análisis de rendimiento:")
print(f"Speedup estimado: {speedup:.0f}x más rápido con NumPy")
print(f"Tiempo estimado manual para 10M: {tiempo_extrapolado:.2f} segundos")

# Limpieza de memoria
del(a_large, b_large)
print("\n✅ Memoria liberada")

## 4. 📋 Matrices (Arrays 2D)

Las matrices son fundamentales en ML:
- **X_train**: Matriz de ejemplos de entrenamiento
- **Cada fila**: Un ejemplo
- **Cada columna**: Una característica (feature)

In [None]:
# 📍 CREACIÓN Y MANIPULACIÓN DE MATRICES

# Diferentes formas de crear matrices
print("🔹 Creación de matrices:")

# Matriz de ceros
matriz_zeros = np.zeros((3, 4))
print(f"Matriz de ceros {matriz_zeros.shape}:")
print(matriz_zeros)

# Matriz manual
print(f"\nMatriz manual:")
X_train = np.array([[2104, 5, 1, 45],    # Casa 1: [tamaño, cuartos, pisos, edad]
                    [1416, 3, 2, 40],    # Casa 2
                    [852,  2, 1, 35]])   # Casa 3

print(f"X_train shape: {X_train.shape}")
print("X_train:")
print(X_train)

# Información sobre la matriz
print(f"\n🔹 Información de la matriz:")
print(f"Forma (shape): {X_train.shape}")
print(f"Número de ejemplos (m): {X_train.shape[0]}")
print(f"Número de features (n): {X_train.shape[1]}")
print(f"Tipo de datos: {X_train.dtype}")
print(f"Tamaño total: {X_train.size} elementos")

In [None]:
# 📍 INDEXING EN MATRICES

print("🔹 Acceso a elementos de matrices:")
print(f"X_train:\n{X_train}")

# Acceso a elementos específicos
print(f"\nElemento [0,0] (primera casa, tamaño): {X_train[0, 0]}")
print(f"Elemento [1,2] (segunda casa, pisos): {X_train[1, 2]}")

# Acceso a filas completas (ejemplos)
print(f"\nPrimera casa (fila 0): {X_train[0]}")
print(f"Shape de una fila: {X_train[0].shape}")
print(f"Tipo: {type(X_train[0])}")

# Acceso a columnas completas (features)
print(f"\nTamaños de todas las casas (columna 0): {X_train[:, 0]}")
print(f"Número de cuartos (columna 1): {X_train[:, 1]}")

# Slicing más complejo
print(f"\nPrimeras dos casas, primeras dos features:")
print(X_train[:2, :2])

print(f"\nÚltimas dos features de todas las casas:")
print(X_train[:, -2:])

## 5. 🧮 Reshape: Cambiando Formas de Arrays

**Reshape** es crucial en ML para:
- Convertir vectores 1D en matrices 2D
- Preparar datos para diferentes algoritmos
- Ajustar dimensiones para operaciones específicas

In [None]:
# 📍 RESHAPE EN ACCIÓN

# Vector original
vector_original = np.arange(12)
print(f"Vector original: {vector_original}")
print(f"Shape original: {vector_original.shape}")

# Diferentes reshapes
print(f"\n🔹 Diferentes formas:")

# Matriz 3x4
matriz_3x4 = vector_original.reshape(3, 4)
print(f"\nMatriz 3x4:")
print(matriz_3x4)
print(f"Shape: {matriz_3x4.shape}")

# Matriz 4x3
matriz_4x3 = vector_original.reshape(4, 3)
print(f"\nMatriz 4x3:")
print(matriz_4x3)

# Usando -1 (NumPy calcula automáticamente)
matriz_auto = vector_original.reshape(-1, 2)  # 6x2
print(f"\nMatriz con -1 (auto): {matriz_auto.shape}")
print(matriz_auto)

# Convertir a columna (común en ML)
columna = vector_original.reshape(-1, 1)
print(f"\nVector columna: {columna.shape}")
print(columna[:5])  # Solo primeros 5 elementos

# Volver a 1D
de_vuelta_1d = matriz_3x4.reshape(-1)  # o .flatten()
print(f"\nDe vuelta a 1D: {de_vuelta_1d}")
print(f"Shape: {de_vuelta_1d.shape}")

## 6. 🎯 Ejemplo Práctico: Simulando ML

Veamos cómo todo esto se conecta en un contexto de machine learning:

In [None]:
# 📍 EJEMPLO PRÁCTICO DE ML

print("🏠 Ejemplo: Predicción de Precios de Casas")
print("=" * 50)

# Dataset de casas (mismos datos de antes)
X_casas = np.array([[2104, 5, 1, 45],    # [tamaño_sqft, cuartos, pisos, edad]
                    [1416, 3, 2, 40],
                    [852,  2, 1, 35],
                    [1940, 4, 1, 10]])

# Precios reales (en miles)
y_casas = np.array([460, 232, 178, 500])

# Parámetros del modelo (simulados - como si ya entrenamos)
w = np.array([0.39, 18.75, -53.36, -26.42])  # Pesos para cada feature
b = 785.18  # Bias

print(f"📊 Dataset:")
print(f"X_casas shape: {X_casas.shape} (4 casas, 4 features)")
print(f"y_casas shape: {y_casas.shape} (4 precios)")
print(f"\nFeatures: [tamaño_sqft, cuartos, pisos, edad]")
print(f"Parámetros: w = {w}, b = {b}")

# Hacer predicciones para cada casa
print(f"\n🔮 Predicciones:")
for i in range(X_casas.shape[0]):
    # Extraer features de la casa i
    x_i = X_casas[i]  # Vector de features para casa i
    
    # Predicción usando producto punto: f(x) = w·x + b
    prediccion = np.dot(x_i, w) + b
    precio_real = y_casas[i]
    
    print(f"Casa {i+1}: {x_i} -> Predicción: ${prediccion:.1f}k, Real: ${precio_real}k")

# Predicción vectorizada (todas a la vez)
print(f"\n⚡ Predicción vectorizada:")
predicciones_todas = X_casas @ w + b  # @ es equivalente a np.dot para matrices
print(f"Predicciones: {predicciones_todas}")
print(f"Reales:       {y_casas}")
print(f"Errores:      {predicciones_todas - y_casas}")

## 7. 📈 Visualización de Operaciones Vectoriales

In [None]:
# 📍 VISUALIZACIÓN

# Crear datos para visualizar
x = np.linspace(0, 2*np.pi, 100)
y1 = np.sin(x)
y2 = np.cos(x)
y3 = y1 + y2  # Suma vectorial

# Crear gráfico
plt.figure(figsize=(12, 8))

# Subplot 1: Operaciones básicas
plt.subplot(2, 2, 1)
plt.plot(x, y1, label='sin(x)', linewidth=2)
plt.plot(x, y2, label='cos(x)', linewidth=2)
plt.plot(x, y3, label='sin(x) + cos(x)', linewidth=2, linestyle='--')
plt.title('🔹 Operaciones Vectoriales')
plt.xlabel('x')
plt.ylabel('y')
plt.legend()
plt.grid(True, alpha=0.3)

# Subplot 2: Comparación de velocidad
plt.subplot(2, 2, 2)
tamaños = [1000, 5000, 10000, 50000, 100000]
tiempos_numpy = []
tiempos_loop = []

for tamaño in tamaños:
    # Vector de prueba
    a = np.random.rand(tamaño)
    b = np.random.rand(tamaño)
    
    # Tiempo NumPy
    start = time.time()
    _ = np.dot(a, b)
    tiempo_np = (time.time() - start) * 1000  # en ms
    tiempos_numpy.append(tiempo_np)
    
    # Tiempo loop (solo para tamaños pequeños)
    if tamaño <= 10000:
        start = time.time()
        _ = dot_product_manual(a, b)
        tiempo_lp = (time.time() - start) * 1000
        tiempos_loop.append(tiempo_lp)
    else:
        tiempos_loop.append(np.nan)

plt.plot(tamaños, tiempos_numpy, 'o-', label='NumPy (vectorizado)', linewidth=2, markersize=6)
plt.plot(tamaños[:3], tiempos_loop[:3], 's-', label='Loop manual', linewidth=2, markersize=6)
plt.title('⚡ Comparación de Velocidad')
plt.xlabel('Tamaño del vector')
plt.ylabel('Tiempo (ms)')
plt.legend()
plt.grid(True, alpha=0.3)
plt.yscale('log')

# Subplot 3: Demostración de broadcasting
plt.subplot(2, 2, 3)
vector_base = np.array([1, 2, 3, 4, 5])
escalares = [0.5, 1, 1.5, 2]

for i, escalar in enumerate(escalares):
    resultado = vector_base * escalar
    plt.plot(resultado, 'o-', label=f'vector × {escalar}', linewidth=2, markersize=6)

plt.title('📡 Broadcasting: Vector × Escalar')
plt.xlabel('Índice')
plt.ylabel('Valor')
plt.legend()
plt.grid(True, alpha=0.3)

# Subplot 4: Ejemplo de reshape
plt.subplot(2, 2, 4)
data_1d = np.random.randn(20)
data_2d = data_1d.reshape(4, 5)

im = plt.imshow(data_2d, cmap='coolwarm', aspect='auto')
plt.title('🔄 Reshape: 1D → 2D Matrix')
plt.xlabel('Columnas')
plt.ylabel('Filas')
plt.colorbar(im, shrink=0.6)

plt.tight_layout()
plt.show()

print("📊 Gráficos generados exitosamente!")

## 8. 🧪 Ejercicios Prácticos

### Ejercicio 1: Manipulación Básica

In [None]:
# 🧪 EJERCICIO 1: Manipulación Básica

print("🧪 Ejercicio 1: Manipulación Básica")
print("=" * 40)

# Tu tarea: Crear un vector con los números del 0 al 19
# Luego reshapearlo a una matriz 4x5
# Después extraer la segunda fila
# Finalmente calcular la suma de esa fila

# SOLUCIÓN:
print("✅ Solución:")

# Paso 1: Crear vector 0-19
vector = np.arange(20)
print(f"Vector original: {vector}")

# Paso 2: Reshape a 4x5
matriz = vector.reshape(4, 5)
print(f"\nMatriz 4x5:")
print(matriz)

# Paso 3: Extraer segunda fila (índice 1)
segunda_fila = matriz[1, :]
print(f"\nSegunda fila: {segunda_fila}")

# Paso 4: Suma de la fila
suma_fila = np.sum(segunda_fila)
print(f"Suma de la segunda fila: {suma_fila}")

# Verificación manual
print(f"Verificación: 5+6+7+8+9 = {5+6+7+8+9}")

### Ejercicio 2: Producto Punto Personalizado

In [None]:
# 🧪 EJERCICIO 2: Producto Punto Personalizado

print("🧪 Ejercicio 2: Producto Punto Personalizado")
print("=" * 50)

# Dados estos vectores, calcula su producto punto de 3 formas diferentes:
a = np.array([2, 4, 6, 8])
b = np.array([1, 3, 5, 7])

print(f"Vector a: {a}")
print(f"Vector b: {b}")

# Método 1: Loop manual
resultado_1 = 0
for i in range(len(a)):
    resultado_1 += a[i] * b[i]

# Método 2: NumPy dot
resultado_2 = np.dot(a, b)

# Método 3: Sum de multiplicación elemento a elemento
resultado_3 = np.sum(a * b)

print(f"\n✅ Resultados:")
print(f"Método 1 (loop):      {resultado_1}")
print(f"Método 2 (np.dot):    {resultado_2}")
print(f"Método 3 (sum(a*b)):  {resultado_3}")
print(f"¿Todos iguales? {resultado_1 == resultado_2 == resultado_3}")

# Paso a paso
print(f"\n🔍 Cálculo paso a paso:")
for i in range(len(a)):
    print(f"{a[i]} × {b[i]} = {a[i] * b[i]}")
print(f"Suma total: {' + '.join([str(a[i] * b[i]) for i in range(len(a))])} = {resultado_1}")

### Ejercicio 3: Simulación de Dataset ML

In [None]:
# 🧪 EJERCICIO 3: Simulación de Dataset ML

print("🧪 Ejercicio 3: Simulación de Dataset ML")
print("=" * 45)

# Crear un dataset sintético para predicción de ventas
np.random.seed(42)

# Features: [presupuesto_marketing, empleados, años_experiencia]
n_ejemplos = 6
X_ventas = np.array([
    [10000, 25, 5],   # Empresa 1
    [15000, 30, 8],   # Empresa 2
    [5000,  15, 2],   # Empresa 3
    [20000, 40, 12],  # Empresa 4
    [8000,  20, 4],   # Empresa 5
    [25000, 50, 15]   # Empresa 6
])

# Ventas reales (en miles)
y_ventas = np.array([120, 180, 70, 280, 100, 350])

print(f"📊 Dataset de Ventas:")
print(f"Shape: {X_ventas.shape}")
print(f"Features: [presupuesto_marketing, empleados, años_experiencia]")
print(f"\nDatos:")
for i in range(n_ejemplos):
    print(f"Empresa {i+1}: {X_ventas[i]} -> Ventas: ${y_ventas[i]}k")

# Análisis estadístico básico
print(f"\n📈 Análisis Estadístico:")
feature_names = ['Presupuesto', 'Empleados', 'Experiencia']

for i, nombre in enumerate(feature_names):
    columna = X_ventas[:, i]
    print(f"{nombre}:")
    print(f"  Media: {np.mean(columna):.1f}")
    print(f"  Min: {np.min(columna)}, Max: {np.max(columna)}")
    print(f"  Std: {np.std(columna):.2f}")

print(f"\nVentas:")
print(f"  Media: {np.mean(y_ventas):.1f}k")
print(f"  Min: {np.min(y_ventas)}k, Max: {np.max(y_ventas)}k")

# Correlaciones simples (usando producto punto normalizado)
print(f"\n🔗 Correlaciones con Ventas:")
for i, nombre in enumerate(feature_names):
    feature = X_ventas[:, i]
    # Correlación de Pearson simplificada
    corr = np.corrcoef(feature, y_ventas)[0, 1]
    print(f"{nombre}: {corr:.3f}")

print(f"\n💡 Interpretación:")
print(f"- Valores cercanos a 1: correlación positiva fuerte")
print(f"- Valores cercanos a -1: correlación negativa fuerte")
print(f"- Valores cercanos a 0: poca correlación")

## 📚 Resumen de Conceptos Clave

### ✅ Lo que has aprendido:

1. **Vectores en NumPy**:
   - Creación: `np.zeros()`, `np.array()`, `np.arange()`
   - Indexing y slicing: `vector[0]`, `vector[2:5]`
   - Operaciones: suma, resta, multiplicación elemento a elemento

2. **Producto Punto**:
   - Fórmula: $a \cdot b = \sum_{i=0}^{n-1} a_i b_i$
   - Implementación: `np.dot(a, b)`
   - **Crucial** para predicciones ML: $f(x) = w \cdot x + b$

3. **Vectorización**:
   - **100x-1000x más rápido** que loops
   - Aprovecha paralelización de hardware
   - Código más limpio y legible

4. **Matrices (2D Arrays)**:
   - Representan datasets: filas = ejemplos, columnas = features
   - Indexing: `matriz[fila, columna]`
   - Slicing avanzado: `matriz[:, 0]` (primera columna)

5. **Reshape**:
   - Cambiar dimensiones: `array.reshape(filas, columnas)`
   - Auto-cálculo: `array.reshape(-1, columnas)`
   - Vector columna: `array.reshape(-1, 1)`

### 🚀 Próximos pasos:
- Aplicar vectorización en **funciones de costo**
- Implementar **gradient descent** vectorizado
- Trabajar con **datasets reales** de múltiples features

### 💡 Puntos clave para recordar:
- **Siempre usa NumPy** para operaciones matemáticas
- **Vectorización es fundamental** para ML escalable
- **Shape awareness** es crucial: siempre verifica las dimensiones
- **Producto punto** es la operación más importante en ML