In [None]:
# ======================================
# EJERCICIO PRÁCTICO: INGENIERÍA DE CARACTERÍSTICAS
# ======================================
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.decomposition import PCA
from scipy import stats

# --------------------------------------
# PARTE 1: ANÁLISIS EXPLORATORIO
# --------------------------------------
# Generamos datos sintéticos
np.random.seed(123)
horas_estudio = np.random.normal(15, 5, 100)
calificaciones = 50 + 2*horas_estudio + np.random.normal(0, 8, 100)
tiempo_descanso = np.random.exponential(10, 100)
edad = np.random.randint(18, 25, 100)

# Creamos un DataFrame
data = pd.DataFrame({
    'horas_estudio': horas_estudio,
    'calificaciones': calificaciones,
    'tiempo_descanso': tiempo_descanso,
    'edad': edad
})

# Añadimos outliers
data.loc[10] = [40, 30, 50, 30]  # outlier 1
data.loc[20] = [2, 90, 1, 17]     # outlier 2

# 1. Visualización inicial
plt.figure(figsize=(12, 8))
for i, col in enumerate(data.columns):
    plt.subplot(2, 2, i+1)
    plt.hist(data[col], bins=15, alpha=0.7)
    plt.title(f'Distribución de {col}')
    plt.xlabel(col)
plt.tight_layout()
plt.show()

# Pregunta 1: 
# ¿Qué características tienen distribución sesgada? 
# ¿Qué características tienen escalas diferentes?
# Respuesta: [COMPLETAR]

# --------------------------------------
# PARTE 2: ESCALADO DE CARACTERÍSTICAS
# --------------------------------------
# 2. Aplicar StandardScaler
scaler_z = StandardScaler()
data_z = pd.DataFrame(scaler_z.fit_transform(data), columns=data.columns)

# 3. Aplicar MinMaxScaler (a rango [0, 1])
scaler_minmax = MinMaxScaler()
data_minmax = pd.DataFrame(scaler_minmax.fit_transform(data), columns=data.columns)

# Visualización comparativa
plt.figure(figsize=(15, 4))

plt.subplot(1, 3, 1)
plt.boxplot(data.values)
plt.xticks(range(1, len(data.columns)+1), data.columns)
plt.title('Datos Originales')

plt.subplot(1, 3, 2)
plt.boxplot(data_z.values)
plt.xticks(range(1, len(data.columns)+1), data.columns)
plt.title('StandardScaler')

plt.subplot(1, 3, 3)
plt.boxplot(data_minmax.values)
plt.xticks(range(1, len(data.columns)+1), data.columns)
plt.title('MinMaxScaler [0-1]')

plt.tight_layout()
plt.show()

# Pregunta 2: 
# ¿Cómo afectan los outliers a cada método de escalado?
# ¿Qué método sería más adecuado para un modelo KNN y por qué?
# Respuesta: [COMPLETAR]

# --------------------------------------
# PARTE 3: TRANSFORMACIONES
# --------------------------------------
# 4. Aplicar transformación logarítmica a 'tiempo_descanso'
data_log = data.copy()
# COMPLETAR: Aplicar transformación logarítmica (recuerda sumar 1 para evitar log(0))
data_log['tiempo_descanso'] = 

# 5. Calcular sesgo (skewness) antes y después
skew_original = stats.skew(data['tiempo_descanso'])
skew_log = stats.skew(data_log['tiempo_descanso'])

print(f"Sesgo original: {skew_original:.2f}")
print(f"Sesgo después de log: {skew_log:.2f}")

# Visualización
plt.figure(figsize=(10, 4))

plt.subplot(1, 2, 1)
plt.hist(data['tiempo_descanso'], bins=15)
plt.title('Original')

plt.subplot(1, 2, 2)
plt.hist(data_log['tiempo_descanso'], bins=15)
plt.title('Transformación Logarítmica')

plt.tight_layout()
plt.show()

# Pregunta 3: 
# ¿Por qué es importante reducir el sesgo en las características?
# ¿Qué otras transformaciones podrían ser útiles para estos datos?
# Respuesta: [COMPLETAR]

# --------------------------------------
# PARTE 4: PCA Y REDUCCIÓN DE DIMENSIONALIDAD
# --------------------------------------
# 6. PCA sin escalado
pca_raw = PCA()
# COMPLETAR: Ajustar PCA a los datos originales

# 7. PCA con StandardScaler
pca_scaled = PCA()
# COMPLETAR: Ajustar PCA a los datos escalados

# Varianza explicada
plt.figure(figsize=(10, 4))

plt.subplot(1, 2, 1)
# COMPLETAR: Graficar varianza acumulada para PCA sin escalado
plt.title('Varianza explicada (sin escalar)')
plt.xlabel('Número de componentes')
plt.ylabel('Varianza acumulada')

plt.subplot(1, 2, 2)
# COMPLETAR: Graficar varianza acumulada para PCA con escalado
plt.title('Varianza explicada (con escalado)')
plt.xlabel('Número de componentes')

plt.tight_layout()
plt.show()

# 8. Proyección de datos en 2 componentes
plt.figure(figsize=(10, 4))

plt.subplot(1, 2, 1)
# COMPLETAR: Graficar proyección de datos sin escalado
plt.scatter(..., ..., c=data['calificaciones'])
plt.colorbar(label='Calificaciones')
plt.title('PCA sin escalado')
plt.xlabel('PC1')
plt.ylabel('PC2')

plt.subplot(1, 2, 2)
# COMPLETAR: Graficar proyección de datos con escalado
plt.scatter(..., ..., c=data['calificaciones'])
plt.colorbar(label='Calificaciones')
plt.title('PCA con StandardScaler')
plt.xlabel('PC1')

plt.tight_layout()
plt.show()

# Pregunta 4: 
# ¿Por qué los resultados de PCA son tan diferentes con y sin escalado?
# ¿Cuántos componentes se necesitan para explicar el 95% de la varianza en cada caso?
# Respuesta: [COMPLETAR]

# --------------------------------------
# PARTE 5: INTERPRETACIÓN DE COMPONENTES
# --------------------------------------
# 9. Función para imprimir componentes
def print_components(pca, features):
    for i, component in enumerate(pca.components_):
        print(f"Componente Principal {i+1}:")
        for j, weight in enumerate(component):
            print(f"  {features[j]}: {weight:.3f}")
        print(f"  Varianza explicada: {pca.explained_variance_ratio_[i]:.2%}")
        print()

print("=== SIN ESCALAR ===")
print_components(pca_raw, data.columns)

print("\n=== CON STANDARDSCALER ===")
print_components(pca_scaled, data.columns)

# Pregunta 5: 
# ¿Qué características contribuyen más al primer componente principal en cada caso?
# ¿Por qué PCA con escalado da una interpretación más equilibrada?
# Respuesta: [COMPLETAR]