In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# Configuraci√≥n para que los gr√°ficos se vean bonitos
sns.set(style="whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)
import warnings
warnings.filterwarnings('ignore') # Ocultar advertencias molestas

print("‚úÖ Librer√≠as cargadas correctamente.")

In [None]:
# CAMBIA ESTO POR EL NOMBRE DE TU ARCHIVO
NOMBRE_ARCHIVO = 'tu_dataset.csv' 

try:
    df = pd.read_csv(NOMBRE_ARCHIVO)
    print(f"‚úÖ Archivo cargado. Dimensiones: {df.shape[0]} filas, {df.shape[1]} columnas")
except FileNotFoundError:
    print(f"‚ùå ERROR: No encuentro el archivo '{NOMBRE_ARCHIVO}'.")
    print("Aseg√∫rate de que el archivo .csv est√© en la misma carpeta que este notebook.")
    # Datos falsos de emergencia por si pruebas esto sin archivo
    df = pd.DataFrame({
        'Edad': [25, 30, 35, 40, 150, np.nan, 28, 33],
        'Sueldo': [2500, 3000, 3500, 4000, 4200, 2800, np.nan, 3100],
        'Ciudad': ['Quito', 'Guayaquil', 'Quito', 'Cuenca', 'Quito', 'Guayaquil', 'Cuenca', 'Quito']
    })

In [None]:
print("--- Vista Previa ---")
display(df.head())

print("\n--- Estad√≠sticas B√°sicas ---")
display(df.describe())

# Separaci√≥n autom√°tica de columnas
cols_numericas = df.select_dtypes(include=[np.number]).columns.tolist()
cols_categoricas = df.select_dtypes(include=['object', 'category']).columns.tolist()

print(f"\nüî¢ Num√©ricas: {cols_numericas}")
print(f"üî§ Categ√≥ricas: {cols_categoricas}")

In [None]:
print("--- Generando gr√°ficos... ---")
for col in cols_numericas:
    plt.figure(figsize=(12, 4))
    
    # Histograma
    plt.subplot(1, 2, 1)
    sns.histplot(df[col], kde=True, bins=20)
    plt.title(f'Distribuci√≥n: {col}')
    
    # Boxplot
    plt.subplot(1, 2, 2)
    sns.boxplot(x=df[col], color='orange')
    plt.title(f'Detectar Outliers: {col}')
    
    plt.show()

In [None]:
print("--- Analizando Valores Nulos ---")
print(df.isnull().sum())

# Estrategia de Imputaci√≥n
if len(cols_numericas) > 0:
    imputer_num = SimpleImputer(strategy='mean')
    df[cols_numericas] = imputer_num.fit_transform(df[cols_numericas])

if len(cols_categoricas) > 0:
    imputer_cat = SimpleImputer(strategy='most_frequent')
    df[cols_categoricas] = imputer_cat.fit_transform(df[cols_categoricas])

print("\n‚úÖ Valores nulos rellenados (Imputaci√≥n completada).")

In [None]:
print("--- 1. Convirtiendo texto a n√∫meros (Encoding) ---")
df_procesado = pd.get_dummies(df, columns=cols_categoricas, drop_first=True)
display(df_procesado.head())

print("\n--- 2. Estandarizando datos (Scaling) ---")
scaler = StandardScaler()
df_escalado = pd.DataFrame(scaler.fit_transform(df_procesado), columns=df_procesado.columns)
display(df_escalado.head())

In [None]:
# Matriz de Correlaci√≥n
plt.figure(figsize=(10, 8))
sns.heatmap(df_escalado.corr(), annot=True, fmt=".2f", cmap='coolwarm')
plt.title("Mapa de Calor de Correlaci√≥n")
plt.show()

# PCA (An√°lisis de Componentes Principales)
print("--- Aplicando PCA ---")
pca = PCA()
pca.fit(df_escalado)

varianza = pca.explained_variance_ratio_
print(f"Varianza explicada por componente: {varianza}")
print(f"Varianza acumulada: {np.cumsum(varianza)}")

# Gr√°fico de la varianza
plt.figure(figsize=(8, 5))
plt.plot(range(1, len(varianza)+1), np.cumsum(varianza), marker='o', linestyle='--')
plt.xlabel('N√∫mero de Componentes')
plt.ylabel('Varianza Acumulada')
plt.title('An√°lisis de PCA')
plt.grid(True)
plt.show()