In [1]:
# SECCIÓN 1: Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from src.data.loader import DataLoader
from src.data.preprocessor import DataCleaner


ModuleNotFoundError: No module named 'src'

In [None]:

# SECCIÓN 2: Cargar Datos
loader = DataLoader()
df = loader.load_data("data/raw/Consolidado PQRS 25-03-2015.xlsx")
print(f"Dataset cargado: {df.shape}")

# SECCIÓN 3: Validar
is_valid, errors = loader.validate_data()
if is_valid:
    print("✓ Datos válidos")
else:
    print(f"✗ Errores: {errors}")

# SECCIÓN 4: Exploración
summary = loader.get_summary_statistics()
print(summary)


In [None]:

# SECCIÓN 5: Análisis Exploratorio
eda = {
    "Total PQRS": len(df),
    "Entidades": df["ENTIDAD RESPONSABLE"].value_counts().to_dict(),
    "Tipos de Hecho": df["TIPOS DE HECHO"].value_counts().to_dict(),
    "Estados": df["ESTADO"].value_counts().to_dict(),
}

print("\n=== ANÁLISIS EXPLORATORIO ===")
for key, value in eda.items():
    print(f"\n{key}:")
    print(value)



In [None]:
# SECCIÓN 6: Visualizaciones
fig, axes = plt.subplots(2, 2, figsize=(12, 8))

# Entidades
df["ENTIDAD RESPONSABLE"].value_counts().plot(kind='bar', ax=axes[0, 0])
axes[0, 0].set_title("Distribución de Entidades")

# Tipos
df["TIPOS DE HECHO"].value_counts().plot(kind='bar', ax=axes[0, 1])
axes[0, 1].set_title("Distribución de Tipos de Hecho")

# Estados
df["ESTADO"].value_counts().plot(kind='bar', ax=axes[1, 0])
axes[1, 0].set_title("Distribución de Estados")

# Longitud texto
df["DESCRIPCION DEL HECHO"].str.len().hist(ax=axes[1, 1], bins=30)
axes[1, 1].set_title("Distribución de Longitud de Texto")

plt.tight_layout()
plt.show()


In [None]:

# SECCIÓN 7: Limpiar Datos
cleaner = DataCleaner()
df_clean = cleaner.clean_dataframe(df)
print(f"\n✓ Datos limpios: {df_clean.shape}")

# SECCIÓN 8: Extraer Features
df_features = cleaner.extract_features(df_clean)
print(f"Features extraidas: {df_features.columns.tolist()}")


In [None]:
# SECCIÓN 9: Guardar
df_clean.to_csv("data/processed/pqrs_clean.csv", index=False)
print("✓ Datos guardados en data/processed/pqrs_clean.csv")