## Cuaderno de modelado

In [1]:
# SECCIÓN 1: Imports
from notebooks.modeling import ModelingPipeline
import logging
logging.basicConfig(level=logging.INFO)

# SECCIÓN 2: Crear Pipeline
pipeline = ModelingPipeline()

# SECCIÓN 3: Cargar Datos
df = pipeline.load_data("data/processed/pqrs_clean.csv")
print(f"Registros cargados: {len(df)}")


INFO:notebooks.modeling:✓ Loaded 181 records from data/processed/pqrs_clean.csv


Registros cargados: 181


In [2]:

# SECCIÓN 4: EDA
eda = pipeline.explore_data()
print("\n=== EDA RESULTS ===")
print(f"Shape: {eda['shape']}")
print(f"\nEntidades:")
for entity, count in eda['entity_distribution'].items():
    print(f"  {entity}: {count}")



INFO:notebooks.modeling:✓ EDA completed



=== EDA RESULTS ===
Shape: (181, 38)

Entidades:
  SIF: 108
  Contratista: 57
  Municipio: 6
  Interventor: 3
  Otra: 2
  DAPARD: 2
  Secretaria de Gobierno: 2
  Otra (ADMINISTRACION MUNICIPAL DE ARBOLETES, COMUNIDAD Y GOBERNACION DE ANTIOQUIA): 1


In [3]:
# NUEVA SECCIÓN 4.5: DIAGNOSIS (OPCIONAL - para debug)
print("\n=== DIAGNOSTICANDO CLASES ===")
pipeline.diagnose_classes()

INFO:notebooks.modeling:
INFO:notebooks.modeling:CLASS DIAGNOSIS REPORT
INFO:notebooks.modeling:
ENTIDAD RESPONSABLE Distribution:
INFO:notebooks.modeling:  SIF                           : 108 registros ✓ OK
INFO:notebooks.modeling:  Contratista                   :  57 registros ✓ OK
INFO:notebooks.modeling:  Municipio                     :   6 registros ✓ OK
INFO:notebooks.modeling:  Interventor                   :   3 registros ✓ OK
INFO:notebooks.modeling:  Otra                          :   2 registros ✓ OK
INFO:notebooks.modeling:  DAPARD                        :   2 registros ✓ OK
INFO:notebooks.modeling:  Secretaria de Gobierno        :   2 registros ✓ OK
INFO:notebooks.modeling:  Otra (ADMINISTRACION MUNICIPAL DE ARBOLETES, COMUNIDAD Y GOBERNACION DE ANTIOQUIA):   1 registros ✗ PROBLEMA
INFO:notebooks.modeling:
  Total entidades: 8
INFO:notebooks.modeling:  Válidas (>=2): 7
INFO:notebooks.modeling:  Problemáticas (<2): 1
INFO:notebooks.modeling:
TIPOS DE HECHO Distribution:
INFO


=== DIAGNOSTICANDO CLASES ===


In [4]:
# SECCIÓN 5: Preparar Features
pipeline.prepare_features(test_size=0.2)
print(f"\nFeatures preparadas:")
# print(f"  Train: {len(pipeline.X_train)} registros")
# print(f"Train: {pipeline.X_train.shape[0]} registros")
print(f"Train: {pipeline.X_train.getnnz()} registros")
print(f"  Test: {pipeline.X_test.getnnz()} registros")

INFO:notebooks.modeling:Preparing features...
INFO:notebooks.modeling:Vectorizing text with TF-IDF...
INFO:notebooks.modeling:  ✓ Vectorized: (181, 1000)
INFO:notebooks.modeling:Filtering minority classes...
INFO:notebooks.modeling:  Entity classes valid: 7/8
INFO:notebooks.modeling:  Issue classes valid: 8/9
INFO:notebooks.modeling:  Registros antes filtro: 181
INFO:notebooks.modeling:  Registros después filtro: 179
INFO:notebooks.modeling:Performing train/test split...
INFO:notebooks.modeling:  ✓ Split estratificado exitoso
INFO:notebooks.modeling:Applying SMOTE on training data...
INFO:notebooks.modeling:  Desbalance detectado (min: 2 ejemplos)
INFO:notebooks.modeling:  Usando class_weight='balanced' en modelos en su lugar.



Features preparadas:
Train: 5713 registros
  Test: 1787 registros


In [5]:
# SECCIÓN 6: Entrenar Entidad
print("\n=== ENTRENANDO ENTITY CLASSIFIER ===")
entity_results = pipeline.train_entity_classifier()

print(f"Accuracy: {entity_results['accuracy']:.3f}")
print(f"F1-Score: {entity_results['f1']:.3f}")
print(f"Precision: {entity_results['precision']:.3f}")
print(f"Recall: {entity_results['recall']:.3f}")

INFO:notebooks.modeling:Training entity classifier...
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))



=== ENTRENANDO ENTITY CLASSIFIER ===


INFO:notebooks.modeling:✓ Entity classifier trained - F1: 0.702


Accuracy: 0.722
F1-Score: 0.702
Precision: 0.683
Recall: 0.722


In [6]:
# SECCIÓN 7: Entrenar Issue
print("\n=== ENTRENANDO ISSUE CLASSIFIER ===")
issue_results = pipeline.train_issue_classifier()
print(f"Accuracy: {issue_results['accuracy']:.3f}")
print(f"F1-Score: {issue_results['f1']:.3f}")



INFO:notebooks.modeling:Training issue type classifier...



=== ENTRENANDO ISSUE CLASSIFIER ===


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
INFO:notebooks.modeling:✓ Issue classifier trained - F1: 0.277


Accuracy: 0.361
F1-Score: 0.277


In [7]:
# SECCIÓN 8: Evaluar
print("\n=== EVALUACIÓN COMPLETA ===")
evaluation = pipeline.evaluate_models()



INFO:notebooks.modeling:Evaluating models...
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
INFO:notebooks.modeling:✓ Models evaluated



=== EVALUACIÓN COMPLETA ===


In [8]:
# SECCIÓN 9: Guardar Modelos
pipeline.save_models("models/v1")
print("\n✓ Modelos guardados en models/v1/")



INFO:notebooks.modeling:✓ Models saved to models/v1



✓ Modelos guardados en models/v1/


In [9]:
# SECCIÓN 10: Prueba de Predicción
print("\n=== PRUEBA DE PREDICCIÓN ===")
test_text = "FALTA PRESENCIA DEL INGENIERO PARA REALIZAR CONTROL"
prediction = pipeline.predict(test_text)
print(f"Texto: {test_text}")
print(f"Entidad predicha: {prediction['entity']} ({prediction['entity_confidence']:.1%})")
print(f"Tipo predicho: {prediction['issue']} ({prediction['issue_confidence']:.1%})")


=== PRUEBA DE PREDICCIÓN ===
Texto: FALTA PRESENCIA DEL INGENIERO PARA REALIZAR CONTROL
Entidad predicha: Contratista (25.9%)
Tipo predicho: Ingeniería de la obra (51.8%)
