In [4]:
# Instalar openpyxl para leer archivos Excel
# Solo necesitas ejecutar esta celda UNA VEZ
%pip install openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Downloading et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: et-xmlfile, openpyxl

   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   ---------------------------------------- 2/2 [openp

## CELDA 1: Instalar openpyxl (solo primera vez)

# Procesamiento de Excel: Proyectos y Brechas

Este notebook procesa el archivo Excel `proyecto_brecha.xlsx` y genera los archivos CSV requeridos:
- `brechas.csv` (id, brecha)
- `proyectos.csv` (project_id, title, description, brecha_ids)

## Instrucciones:
1. **Ejecuta la CELDA 1** para instalar openpyxl (solo la primera vez)
2. Coloca tu archivo `proyecto_brecha.xlsx` en la carpeta `predata/input/`
3. Ejecuta todas las celdas en orden
4. Los archivos CSV se generar√°n en `predata/output/`

## CELDA 2: Importar librer√≠as

In [5]:
# Importar librer√≠as necesarias
import pandas as pd
from pathlib import Path
import sys

## CELDA 3: Configurar rutas

In [6]:
# Obtener directorio ra√≠z del proyecto (asumiendo que el notebook est√° en project/predata/)
PROJECT_ROOT = Path.cwd().parent if Path.cwd().name == 'predata' else Path.cwd()

# Rutas de entrada y salida
input_file = PROJECT_ROOT / "predata" / "input" / "proyecto_brecha.xlsx"
output_dir = PROJECT_ROOT / "predata" / "output"

# Crear directorio de salida si no existe
output_dir.mkdir(parents=True, exist_ok=True)

print(f"üìÇ Ruta del proyecto: {PROJECT_ROOT}")
print(f"üìÇ Archivo de entrada: {input_file}")
print(f"üìÇ Directorio de salida: {output_dir}")

üìÇ Ruta del proyecto: d:\UPC\SEPTIMO CICLO\MODULO REGULAR\Proyecto de Investigaci√≥n 1\TRABAJO\TP1\Modelo\project
üìÇ Archivo de entrada: d:\UPC\SEPTIMO CICLO\MODULO REGULAR\Proyecto de Investigaci√≥n 1\TRABAJO\TP1\Modelo\project\predata\input\proyecto_brecha.xlsx
üìÇ Directorio de salida: d:\UPC\SEPTIMO CICLO\MODULO REGULAR\Proyecto de Investigaci√≥n 1\TRABAJO\TP1\Modelo\project\predata\output


## CELDA 4: Leer archivo Excel

In [7]:
# Verificar que existe el archivo de entrada
if not input_file.exists():
    print(f"‚ùå ERROR: No se encontr√≥ el archivo {input_file}")
    print(f"   Aseg√∫rate de que el archivo existe en la ruta correcta.")
    raise FileNotFoundError(f"No se encontr√≥ {input_file}")

print(f"üìÇ Leyendo archivo: {input_file}")

# Leer el Excel (detecta autom√°ticamente la primera hoja)
df = pd.read_excel(input_file)
print(f"‚úÖ Archivo cargado: {len(df)} filas encontradas")

# Mostrar columnas disponibles
print(f"\nüìã Columnas encontradas en el Excel:")
for i, col in enumerate(df.columns, 1):
    print(f"   {i}. {col}")

# Mostrar primeras 5 filas
print(f"\nüìä Primeras 5 filas del Excel:")
df.head()

üìÇ Leyendo archivo: d:\UPC\SEPTIMO CICLO\MODULO REGULAR\Proyecto de Investigaci√≥n 1\TRABAJO\TP1\Modelo\project\predata\input\proyecto_brecha.xlsx
‚úÖ Archivo cargado: 817 filas encontradas

üìã Columnas encontradas en el Excel:
   1. project
   2. brecha

üìä Primeras 5 filas del Excel:
‚úÖ Archivo cargado: 817 filas encontradas

üìã Columnas encontradas en el Excel:
   1. project
   2. brecha

üìä Primeras 5 filas del Excel:


Unnamed: 0,project,brecha
0,CONSTRUCCION DE VEREDAS Y RECONSTRUCCION DE PI...,PORCENTAJE DE LA POBLACI√ìN URBANA SIN ACCESO A...
1,MEJORAMIENTO DE VEREDAS EN LA AVENIDA PUYA RAY...,PORCENTAJE DE LA POBLACI√ìN URBANA SIN ACCESO A...
2,MEJORAMIENTO DE LA INFRAESTRUCTURA VIAL Y PEAT...,PORCENTAJE DE LA POBLACI√ìN URBANA SIN ACCESO A...
3,MEJORAMIENTO DE AV. JORGE BASADRE GROHMANN DES...,PORCENTAJE DE LA POBLACI√ìN URBANA SIN ACCESO A...
4,FORTALECIMIENTO DEL SERVICIO DE LIMPIEZA PUBLI...,PORCENTAJE DE POBLACI√ìN NO ATENDIDA POR UN ADE...


## CELDA 5: Configurar nombres de columnas

**IMPORTANTE:** Modifica estas variables seg√∫n los nombres de tus columnas en el Excel:

In [8]:
# ====================================================================
# CONFIGURACI√ìN DE COLUMNAS
# ====================================================================
# Cambia estos valores seg√∫n los nombres de las columnas en tu Excel

# Nombre de la columna con el t√≠tulo del proyecto
titulo_col = "project"  # ‚Üê CAMBIA AQU√ç si tu columna tiene otro nombre

# Nombre de la columna con el nombre de la brecha
brecha_col = "brecha"  # ‚Üê CAMBIA AQU√ç si tu columna tiene otro nombre

# Nombre de la columna con la descripci√≥n del proyecto (opcional)
# Si no hay columna de descripci√≥n, deja como None
descripcion_col = None  # ‚Üê CAMBIA AQU√ç si tienes columna de descripci√≥n (ej: "descripcion")

# ====================================================================

# Verificar que las columnas existen
if titulo_col not in df.columns:
    raise ValueError(f"‚ùå ERROR: La columna '{titulo_col}' no existe en el Excel")

if brecha_col not in df.columns:
    raise ValueError(f"‚ùå ERROR: La columna '{brecha_col}' no existe en el Excel")

if descripcion_col and descripcion_col not in df.columns:
    print(f"‚ö†Ô∏è ADVERTENCIA: La columna '{descripcion_col}' no existe. Se usar√° el t√≠tulo como descripci√≥n.")
    descripcion_col = None

print(f"‚úÖ Configuraci√≥n v√°lida:")
print(f"   - Columna de t√≠tulo: '{titulo_col}'")
print(f"   - Columna de brecha: '{brecha_col}'")
print(f"   - Columna de descripci√≥n: {descripcion_col if descripcion_col else 'No especificada (se usar√° el t√≠tulo)'}")

‚úÖ Configuraci√≥n v√°lida:
   - Columna de t√≠tulo: 'project'
   - Columna de brecha: 'brecha'
   - Columna de descripci√≥n: No especificada (se usar√° el t√≠tulo)


## CELDA 6: Limpiar datos

In [9]:
# Limpiar datos: eliminar filas con valores nulos en columnas cr√≠ticas
print(f"üìä Filas antes de limpiar: {len(df)}")
df_clean = df.dropna(subset=[titulo_col, brecha_col]).copy()
print(f"‚úÖ Filas despu√©s de limpiar valores nulos: {len(df_clean)}")

if len(df) != len(df_clean):
    print(f"‚ö†Ô∏è Se eliminaron {len(df) - len(df_clean)} filas con valores nulos")

üìä Filas antes de limpiar: 817
‚úÖ Filas despu√©s de limpiar valores nulos: 817


## CELDA 7: Generar brechas.csv

In [10]:
# Obtener lista √∫nica de brechas
brechas_unicas = df_clean[brecha_col].unique()
print(f"üìä Total de brechas √∫nicas encontradas: {len(brechas_unicas)}")

# Crear DataFrame de brechas con IDs
brechas_df = pd.DataFrame({
    'id': range(1, len(brechas_unicas) + 1),
    'brecha': brechas_unicas
})

# Ordenar alfab√©ticamente por nombre de brecha (opcional)
brechas_df = brechas_df.sort_values('brecha').reset_index(drop=True)
brechas_df['id'] = range(1, len(brechas_df) + 1)

# Guardar brechas.csv
brechas_output = output_dir / "brechas.csv"
brechas_df.to_csv(brechas_output, index=False, encoding='utf-8-sig')

print(f"\n‚úÖ Generado: {brechas_output}")
print(f"   Total de brechas √∫nicas: {len(brechas_df)}")
print(f"\nüìã Lista de brechas:")
brechas_df

üìä Total de brechas √∫nicas encontradas: 47

‚úÖ Generado: d:\UPC\SEPTIMO CICLO\MODULO REGULAR\Proyecto de Investigaci√≥n 1\TRABAJO\TP1\Modelo\project\predata\output\brechas.csv
   Total de brechas √∫nicas: 47

üìã Lista de brechas:


Unnamed: 0,id,brecha
0,1,INDICADOR DE BRECHA POR DEFINIR
1,2,PORCENTAJE DE ALIMENTOS AGROPECUARIOS DE PRODU...
2,3,PORCENTAJE DE CAPITALES DE DISTRITO QUE NO CUE...
3,4,PORCENTAJE DE CEMENTERIOS CON CAPACIDAD INSTAL...
4,5,PORCENTAJE DE CENTROS CUNA M√ÅS EN CONDICIONES ...
5,6,PORCENTAJE DE CENTROS DE DESARROLLO INTEGRAL D...
6,7,PORCENTAJE DE CENTROS DE EDUCACI√ìN B√ÅSICA ESPE...
7,8,PORCENTAJE DE CENTROS DE PROMOCI√ìN Y VIGILANCI...
8,9,PORCENTAJE DE COMISAR√çAS B√ÅSICAS QUE OPERAN EN...
9,10,"PORCENTAJE DE DISTRITOS CON M√ÅS DE 20,000 HABI..."


## CELDA 8: Generar proyectos.csv

In [11]:
# Crear diccionario para mapear brecha -> brecha_id
brecha_to_id = dict(zip(brechas_df['brecha'], brechas_df['id']))

# Asignar project_id secuencial
df_clean['project_id'] = range(1, len(df_clean) + 1)

# Mapear nombre de brecha a brecha_id
df_clean['brecha_ids'] = df_clean[brecha_col].map(brecha_to_id)

# Crear columna de descripci√≥n
if descripcion_col:
    df_clean['description'] = df_clean[descripcion_col].fillna(df_clean[titulo_col])
else:
    # Si no hay columna de descripci√≥n, usar el t√≠tulo como descripci√≥n
    df_clean['description'] = df_clean[titulo_col]

# Crear DataFrame final de proyectos
proyectos_df = df_clean[[
    'project_id',
    titulo_col,
    'description',
    'brecha_ids'
]].copy()

# Renombrar columnas al formato requerido
proyectos_df.columns = ['project_id', 'title', 'description', 'brecha_ids']

# Convertir brecha_ids a string (formato "1" o "1,3" para multi-label)
proyectos_df['brecha_ids'] = proyectos_df['brecha_ids'].astype(str)

# Guardar proyectos.csv
proyectos_output = output_dir / "proyectos.csv"
proyectos_df.to_csv(proyectos_output, index=False, encoding='utf-8-sig')

print(f"\n‚úÖ Generado: {proyectos_output}")
print(f"   Total de proyectos: {len(proyectos_df)}")
print(f"\nüìã Primeros 10 proyectos:")
proyectos_df.head(10)


‚úÖ Generado: d:\UPC\SEPTIMO CICLO\MODULO REGULAR\Proyecto de Investigaci√≥n 1\TRABAJO\TP1\Modelo\project\predata\output\proyectos.csv
   Total de proyectos: 817

üìã Primeros 10 proyectos:


Unnamed: 0,project_id,title,description,brecha_ids
0,1,CONSTRUCCION DE VEREDAS Y RECONSTRUCCION DE PI...,CONSTRUCCION DE VEREDAS Y RECONSTRUCCION DE PI...,18
1,2,MEJORAMIENTO DE VEREDAS EN LA AVENIDA PUYA RAY...,MEJORAMIENTO DE VEREDAS EN LA AVENIDA PUYA RAY...,18
2,3,MEJORAMIENTO DE LA INFRAESTRUCTURA VIAL Y PEAT...,MEJORAMIENTO DE LA INFRAESTRUCTURA VIAL Y PEAT...,18
3,4,MEJORAMIENTO DE AV. JORGE BASADRE GROHMANN DES...,MEJORAMIENTO DE AV. JORGE BASADRE GROHMANN DES...,18
4,5,FORTALECIMIENTO DEL SERVICIO DE LIMPIEZA PUBLI...,FORTALECIMIENTO DEL SERVICIO DE LIMPIEZA PUBLI...,36
5,6,CONSTRUCCION DE VEREDAS Y BERMAS EN LA AV. CRI...,CONSTRUCCION DE VEREDAS Y BERMAS EN LA AV. CRI...,18
6,7,CONSTRUCCION DE PARQUE EN LA JUNTA VECINAL LA...,CONSTRUCCION DE PARQUE EN LA JUNTA VECINAL LA...,30
7,8,MEJORAMIENTO Y AMPLIACION DE LOS SERVICIOS DE ...,MEJORAMIENTO Y AMPLIACION DE LOS SERVICIOS DE ...,12
8,9,AMPLIACION DEL SISTEMA DE AGUA POTABLE Y ALCA...,AMPLIACION DEL SISTEMA DE AGUA POTABLE Y ALCA...,20
9,10,MEJORAMIENTO DE LA PRODUCCI√ìN DE CAF√â Y CACAO...,MEJORAMIENTO DE LA PRODUCCI√ìN DE CAF√â Y CACAO...,38


## CELDA 9: Resumen y estad√≠sticas

In [12]:
print("="*80)
print("üìä RESUMEN DE PROCESAMIENTO")
print("="*80)
print(f"‚úÖ Brechas √∫nicas: {len(brechas_df)}")
print(f"‚úÖ Proyectos procesados: {len(proyectos_df)}")
print(f"\nüìÇ Archivos generados:")
print(f"   - {brechas_output}")
print(f"   - {proyectos_output}")

# Mostrar distribuci√≥n de proyectos por brecha
print(f"\nüìä Distribuci√≥n de proyectos por brecha:")
distribucion = proyectos_df['brecha_ids'].value_counts().sort_index()

for brecha_id, count in distribucion.items():
    brecha_id_int = int(brecha_id) if brecha_id.isdigit() else None
    if brecha_id_int and brecha_id_int in brechas_df['id'].values:
        brecha_nombre = brechas_df[brechas_df['id'] == brecha_id_int]['brecha'].iloc[0]
        print(f"   Brecha {brecha_id}: {count} proyectos - {brecha_nombre[:60]}...")

print("\n" + "="*80)
print("‚úÖ PROCESAMIENTO COMPLETADO EXITOSAMENTE")
print("="*80)
print("\nüí° Pr√≥ximo paso:")
print("   Copia los archivos generados a la carpeta 'data/':")
print(f"   - Copiar {brechas_output.relative_to(PROJECT_ROOT)} ‚Üí data/brechas.csv")
print(f"   - Copiar {proyectos_output.relative_to(PROJECT_ROOT)} ‚Üí data/proyectos.csv")
print("\n   Comando PowerShell:")
print("   Copy-Item predata\\output\\*.csv data\\")
print("="*80)

üìä RESUMEN DE PROCESAMIENTO
‚úÖ Brechas √∫nicas: 47
‚úÖ Proyectos procesados: 817

üìÇ Archivos generados:
   - d:\UPC\SEPTIMO CICLO\MODULO REGULAR\Proyecto de Investigaci√≥n 1\TRABAJO\TP1\Modelo\project\predata\output\brechas.csv
   - d:\UPC\SEPTIMO CICLO\MODULO REGULAR\Proyecto de Investigaci√≥n 1\TRABAJO\TP1\Modelo\project\predata\output\proyectos.csv

üìä Distribuci√≥n de proyectos por brecha:
   Brecha 1: 1 proyectos - INDICADOR DE BRECHA POR DEFINIR...
   Brecha 10: 1 proyectos - PORCENTAJE DE DISTRITOS CON M√ÅS DE 20,000 HABITANTES QUE NO ...
   Brecha 11: 2 proyectos - PORCENTAJE DE DISTRITOS QUE NO CUENTAN CON AL MENOS UNA ESTA...
   Brecha 12: 11 proyectos - PORCENTAJE DE HORAS AL D√çA SIN SERVICIO DE AGUA POTABLE EN E...
   Brecha 13: 28 proyectos - PORCENTAJE DE INSTALACIONES DEPORTIVAS Y /O RECREATIVAS EN C...
   Brecha 14: 1 proyectos - PORCENTAJE DE LA DEMANDA DE ENERG√çA EL√âCTRICA NO ATENDIDA ME...
   Brecha 15: 1 proyectos - PORCENTAJE DE LA POBLACION RURAL Y RURA

## CELDA 10 (OPCIONAL): Copiar autom√°ticamente a la carpeta data/

In [13]:
# Descomenta y ejecuta esta celda si quieres copiar autom√°ticamente los archivos a data/

import shutil

data_dir = PROJECT_ROOT / "data"
data_dir.mkdir(parents=True, exist_ok=True)

# Copiar brechas.csv
shutil.copy(brechas_output, data_dir / "brechas.csv")
print(f"‚úÖ Copiado: {brechas_output} ‚Üí {data_dir / 'brechas.csv'}")

# Copiar proyectos.csv
shutil.copy(proyectos_output, data_dir / "proyectos.csv")
print(f"‚úÖ Copiado: {proyectos_output} ‚Üí {data_dir / 'proyectos.csv'}")

print("\nüéâ Archivos listos para entrenar el modelo!")

‚úÖ Copiado: d:\UPC\SEPTIMO CICLO\MODULO REGULAR\Proyecto de Investigaci√≥n 1\TRABAJO\TP1\Modelo\project\predata\output\brechas.csv ‚Üí d:\UPC\SEPTIMO CICLO\MODULO REGULAR\Proyecto de Investigaci√≥n 1\TRABAJO\TP1\Modelo\project\data\brechas.csv
‚úÖ Copiado: d:\UPC\SEPTIMO CICLO\MODULO REGULAR\Proyecto de Investigaci√≥n 1\TRABAJO\TP1\Modelo\project\predata\output\proyectos.csv ‚Üí d:\UPC\SEPTIMO CICLO\MODULO REGULAR\Proyecto de Investigaci√≥n 1\TRABAJO\TP1\Modelo\project\data\proyectos.csv

üéâ Archivos listos para entrenar el modelo!
