# Proyecto Final <br>
# Estado de Servicios en Zonas no Interconectadas de Colombia <br>

### Por: Juan Diego Carvajal D, Daniel Marín Botero, César López

# Descripción de la problemática

# Introducción

## 1. Descripción de la problemática

Las Zonas No Interconectadas (ZNI) son áreas del territorio Colombiano que no están conectados al Sistema Interconectado Nacional (SIN), que abarcan actualmente cerca del 52% del territorio nacional y representan uno de los retos más grandes para buscar una transición energética justa, equitativa y sostenible.
Actualmente, se tienen identificadas (para marzo del 2025) 1.664 localidades concentradas dentro de las ZNI. Estas zonas al no estar integradas al SIN operan usando fuentes de energía autónomas; estas fuentes son equivalentes a 335.271 kW de capacidad instalada, donde el 78% proviene de generación diésel y el 22% de fuentes de energía renovable no convencional, esta última se distribuy así:
    -54.701 kW en sistemas solares fotovoltaicos individuales
    -8.381 kW en sistemas solares concentrados
    -4.613 kW en pequeñas centrales hidroeléctricas
    -4.520 kW mediante biomasa
    -1.000 kW a partir de residuos sólidos urbanos

Esta situación afecta significativamente la calidad y continuidad del servicio de energía eléctrica y, en consecuencia, la calidad de vida de los habitantes de estos territorios. Estas zonas, con frecuencia, son remotas, de difícil acceso y dependen en gran medida de soluciones energéticas aisladas y, en muchos casos, precarias.

Encontramos el 87% territorios cuentan de sistemas de telemetría (datos según IPSE), el otro 13% funcionan a través de servicios de comunicación no estandarizados como llamadas telefónicas, servicios de mensajería instantánea, correo electrónico, etc., sin una regularidad establecida. Las localidades que cuentan con sistemas de telemetría lo hacen de forma irregular, ya que los equipos de telemetría, telemedida y comunicación de datos pueden presentar fallos. Esto afecta fuertemente la trazabilidad del servicio de energía a través de los datos recopilados.

Sin embargo, con el propósito de entender mejor la situación energética en estas Zonas No Interconectadas (ZNI), hemos desarrollado un sistema de análisis y visualización de datos que permite identificar patrones, deficiencias y oportunidades de mejora a partir de la información recolectada por diferentes entidades.


![Mapa ZNI](mapaColombia.jpg)



# Metodología

## Datos

La base de datos seleccionada es una base de datos que recoge variables de telemetría tomadas desde el 21 de Mayo de 2025 hasta el 27 de Mayo de 2025 en las zonas no interconectadas de Colombia en las localidades donde es posible realizar seguimiento. <br>

Para realizar la visualización de los datos en Python es necesario importar las siguientes librerías:

In [77]:
import numpy as np
import pandas as pd
import datetime

Para una visualización inicial de los datos se transforman los datos de CSV a DataFrame

In [78]:
energias_original = pd.read_csv('Estado_de_la_prestaci_n_del_servicio_de_energ_a_en_Zonas_No_Interconectadas_20250702.csv')
energias_original.shape

(4660, 14)

Encontrando las siguientes variables:

In [79]:
energias_original.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4660 entries, 0 to 4659
Data columns (total 14 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   ID DEPATAMENTO            4660 non-null   int64  
 1   DEPARTAMENTO              4660 non-null   object 
 2   ID MUNICIPIO              4660 non-null   int64  
 3   MUNICIPIO                 4660 non-null   object 
 4   ID LOCALIDAD              4660 non-null   int64  
 5   LOCALIDAD                 4660 non-null   object 
 6   AÑO SERVICIO              4660 non-null   int64  
 7   MES SERVICIO              4660 non-null   int64  
 8   ENERGÍA ACTIVA            4660 non-null   int64  
 9   ENERGÍA REACTIVA          4660 non-null   float64
 10  POTENCIA MÁXIMA           4660 non-null   float64
 11  DÍA DE DEMANDA MÁXIMA     4659 non-null   object 
 12  FECHA DE DEMANDA MÁXIMA   4660 non-null   object 
 13  PROMEDIO DIARIO EN HORAS  4660 non-null   float64
dtypes: float

In [80]:
energias = energias_original
energias['FECHA DE DEMANDA MÁXIMA'] = pd.to_datetime(energias['FECHA DE DEMANDA MÁXIMA'], format='%m/%d/%Y %I:%M:%S %p')
energias = energias.drop(columns=['AÑO SERVICIO', 'MES SERVICIO', 'DÍA DE DEMANDA MÁXIMA', 'LOCALIDAD', 'DEPARTAMENTO', 'MUNICIPIO'])
energias.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4660 entries, 0 to 4659
Data columns (total 8 columns):
 #   Column                    Non-Null Count  Dtype         
---  ------                    --------------  -----         
 0   ID DEPATAMENTO            4660 non-null   int64         
 1   ID MUNICIPIO              4660 non-null   int64         
 2   ID LOCALIDAD              4660 non-null   int64         
 3   ENERGÍA ACTIVA            4660 non-null   int64         
 4   ENERGÍA REACTIVA          4660 non-null   float64       
 5   POTENCIA MÁXIMA           4660 non-null   float64       
 6   FECHA DE DEMANDA MÁXIMA   4660 non-null   datetime64[ns]
 7   PROMEDIO DIARIO EN HORAS  4660 non-null   float64       
dtypes: datetime64[ns](1), float64(3), int64(4)
memory usage: 291.4 KB


La energía activa es aquella que se transforma en trabajo útil, la energía reactiva no se consume directamente como trabajo útil, la potencia máxima es la mayor cantidad de energía respecto al tiempo que el sistema eléctrico pudo manejar, la fecha de demanda máxima es la fecha y hora que hubo mayor demanda y el promedio diario en horas son las horas que la localidad consumió energía en la fecha especificada. <br>

Para iniciar con la limpieza de datos se decide consultar una nueva base de datos que brinde información sobre las localidades, para esto se usa la base de datos de la división política administrativa DIVIPOLA.

In [81]:
divapola = pd.read_csv('Geoportal del DANE - Codificación Divipola.csv')
divapola.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8420 entries, 0 to 8419
Data columns (total 12 columns):
 #   Column                                    Non-Null Count  Dtype  
---  ------                                    --------------  -----  
 0   Código Departamento                       8420 non-null   int64  
 1   Código Municipio                          8420 non-null   int64  
 2   Código Centro Poblado                     8420 non-null   int64  
 3   Nombre Departamento                       8420 non-null   object 
 4   Nombre Municipio                          8420 non-null   object 
 5   Nombre Centro Poblado                     8420 non-null   object 
 6   Tipo Centro Poblado                       8420 non-null   object 
 7   Longitud                                  7664 non-null   float64
 8   Latitud                                   7664 non-null   float64
 9   Nombre Distrito                           494 non-null    object 
 10  Municipio/Áreas No Municipalizadas (

En la base de datos DIVIPOLA encontramos información sobre el departamento, el municipio y el centro poblado.

Además, se cree pertinente incluir información sobre el Censo.

In [82]:
censo = pd.read_excel('CNPV-2018-NBI-CENTROS-POBLADOS.xlsx', skiprows=8)
censo = censo.rename(columns={
    'Unnamed: 0': 'Código de departamento',
    'Unnamed: 1': 'Departamento',
    'Unnamed: 2': 'Código de municipio',
    'Unnamed: 3': 'Municipio',
    'Unnamed: 4': 'Clase',
    'Unnamed: 5': 'Código de centro poblado',
    'Unnamed: 6': 'Centro Poblado',
    'Unnamed: 14': 'Total personas en hogares particulares'
})
censo = censo.drop([8558, 8559])
censo['Total personas en hogares particulares'] = censo['Total personas en hogares particulares'].astype('Int64')
censo['Código de municipio'] = censo['Código de municipio'].astype(int)
censo['Código de centro poblado'] = censo['Código de centro poblado'].astype(int)

censo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8558 entries, 0 to 8557
Data columns (total 15 columns):
 #   Column                                  Non-Null Count  Dtype  
---  ------                                  --------------  -----  
 0   Código de departamento                  8558 non-null   object 
 1   Departamento                            8558 non-null   object 
 2   Código de municipio                     8558 non-null   int64  
 3   Municipio                               8558 non-null   object 
 4   Clase                                   8558 non-null   object 
 5   Código de centro poblado                8558 non-null   int64  
 6   Centro Poblado                          8558 non-null   object 
 7   Personas en NBI (%)                     8558 non-null   float64
 8    Personas en miseria (%)                8558 non-null   float64
 9   Componente vivienda (%)                 8558 non-null   float64
 10  Componente Servicios (%)                8558 non-null   floa

Estos datos son exportados a PostreSQL

## SQL

Se crean las tablas departamentos, muninicipios, centros poblados como parte del esquema DIVIPOLA; las tablas cnpv y nbi como parte del equipos Censo y, por último, las tabla de servicios energéticos como parte del esquema de Energías.

In [83]:
-- CREATE DATABASE energia_zonas_no_interconectadas_col;
-- USE energia_zonas_no_interconectadas_col;
-- SET SQL_SAFE_UPDATES = 0;

CREATE TABLE divapola.tipos_centro_poblado(
	id_tipo_centro_poblado SERIAL PRIMARY KEY,
    tipo_centro_poblado TEXT
);

-- Se añade "Rural disperso" que no está en el divapola pero sí en el censo.

INSERT INTO divapola.tipos_centro_poblado (tipo_centro_poblado) VALUES 
('CABECERA MUNICIPAL'), ('CENTRO POBLADO'), ('RURAL DISPERSO');

ALTER TABLE divapola.tipos_centro_poblado RENAME TO clases;
ALTER TABLE divapola.clases RENAME COLUMN id_tipo_centro_poblado to id_clase;
ALTER TABLE divapola.clases RENAME COLUMN tipo_centro_poblado to clase;


CREATE TABLE divapola.tipos_municipio(
	id_tipo_municipio SERIAL PRIMARY KEY,
    tipo_municipio TEXT
);
INSERT INTO divapola.tipos_municipio (tipo_municipio) VALUES
('MUNICIPIO'), ('ISLA'), ('AREA NO MUNICIPALIZADA');

CREATE TABLE divapola.departamentos (
	id_departamento SERIAL PRIMARY KEY,
    departamento TEXT
);

CREATE TABLE divapola.distritos (
	id_distrito SERIAL PRIMARY KEY,
	distrito TEXT
); 

CREATE TABLE divapola.areas_metropolitanas (
	id_area_metropolitana SERIAL PRIMARY KEY,
	area_metropolitana TEXT
);

CREATE TABLE divapola.municipios(
	id_municipio SERIAL PRIMARY KEY,
	municipio TEXT, 
	id_departamento INT, FOREIGN KEY (id_departamento) REFERENCES divapola.departamentos(id_departamento),
	id_distrito INT, FOREIGN KEY (id_distrito) REFERENCES divapola.distritos (id_distrito),
	id_tipo_municipio INT, FOREIGN KEY (id_tipo_municipio) REFERENCES divapola.tipos_municipio (id_tipo_municipio),
	id_area_metropolitana INT, FOREIGN KEY (id_area_metropolitana) REFERENCES divapola.areas_metropolitanas (id_area_metropolitana)
);


CREATE TABLE divapola.centros_poblados(
	id_centro_poblado SERIAL PRIMARY KEY,
	centro_poblado TEXT, 
	id_municipio INT, FOREIGN KEY (id_municipio) REFERENCES divapola.municipios (id_municipio),
	longitud DOUBLE PRECISION,
	latitud DOUBLE PRECISION,
	id_tipo_centro_poblado INT, FOREIGN KEY (id_tipo_centro_poblado) REFERENCES divapola.tipos_centro_poblado(id_tipo_centro_poblado)
);

ALTER TABLE divapola.centros_poblados RENAME COLUMN id_tipo_centro_poblado TO id_clase;


CREATE TABLE energias.servicios_centros_poblados(
	id_servicio SERIAL PRIMARY KEY,
	id_centro_poblado INT, FOREIGN KEY (id_centro_poblado) REFERENCES divapola.centros_poblados(id_centro_poblado),
	energia_activa DOUBLE PRECISION,
	energia_reactiva DOUBLE PRECISION,
	potencia_maxima DOUBLE PRECISION,
	fecha_demanda_maxima TIMESTAMP,
	promedio_diario_horas DOUBLE PRECISION
);

CREATE TABLE cnpv_nbi.cnpv_nbi(
	id_cnpv_nbi SERIAL PRIMARY KEY,
	id_centro_poblado INT, FOREIGN KEY (id_centro_poblado) REFERENCES divapola.centros_poblados(id_centro_poblado),
	personas_nbi DOUBLE PRECISION,
	personas_miseria DOUBLE PRECISION,
	vivienda DOUBLE PRECISION,
	servicios DOUBLE PRECISION,
	hacinamiento DOUBLE PRECISION,
	inasistencia DOUBLE PRECISION,
	dependencia_economica DOUBLE PRECISION,
	personas_hogares_particulares INT
);

-- DATOS QUE ESTÁN EN LA TABLA DE ENERGÍAS PERO NO EN EL DIVAPOLA
-- Algunos se hicieron desde la tabla y otros desde script

SELECT * FROM divapola.centros_poblados where centro_poblado is null order by id_centro_poblado;

UPDATE divapola.centros_poblados SET centro_poblado = 'LA CONCHA - CONCEPCIÓN NAYA' WHERE id_centro_poblado = 19418007;
UPDATE divapola.centros_poblados SET centro_poblado = 'RIO MAYA - DOS QUEBRADAS' WHERE id_centro_poblado = 19418011;
UPDATE divapola.centros_poblados SET centro_poblado = 'MARCIAL' WHERE id_centro_poblado = 27615912;
UPDATE divapola.centros_poblados SET centro_poblado = 'GALVEZ ' WHERE id_centro_poblado = 76109930;

SELECT * FROM energias.servicios_centros_poblados;


-- DATOS QUE ESTÁN EN LA TABLA DE CNPV/NBI PERO NO EN EL DIVAPOLA

INSERT INTO divapola.municipios (id_municipio, municipio, id_departamento) VALUES (94663, 'MAPIRIPANA', 94);
SELECT * FROM divapola.centros_poblados;    

SyntaxError: invalid syntax (3707269563.py, line 1)

![Texto alternativo](ERD_ProyectoFinal.pgerd.png)

Se realiza la consulta que generará la vista para usar como base en Streamlit

In [None]:
CREATE OR REPLACE VIEW energias.servicios_detalle AS
SELECT 
	d.id_departamento AS "Código Departamento",
	d.departamento AS "Departamento",
	m.id_municipio AS "Código Municipio",
	m.municipio AS "Municipio",
	c.id_centro_poblado AS "Código Centro Poblado",
	c.centro_poblado AS "Centro Poblado",
	c.latitud AS "Latitud",
	c.longitud AS "Longitud",
	e.energia_activa AS "Energía Activa [kWh]",
	e.energia_reactiva AS "Energía Reactiva [kVArh]",
	(e.energia_activa/NULLIF(SQRT(POWER(e.energia_activa, 2)+POWER(e.energia_reactiva,2)), 0)) AS "Factor de Potencia",
	e.potencia_maxima AS "Potencia Máxima [kW]",
	e.fecha_demanda_maxima AS "Fecha Demanda Máxima",
	e.promedio_diario_horas AS "Promedio Diario [h]",
	n.personas_hogares_particulares AS "Total Personas en Hogares Particulares",
	n.personas_nbi AS "Personas en NBI [%]",
	n.servicios AS "Componente Servicios [%]"
FROM energias.servicios_centros_poblados e
LEFT JOIN divapola.centros_poblados c ON e.id_centro_poblado = c.id_centro_poblado
LEFT JOIN divapola.municipios m ON c.id_municipio = m.id_municipio
LEFT JOIN divapola.departamentos d ON m.id_departamento = d.id_departamento
LEFT JOIN cnpv_nbi.cnpv_nbi n ON c.id_centro_poblado = n.id_centro_poblado;

## Streamlit

Macros

In [None]:
import streamlit as st
from sqlalchemy import create_engine, text
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import math
from scipy.stats import gaussian_kde
import pydeck as pdk
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.metrics import silhouette_score

Conexión la Base de Datos

In [None]:
engine=create_engine(
    "postgresql://postgres:0000@localhost:5432/EnergiasZonasNoInterconectadasCol"
    )

Consulta para leer tabla

In [None]:
energias_df=pd.read_sql(
    'SELECT * FROM energias.servicios_detalle;' , engine
    )

Función para realizar consultas repetitivas

In [None]:
def consulta_ids (tab_id,column_id,column_name,name):
    with engine.connect() as connection: 
        consulta_id=connection.execute(
            text(
                f'''SELECT "{column_id}" FROM {tab_id} WHERE "{column_name}"=:name'''
                ),{"name":name}
        )

El análisis se puede hacer de forma general o por centro poblado

### Análisis general

La visión general de los datos permite al usuario ver la tabla completa, escoger una variable y ver su representación gráfica mediante gráficas en un mapa 3D

In [None]:
st.dataframe(energias_df)
var_map=st.selectbox('Seleccione la variable a visualizar',[
    'Promedio Diario [h]','Energía Activa [kWh]','Energía Reactiva [kVArh]',
    'Potencia Máxima [kW]','Total Personas en Hogares Particulares',
    'Personas en NBI [%]','Componente Servicios [%]'
])
energias_map=pd.DataFrame({
    var_map:energias_df.groupby('Centro Poblado')[var_map].median(),
    'lat':energias_df.groupby('Centro Poblado')['Latitud'].mean(),
    'lon':energias_df.groupby('Centro Poblado')['Longitud'].mean()
})
energias_map = energias_map.dropna(subset=['lat', 'lon', var_map])
energias_map = energias_map.drop_duplicates(subset=['lat', 'lon'])
energias_map['elevation_norm']=energias_map[var_map]/energias_map[var_map].max()*10000
column_layer = pdk.Layer(
    'ColumnLayer',
    data=energias_map,
    get_position='[lon, lat]',
    get_elevation='elevation_norm',
    elevation_scale=100,
    radius=2000,
    get_fill_color="[200, 0, 0, 160]",
    pickable=True,
    auto_highlight=True,
)   
view_state = pdk.ViewState(
    latitude=energias_map['lat'].mean(),
    longitude=energias_map['lon'].mean(),
    zoom=6,
    pitch=45,
    bearing=0    
)
st.pydeck_chart(pdk.Deck(
    map_style="light",
    initial_view_state=view_state,
    layers=[column_layer],
    tooltip={"text": f"{var_map}: {{{var_map}}}"}
))

En la segunda pestaña puede visualizar las medidas individales para departamentos, municipios y centros poblados

In [None]:
analisis_g=st.selectbox('Medidas individuales',[
    'Descripción zonas no interconectadas',
    'Descripción CNPV',
    'Descripción NBI',
    'Descripción Energética'
])
if analisis_g=='Descripción zonas no interconectadas':
    zonas_no_int=st.selectbox('Zonas no interconectadas',[
        'Departamentos con más zonas no interconectadas',
        'Municipios con más zonas no interconectadas'
        ])
    if zonas_no_int=='Departamentos con más zonas no interconectadas':
        loc_dep=energias_df.groupby('Departamento')['Centro Poblado']\
            .nunique().sort_values(ascending=False).reset_index()
        loc_dep=loc_dep.rename(
            columns={'Centro Poblado': 'Cantidad Centros Poblados'}
            )
        st.dataframe(loc_dep)
        pie_dep=px.pie(
            loc_dep,names='Departamento',values='Cantidad Centros Poblados'
            )
        st.plotly_chart(
            pie_dep, use_container_width=True
            )
    elif zonas_no_int=='Municipios con más zonas no interconectadas':
        loc_mun=energias_df.groupby(['Departamento','Municipio'])['Centro Poblado']\
            .nunique().sort_values(ascending=False).reset_index()
        loc_mun=loc_mun.rename(
            columns={'Centro Poblado': 'Cantidad Centros Poblados'}
        )
        st.dataframe(loc_mun)
        pie_mun=px.pie(
            loc_mun,names='Municipio',values='Cantidad Centros Poblados'
            )
        st.plotly_chart(
            pie_mun, use_container_width=True
            )
elif analisis_g=='Descripción CNPV':
    des_censo=st.selectbox('Descripción CNPV',[
        'Departamentos con mayor población en zonas no interconectadas',
        'Municipios con mayor población en zonas no interconectadas',
        'Centros poblados no interconectados con mayor población'
    ])
    if des_censo=='Departamentos con mayor población en zonas no interconectadas':
        pobl_dep=energias_df.groupby(['Departamento'])[
            'Total Personas en Hogares Particulares'
            ].sum().reset_index().sort_values(
                by='Total Personas en Hogares Particulares',ascending=False
                )
        st.dataframe(pobl_dep)
        pie_pobl_dep=px.pie(
            pobl_dep,names='Departamento',\
                values='Total Personas en Hogares Particulares'
        )
        st.plotly_chart(
            pie_pobl_dep, use_container_width=True
        )
    elif des_censo=='Municipios con mayor población en zonas no interconectadas':
        pobl_mun=energias_df.groupby(['Departamento','Municipio'])[
            'Total Personas en Hogares Particulares'
            ].sum().reset_index().sort_values(
                by='Total Personas en Hogares Particulares',ascending=False
                )
        st.dataframe(pobl_mun)
        pie_pobl_mundep=px.pie(
            pobl_mun,names='Municipio',\
                values='Total Personas en Hogares Particulares'
        )
        st.plotly_chart(
            pie_pobl_mundep, use_container_width=True
        )
    elif des_censo=='Centros poblados no interconectados con mayor población':
        pobl_loc=energias_df.groupby(['Departamento','Municipio','Centro Poblado'])[
            'Total Personas en Hogares Particulares'
            ].sum().reset_index().sort_values(
                by='Total Personas en Hogares Particulares',ascending=False
                )
        st.dataframe(pobl_loc)
        pie_pobl_loc=px.pie(
            pobl_loc,names='Centro Poblado',\
                values='Total Personas en Hogares Particulares'
        )
        st.plotly_chart(
            pie_pobl_loc, use_container_width=True
        )
elif analisis_g=='Descripción NBI':
    des_nbi=st.selectbox('Descripción NBI',[
        'Departamentos con mayor cantidad de población en NBI',
        'Municipios con mayor cantidad de población en NBI',
        'Centros poblados con mayor cantidad de población en NBI'
    ])
    if des_nbi=='Departamentos con mayor cantidad de población en NBI':
        nbi_dep=energias_df.groupby(['Departamento'])[
            'Personas en NBI [%]'
            ].sum().reset_index().sort_values(
                by='Personas en NBI [%]',ascending=False
                )
        nbi_dep=nbi_dep.rename(columns={'Personas en NBI [%]':'Personas en NBI'})
        st.dataframe(nbi_dep)
        pie_pobl_dep=px.pie(
            nbi_dep,names='Departamento',\
                values='Personas en NBI'
        )
        st.plotly_chart(
            pie_pobl_dep, use_container_width=True
        )
    elif des_nbi=='Municipios con mayor cantidad de población en NBI':
        nbi_mun=energias_df.groupby(['Departamento','Municipio'])[
            'Personas en NBI [%]'
            ].sum().reset_index().sort_values(
                by='Personas en NBI [%]',ascending=False
                )
        nbi_mun=nbi_mun.rename(columns={'Personas en NBI [%]':'Personas en NBI'})
        st.dataframe(nbi_mun)
        pie_nbi_mun=px.pie(
            nbi_mun,names='Municipio',\
                values='Personas en NBI'
        )
        st.plotly_chart(
            pie_nbi_mun, use_container_width=True
        )
    elif des_nbi=='Centros poblados con mayor cantidad de población en NBI':
        nbi_loc=energias_df.groupby(['Departamento','Municipio','Centro Poblado'])[
            'Personas en NBI [%]'
            ].sum().reset_index().sort_values(
                by='Personas en NBI [%]',ascending=False
                )
        nbi_loc=nbi_loc.rename(columns={'Personas en NBI [%]':'Personas en NBI'})
        st.dataframe(nbi_loc)
        pie_nbi_loc=px.pie(
            nbi_loc,names='Centro Poblado',\
                values='Personas en NBI'
        )
        st.plotly_chart(
            pie_nbi_loc, use_container_width=True
        )
elif analisis_g=='Descripción Energética':
    des_energ=st.selectbox('Seleccione Variable',[
        'Energía activa', 'Energía reactiva', 'Potencia máxima', 'Promedio diario horas'])
    if des_energ=='Energía activa':
        des_energ_act=st.selectbox('Seleccione',[
            'Departamentos con mayor energía activa',
            'Municipios con mayor energía activa',
            'Centros poblados con mayor energía activa'
        ])
        if des_energ_act=='Departamentos con mayor energía activa':
            activa_dep=energias_df.groupby(['Departamento'])[
                'Energía Activa [kWh]'
                ].mean().reset_index().sort_values(
                    by='Energía Activa [kWh]',ascending=False
                    )
            st.dataframe(activa_dep)
            pie_activa_dep=px.pie(
                activa_dep,names='Departamento',\
                    values='Energía Activa [kWh]'
            )
            st.plotly_chart(
                pie_activa_dep, use_container_width=True
            )
        elif des_energ_act=='Municipios con mayor energía activa':
            activa_mun=energias_df.groupby(['Departamento','Municipio'])[
                'Energía Activa [kWh]'
                ].mean().reset_index().sort_values(
                    by='Energía Activa [kWh]',ascending=False
                    )
            st.dataframe(activa_mun)
            pie_activa_mun=px.pie(
                activa_mun,names='Municipio',\
                    values='Energía Activa [kWh]'
            )
            st.plotly_chart(
                pie_activa_mun, use_container_width=True
            )
        elif des_energ_act=='Centros poblados con mayor energía activa':
            activa_cp=energias_df.groupby(['Departamento','Municipio','Centro Poblado'])[
                'Energía Activa [kWh]'
                ].mean().reset_index().sort_values(
                    by='Energía Activa [kWh]',ascending=False
                    )
            st.dataframe(activa_cp)
            pie_activa_cp=px.pie(
                activa_cp,names='Centro Poblado',\
                    values='Energía Activa [kWh]'
            )
            st.plotly_chart(
                pie_activa_cp, use_container_width=True
            )
    elif des_energ=='Energía reactiva':
        des_energ_reac=st.selectbox('Seleccione',[
            'Departamentos con mayor energía reactiva',
            'Municipios con mayor energía reactiva',
            'Centros poblados con mayor energía reactiva'
        ])  
        if des_energ_reac=='Departamentos con mayor energía reactiva':
            reactiva_dep=energias_df.groupby(['Departamento'])[
                'Energía Reactiva [kVArh]'
                ].mean().reset_index().sort_values(
                    by='Energía Reactiva [kVArh]',ascending=False
                    )
            st.dataframe(reactiva_dep)
            pie_react_dep=px.pie(
                reactiva_dep,names='Departamento',\
                    values='Energía Reactiva [kVArh]'
            )
            st.plotly_chart(
                pie_react_dep, use_container_width=True
            )
        elif des_energ_reac=='Municipios con mayor energía reactiva':
            reactiva_mun=energias_df.groupby(['Departamento','Municipio'])[
                'Energía Reactiva [kVArh]'
                ].mean().reset_index().sort_values(
                    by='Energía Reactiva [kVArh]',ascending=False
                    )
            st.dataframe(reactiva_mun)
            pie_react_mun=px.pie(
                reactiva_mun,names='Municipio',\
                    values='Energía Reactiva [kVArh]'
            )
            st.plotly_chart(
                pie_react_mun, use_container_width=True
            )
        elif des_energ_reac=='Centros poblados con mayor energía reactiva':
            reactiva_cp=energias_df.groupby(['Departamento','Municipio','Centro Poblado'])[
                'Energía Reactiva [kVArh]'
                ].mean().reset_index().sort_values(
                    by='Energía Reactiva [kVArh]',ascending=False
                    )
            st.dataframe(reactiva_cp)
            pie_reactiva_cp=px.pie(
                reactiva_cp,names='Centro Poblado',\
                    values='Energía Reactiva [kVArh]'
            )
            st.plotly_chart(
                pie_reactiva_cp, use_container_width=True
            )
    elif des_energ=='Potencia máxima':
        des_energ_pot=st.selectbox('Seleccione',[
            'Departamentos con mayor potencia máxima',
            'Municipios con mayor potencia máxima',
            'Centros poblados con mayor potencia máxima'
        ])  
        if des_energ_pot=='Departamentos con mayor potencia máxima':
            pot_dep=energias_df.groupby(['Departamento'])[
                'Potencia Máxima [kW]'
                ].mean().reset_index().sort_values(
                    by='Potencia Máxima [kW]',ascending=False
                    )
            st.dataframe(pot_dep)
            pie_pot_dep=px.pie(
                pot_dep,names='Departamento',\
                    values='Potencia Máxima [kW]'
            )
            st.plotly_chart(
                pie_pot_dep, use_container_width=True
            )
        elif des_energ_pot=='Municipios con mayor potencia máxima':
            pot_mun=energias_df.groupby(['Departamento','Municipio'])[
                'Potencia Máxima [kW]'
                ].mean().reset_index().sort_values(
                    by='Potencia Máxima [kW]',ascending=False
                    )
            st.dataframe(pot_mun)
            pie_pot_mun=px.pie(
                pot_mun,names='Municipio',\
                    values='Potencia Máxima [kW]'
            )
            st.plotly_chart(
                pie_pot_mun, use_container_width=True
            )
        elif des_energ_pot=='Centros poblados con mayor potencia máxima':
            reactiva_cp=energias_df.groupby(['Departamento','Municipio','Centro Poblado'])[
                'Potencia Máxima [kW]'
                ].mean().reset_index().sort_values(
                    by='Potencia Máxima [kW]',ascending=False
                    )
            st.dataframe(reactiva_cp)
            pie_pot_cp=px.pie(
                reactiva_cp,names='Centro Poblado',\
                    values='Potencia Máxima [kW]'
            )
            st.plotly_chart(
                pie_pot_cp, use_container_width=True
            )
    elif des_energ=='Promedio diario horas':
        des_energ_pot=st.selectbox('Seleccione',[
            'Departamentos con mayor Promedio diario horas',
            'Municipios con mayor Promedio diario horas',
            'Centros poblados con mayor Promedio diario horas'
        ])  
        if des_energ_pot=='Departamentos con mayor Promedio diario horas':
            horas_dep=energias_df.groupby(['Departamento'])[
                'Promedio Diario [h]'
                ].mean().reset_index().sort_values(
                    by='Promedio Diario [h]',ascending=False
                    )
            st.dataframe(horas_dep)
            pie_horas_dep=px.pie(
                horas_dep,names='Departamento',\
                    values='Promedio Diario [h]'
            )
            st.plotly_chart(
                pie_horas_dep, use_container_width=True
            )
        elif des_energ_pot=='Municipios con mayor Promedio diario horas':
            horas_mun=energias_df.groupby(['Departamento','Municipio'])[
                'Promedio Diario [h]'
                ].mean().reset_index().sort_values(
                    by='Promedio Diario [h]',ascending=False
                    )
            st.dataframe(horas_mun)
            pie_horas_mun=px.pie(
                horas_mun,names='Municipio',\
                    values='Promedio Diario [h]'
            )
            st.plotly_chart(
                pie_horas_mun, use_container_width=True
            )
        elif des_energ_pot=='Centros poblados con mayor Promedio diario horas':
            horas_cp=energias_df.groupby(['Departamento','Municipio','Centro Poblado'])[
                'Promedio Diario [h]'
                ].mean().reset_index().sort_values(
                    by='Promedio Diario [h]',ascending=False
                    )
            st.dataframe(horas_cp)
            pie_pot_cp=px.pie(
                horas_cp,names='Centro Poblado',\
                    values='Promedio Diario [h]'
            )
            st.plotly_chart(
                pie_pot_cp, use_container_width=True
            )

En la tercera pestaña se puede visualizar el modelo de machine learning por **Clusters** <br>

El clustering es una técnica de aprendizaje no supervisado utilizada en machine learning para agrupar datos en grupos o clusters, de tal manera que los objetos dentro de un mismo grupo (cluster) son más similares entre sí en comparación con los objetos de otros grupos. Los clusters son formados en base a ciertas características o atributos de los datos, sin necesidad de que las clases estén etiquetadas previamente.

In [None]:
# Variables relevantes
variables = ['Energía Activa [kWh]', 'Energía Reactiva [kVArh]', 'Potencia Máxima [kW]', 'Promedio Diario [h]', 'Factor de Potencia']

df_cluster = energias_df[variables + ['Centro Poblado', 'Municipio', 'Departamento']].dropna()
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df_cluster[variables])

# Método del codo (opcional, si quieres ver cuál K usar)
with st.expander("Ver método del codo para elegir número óptimo de clusters"):
    distortions = []
    K_range = range(2, 10)
    for k in K_range:
        km = KMeans(n_clusters=k, random_state=42, n_init='auto')
        km.fit(X_scaled)
        distortions.append(km.inertia_)

    fig_elbow = px.line(x=list(K_range), y=distortions, markers=True,
                        labels={'x': 'Número de Clusters (k)', 'y': 'Inercia'},
                        title="Método del Codo para elegir k")
    st.plotly_chart(fig_elbow, use_container_width=True)

# Selector de número de clusters
k = st.slider("Selecciona el número de clusters", min_value=2, max_value=10, value=4)

# KMeans clustering
kmeans = KMeans(n_clusters=k, random_state=42, n_init='auto')
df_cluster['Cluster'] = kmeans.fit_predict(X_scaled)

# PCA para visualización en 2D
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
df_cluster['PC1'] = X_pca[:, 0]
df_cluster['PC2'] = X_pca[:, 1]

# Visualización de clusters
fig_clusters = px.scatter(
    df_cluster,
    x='PC1', y='PC2',
    color=df_cluster['Cluster'].astype(str),
    hover_data=['Departamento', 'Municipio', 'Centro Poblado'],
    title=f"Visualización de Clusters (k = {k})",
    labels={'color': 'Cluster'}
)
st.plotly_chart(fig_clusters, use_container_width=True)

# Mostrar tabla agrupada por cluster
with st.expander("🧾 Ver descripción por cluster"):
    resumen_cluster = df_cluster.groupby('Cluster')[variables].mean().round(2)
    # Clasificación automática de clusters basada en valores promedio
    def clasificar_cluster(row):
        if row['Energía Activa [kWh]'] > 50000 and row['Factor de Potencia'] < 0.85:
            return "🔴 Alto consumo / Baja eficiencia"
        elif row['Potencia Máxima [kW]'] < 60 and row['Factor de Potencia'] >= 0.95:
            return "🟢 Baja potencia / Alta eficiencia"
        elif row['Energía Reactiva [kVArh]'] > 15000:
            return "🟡 Alta energía reactiva"
        elif row['Factor de Potencia'] < 0.8:
            return "⚠️ Muy baja eficiencia"
        else:
            return "⚪ Comportamiento mixto"

    resumen_cluster['Descripción'] = resumen_cluster.apply(clasificar_cluster, axis=1)
    # Añadir etiquetas a cada centro poblado
    df_cluster['Etiqueta'] = df_cluster['Cluster'].map(resumen_cluster['Descripción'])
    st.dataframe(resumen_cluster)
    st.dataframe(df_cluster[[
        'Departamento', 'Municipio', 'Centro Poblado','Energía Activa [kWh]', \
            'Energía Reactiva [kVArh]', 'Factor de Potencia', 'Cluster', 'Etiqueta'
        ]].sort_values(by='Cluster'))

### Análisis por centro poblado

El usuario debe seleccionar el departamento, municipio y centro poblado de interés, este centro poblado será al que se le hagan los análisis

In [None]:
departamento=st.selectbox(
    'Escoge el departamento de interés',
    energias_df['Departamento']
    .sort_values(ascending=True)
    .drop_duplicates()
    )
id_departamento=consulta_ids(
    'energias.servicios_detalle','Código Departamento',
    'Departamento',departamento
    )
st.text(f'''El código del departamento seleccionado es: {id_departamento}''')
municipio=st.selectbox(
    'Escoge el municipio de interés',
    energias_df[energias_df['Código Departamento']==id_departamento]['Municipio']
    .sort_values(ascending=True).drop_duplicates()
    )
id_municipio=consulta_ids(
    'energias.servicios_detalle','Código Municipio','Municipio',municipio
    )
st.text(f'''El código del municipio seleccionado es: {id_municipio}''')
centro_poblado=st.selectbox(
    'Escoge el centro poblado de interés',
    energias_df[energias_df['Código Municipio']==id_municipio]['Centro Poblado']
    .sort_values(ascending=True).drop_duplicates()
    )
id_centro_poblado=consulta_ids(
    'energias.servicios_detalle','Código Centro Poblado','Centro Poblado',
    centro_poblado
    )
st.text(f'''El código del centro poblado seleccionado es: {id_centro_poblado}''')
df_centro_poblado=(
    energias_df[energias_df['Código Centro Poblado']==id_centro_poblado]
    .sort_values(by='Fecha Demanda Máxima',ascending=True)
    )
ubicacion_centro_poblado=df_centro_poblado[[
    'Latitud','Longitud'
    ]].drop_duplicates()
ubicacion_centro_poblado=ubicacion_centro_poblado.rename(
    columns={'Latitud':'lat','Longitud':'lon'}
    )
if ubicacion_centro_poblado.empty\
    or ubicacion_centro_poblado['lat'].isna().all()\
        or ubicacion_centro_poblado['lon'].isna().all():
    st.write(
        'No hay una ubicación registrada'
        )
else:
    st.map(
        ubicacion_centro_poblado
        )

En la siguiente pesataña el usuario puede ver información poblacional y datos de necesidades básicas insatisfechas del centro poblado

In [None]:
df_cnpv_nbi=df_centro_poblado
df_cnpv_nbi['Personas Sin NBI [%]']=100-df_cnpv_nbi['Personas en NBI [%]']
df_cnpv_nbi['Personas Con Servicios [%]']=100-df_cnpv_nbi[
    'Componente Servicios [%]']
st.dataframe(
    df_cnpv_nbi[
        ['Total Personas en Hogares Particulares','Personas en NBI [%]',
            'Componente Servicios [%]']
    ].drop_duplicates()
    )
df_nbi=df_cnpv_nbi[
    ['Personas en NBI [%]','Personas Sin NBI [%]']
    ]
df_nbi_melt=df_nbi.melt(
    var_name='Condición',value_name='Cantidad'
    )
df_nbi_servicios=df_cnpv_nbi[
    ['Componente Servicios [%]','Personas Con Servicios [%]']
]
df_nbi_servicios_melt=df_nbi_servicios.melt(
    var_name='Condición',value_name='Cantidad'
)
fig_nbi_nbi=px.pie(
    df_nbi_melt,names='Condición',values='Cantidad'
    )
fig_nbi_servicios=px.pie(
    df_nbi_servicios_melt,names='Condición',values='Cantidad'
)
fig_nbi=make_subplots(
    rows=1,cols=2,
    subplot_titles=('Distribución NBI','Distribución Componente Servicios'),
    specs=[[{'type':'pie'},{'type':'pie'}]]
)
fig_nbi.add_trace(fig_nbi_nbi.data[0],row=1,col=1)
fig_nbi.add_trace(fig_nbi_servicios.data[0],row=1,col=2)
st.plotly_chart(
    fig_nbi, use_container_width=True
    )


En la siguiente pestaña el usuario puede ver la relación de las variables energéticas respecto al tiempo

In [None]:
df_energias_centro_poblado=df_centro_poblado[
    ['Fecha Demanda Máxima','Promedio Diario [h]','Energía Activa [kWh]',
    'Energía Reactiva [kVArh]','Factor de Potencia','Potencia Máxima [kW]']
    ]
st.dataframe(
    df_energias_centro_poblado
    )
x_var='Fecha Demanda Máxima'
y_var=st.selectbox(
    'Escoge la variable que quieres ver respecto al tiempo',
    ['Promedio Diario [h]','Energía Activa [kWh]','Energía Reactiva [kVArh]',
    'Potencia Máxima [kW]','Factor de Potencia']
        )
fig_energias=px.line(
    df_energias_centro_poblado,x=x_var,y=y_var,
    title='Variable Energética Vs Fecha Demanda Máxima'
    )
st.plotly_chart(
    fig_energias,use_container_width=True
    )

En la siguiente pestaña el usuario puede realizar un análisis descriptivo de la varible energética seleccionada anteriormente.

In [None]:
variable=df_energias_centro_poblado[y_var]

Las **medidas de tendencia central** pueden brindarle información respecto a la media, mediana y moda. Estas medidas nos indican el valor alrededor del cual se agrupan los datos, la **media** es el promedio, la **mediana** es el valor en el medio de los datos ordenados, y la **moda** es el valor más frecuente.

In [None]:
mean=variable.mean()
median=variable.median()
mode=variable.mode()

tendencia_cental=pd.DataFrame(
    {'Media':mean,
    'Mediana':median,
    'Moda':mode}
)

Las **medidas de variabilidad** incluyen el **máximo**, **mínimo**, **rango**, **varianza**, **desviación estándar** y **coeficiente de variación**. Estas medidas nos indican cuán dispersos o concentrados están los datos alrededor de la tendencia central.  

In [None]:
min=variable.min()
max=variable.max()
var=variable.var()
std=round(variable.std(),2)
range=max-min
cv=round((std/mean)*100,2)

variabilidad=pd.DataFrame(
    {'Mínimo':[min],
    'Máximo':[max],
    'Rango':[range],
    'Varianza':[var],
    'Desviación Estándar':[std],
    'Coeficiente de Variación':[cv]}
)

Las **medidas de forma** incluyen la **asimetría (skewness)** y la **curtosis**. La **asimetría** nos indica si la distribución está sesgada hacia la derecha o hacia la izquierda. La **curtosis** nos indica la "altitud" de las colas de la distribución (si son más gruesas o más delgadas que una distribución normal).     

In [None]:
asimetria=variable.skew()
kurtosis=variable.kurt()

forma=pd.DataFrame(
        {'Coeficiente de asimetría':[asimetria],
        'Coeficiente de Kurtosis':[kurtosis]}
)

Las **medidas de posición** incluyen los **cuartiles**. Estas medidas nos indican la posición relativa de un valor en el conjunto de datos, dividiendo los datos en diferentes intervalos para mejor comprensión de su distribución. 

In [None]:
Q1=variable.quantile(0.25)
Q2=variable.quantile(0.50)
Q3=variable.quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

posicion=pd.DataFrame(
    {'Primer cuartil':[Q1],
    'Segundo cuartil':[Q2],
    'Tercer cuartil':[Q3],
    'Rango intercuartílico':[IQR],
    'Límite inferior':[lower_bound],
    'Límite superior':[upper_bound]}
)

El análisis descriptivo se puede acompañar con gráficas descriptivas para mayor visualización

Un **diagrama de cajas y bigotes** es una herramienta gráfica utilizada para representar la distribución de un conjunto de datos numéricos a través de sus cuartiles. Proporciona una visión clara de la dispersión, simetría y posibles valores atípicos (outliers) en los datos. Es particularmente útil para comparar distribuciones de datos entre diferentes grupos.

In [None]:
boxplot=px.box(
    df_centro_poblado,x='Centro Poblado',y=y_var 
    )
st.plotly_chart(
    boxplot, use_container_width=True
    )

Una **tabla de frecuencias** es una herramienta utilizada para organizar y resumir datos en grupos, mostrando cuántas veces ocurre cada valor o rango de valores dentro de un conjunto de datos. Es útil para entender cómo se distribuyen los datos y es especialmente útil cuando los datos son numerosos o continúan. <br>

Un **histograma** es un gráfico de barras que representa la distribución de un conjunto de datos. Cada barra en el histograma muestra la frecuencia o el número de ocurrencias de datos en un intervalo específico (o clase). A diferencia de un gráfico de barras, en el que las categorías son discretas, un histograma muestra datos continuos o discretos agrupados en intervalos.

In [None]:
numero_datos=len(variable)
bins=int(math.log2(numero_datos+1))
clases=pd.cut(variable, bins=bins)
fa=clases.value_counts().sort_index()
fa_acum =fa.cumsum()
fr=(fa/fa.sum())*100
fr_acum=fr.cumsum()
t_frecuencia=pd.DataFrame({
    'Intervalo de clase':fa.index.astype(str),
    'Frecuencia absoluta (f)':fa.values,
    'Frecuencia absoluta acumulada (F)':fa_acum.values,
    'Frecuencia relativa (fr) [%]':fr.values,
    'Frecuencia relativa acumulada (Fr) [%]':fr_acum.values
})
st.dataframe(t_frecuencia)
histograma=px.histogram(
    df_energias_centro_poblado,x=y_var,nbins=bins
)
st.plotly_chart(
    histograma, use_container_width=True
    )

El **diagrama de densidad** KDE (Kernel Density Estimation, por sus siglas en inglés) es una técnica utilizada para estimar la distribución de probabilidad de un conjunto de datos, y es una alternativa a los histogramas. A diferencia de un histograma, que divide los datos en intervalos y cuenta cuántos valores caen en cada intervalo, el KDE proporciona una representación más suave y continua de la distribución de los datos.

In [None]:
kde = gaussian_kde(variable, bw_method=0.1)
x_densidad=np.linspace(min,max,1000)
y_densidad=kde(x_densidad)
densidad=go.Figure()
densidad.add_trace(go.Scatter(
    x=x_densidad,y=y_densidad,mode='lines',name='Densidad KDE'
    ))
densidad.update_layout(
    xaxis_title=y_var,
    yaxis_title='Densidad'
)
st.plotly_chart(
    densidad, use_container_width=True
    )

# Resultados Esperados

1. Identificación de ZNI con alta generación de potencia reactiva.
2. Identificación de ZNI con alta eficiencia.
3. 