<a href="https://colab.research.google.com/github/gluoneros/greenPredEnergy/blob/main/ai.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Proyecto Final - TalentoTech**
### **Predicción de viabilidad de proyectos de energia renovable en Colombia**

> El proyecto fue realizado en el marco del curso de AI-ML TalentoTech

## **Descripcion** 🚀
_Este proyecto utiliza Python y Jupyter Notebook, pandas, numpy para el desarrollo del modelo de predicción de proyectos de energia renobable en los municipios de Colombia._

## **Tecnologías** 📗
_Se utilizan las siguientes tecnologias para el desarrollo del proyecto:_

* [ Python ](https://www.python.org/) -- <img height="20" src="https://cdn.simpleicons.org/python?viewbox=auto" />
* [Jupyter](https://jupyter.org/) -- <img height="20" src="https://cdn.simpleicons.org/jupyter?viewbox=auto" />
* [Pandas](https://pandas.pydata.org/) -- <img height="20" src="https://cdn.simpleicons.org/pandas?viewbox=auto" />
* [Numpy](https://numpy.org/) -- <img height="20" src="https://cdn.simpleicons.org/numpy?viewbox=auto" />
* [Scikit-learn](https://scikit-learn.org/stable/) -- <img height="20" src="https://cdn.simpleicons.org/scikitlearn?viewbox=auto" />
* [github](https://github.com) --<img height="20" src="https://cdn.simpleicons.org/github?viewbox=auto" />

## **Autores** 😊

* **Monica Garcia**
* **Juan Pablo Cardenas**
* **Juan Pablo Quevedo**
* **Hildebrando Vargas**
* **Jonathan Gutierrez**
* **Mary Luz Ceballosl**

## **Tareas**  ✒️

 - [Importar librerías necesarias](#Importar librerías necesarias)
 2. Cargar los Datos
 3. Explore y visualice los datos para obtener información.
 4. Prepare los datos para los algoritmos de machine learning.
 5. Generación de Estadísticas Descriptivas
 6. Visualización de datos utilizando gráficos de barras, histogramas y gráficos de dispersión
 7. Identificación y manejo de valores atípicos y tendencias en los datos
 8. Uso de técnicas como imputación de la media, mediana y regresión para completar datos faltantes.
 9. Eliminación de registros con datos faltantes o imputación de valores categóricos.
 10. Cálculo de la correlación entre variables.
 11. Aplicación de técnicas de reducción de dimensionalidad para reducir la dimensionalidad de los datos.
 12. Aplicación de PCA para reducir la dimensionalidad de datasets
 13. Aplicación de técnicas de regresión para predecir valores de variables.
 14. Ajusta tu modelo.
 15. Presente su solución.
 16. Inicie, supervise y mantenga su sistema.

In [22]:
# from google.colab import drive
# drive.mount('/content/drive')

# Importar librerías necesarias

In [1]:
# importaciones
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
# check modelos
from sklearn.metrics import r2_score, accuracy_score, confusion_matrix, classification_report
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.naive_bayes import MultinomialNB, GaussianNB
from sklearn.model_selection import train_test_split
# check escaladores
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score
from sklearn.preprocessing import MinMaxScaler, RobustScaler, StandardScaler, Normalizer
# normalización
import unicodedata
# clientes
# !pip install sodapy
from sodapy import Socrata
client = Socrata("www.datos.gov.co", None)



### Métodos

In [2]:
def removeAccents(_value):
  value = _value.upper().replace("Ñ", "%")
  value = unicodedata.normalize("NFKD", value).encode("ascii","ignore").decode("ascii").replace("%", "Ñ")
  return value

## DataSet 1 | Estado de la prestación del servicio de energía en Zonas No Interconectadas

#### Predecir basados en 	'energia_activa',	'energia_reactiva', 'potencia_maxima' 'prom_diario_horas' [Ver](https://www.datos.gov.co/Minas-y-Energ-a/Estado-de-la-prestaci-n-del-servicio-de-energ-a-en/3ebi-d83g/about_data)
##### cual sería el día de demanda maxima para que una localidad en una zona no interconectada limitara y optimizara su uso de energía en funcion del posible ahorro de esta.Y los habitantes en sus viviendas emplearan con anticipacion dichas disminusiones en el consumo energético gracias al día de demanda maxima predicho.

In [3]:
d_zni_ = client.get("3ebi-d83g", limit=5000)
d_zni = pd.DataFrame.from_records(d_zni_)
d_zni = d_zni.rename(columns={"mpio": "municipio"})
d_zni

Unnamed: 0,id_dpto,dpto,id_mpio,municipio,id_localidad,localidad,anio,mes,energia_activa,energia_reactiva,potencia_maxima,dia_demanda_maxima,fecha_demanda_maxima,prom_diario_horas
0,91,AMAZONAS,91540,PUERTO NARIÑO,91540000,PUERTO NARIÑO (PUERTO NARIÑO - AMAZONAS),2024,05,132215,41907,286.4,Jueves,2024-05-23T18:00:00.000,24
1,91,AMAZONAS,91798,TARAPACA (ANM),91798000,TARAPACA (TARAPACA (ANM) - AMAZONAS),2024,05,28132,12662,102.6,Viernes,2024-05-03T18:30:00.000,10.16
2,5,ANTIOQUIA,5873,VIGÍA DEL FUERTE,5873010,LA PLAYA MURRI (VIGÍA DEL FUERTE - ANTIOQUIA),2024,05,2686,1110,27.46,Martes,2024-05-21T19:45:00.000,4.19
3,88,ARCHIPIÉLAGO DE SAN ANDRÉS y PROVIDENCIA,88564,PROVIDENCIA,88564000,PROVIDENCIA (PROVIDENCIA - ARCHIPIÉLAGO DE SAN...,2024,05,1331271,284638,2190.28,Viernes,2024-05-10T15:00:00.000,23.59
4,13,BOLÍVAR,13001,CARTAGENA DE INDIAS,13001007,ISLA FUERTE (CARTAGENA DE INDIAS - BOLÍVAR),2024,05,64368,30561,247.59,Sábado,2024-05-18T22:00:00.000,10.9
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4268,76,VALLE DEL CAUCA,76109,BUENAVENTURA,76109032,SAN FRANCISCO NAYA (BUENAVENTURA - VALLE DEL C...,2024,08,7610,3285,31.23,Viernes,2024-08-02T19:15:00.000,10.05
4269,97,VAUPÉS,97161,CARURÚ,97161000,CARURÚ (CARURÚ - VAUPÉS),2024,08,31775,7881,87.82,Jueves,2024-08-29T18:45:00.000,16.39
4270,97,VAUPÉS,97001,MITÚ,97001000,MITÚ (MITÚ - VAUPÉS),2024,08,1590470,387197,3236.71,Miércoles,2024-08-21T13:00:00.000,23.56
4271,97,VAUPÉS,97666,TARAIRA,97666000,TARAIRA (TARAIRA - VAUPÉS),2024,08,39226,10719,136.84,Martes,2024-08-20T12:00:00.000,13.01


In [4]:
# d_zni.describe()
d_zni_min = d_zni[['municipio', 'anio', 'mes', 'energia_activa', 'energia_reactiva', 'potencia_maxima', 'prom_diario_horas']]
d_zni_min['energia_activa'] = round(d_zni_min[['energia_activa']].replace('NaN', pd.NA).fillna(0).astype(int))
d_zni_min['energia_reactiva'] = round(d_zni_min[['energia_reactiva']].replace('NaN', pd.NA).fillna(0).astype(float))
d_zni_min["municipio"] = d_zni_min["municipio"].apply(removeAccents)
d_zni_min = d_zni_min.groupby(["municipio"])[["energia_activa", "energia_reactiva"]].median()
d_zni_min

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  d_zni_min['energia_activa'] = round(d_zni_min[['energia_activa']].replace('NaN', pd.NA).fillna(0).astype(int))
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  d_zni_min['energia_reactiva'] = round(d_zni_min[['energia_reactiva']].replace('NaN', pd.NA).fillna(0).astype(float))
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-

Unnamed: 0_level_0,energia_activa,energia_reactiva
municipio,Unnamed: 1_level_1,Unnamed: 2_level_1
ACANDI,388026.0,142002.0
ALTO BAUDO,52554.0,18043.0
ALTO BAUDO (PIE DE PATO),46655.0,14585.0
BAHIA SOLANO,187949.0,68362.0
BAHIA SOLANO (MUTIS),150660.0,64680.0
...,...,...
TRINIDAD,12834.5,7221.5
TUMACO,14829.5,5409.5
UNGUIA,20480.0,8206.0
URIBIA,41010.0,11383.0


## DataSet2 | Energía renovable en Colombia
##### Utilizando 'Empleos_estimado',	'Usuarios', 'inversion,	'Capacidad_instalada, 'Energía' predecir cual sería un incremento significativo de desempeño de un proyecto Eolico y/o Solar a futuro para continuar invertiendo en el. [Ver](https://www.datos.gov.co/Minas-y-Energ-a/Meta-FNCER-Incorporar-en-la-matriz-energ-tica-nuev/vy9n-w6hc/about_data)

In [5]:
d_proj_ = client.get("vy9n-w6hc", limit=3000)
d_proj = pd.DataFrame.from_records(d_proj_)
d_proj = d_proj.rename(columns={"municipio": "municipio"})
d_proj

Unnamed: 0,proyecto,tipo,capacidad,departamento,municipio,codigo_departamento,codigo_municipio,fecha_estimada_fpo,energia_kwh_d_a,usuarios,inversi_n_estimada_cop,empleos_estimados,emisiones_co2_ton_a_o
0,JEPIRACHI,Eólico,18.42,LA GUAJIRA,URIBIA,44,44847,2004-04-27T00:00:00.000,176832,30665,79206000000,51,51635
1,AUTOG CELSIA SOLAR YUMBO,Solar,9.8,VALLE DEL CAUCA,YUMBO,76,76892,2017-03-09T00:00:00.000,47040,8157,42140000000,68,13736
2,CELSIA SOLAR BOLIVAR,Solar,8.06,BOLÍVAR,SANTA ROSA,13,13683,2019-02-01T00:00:00.000,38688,6709,34658000000,56,11297
3,EL PASO SOLAR (ENEL GREEN POWER),Solar,67.0,CESAR,EL PASO,20,20250,2019-04-05T00:00:00.000,321600,55769,288100000000,466,93907
4,SOLAR CASTILLA ECP,Solar,20.0,META,CASTILLA LA NUEVA,50,50150,2019-10-10T00:00:00.000,96000,16647,86000000000,139,28032
...,...,...,...,...,...,...,...,...,...,...,...,...,...
153,BUGA 1 PARTE 2,Solar,5.94,VALLE DEL CAUCA,"""""",76,76,2022-12-31T00:00:00.000,28512,4944,22275000000,41,8326
154,BUGA 1 PARTE 1,Solar,3.96,VALLE DEL CAUCA,"""""",76,76,2022-07-31T00:00:00.000,19008,3296,14850000000,28,5550
155,REFINERÍA GRB,Solar,21.0,SANTANDER,BARRANCABERMEJA,68,68081,2023-12-31T00:00:00.000,100800,17480,78750000000,146,29434
156,EMSA GD Y AG (34 Proyectos),Solar,1.9,META,VILLAVICENCIO,50,50001,2022-05-31T00:00:00.000,9120,1582,8170000000,13,2663


In [6]:
d_proj.describe()

Unnamed: 0,proyecto,tipo,capacidad,departamento,municipio,codigo_departamento,codigo_municipio,fecha_estimada_fpo,energia_kwh_d_a,usuarios,inversi_n_estimada_cop,empleos_estimados,emisiones_co2_ton_a_o
count,158,158,158.0,158,158,158,158,158,158,158,158,158,158
unique,156,2,104.0,26,79,26,81,70,106,106,112,75,106
top,"PARQUE SOLAR LA VICTORIA 1 Y 2 (2X19,9) PARTE 2",Solar,9.9,VALLE DEL CAUCA,URIBIA,76,44847,2022-05-31T00:00:00.000,47520,8240,37125000000,69,13876
freq,2,145,23.0,17,8,17,8,15,22,22,14,22,22


## DataSet 3 | Energía Per capita en Colombia

In [7]:
d_epc = pd.read_csv('https://raw.githubusercontent.com/owid/energy-data/refs/heads/master/owid-energy-data.csv')
d_epc

Unnamed: 0,country,year,iso_code,population,gdp,biofuel_cons_change_pct,biofuel_cons_change_twh,biofuel_cons_per_capita,biofuel_consumption,biofuel_elec_per_capita,...,solar_share_elec,solar_share_energy,wind_cons_change_pct,wind_cons_change_twh,wind_consumption,wind_elec_per_capita,wind_electricity,wind_energy_per_capita,wind_share_elec,wind_share_energy
0,ASEAN (Ember),2000,,,,,,,,,...,0.000,,,,,,0.0,,0.0,
1,ASEAN (Ember),2001,,,,,,,,,...,0.000,,,,,,0.0,,0.0,
2,ASEAN (Ember),2002,,,,,,,,,...,0.000,,,,,,0.0,,0.0,
3,ASEAN (Ember),2003,,,,,,,,,...,0.000,,,,,,0.0,,0.0,
4,ASEAN (Ember),2004,,,,,,,,,...,0.000,,,,,,0.0,,0.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21807,Zimbabwe,2019,ZWE,15354606.0,2.514642e+10,,,,,12.374,...,0.353,,,,,0.0,0.0,,0.0,
21808,Zimbabwe,2020,ZWE,15669663.0,2.317871e+10,,,,,6.382,...,0.298,,,,,0.0,0.0,,0.0,
21809,Zimbabwe,2021,ZWE,15993525.0,2.514009e+10,,,,,0.000,...,0.236,,,,,0.0,0.0,,0.0,
21810,Zimbabwe,2022,ZWE,16320539.0,2.590159e+10,,,,,6.127,...,0.336,,,,,0.0,0.0,,0.0,


## d_ndll - DataSet 4 | No días Lluvia


In [98]:
d_ndll = pd.read_csv('https://raw.githubusercontent.com/gluoneros/talentoTech/refs/heads/main/noDiasLLuvia.csv')
d_ndll = d_ndll.rename(columns={"MUNICIPIO": "municipio"})
d_ndll['municipio'] = d_ndll['municipio'].str.upper()
d_ndll

Unnamed: 0,CODIGO,CATEGORIA,ESTACIÓN,municipio,DEPARTAMENTO,AO,ALTITUD (m),LONGITUD,LATITUD,ENE,...,JUN,JUL,AGO,SEP,OCT,NOV,DIC,ANUAL,Número de meses,% de cumplimiento
0,47067010,LM,El Encanto,EL ENCANTO,Amazonas,7,120,-7320,-177,143,...,188,177,134,133,139,148,164,1917,332,"92,2%"
1,47060010,PM,El Encato,EL ENCANTO,Amazonas,7,120,-7321,-175,143,...,186,178,131,133,138,149,163,1911,343,"95,3%"
2,44187030,LM,Bacuri,LA PEDRERA,Amazonas,4,101,-6947,-123,190,...,203,196,165,145,151,150,188,2160,343,"95,3%"
3,44187020,PM,La Pedrera,LA PEDRERA,Amazonas,4,102,-6959,-131,138,...,147,135,124,112,120,121,133,1618,334,"92,8%"
4,44157040,LM,Manacaro,LA PEDRERA,Amazonas,4,109,-7018,-153,183,...,191,180,146,132,149,148,171,2040,351,"97,5%"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1440,38015030,SP,Aeropuerto Puerto Carreño,PUERTO CARREÑO,Vichada,3,57,-6749,618,10,...,212,219,197,143,123,79,29,1332,359,"99,7%"
1441,38017040,LM,Casuarito,PUERTO CARREÑO,Vichada,3,65,-6764,568,21,...,193,196,161,127,103,77,43,1307,343,"95,3%"
1442,35260010,PM,Bonanza,SANTA ROSALÍA,Vichada,3,112,-7085,514,11,...,144,151,132,100,89,59,27,987,324,"90,0%"
1443,35260030,PM,Hato Burrunay,SANTA ROSALÍA,Vichada,3,106,-7068,535,13,...,153,171,140,121,108,77,36,1134,349,"96,9%"


In [99]:
# d_ndll.describe()
d_ndll_min = d_ndll[['municipio', 'ANUAL', 'ALTITUD (m)', 'LATITUD', 'LONGITUD']]
d_ndll_min = d_ndll_min.rename(columns={"ANUAL": "días_lluvia_año"})
d_ndll_min = d_ndll_min.rename(columns={"ALTITUD (m)": "altitud_m"})
d_ndll_min = d_ndll_min.rename(columns={"LATITUD": "latitud"})
d_ndll_min = d_ndll_min.rename(columns={"LONGITUD": "longitud"})


d_ndll_min

Unnamed: 0,municipio,días_lluvia_año,altitud_m,latitud,longitud
0,EL ENCANTO,1917,120,-177,-7320
1,EL ENCANTO,1911,120,-175,-7321
2,LA PEDRERA,2160,101,-123,-6947
3,LA PEDRERA,1618,102,-131,-6959
4,LA PEDRERA,2040,109,-153,-7018
...,...,...,...,...,...
1440,PUERTO CARREÑO,1332,57,618,-6749
1441,PUERTO CARREÑO,1307,65,568,-6764
1442,SANTA ROSALÍA,987,112,514,-7085
1443,SANTA ROSALÍA,1134,106,535,-7068


In [100]:
d_ndll_min.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1445 entries, 0 to 1444
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   municipio        1445 non-null   object
 1   días_lluvia_año  1445 non-null   object
 2   altitud_m        1445 non-null   int64 
 3   latitud          1445 non-null   object
 4   longitud         1445 non-null   object
dtypes: int64(1), object(4)
memory usage: 56.6+ KB


In [101]:
 # elimina espacios en blanco
d_ndll_min['días_lluvia_año'] = d_ndll_min['días_lluvia_año'].str.strip()
d_ndll_min['longitud'] = d_ndll_min['longitud'].str.strip()
d_ndll_min['latitud'] = d_ndll_min['latitud'].str.strip()
#d_ndll_min['ALTITUD (m)'] = d_ndll_min['ALTITUD (m)'].str.strip()

In [102]:
# Cambia comas por puntos en el campo 
d_ndll_min['días_lluvia_año'] = d_ndll_min['días_lluvia_año'].str.replace(',', '.', regex=False)
d_ndll_min['longitud'] = d_ndll_min['longitud'].str.replace(',', '.', regex=False)
d_ndll_min['latitud'] = d_ndll_min['latitud'].str.replace(',', '.', regex=False)
d_ndll_min

Unnamed: 0,municipio,días_lluvia_año,altitud_m,latitud,longitud
0,EL ENCANTO,191.7,120,-1.77,-73.20
1,EL ENCANTO,191.1,120,-1.75,-73.21
2,LA PEDRERA,216.0,101,-1.23,-69.47
3,LA PEDRERA,161.8,102,-1.31,-69.59
4,LA PEDRERA,204.0,109,-1.53,-70.18
...,...,...,...,...,...
1440,PUERTO CARREÑO,133.2,57,6.18,-67.49
1441,PUERTO CARREÑO,130.7,65,5.68,-67.64
1442,SANTA ROSALÍA,98.7,112,5.14,-70.85
1443,SANTA ROSALÍA,113.4,106,5.35,-70.68


In [103]:
d_ndll_min.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1445 entries, 0 to 1444
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   municipio        1445 non-null   object
 1   días_lluvia_año  1445 non-null   object
 2   altitud_m        1445 non-null   int64 
 3   latitud          1445 non-null   object
 4   longitud         1445 non-null   object
dtypes: int64(1), object(4)
memory usage: 56.6+ KB


In [104]:
# conversion a numerico
d_ndll_min['días_lluvia_año'] = pd.to_numeric(d_ndll_min['días_lluvia_año'], errors='coerce')
d_ndll_min['latitud'] = pd.to_numeric(d_ndll_min['latitud'], errors='coerce')
d_ndll_min['longitud'] = pd.to_numeric(d_ndll_min['longitud'], errors='coerce')

In [105]:
d_ndll_min.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1445 entries, 0 to 1444
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   municipio        1445 non-null   object 
 1   días_lluvia_año  1445 non-null   float64
 2   altitud_m        1445 non-null   int64  
 3   latitud          1445 non-null   float64
 4   longitud         1445 non-null   float64
dtypes: float64(3), int64(1), object(1)
memory usage: 56.6+ KB


In [106]:
# Agrupar por municipio y calcular la media de dias_lluvia y las coordenadas de latitud, longitud y altitud
d_ndll_min = d_ndll_min.groupby('municipio').agg({'días_lluvia_año': 'mean', 'latitud': 'first', 'longitud': 'first', 'altitud_m': 'first'}).reset_index()
d_ndll_min

Unnamed: 0,municipio,días_lluvia_año,latitud,longitud,altitud_m
0,ABEJORRAL,177.800000,5.79,-75.43,2450
1,ABRIAQUÍ,200.600000,6.64,-76.08,1920
2,ACACÍAS,195.700000,3.99,-73.77,525
3,ACANDÍ,150.500000,8.53,-77.28,2
4,ACEVEDO,157.650000,1.81,-75.94,1350
...,...,...,...,...,...
756,ZONA BANANERA,52.866667,10.68,-74.21,25
757,ÁBREGO,107.433333,8.09,-73.22,1430
758,ÍQUIRA,166.500000,2.66,-75.67,1650
759,ÚMBITA,170.200000,5.22,-73.44,2300


## DataSet 5 | Velocidad Viento

In [107]:
d_vnt_ = client.get("sgfv-3yp8", limit=7000)
d_vnt = pd.DataFrame.from_records(d_vnt_)
d_vnt = d_vnt.rename(columns={"municipio": "municipio"})
d_vnt

Unnamed: 0,codigoestacion,codigosensor,fechaobservacion,valorobservado,nombreestacion,departamento,municipio,zonahidrografica,latitud,longitud,descripcionsensor,unidadmedida
0,2612500124,0103,2020-10-21T15:40:00.000,1.2,PIJAO - AUT,QUINDÍO,PIJAO,CAUCA,4.331361111,-75.684138889,Velocidad Viento (10 min),m/s
1,0021205710,0103,2020-10-21T20:50:00.000,0.4,JARDIN BOTANICO - AUT,BOGOTA,"BOGOTA, D.C",ALTO MAGDALENA,4.669333333,-74.10266667,Velocidad Viento (10 min),m/s
2,0024035430,0103,2020-10-21T01:10:00.000,0.5,TUNGUAVITA - AUT,BOYACÁ,PAIPA,SOGAMOSO,5.745916667,-73.11636111,Velocidad Viento (10 min),m/s
3,0023190130,0103,2020-10-21T23:30:00.000,0.5,TONA - AUT,SANTANDER,TONA,MEDIO MAGDALENA,7.196111111,-72.97055556,Velocidad Viento (10 min),m/s
4,0013035501,0103,2020-10-21T01:00:00.000,1.8,APTO LOS GARZONES,CÓRDOBA,MONTERÍA,SINÚ,8.826,-75.825,Velocidad Viento (10 min),m/s
...,...,...,...,...,...,...,...,...,...,...,...,...
6995,0024035410,0103,2020-10-21T01:00:00.000,0.9,SOGAMOSO - AUT,BOYACÁ,SOGAMOSO,SOGAMOSO,5.753333333,-72.91115278,Velocidad Viento (10 min),m/s
6996,0015065501,0103,2020-10-21T08:00:00.000,1.5,LA MINA CERREJON - AUT,LA GUAJIRA,ALBANIA,CARIBE - GUAJIRA,11.13758333,-72.61594444,Velocidad Viento (10 min),m/s
6997,0013035501,0103,2020-10-21T14:50:00.000,2,APTO LOS GARZONES,CÓRDOBA,MONTERÍA,SINÚ,8.826,-75.825,Velocidad Viento (10 min),m/s
6998,2403500084,0103,2020-10-21T07:20:00.000,2.4,MONGUA - AUT,BOYACÁ,MONGUA,SOGAMOSO,5.758019444,-72.79485,Velocidad Viento (10 min),m/s


In [108]:
# d_vnt.describe()
d_vnt_min = d_vnt[['municipio', 'valorobservado', 'latitud', 'longitud']]
d_vnt_min = d_vnt_min.rename(columns={"valorobservado": "velocidad_v_m/s"})
#d_vnt_min = d_vnt_min.rename(columns={"municipio": "municipio"})
d_vnt_min

Unnamed: 0,municipio,velocidad_v_m/s,latitud,longitud
0,PIJAO,1.2,4.331361111,-75.684138889
1,"BOGOTA, D.C",0.4,4.669333333,-74.10266667
2,PAIPA,0.5,5.745916667,-73.11636111
3,TONA,0.5,7.196111111,-72.97055556
4,MONTERÍA,1.8,8.826,-75.825
...,...,...,...,...
6995,SOGAMOSO,0.9,5.753333333,-72.91115278
6996,ALBANIA,1.5,11.13758333,-72.61594444
6997,MONTERÍA,2,8.826,-75.825
6998,MONGUA,2.4,5.758019444,-72.79485


In [109]:
#pasar a float
d_vnt_min['velocidad_v_m/s'] = pd.to_numeric(d_vnt_min ['velocidad_v_m/s'], errors='coerce')
d_vnt_min['latitud'] = pd.to_numeric(d_vnt_min ['latitud'], errors='coerce')
d_vnt_min['longitud'] = pd.to_numeric(d_vnt_min ['longitud'], errors='coerce')

In [110]:
# Agrupar por 'municipio' y calcular la media de 'velocidad_v_m/s' para cada uno
d_vnt_min = d_vnt_min.groupby('municipio')['velocidad_v_m/s'].median().reset_index()

d_vnt_min


Unnamed: 0,municipio,velocidad_v_m/s
0,AGUACHICA,0.6
1,ALBANIA,1.2
2,ALDANA,2.6
3,ALGECIRAS,0.9
4,ANAPOIMA,1.7
...,...,...
155,YACOPÍ,1.8
156,YOPAL,1.0
157,ZETAQUIRÁ,0.5
158,ZIPAQUIRÁ,1.6


## d_cpc - DataSet 6 | Centros poblados de Colombia

In [111]:
# d_cpc = pd.read_csv("https://raw.githubusercontent.com/gluoneros/talentoTech/refs/heads/main/DIVIPOLA_CentrosPoblados.csv", encoding="utf-8", delimiter=";",skiprows=2, header=None).iloc[:, 2:]
d_cpc = pd.read_csv("https://raw.githubusercontent.com/gluoneros/talentoTech/refs/heads/main/DIVIPOLA_CentrosPoblados.csv", encoding="utf-8", delimiter=";").iloc[:, 2:]
d_cpc = d_cpc.rename(columns={"Nombre.1": "municipio"})
d_cpc = d_cpc.rename(columns={"Nombre.2": "poblacion"})
d_cpc = d_cpc.rename(columns={"Longitud": "longitud"})
d_cpc = d_cpc.rename(columns={"Latitud": "latitud"})
d_cpc

Unnamed: 0,Código.1,municipio,Código.2,poblacion,Tipo,longitud,latitud
0,5001,MEDELLÍN,5001000,"MEDELLÍN, DISTRITO ESPECIAL DE CIENCIA, TECNOL...",CM,-75578661,6250063
1,5001,MEDELLÍN,5001001,PALMITAS,CP,-75690039,6343329
2,5001,MEDELLÍN,5001004,SANTA ELENA,CP,-75501293,6210599
3,5001,MEDELLÍN,5001009,ALTAVISTA,CP,-75644721,6220472
4,5001,MEDELLÍN,5001010,AGUAS FRÍAS,CP,-75635261,6232665
...,...,...,...,...,...,...,...
8156,99773,CUMARIBO,99773028,GUACO BAJO,CP,,
8157,99773,CUMARIBO,99773029,GUACO ALTO,CP,,
8158,99773,CUMARIBO,99773030,CAÑO BOCÓN,CP,,
8159,99773,CUMARIBO,99773031,CAMUNIANAE,CP,,


In [112]:
# d_cpc.describe()
d_cpc_min = d_cpc[['municipio', 'poblacion', 'longitud', 'latitud']]
d_cpc_min

Unnamed: 0,municipio,poblacion,longitud,latitud
0,MEDELLÍN,"MEDELLÍN, DISTRITO ESPECIAL DE CIENCIA, TECNOL...",-75578661,6250063
1,MEDELLÍN,PALMITAS,-75690039,6343329
2,MEDELLÍN,SANTA ELENA,-75501293,6210599
3,MEDELLÍN,ALTAVISTA,-75644721,6220472
4,MEDELLÍN,AGUAS FRÍAS,-75635261,6232665
...,...,...,...,...
8156,CUMARIBO,GUACO BAJO,,
8157,CUMARIBO,GUACO ALTO,,
8158,CUMARIBO,CAÑO BOCÓN,,
8159,CUMARIBO,CAMUNIANAE,,


In [113]:
d_cpc_min.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8161 entries, 0 to 8160
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   municipio  8161 non-null   object
 1   poblacion  8161 non-null   object
 2   longitud   7728 non-null   object
 3   latitud    7728 non-null   object
dtypes: object(4)
memory usage: 255.2+ KB


In [114]:
d_cpc_min.dropna(inplace=True)
d_cpc_min

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  d_cpc_min.dropna(inplace=True)


Unnamed: 0,municipio,poblacion,longitud,latitud
0,MEDELLÍN,"MEDELLÍN, DISTRITO ESPECIAL DE CIENCIA, TECNOL...",-75578661,6250063
1,MEDELLÍN,PALMITAS,-75690039,6343329
2,MEDELLÍN,SANTA ELENA,-75501293,6210599
3,MEDELLÍN,ALTAVISTA,-75644721,6220472
4,MEDELLÍN,AGUAS FRÍAS,-75635261,6232665
...,...,...,...,...
8151,CUMARIBO,EL TUPARRO,-69062984,4887093
8152,CUMARIBO,BRISA,-69773596,4343518
8153,CUMARIBO,GUATURIBA,-69854645,434513
8154,CUMARIBO,MATSULDANI,-69797888,4342496


In [115]:
# Cambia comas por puntos en el campo 
d_cpc_min['longitud'] = d_cpc_min['longitud'].str.replace(',', '.')
d_cpc_min['latitud'] = d_cpc_min['latitud'].str.replace(',', '.')
d_cpc_min

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  d_cpc_min['longitud'] = d_cpc_min['longitud'].str.replace(',', '.')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  d_cpc_min['latitud'] = d_cpc_min['latitud'].str.replace(',', '.')


Unnamed: 0,municipio,poblacion,longitud,latitud
0,MEDELLÍN,"MEDELLÍN, DISTRITO ESPECIAL DE CIENCIA, TECNOL...",-75.578661,6.250063
1,MEDELLÍN,PALMITAS,-75.690039,6.343329
2,MEDELLÍN,SANTA ELENA,-75.501293,6.210599
3,MEDELLÍN,ALTAVISTA,-75.644721,6.220472
4,MEDELLÍN,AGUAS FRÍAS,-75.635261,6.232665
...,...,...,...,...
8151,CUMARIBO,EL TUPARRO,-69.062984,4.887093
8152,CUMARIBO,BRISA,-69.773596,4.343518
8153,CUMARIBO,GUATURIBA,-69.854645,4.34513
8154,CUMARIBO,MATSULDANI,-69.797888,4.342496


In [116]:
# pasar a numerico
d_cpc_min['latitud'] = pd.to_numeric(d_cpc_min['latitud'], errors='coerce')
d_cpc_min['longitud'] = pd.to_numeric(d_cpc_min['longitud'], errors='coerce')
d_cpc_min

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  d_cpc_min['latitud'] = pd.to_numeric(d_cpc_min['latitud'], errors='coerce')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  d_cpc_min['longitud'] = pd.to_numeric(d_cpc_min['longitud'], errors='coerce')


Unnamed: 0,municipio,poblacion,longitud,latitud
0,MEDELLÍN,"MEDELLÍN, DISTRITO ESPECIAL DE CIENCIA, TECNOL...",-75.578661,6.250063
1,MEDELLÍN,PALMITAS,-75.690039,6.343329
2,MEDELLÍN,SANTA ELENA,-75.501293,6.210599
3,MEDELLÍN,ALTAVISTA,-75.644721,6.220472
4,MEDELLÍN,AGUAS FRÍAS,-75.635261,6.232665
...,...,...,...,...
8151,CUMARIBO,EL TUPARRO,-69.062984,4.887093
8152,CUMARIBO,BRISA,-69.773596,4.343518
8153,CUMARIBO,GUATURIBA,-69.854645,4.345130
8154,CUMARIBO,MATSULDANI,-69.797888,4.342496


In [117]:
d_cpc_min.isna().sum()

municipio    0
poblacion    0
longitud     0
latitud      0
dtype: int64

In [118]:
df_main = pd.merge(left=d_cpc_min, right=d_vnt_min, left_on='municipio', right_on='municipio', how='left')
df_main

Unnamed: 0,municipio,poblacion,longitud,latitud,velocidad_v_m/s
0,MEDELLÍN,"MEDELLÍN, DISTRITO ESPECIAL DE CIENCIA, TECNOL...",-75.578661,6.250063,2.0
1,MEDELLÍN,PALMITAS,-75.690039,6.343329,2.0
2,MEDELLÍN,SANTA ELENA,-75.501293,6.210599,2.0
3,MEDELLÍN,ALTAVISTA,-75.644721,6.220472,2.0
4,MEDELLÍN,AGUAS FRÍAS,-75.635261,6.232665,2.0
...,...,...,...,...,...
7723,CUMARIBO,EL TUPARRO,-69.062984,4.887093,
7724,CUMARIBO,BRISA,-69.773596,4.343518,
7725,CUMARIBO,GUATURIBA,-69.854645,4.345130,
7726,CUMARIBO,MATSULDANI,-69.797888,4.342496,


In [119]:
df_main.isnull().sum()

municipio             0
poblacion             0
longitud              0
latitud               0
velocidad_v_m/s    6091
dtype: int64

In [120]:
# Calcular la media por municipio
municipio_means = df_main.groupby('municipio')['velocidad_v_m/s'].median()

In [121]:
# Rellenar los valores nulos usando la media por municipio
df_main['velocidad_v_m/s'] = df_main.apply(
    lambda row: municipio_means[row['municipio']] if pd.isnull(row['velocidad_v_m/s']) else row['velocidad_v_m/s'],
    axis=1
)
df_main


Unnamed: 0,municipio,poblacion,longitud,latitud,velocidad_v_m/s
0,MEDELLÍN,"MEDELLÍN, DISTRITO ESPECIAL DE CIENCIA, TECNOL...",-75.578661,6.250063,2.0
1,MEDELLÍN,PALMITAS,-75.690039,6.343329,2.0
2,MEDELLÍN,SANTA ELENA,-75.501293,6.210599,2.0
3,MEDELLÍN,ALTAVISTA,-75.644721,6.220472,2.0
4,MEDELLÍN,AGUAS FRÍAS,-75.635261,6.232665,2.0
...,...,...,...,...,...
7723,CUMARIBO,EL TUPARRO,-69.062984,4.887093,
7724,CUMARIBO,BRISA,-69.773596,4.343518,
7725,CUMARIBO,GUATURIBA,-69.854645,4.345130,
7726,CUMARIBO,MATSULDANI,-69.797888,4.342496,


In [81]:
df_main.isnull().sum()

municipio             0
poblacion             0
longitud              0
latitud               0
velocidad_v_m/s    4918
dtype: int64

In [84]:
df_main.fillna(df_main['velocidad_v_m/s'].median(), inplace=True)

In [85]:
df_main.isnull().sum()

municipio          0
poblacion          0
longitud           0
latitud            0
velocidad_v_m/s    0
dtype: int64

In [86]:
df_viabilidad = pd.merge(left=df_main, right=d_ndll_min, left_on='municipio', right_on='municipio', how='left')
df_viabilidad

Unnamed: 0,municipio,poblacion,longitud_x,latitud_x,velocidad_v_m/s,días_lluvia_año,latitud_y,longitud_y,altitud_m
0,MEDELLÍN,"MEDELLÍN, DISTRITO ESPECIAL DE CIENCIA, TECNOL...",-75.578661,6.250063,1.9,180.460000,6.26,-75.68,2450.0
1,MEDELLÍN,PALMITAS,-75.690039,6.343329,1.9,180.460000,6.26,-75.68,2450.0
2,MEDELLÍN,SANTA ELENA,-75.501293,6.210599,1.9,180.460000,6.26,-75.68,2450.0
3,MEDELLÍN,ALTAVISTA,-75.644721,6.220472,1.9,180.460000,6.26,-75.68,2450.0
4,MEDELLÍN,AGUAS FRÍAS,-75.635261,6.232665,1.9,180.460000,6.26,-75.68,2450.0
...,...,...,...,...,...,...,...,...,...
7723,CUMARIBO,EL TUPARRO,-69.062984,4.887093,1.3,155.516667,3.99,-68.32,94.0
7724,CUMARIBO,BRISA,-69.773596,4.343518,1.3,155.516667,3.99,-68.32,94.0
7725,CUMARIBO,GUATURIBA,-69.854645,4.345130,1.3,155.516667,3.99,-68.32,94.0
7726,CUMARIBO,MATSULDANI,-69.797888,4.342496,1.3,155.516667,3.99,-68.32,94.0


In [87]:
df_viabilidad.isnull().sum()

municipio             0
poblacion             0
longitud_x            0
latitud_x             0
velocidad_v_m/s       0
días_lluvia_año    3016
latitud_y          3016
longitud_y         3016
altitud_m          3016
dtype: int64

In [92]:
df_viabilidad = df_viabilidad.drop(columns=['longitud_y'])
df_viabilidad

Unnamed: 0,municipio,poblacion,longitud_x,latitud_x,velocidad_v_m/s,días_lluvia_año,altitud_m
0,MEDELLÍN,"MEDELLÍN, DISTRITO ESPECIAL DE CIENCIA, TECNOL...",-75.578661,6.250063,1.9,180.460000,2450.0
1,MEDELLÍN,PALMITAS,-75.690039,6.343329,1.9,180.460000,2450.0
2,MEDELLÍN,SANTA ELENA,-75.501293,6.210599,1.9,180.460000,2450.0
3,MEDELLÍN,ALTAVISTA,-75.644721,6.220472,1.9,180.460000,2450.0
4,MEDELLÍN,AGUAS FRÍAS,-75.635261,6.232665,1.9,180.460000,2450.0
...,...,...,...,...,...,...,...
7723,CUMARIBO,EL TUPARRO,-69.062984,4.887093,1.3,155.516667,94.0
7724,CUMARIBO,BRISA,-69.773596,4.343518,1.3,155.516667,94.0
7725,CUMARIBO,GUATURIBA,-69.854645,4.345130,1.3,155.516667,94.0
7726,CUMARIBO,MATSULDANI,-69.797888,4.342496,1.3,155.516667,94.0


In [93]:
df_viabilidad.isnull().sum()

municipio             0
poblacion             0
longitud_x            0
latitud_x             0
velocidad_v_m/s       0
días_lluvia_año    3016
altitud_m          3016
dtype: int64

In [94]:
#
df_viabilidad.fillna(df_viabilidad['días_lluvia_año'].median(), inplace=True)

In [96]:
#imputar valores nulos con la mediana de la columna altitud_m
df_viabilidad.fillna(df_viabilidad['altitud_m'].median(), inplace=True)
df_viabilidad

Unnamed: 0,municipio,poblacion,longitud_x,latitud_x,velocidad_v_m/s,días_lluvia_año,altitud_m
0,MEDELLÍN,"MEDELLÍN, DISTRITO ESPECIAL DE CIENCIA, TECNOL...",-75.578661,6.250063,1.9,180.460000,2450.0
1,MEDELLÍN,PALMITAS,-75.690039,6.343329,1.9,180.460000,2450.0
2,MEDELLÍN,SANTA ELENA,-75.501293,6.210599,1.9,180.460000,2450.0
3,MEDELLÍN,ALTAVISTA,-75.644721,6.220472,1.9,180.460000,2450.0
4,MEDELLÍN,AGUAS FRÍAS,-75.635261,6.232665,1.9,180.460000,2450.0
...,...,...,...,...,...,...,...
7723,CUMARIBO,EL TUPARRO,-69.062984,4.887093,1.3,155.516667,94.0
7724,CUMARIBO,BRISA,-69.773596,4.343518,1.3,155.516667,94.0
7725,CUMARIBO,GUATURIBA,-69.854645,4.345130,1.3,155.516667,94.0
7726,CUMARIBO,MATSULDANI,-69.797888,4.342496,1.3,155.516667,94.0


In [97]:
df_viabilidad.isnull().sum()

municipio          0
poblacion          0
longitud_x         0
latitud_x          0
velocidad_v_m/s    0
días_lluvia_año    0
altitud_m          0
dtype: int64

In [39]:
# df_main = pd.merge(left=df5, right=df4, left_on='municipio', right_on='municipio', how='left')
# df_main = pd.DataFrame(
#     {
#       'Municipio': d_cpc['Nombre.1'].str.lower(),
#       'Población': d_cpc['Nombre.2'].str.lower(),
#       'Altitud': d_ndll['ALTITUD (m)'],
#       'Latitud': d_cpc['Longitud'],
#       'Longitud': d_cpc['Latitud'],
#       # 'Año': d_zni['anio'],
#       # 'potencia_m': datos1['potencia_maxima'],
#       # 'prom_diaria': datos1['prom_diario_horas'],
#       # 'energia_activa': datos1['energia_activa'],
#       # 'energia_reactiva': datos1['energia_reactiva']
#     }
# )
# df_main

Unnamed: 0,Municipio,Población,Altitud,Latitud,Longitud
0,medellín,"medellín, distrito especial de ciencia, tecnol...",120.0,-75578661,6250063
1,medellín,palmitas,120.0,-75690039,6343329
2,medellín,santa elena,101.0,-75501293,6210599
3,medellín,altavista,102.0,-75644721,6220472
4,medellín,aguas frías,109.0,-75635261,6232665
...,...,...,...,...,...
8156,cumaribo,guaco bajo,,,
8157,cumaribo,guaco alto,,,
8158,cumaribo,caño bocón,,,
8159,cumaribo,camunianae,,,


In [40]:
# df_main.value_counts()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,count
Municipio,Población,Altitud,Latitud,Longitud,Unnamed: 5_level_1
abejorral,abejorral,550.0,-75428739,5789315,1
regidor,regidor,855.0,-73821638,8666258,1
retiro,alto de carrizales,150.0,-75519304,6140151,1
repelón,villa rosa,1045.0,-7512992,10411282,1
repelón,rotinet,1300.0,-75072382,10530974,1
...,...,...,...,...,...
envigado,parcelación aldea de palma verde,2963.0,-75535767,6148427,1
envigado,parcelación alamos del escobero,1580.0,-75569204,6151617,1
envigado,las palmas,2486.0,-75530513,6152569,1
envigado,la última copa,1700.0,-75573735,6141872,1
