<a href="https://colab.research.google.com/github/gluoneros/greenPredEnergy/blob/main/ai.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Proyecto Final - TalentoTech**
### **Predicción de viabilidad de proyectos de energia renovable en Colombia**

> El proyecto fue realizado en el marco del curso de AI-ML TalentoTech

## **Descripcion** 🚀
_Este proyecto utiliza Python y Jupyter Notebook, pandas, numpy para el desarrollo del modelo de predicción de proyectos de energia renobable en los municipios de Colombia._

## **Tecnologías** 📗
_Se utilizan las siguientes tecnologias para el desarrollo del proyecto:_

* [ Python ](https://www.python.org/) -- <img height="20" src="https://cdn.simpleicons.org/python?viewbox=auto" />
* [Jupyter](https://jupyter.org/) -- <img height="20" src="https://cdn.simpleicons.org/jupyter?viewbox=auto" />
* [Pandas](https://pandas.pydata.org/) -- <img height="20" src="https://cdn.simpleicons.org/pandas?viewbox=auto" />
* [Numpy](https://numpy.org/) -- <img height="20" src="https://cdn.simpleicons.org/numpy?viewbox=auto" />
* [Scikit-learn](https://scikit-learn.org/stable/) -- <img height="20" src="https://cdn.simpleicons.org/scikit_learn?viewbox=auto" />
* [github](https://github.com) --<img height="20" src="https://cdn.simpleicons.org/github?viewbox=auto" />

## **Autores** 😊

* **Monica Garcia**
* **Juan Pablo Cardenas**
* **Juan Pablo Quevedo**
* **Hildebrando Vargas**
* **Jonathan Gutierrez**
* **Mary Luz Ceballosl**

## **Tareas**  ✒️

 1. Importar librerías necesarias
 2. Cargar los Datos
 3. Explore y visualice los datos para obtener información.
 4. Prepare los datos para los algoritmos de machine learning.
 5. Generación de Estadísticas Descriptivas
 6. Visualización de datos utilizando gráficos de barras, histogramas y gráficos de dispersión
 7. Identificación y manejo de valores atípicos y tendencias en los datos
 8. Uso de técnicas como imputación de la media, mediana y regresión para completar datos faltantes.
 9. Eliminación de registros con datos faltantes o imputación de valores categóricos.
 10. Cálculo de la correlación entre variables.
 11. Aplicación de técnicas de reducción de dimensionalidad para reducir la dimensionalidad de los datos.
 12. Aplicación de PCA para reducir la dimensionalidad de datasets
 13. Aplicación de técnicas de regresión para predecir valores de variables.
 14. Ajusta tu modelo.
 15. Presente su solución.
 16. Inicie, supervise y mantenga su sistema.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
# importaciones
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
# check modelos
from sklearn.metrics import mean_squared_error, r2_score, accuracy_score, confusion_matrix, classification_report
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.naive_bayes import MultinomialNB, GaussianNB
from sklearn.model_selection import train_test_split
# check escaladores
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score
from sklearn.preprocessing import MinMaxScaler, RobustScaler, StandardScaler, Normalizer

# clientes
!pip install sodapy
from sodapy import Socrata
client = Socrata("www.datos.gov.co", None)

Collecting sodapy
  Downloading sodapy-2.2.0-py2.py3-none-any.whl.metadata (15 kB)
Downloading sodapy-2.2.0-py2.py3-none-any.whl (15 kB)
Installing collected packages: sodapy
Successfully installed sodapy-2.2.0




## DataSet 1 Estado de la prestación del servicio de energía en Zonas No Interconectadas

#### Predecir basados en 	'energia_activa',	'energia_reactiva', 'potencia_maxima' 'prom_diario_horas' [Ver](https://www.datos.gov.co/Minas-y-Energ-a/Estado-de-la-prestaci-n-del-servicio-de-energ-a-en/3ebi-d83g/about_data)
##### cual sería el día de demanda maxima para que una localidad en una zona no interconectada limitara y optimizara su uso de energía en funcion del posible ahorro de esta.Y los habitantes en sus viviendas emplearan con anticipacion dichas disminusiones en el consumo enrgetico gracias al día de demanda maxima predicho.

In [None]:
d_zni_ = client.get("3ebi-d83g", limit=5000)
d_zni = pd.DataFrame.from_records(d_zni_)
d_zni

Unnamed: 0,id_dpto,dpto,id_mpio,mpio,id_localidad,localidad,anio,mes,energia_activa,energia_reactiva,potencia_maxima,dia_demanda_maxima,fecha_demanda_maxima,prom_diario_horas
0,91,AMAZONAS,91540,PUERTO NARIÑO,91540000,PUERTO NARIÑO (PUERTO NARIÑO - AMAZONAS),2024,05,132215,41907,286.4,Jueves,2024-05-23T18:00:00.000,24
1,91,AMAZONAS,91798,TARAPACA (ANM),91798000,TARAPACA (TARAPACA (ANM) - AMAZONAS),2024,05,28132,12662,102.6,Viernes,2024-05-03T18:30:00.000,10.16
2,5,ANTIOQUIA,5873,VIGÍA DEL FUERTE,5873010,LA PLAYA MURRI (VIGÍA DEL FUERTE - ANTIOQUIA),2024,05,2686,1110,27.46,Martes,2024-05-21T19:45:00.000,4.19
3,88,ARCHIPIÉLAGO DE SAN ANDRÉS y PROVIDENCIA,88564,PROVIDENCIA,88564000,PROVIDENCIA (PROVIDENCIA - ARCHIPIÉLAGO DE SAN...,2024,05,1331271,284638,2190.28,Viernes,2024-05-10T15:00:00.000,23.59
4,13,BOLÍVAR,13001,CARTAGENA DE INDIAS,13001007,ISLA FUERTE (CARTAGENA DE INDIAS - BOLÍVAR),2024,05,64368,30561,247.59,Sábado,2024-05-18T22:00:00.000,10.9
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4268,76,VALLE DEL CAUCA,76109,BUENAVENTURA,76109032,SAN FRANCISCO NAYA (BUENAVENTURA - VALLE DEL C...,2024,08,7610,3285,31.23,Viernes,2024-08-02T19:15:00.000,10.05
4269,97,VAUPÉS,97161,CARURÚ,97161000,CARURÚ (CARURÚ - VAUPÉS),2024,08,31775,7881,87.82,Jueves,2024-08-29T18:45:00.000,16.39
4270,97,VAUPÉS,97001,MITÚ,97001000,MITÚ (MITÚ - VAUPÉS),2024,08,1590470,387197,3236.71,Miércoles,2024-08-21T13:00:00.000,23.56
4271,97,VAUPÉS,97666,TARAIRA,97666000,TARAIRA (TARAIRA - VAUPÉS),2024,08,39226,10719,136.84,Martes,2024-08-20T12:00:00.000,13.01


## DataSet2 | Energía renovable en Colombia
##### Utilizando 'Empleos_estimado',	'Usuarios', 'inversion,	'Capacidad_instalada, 'Energía' predecir cual sería un incremento significativo de desempeño de un proyecto Eolico y/o Solar a futuro para continuar invertiendo en el.

In [None]:
d_proj_ = client.get("vy9n-w6hc", limit=3000)
d_proj = pd.DataFrame.from_records(d_proj_)
d_proj

Unnamed: 0,proyecto,tipo,capacidad,departamento,municipio,codigo_departamento,codigo_municipio,fecha_estimada_fpo,energia_kwh_d_a,usuarios,inversi_n_estimada_cop,empleos_estimados,emisiones_co2_ton_a_o
0,JEPIRACHI,Eólico,18.42,LA GUAJIRA,URIBIA,44,44847,2004-04-27T00:00:00.000,176832,30665,79206000000,51,51635
1,AUTOG CELSIA SOLAR YUMBO,Solar,9.8,VALLE DEL CAUCA,YUMBO,76,76892,2017-03-09T00:00:00.000,47040,8157,42140000000,68,13736
2,CELSIA SOLAR BOLIVAR,Solar,8.06,BOLÍVAR,SANTA ROSA,13,13683,2019-02-01T00:00:00.000,38688,6709,34658000000,56,11297
3,EL PASO SOLAR (ENEL GREEN POWER),Solar,67.0,CESAR,EL PASO,20,20250,2019-04-05T00:00:00.000,321600,55769,288100000000,466,93907
4,SOLAR CASTILLA ECP,Solar,20.0,META,CASTILLA LA NUEVA,50,50150,2019-10-10T00:00:00.000,96000,16647,86000000000,139,28032
...,...,...,...,...,...,...,...,...,...,...,...,...,...
153,BUGA 1 PARTE 2,Solar,5.94,VALLE DEL CAUCA,"""""",76,76,2022-12-31T00:00:00.000,28512,4944,22275000000,41,8326
154,BUGA 1 PARTE 1,Solar,3.96,VALLE DEL CAUCA,"""""",76,76,2022-07-31T00:00:00.000,19008,3296,14850000000,28,5550
155,REFINERÍA GRB,Solar,21.0,SANTANDER,BARRANCABERMEJA,68,68081,2023-12-31T00:00:00.000,100800,17480,78750000000,146,29434
156,EMSA GD Y AG (34 Proyectos),Solar,1.9,META,VILLAVICENCIO,50,50001,2022-05-31T00:00:00.000,9120,1582,8170000000,13,2663


## DataSet 3 | Energía Per capita en Colombia

In [None]:
d_epc = pd.read_csv('https://raw.githubusercontent.com/owid/energy-data/refs/heads/master/owid-energy-data.csv')
d_epc

Unnamed: 0,country,year,iso_code,population,gdp,biofuel_cons_change_pct,biofuel_cons_change_twh,biofuel_cons_per_capita,biofuel_consumption,biofuel_elec_per_capita,...,solar_share_elec,solar_share_energy,wind_cons_change_pct,wind_cons_change_twh,wind_consumption,wind_elec_per_capita,wind_electricity,wind_energy_per_capita,wind_share_elec,wind_share_energy
0,ASEAN (Ember),2000,,,,,,,,,...,0.000,,,,,,0.0,,0.0,
1,ASEAN (Ember),2001,,,,,,,,,...,0.000,,,,,,0.0,,0.0,
2,ASEAN (Ember),2002,,,,,,,,,...,0.000,,,,,,0.0,,0.0,
3,ASEAN (Ember),2003,,,,,,,,,...,0.000,,,,,,0.0,,0.0,
4,ASEAN (Ember),2004,,,,,,,,,...,0.000,,,,,,0.0,,0.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21807,Zimbabwe,2019,ZWE,15354606.0,2.514642e+10,,,,,12.374,...,0.353,,,,,0.0,0.0,,0.0,
21808,Zimbabwe,2020,ZWE,15669663.0,2.317871e+10,,,,,6.382,...,0.298,,,,,0.0,0.0,,0.0,
21809,Zimbabwe,2021,ZWE,15993525.0,2.514009e+10,,,,,0.000,...,0.236,,,,,0.0,0.0,,0.0,
21810,Zimbabwe,2022,ZWE,16320539.0,2.590159e+10,,,,,6.127,...,0.336,,,,,0.0,0.0,,0.0,


## DataSet 4 | No días Lluvia


In [None]:
d_noll = pd.read_csv('https://raw.githubusercontent.com/gluoneros/talentoTech/refs/heads/main/noDiasLLuvia.csv')
d_noll

Unnamed: 0,CODIGO,CATEGORIA,ESTACIÓN,MUNICIPIO,DEPARTAMENTO,AO,ALTITUD (m),LONGITUD,LATITUD,ENE,...,JUN,JUL,AGO,SEP,OCT,NOV,DIC,ANUAL,Número de meses,% de cumplimiento
0,47067010,LM,El Encanto,El Encanto,Amazonas,7,120,-7320,-177,143,...,188,177,134,133,139,148,164,1917,332,"92,2%"
1,47060010,PM,El Encato,El Encanto,Amazonas,7,120,-7321,-175,143,...,186,178,131,133,138,149,163,1911,343,"95,3%"
2,44187030,LM,Bacuri,La Pedrera,Amazonas,4,101,-6947,-123,190,...,203,196,165,145,151,150,188,2160,343,"95,3%"
3,44187020,PM,La Pedrera,La Pedrera,Amazonas,4,102,-6959,-131,138,...,147,135,124,112,120,121,133,1618,334,"92,8%"
4,44157040,LM,Manacaro,La Pedrera,Amazonas,4,109,-7018,-153,183,...,191,180,146,132,149,148,171,2040,351,"97,5%"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1440,38015030,SP,Aeropuerto Puerto Carreño,Puerto Carreño,Vichada,3,57,-6749,618,10,...,212,219,197,143,123,79,29,1332,359,"99,7%"
1441,38017040,LM,Casuarito,Puerto Carreño,Vichada,3,65,-6764,568,21,...,193,196,161,127,103,77,43,1307,343,"95,3%"
1442,35260010,PM,Bonanza,Santa Rosalía,Vichada,3,112,-7085,514,11,...,144,151,132,100,89,59,27,987,324,"90,0%"
1443,35260030,PM,Hato Burrunay,Santa Rosalía,Vichada,3,106,-7068,535,13,...,153,171,140,121,108,77,36,1134,349,"96,9%"


## DataSet 5 | Velocidad Viento

In [None]:
d_vnt_ = client.get("sgfv-3yp8", limit=5000)
d_vnt = pd.DataFrame.from_records(d_vnt_)
d_vnt

Unnamed: 0,codigoestacion,codigosensor,fechaobservacion,valorobservado,nombreestacion,departamento,municipio,zonahidrografica,latitud,longitud,descripcionsensor,unidadmedida
0,0026125503,0103,2017-05-17T00:50:00.000,1.1,LA SIRENA - AUT,VALLE DEL CAUCA,SEVILLA,CAUCA,4.285,-75.9025,Velocidad Viento (10 min),m/s
1,0035035110,0103,2018-10-03T20:10:00.000,1.2,SALINAS DE UPIN - AUT,META,RESTREPO,META,4.273861111,-73.58686111,Velocidad Viento (10 min),m/s
2,0021015050,0103,2019-06-21T22:50:00.000,2.6,PURACE - AUT,HUILA,SAN AGUSTÍN,ALTO MAGDALENA,1.925916667,-76.42755556,Velocidad Viento (10 min),m/s
3,0021206930,0103,2010-11-08T09:50:00.000,3.6,PARAMO GUERRERO - AUT,CUNDINAMARCA,ZIPAQUIRÁ,ALTO MAGDALENA,5.086444444,-74.02216667,Velocidad Viento (10 min),m/s
4,0024015503,0103,2019-02-20T00:45:00.000,0.01103334,CONFINES - AUT,SANTANDER,CONFINES,SOGAMOSO,6.373027778,-73.20760833,Velocidad Viento (10 min),m/s
...,...,...,...,...,...,...,...,...,...,...,...,...
4995,0015075501,0103,2019-02-28T18:30:00.000,8.2,AEROPUERTO PUERTO BOLIVAR - AUT,LA GUAJIRA,URIBIA,CARIBE - GUAJIRA,12.22430556,-71.98288889,Velocidad Viento (10 min),m/s
4996,0026185050,0103,2007-05-11T07:20:00.000,1.4,SANTA BARBARA - AUT,ANTIOQUIA,SANTA BÁRBARA,CAUCA,5.859583333,-75.55627778,Velocidad Viento (10 min),m/s
4997,0021206600,0103,2016-02-23T05:50:00.000,1.3,NUEVA GENERACION - AUT,BOGOTA,"BOGOTA, D.C",ALTO MAGDALENA,4.782222222,-74.09433333,Velocidad Viento (10 min),m/s
4998,0026145090,0103,2018-11-17T17:50:00.000,0.4,SANTA EMILIA - AUT,RISARALDA,BELÉN DE UMBRÍA,CAUCA,5.207472222,-75.90294444,Velocidad Viento (10 min),m/s


## DataSet 6 | Centros poblados de Colombia

In [None]:
# d_cpc = pd.read_csv("https://raw.githubusercontent.com/gluoneros/talentoTech/refs/heads/main/DIVIPOLA_CentrosPoblados.csv", encoding="utf-8", delimiter=";",skiprows=2, header=None).iloc[:, 2:]
d_cpc = pd.read_csv("https://raw.githubusercontent.com/gluoneros/talentoTech/refs/heads/main/DIVIPOLA_CentrosPoblados.csv", encoding="utf-8", delimiter=";").iloc[:, 2:]
d_cpc

Unnamed: 0,Código.1,Nombre.1,Código.2,Nombre.2,Tipo,Longitud,Latitud
0,5001,MEDELLÍN,5001000,"MEDELLÍN, DISTRITO ESPECIAL DE CIENCIA, TECNOL...",CM,-75578661,6250063
1,5001,MEDELLÍN,5001001,PALMITAS,CP,-75690039,6343329
2,5001,MEDELLÍN,5001004,SANTA ELENA,CP,-75501293,6210599
3,5001,MEDELLÍN,5001009,ALTAVISTA,CP,-75644721,6220472
4,5001,MEDELLÍN,5001010,AGUAS FRÍAS,CP,-75635261,6232665
...,...,...,...,...,...,...,...
8156,99773,CUMARIBO,99773028,GUACO BAJO,CP,,
8157,99773,CUMARIBO,99773029,GUACO ALTO,CP,,
8158,99773,CUMARIBO,99773030,CAÑO BOCÓN,CP,,
8159,99773,CUMARIBO,99773031,CAMUNIANAE,CP,,
