<a href="https://colab.research.google.com/github/juan-manuel124/ProyectoAnalisisDatos-TECH/blob/main/Proyecto_TECH_Energias_Re.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [8]:
# Importación de librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from io import StringIO
import requests

url = "https://www.datos.gov.co/api/views/vy9n-w6hc/rows.csv?accessType=DOWNLOAD"
response = requests.get(url)

if response.status_code == 200:
    data = pd.read_csv(StringIO(response.text), encoding='utf-8')
    print("Datos cargados exitosamente desde datos.gov.co")
else:
    print(f"Error al cargar los datos. Código de estado: {response.status_code}")


Datos cargados exitosamente desde datos.gov.co


In [9]:
# 2. Exploración inicial
print("\n" + "="*60)
print("🔍 EXPLORACIÓN INICIAL DEL DATASET")
print("="*60)

# Dimensiones del DataFrame
print(f"➡ Dimensiones: {data.shape[0]} filas, {data.shape[1]} columnas")

# Primeras filas
print("\n📌 Primeras 5 filas:")
display(data.head())

# Tipos de datos
print("\n🧾 Tipos de datos por columna:")
print(data.dtypes)

# Valores nulos
print("\n❗ Valores nulos por columna:")
print(data.isnull().sum())

# Estadísticas descriptivas completas
print("\n📊 Resumen estadístico (numérico y categórico):")
display(data.describe(include='all').transpose())

# Valores únicos por columna (útil para categorizar variables)
print("\n🔁 Valores únicos por columna (resumen rápido):")
for col in data.columns:
    uniques = data[col].nunique()
    print(f"- {col}: {uniques} valores únicos")

print("="*60)





🔍 EXPLORACIÓN INICIAL DEL DATASET
➡ Dimensiones: 158 filas, 13 columnas

📌 Primeras 5 filas:


Unnamed: 0,Proyecto,Tipo,Capacidad,Departamento,Municipio,Código Departamento,Código Municipio,Fecha estimada FPO,Energía [kWh/día],Usuarios,Inversión estimada [COP],Empleos estimados,Emisiones CO2 [Ton/año]
0,JEPIRACHI,Eólico,18.42,LA GUAJIRA,URIBIA,44,44847,2004-04-27T00:00:00.000,176832,30665,79206000000,51,51635
1,AUTOG CELSIA SOLAR YUMBO,Solar,9.8,VALLE DEL CAUCA,YUMBO,76,76892,2017-03-09T00:00:00.000,47040,8157,42140000000,68,13736
2,CELSIA SOLAR BOLIVAR,Solar,8.06,BOLÍVAR,SANTA ROSA,13,13683,2019-02-01T00:00:00.000,38688,6709,34658000000,56,11297
3,EL PASO SOLAR (ENEL GREEN POWER),Solar,67.0,CESAR,EL PASO,20,20250,2019-04-05T00:00:00.000,321600,55769,288100000000,466,93907
4,SOLAR CASTILLA ECP,Solar,20.0,META,CASTILLA LA NUEVA,50,50150,2019-10-10T00:00:00.000,96000,16647,86000000000,139,28032



🧾 Tipos de datos por columna:
Proyecto                     object
Tipo                         object
Capacidad                   float64
Departamento                 object
Municipio                    object
Código Departamento           int64
Código Municipio              int64
Fecha estimada FPO           object
Energía [kWh/día]             int64
Usuarios                      int64
Inversión estimada [COP]      int64
Empleos estimados             int64
Emisiones CO2 [Ton/año]       int64
dtype: object

❗ Valores nulos por columna:
Proyecto                    0
Tipo                        0
Capacidad                   0
Departamento                0
Municipio                   0
Código Departamento         0
Código Municipio            0
Fecha estimada FPO          0
Energía [kWh/día]           0
Usuarios                    0
Inversión estimada [COP]    0
Empleos estimados           0
Emisiones CO2 [Ton/año]     0
dtype: int64

📊 Resumen estadístico (numérico y categórico):


Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
Proyecto,158.0,156.0,"PARQUE SOLAR LA VICTORIA 1 Y 2 (2X19,9) PARTE 2",2.0,,,,,,,
Tipo,158.0,2.0,Solar,145.0,,,,,,,
Capacidad,158.0,,,,37.971646,78.068671,0.01,2.275,9.9,20.75,700.0
Departamento,158.0,26.0,VALLE DEL CAUCA,17.0,,,,,,,
Municipio,158.0,79.0,URIBIA,8.0,,,,,,,
Código Departamento,158.0,,,,42.829114,26.605922,5.0,17.5,44.0,70.0,94.0
Código Municipio,158.0,,,,41551.797468,27283.549553,23.0,13675.5,44847.0,68514.75,94001.0
Fecha estimada FPO,158.0,70.0,2022-05-31T00:00:00.000,15.0,,,,,,,
Energía [kWh/día],158.0,,,,231296.031646,507038.539206,21.0,10920.0,47520.0,112380.0,3360000.0
Usuarios,158.0,,,,40109.063291,87925.819429,4.0,1893.75,8240.0,19487.75,582659.0



🔁 Valores únicos por columna (resumen rápido):
- Proyecto: 156 valores únicos
- Tipo: 2 valores únicos
- Capacidad: 104 valores únicos
- Departamento: 26 valores únicos
- Municipio: 79 valores únicos
- Código Departamento: 26 valores únicos
- Código Municipio: 81 valores únicos
- Fecha estimada FPO: 70 valores únicos
- Energía [kWh/día]: 106 valores únicos
- Usuarios: 106 valores únicos
- Inversión estimada [COP]: 112 valores únicos
- Empleos estimados: 75 valores únicos
- Emisiones CO2 [Ton/año]: 106 valores únicos


In [10]:
print("\n" + "="*60)
print("🧹 INICIO DEL PROCESO DE LIMPIEZA")
print("="*60)

# Copia del DataFrame original
df_original = data.copy()

# Mostrar cantidad de datos antes de limpieza
print(f"📊 Filas originales: {df_original.shape[0]}")

# Eliminar filas con nulos en columnas clave
columnas_clave = ['Energía [kWh/día]', 'Usuarios']
df_clean = df_original.dropna(subset=columnas_clave).copy()
print(f"✅ Filas después de eliminar nulos en {columnas_clave}: {df_clean.shape[0]}")

# Convertir la columna de fecha a tipo datetime
col_fecha = 'Fecha estimada FPO'
df_clean[col_fecha] = pd.to_datetime(df_clean[col_fecha], errors='coerce')

# Eliminar filas donde la fecha no pudo convertirse
filas_antes_fecha = df_clean.shape[0]
df_clean = df_clean.dropna(subset=[col_fecha])
print(f"🗓️ Filas válidas con fecha correcta en '{col_fecha}': {df_clean.shape[0]} (Eliminadas: {filas_antes_fecha - df_clean.shape[0]})")

# Reiniciar el índice después de limpieza
df_clean.reset_index(drop=True, inplace=True)

# Verificación final
print("\n🔍 Verificación final:")
print("✔️ Nulos restantes por columna:\n", df_clean.isnull().sum())
print(f"📦 Dataset limpio listo para análisis: {df_clean.shape[0]} filas, {df_clean.shape[1]} columnas")
print("="*60)




🧹 INICIO DEL PROCESO DE LIMPIEZA
📊 Filas originales: 158
✅ Filas después de eliminar nulos en ['Energía [kWh/día]', 'Usuarios']: 158
🗓️ Filas válidas con fecha correcta en 'Fecha estimada FPO': 155 (Eliminadas: 3)

🔍 Verificación final:
✔️ Nulos restantes por columna:
 Proyecto                    0
Tipo                        0
Capacidad                   0
Departamento                0
Municipio                   0
Código Departamento         0
Código Municipio            0
Fecha estimada FPO          0
Energía [kWh/día]           0
Usuarios                    0
Inversión estimada [COP]    0
Empleos estimados           0
Emisiones CO2 [Ton/año]     0
dtype: int64
📦 Dataset limpio listo para análisis: 155 filas, 13 columnas


In [None]:
print(data.columns)