In [13]:
import pandas as pd  # Librer√≠a para manipulaci√≥n de datos
import os  # Librer√≠a para manejo de archivos y rutas
from sklearn.preprocessing import StandardScaler  # Para normalizar datos num√©ricos

# Definir la ruta del archivo CSV
ruta_entrada = r"C:\Users\Robinson\Desktop\Bootcamp\global_energy_consumption.csv"
ruta_salida = "global_limpio.csv"  # Guardar√° el archivo en el mismo directorio del notebook

In [17]:
def cargar_datos(ruta):
    """Carga un archivo CSV en un DataFrame de pandas."""
    if os.path.exists(ruta):  # Verifica si el archivo existe
        return pd.read_csv(ruta)  # Carga el archivo CSV
    else:
        raise FileNotFoundError(f"‚ùå ERROR: El archivo '{ruta}' no existe.")  # Lanza un error si no encuentra el archivo

def explorar_datos(df, filas=5):
    """Muestra informaci√≥n b√°sica del DataFrame."""
    print("\nüîç Primeras filas del DataFrame:")
    print(df.head(filas))  
    print("\nüìä Informaci√≥n general del DataFrame:")
    print(df.info())  
    print("\nüìà Estad√≠sticas descriptivas:")
    print(df.describe())  

def manejar_valores_nulos(df, metodo="eliminar", valor_reemplazo=0, columnas=None):
    """
    Maneja valores nulos en el DataFrame.
    - metodo="eliminar" borra las filas con valores nulos.
    - metodo="reemplazar" sustituye los valores nulos con un valor dado.
    - Si se especifican columnas, la operaci√≥n solo se aplica a ellas.
    """
    if columnas:
        if metodo == "eliminar":
            df.dropna(subset=columnas, inplace=True)
        elif metodo == "reemplazar":
            df[columnas] = df[columnas].fillna(valor_reemplazo)
    else:
        if metodo == "eliminar":
            df.dropna(inplace=True)
        elif metodo == "reemplazar":
            df.fillna(valor_reemplazo, inplace=True)
    return df

def eliminar_duplicados(df):
    """Elimina filas duplicadas del DataFrame."""
    df.drop_duplicates(inplace=True)
    return df

def convertir_tipos(df, columna, tipo_dato):
    """Convierte el tipo de dato de una columna espec√≠fica."""
    try:
        df[columna] = df[columna].astype(tipo_dato)  
    except Exception as e:
        print(f"‚ö†Ô∏è Error al convertir '{columna}' a {tipo_dato}: {e}")  
    return df

def normaliza_datos(df, columnas):
    """Normaliza los datos de las columnas especificadas usando StandardScaler."""
    scaler = StandardScaler()  
    df[columnas] = scaler.fit_transform(df[columnas])  
    return df

def guardar_datos(df, ruta):
    """Guarda el DataFrame en un archivo CSV sin el √≠ndice."""
    df.to_csv(ruta, index=False)
    print(f"‚úÖ Proceso completado. Datos guardados en '{ruta}'.")

def main():
    """Funci√≥n principal que ejecuta todo el proceso de limpieza de datos."""
    try:
        # Cargar datos
        df = cargar_datos(ruta_entrada)

        # Explorar datos
        explorar_datos(df)

        # Manejar valores nulos reemplaz√°ndolos con 0
        df = manejar_valores_nulos(df, metodo="reemplazar", valor_reemplazo=0)

        # Eliminar duplicados
        df = eliminar_duplicados(df)

        # Columnas a normalizar
        columnas_a_normalizar = [
            "Total Energy Consumption (TWh)", 
            "Per Capita Energy Use (kWh)", 
            "Renewable Energy Share (%)", 
            "Fossil Fuel Dependency (%)", 
            "Industrial Energy Use (%)", 
            "Household Energy Use (%)", 
            "Carbon Emissions (Million Tons)", 
            "Energy Price Index (USD/kWh)"
        ]

        # Normalizar datos
        df = normaliza_datos(df, columnas_a_normalizar)

        # Guardar el DataFrame limpio
        guardar_datos(df, ruta_salida)

    except FileNotFoundError as e:
        print(e)  # Muestra el error si el archivo no se encuentra

ruta_entrada = r"C:\Users\Robinson\Desktop\Bootcamp\global_energy_consumption.csv"
ruta_salida = "global_limpio.csv"  # Guardar√° el archivo en el mismo directorio del notebook
main()  # Ejecuta el script



üîç Primeras filas del DataFrame:
   Country  Year  Total Energy Consumption (TWh)  Per Capita Energy Use (kWh)  \
0   Canada  2018                         9525.38                     42301.43   
1  Germany  2020                         7922.08                     36601.38   
2   Russia  2002                         6630.01                     41670.20   
3   Brazil  2010                         8580.19                     10969.58   
4   Canada  2006                          848.88                     32190.85   

   Renewable Energy Share (%)  Fossil Fuel Dependency (%)  \
0                       13.70                       70.47   
1                       33.63                       41.95   
2                       10.82                       39.32   
3                       73.24                       16.71   
4                       73.60                       74.86   

   Industrial Energy Use (%)  Household Energy Use (%)  \
0                      45.18                     19.