# Proceso ETL de los datos

# Extract

In [1]:
import pandas as pd
import numpy as np
import os

In [2]:
# Defino función para cargar varios CSV como DataFrames
def load_csv_to_dataframe(file_list):
    dataframes = {}
    for file in file_list:
        df_name = os.path.splitext(os.path.basename(file))[0]  # Nombre sin extensión
        dataframes[df_name] = pd.read_csv(file)
    return dataframes

#Defino funcion para inspeccionar dataframe
def inspect_dataframe(df):
    print("Primeras 5 filas del DataFrame:")
    print(df.head())
    print("\nInformación del DataFrame:")
    print(df.info())
    print("\nEstadísticas descriptivas del DataFrame:")
    print(df.describe())
    print("\nValores nulos en cada columna:")
    print(df.isnull().sum())
    print("\nNombres de las columnas:")
    print(df.columns.tolist())
    print("\nNúmero de filas duplicadas:")
    print(df.duplicated().sum())
    print("\nNúmero de valores únicos en cada columna:")
    print(df.nunique())

#Función para transformar datos
def transform_dataframe(df):
    # Rellenar valores nulos de columnas numéricas con la mediana de la columna
    num_cols = df.select_dtypes(include=[np.number]).columns
    for col in num_cols:
        median_value = df[col].median()
        df[col].fillna(median_value, inplace=True)
    # Rellenar valores nulos de columnas categóricas con la moda de la columna
    cat_cols = df.select_dtypes(include=['object']).columns
    for col in cat_cols:
        mode_value = df[col].mode()[0]
        df[col].fillna(mode_value, inplace=True)
    return df



In [3]:
#Cargar los archivos CSV en dataframe
# Ruta de la carpeta con los CSVs
rutas_archivos = r'C:\Users\bradon\Documents\GitHub\Consumo-de-gas-Argentina\data\raw'

# Crear lista con rutas completas a los archivos CSV
file_list = [os.path.join(rutas_archivos, file) for file in os.listdir(rutas_archivos) if file.endswith('.csv')]

# Cargar todos los CSV en un diccionario de DataFrames
dataframes = load_csv_to_dataframe(file_list)

dataframes.keys()

dict_keys(['bsas_temperatura', 'catamarca_temperatura', 'chaco_temperatura', 'chubut_temperatura', 'cordoba_temperatura', 'corrientes_temperatura', 'entre_rios_temperatura', 'exportaciones-actividad-saldocomercial-rangos-exportacion-empresa-exportadora-mensual', 'formosa_temperatura', 'jujuy_temperatura', 'la_pampa_temperatura', 'la_rioja_temperatura', 'mendoza_temperatura', 'misiones_temperatura', 'neuquen_temperatura', 'r_negro_temperatura', 'salta_temperatura', 'sanjuan_temperatura', 'sanluis_temperatura', 'santafe_temperatura', 'santiago_del_estero_temperatura', 'sta_cruz_temperatura', 'tucuman_temperatura', 't_d_fuego_temperatura'])

In [4]:
for name, df in dataframes.items():
    print(f"\nInspeccionando DataFrame: {name}")
    inspect_dataframe(df)
    print('-'*50)


Inspeccionando DataFrame: bsas_temperatura
Primeras 5 filas del DataFrame:
                  date  tavg  tmin  tmax  prcp  snow  wdir  wspd  wpgt  \
0  2019-01-01 00:00:00  26.3  22.7  31.2   NaN   NaN   NaN  12.5   NaN   
1  2019-01-02 00:00:00  27.4  23.1  32.7   2.0   NaN   NaN  11.2   NaN   
2  2019-01-03 00:00:00  22.1  17.0  32.1   8.9   NaN   NaN  13.4   NaN   
3  2019-01-04 00:00:00  22.8  16.5  28.9   NaN   NaN   NaN  10.1   NaN   
4  2019-01-05 00:00:00  25.4  20.9  29.7   NaN   NaN   NaN  12.8   NaN   

     pres  tsun  
0  1009.3   NaN  
1  1005.4   NaN  
2  1011.9   NaN  
3  1013.9   NaN  
4  1012.1   NaN  

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1826 entries, 0 to 1825
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   date    1826 non-null   object 
 1   tavg    1826 non-null   float64
 2   tmin    1826 non-null   float64
 3   tmax    1826 non-null   float64
 4   prcp    6

## Transform

In [9]:
#Se quitarán las columnas que no serán utilizadas tanto en el análisis exploratorio como en el modelado.
columnas_a_eliminar = {'tmin', 'tmax', 'prcp', 'snow', 'wdir', 'wspd', 'wpgt', 'pres', 'tsun', 'metrogas', 'gas_natural_fenosa', 'distrib_gas_del_centro_ecogas', 'distrib_gas_cuyana_ecogas', 'litoral_gas', 'gasnea', 'redengas', 'gasnor', 'camuzzi_gas_pampeana', 'camuzzi_gas_del_sur'}

#Aplico bucle para eliminar las columnas no deseadas en cada DataFrame
for name, df in dataframes.items():
    columnas_presentes = set(df.columns)
    columnas_a_quitar = columnas_a_eliminar.intersection(columnas_presentes)
    dataframes[name] = df.drop(columns=columnas_a_quitar)
    print(f"\nColumnas eliminadas en DataFrame {name}: {columnas_a_quitar}")
    print(f"Columnas restantes en DataFrame {name}: {dataframes[name].columns.tolist()}")



Columnas eliminadas en DataFrame bsas_temperatura: set()
Columnas restantes en DataFrame bsas_temperatura: ['date', 'tavg']

Columnas eliminadas en DataFrame catamarca_temperatura: set()
Columnas restantes en DataFrame catamarca_temperatura: ['date', 'tavg']

Columnas eliminadas en DataFrame chaco_temperatura: set()
Columnas restantes en DataFrame chaco_temperatura: ['date', 'tavg']

Columnas eliminadas en DataFrame chubut_temperatura: set()
Columnas restantes en DataFrame chubut_temperatura: ['date', 'tavg']

Columnas eliminadas en DataFrame cordoba_temperatura: set()
Columnas restantes en DataFrame cordoba_temperatura: ['date', 'tavg']

Columnas eliminadas en DataFrame corrientes_temperatura: set()
Columnas restantes en DataFrame corrientes_temperatura: ['date', 'tavg']

Columnas eliminadas en DataFrame entre_rios_temperatura: set()
Columnas restantes en DataFrame entre_rios_temperatura: ['date', 'tavg']

Columnas eliminadas en DataFrame exportaciones-actividad-saldocomercial-rangos