In [1]:
import pandas as pd
import os
from datetime import datetime

v1

In [1]:
def completar_serie_temporal_mensual(ruta_carpeta):
    # Obtener la lista de archivos en la carpeta
    archivos = os.listdir(ruta_carpeta)
    
    # Iterar sobre los archivos en la carpeta
    for archivo in archivos:
        # Verificar que el archivo es un archivo CSV
        if archivo.endswith('.csv'):
            # Construir la ruta completa al archivo
            if not os.path.exists("data/series"):
                os.makedirs("data/series")
            ruta_carpeta2 = "data/series"
            ruta_archivo = os.path.join(ruta_carpeta, archivo)
            ruta_nueva =  os.path.join(ruta_carpeta2, archivo)
            # Leer el archivo CSV
            df = pd.read_csv(ruta_archivo)
            
            # Convertir la columna 'year_month' a tipo datetime
            df['year_month'] = pd.to_datetime(df['year_month'])
            
            # Eliminar filas duplicadas si existen
            df = df.drop_duplicates(subset=['year_month'])
            
            # Obtener la menor y la mayor fecha presente en el DataFrame
            min_fecha = df['year_month'].min()
            max_fecha = df['year_month'].max()
            
            # Crear una serie temporal mensual entre la menor y la mayor fecha
            fechas_mensuales = pd.date_range(start=min_fecha, end=max_fecha, freq='M')
            
            # Crear un DataFrame vacío con las fechas mensuales como índice
            df_mensual = pd.DataFrame(index=fechas_mensuales)
            
            # Rellenar la serie temporal mensual con los valores del trimestre correspondiente
            df_mensual['total_obs_value'] = df.set_index('year_month').resample('M').ffill()['total_obs_value']
            
            # Guardar el DataFrame reducido como un archivo CSV (sobreescribiendo el archivo original)
            df_mensual.to_csv(ruta_nueva)


v2

In [4]:
def completar_serie_temporal_mensual2(ruta_carpeta):
    # Verificar si la carpeta "data/series" existe, si no, crearla
    if not os.path.exists("data/series"):
        os.makedirs("data/series")
    
    # Obtener la lista de archivos en la carpeta
    archivos = os.listdir(ruta_carpeta)
    
    # Iterar sobre los archivos en la carpeta
    for archivo in archivos:
        # Verificar que el archivo es un archivo CSV
        if archivo.endswith('.csv'):
            # Construir la ruta completa al archivo
            ruta_archivo = os.path.join(ruta_carpeta, archivo)
            # Leer el archivo CSV
            df = pd.read_csv(ruta_archivo, infer_datetime_format=True, parse_dates=['year_month'])
            
            # Obtener la menor y la mayor fecha presente en el DataFrame
            min_fecha = df['year_month'].min()
            max_fecha = datetime.strptime("2023-12-31", "%Y-%m-%d").date()
            
            # Crear una serie temporal mensual entre la menor y la mayor fecha
            fechas_mensuales = pd.date_range(start=min_fecha, end=max_fecha, freq='M')
            
            # Crear un DataFrame vacío con las fechas mensuales como índice
            df_mensual = pd.DataFrame(index=fechas_mensuales)
            
            # Rellenar la serie temporal mensual con los valores del trimestre correspondiente
            df_mensual['total_obs_value'] = df.set_index('year_month').resample('M').ffill()['total_obs_value']
            
            # Guardar el DataFrame reducido como un archivo CSV (sobreescribiendo el archivo original)
            ruta_nueva = os.path.join("data/series", archivo)
            df_mensual.to_csv(ruta_nueva)

v3

In [4]:
def completar_serie_temporal_mensual3(ruta_carpeta):
    # Verificar si la carpeta "data/series" existe, si no, crearla
    if not os.path.exists("data/series"):
        os.makedirs("data/series")
    
    # Obtener la lista de archivos en la carpeta
    archivos = os.listdir(ruta_carpeta)
    
    # Iterar sobre los archivos en la carpeta
    for archivo in archivos:
        # Verificar que el archivo es un archivo CSV
        if archivo.endswith('.csv'):
            # Construir la ruta completa al archivo
            ruta_archivo = os.path.join(ruta_carpeta, archivo)
            # Leer el archivo CSV
            df = pd.read_csv(ruta_archivo, infer_datetime_format=True, parse_dates=['year_month'])
            # Eliminar filas duplicadas si existen
            df = df.drop_duplicates(subset=['year_month'])
            # Obtener la menor y la mayor fecha presente en el DataFrame
            min_fecha = df['year_month'].min()
            max_fecha = df['year_month'].max()
            
            # Crear un rango de fechas mensuales entre la menor y la mayor fecha
            fechas_mensuales = pd.date_range(start=min_fecha, end=max_fecha, freq='M')
            
            # Reindexar el DataFrame para incluir todas las fechas mensuales entre la fecha mínima y la fecha máxima
            df = df.set_index('year_month').reindex(fechas_mensuales)
            
            # Rellenar los valores faltantes con ceros
            df['total_obs_value'] = df['total_obs_value'].fillna(0)
            
            # Rellenar la serie temporal mensual con los valores del trimestre correspondiente
            df_mensual = df.resample('M').ffill()
            
            # Guardar el DataFrame reducido como un archivo CSV (sobreescribiendo el archivo original)
            ruta_nueva = os.path.join("data/series", archivo)
            df_mensual.to_csv(ruta_nueva)

v4

In [2]:
def completar_serie_temporal_mensual4(ruta_carpeta):
    # Verificar si la carpeta de salida existe, si no, crearla
    if not os.path.exists("data/series"):
        os.makedirs("data/series")
    
    # Obtener la lista de archivos en la carpeta
    archivos = os.listdir(ruta_carpeta)
    
    # Iterar sobre los archivos en la carpeta
    for archivo in archivos:
        # Verificar que el archivo es un archivo CSV
        if archivo.endswith('.csv'):
            # Construir la ruta completa al archivo
            ruta_archivo = os.path.join(ruta_carpeta, archivo)
            # Leer el archivo CSV
            df = pd.read_csv(ruta_archivo)
            # Convertir la columna 'year_month' a tipo datetime
            df['year_month'] = pd.to_datetime(df['year_month'])
            # Eliminar filas duplicadas si existen
            df = df.drop_duplicates(subset=['year_month'])
            # Obtener la menor y la mayor fecha presente en el DataFrame
            min_fecha = df['year_month'].min()
            max_fecha = df['year_month'].max()
            # Crear una serie temporal mensual entre la menor y la mayor fecha
            fechas_mensuales = pd.date_range(start=min_fecha, end=max_fecha, freq='M')
            # Crear un DataFrame vacío con las fechas mensuales como índice
            df_mensual = pd.DataFrame(index=fechas_mensuales)
            # Rellenar la serie temporal mensual con los valores del trimestre correspondiente
            df_mensual['total_obs_value'] = df.set_index('year_month').resample('M').ffill()['total_obs_value']
            # Guardar el DataFrame reducido como un archivo CSV
            ruta_nueva = os.path.join("data/series", archivo)
            df_mensual.to_csv(ruta_nueva)


In [1]:
def encontrar_dfs_con_valores_cero(dfs_by_country):
   # Lista para almacenar las claves de los DataFrames que se eliminarán
    keys_to_delete = []
    
    # Crear una copia de las claves del diccionario
    keys_copy = list(dfs_by_country.keys())
    
    # Iterar sobre las claves del diccionario
    for country in keys_copy:
        dfs_pais = dfs_by_country[country]
        for i, df in enumerate(dfs_pais):
            # Calcular el porcentaje de valores cero en 'total_obs_value'
            porcentaje_ceros = (df['total_obs_value'] == 0).mean() * 100
            
            # Verificar si el porcentaje de ceros es mayor al 50%
            if porcentaje_ceros > 50:
                # Agregar la clave del DataFrame a la lista de claves a eliminar
                keys_to_delete.append(country)
                break
    
        
    return keys_to_delete