In [2]:
#Procedimiento para analizar la calidad de las series de tiempo del archivo en fisico

import pandas as pd
import numpy as np

#Parámetros para analizar las series de tiempo del archivo
archivo = 'series.xlsx'
hoja = 'series'
#Leer datos desde el archivo Excel
df_excel = pd.read_excel(archivo, sheet_name=hoja)

# Series
series = [
    "F022.TPM.TIN.D001.NO.Z.D",
    "F073.TCO.PRE.Z.D",
    "F033.IND.PPI.N.Z.HIST13.0.A",
    "F074.IPC.IND.Z.EP18.C.M",
    "F073.UTR.PRE.Z.M"
]

#Filtrar datos por fechas
df_filtered = df_excel.loc[(df_excel['DATE'] >= '2023-01-01') & (df_excel['DATE'] <= '2023-01-31')]

#Verificar la calidad de los datos de las series
for serie in series:
    try:
        #Filtrar datos de la serie
        df_serie = df_filtered.loc[df_filtered['SERIE'] == serie]

        #Verificar si hay datos para la serie
        if df_serie.empty:
            print("No hay datos para la serie:", serie)
            continue

        #Verificar integridad de los datos (completitud)
        if df_serie['VALUE'].isnull().any():
            print("La serie", serie, "contiene valores faltantes.")

        #Verificar valores atípicos
        mean_value = df_serie['VALUE'].mean()
        std_value = df_serie['VALUE'].std()
        outliers = df_serie.loc[(df_serie['VALUE'] > mean_value + 3 * std_value) | (df_serie['VALUE'] < mean_value - 3 * std_value)]#Valores atípicos
        if not outliers.empty:
            print("La serie", serie, "contiene valores atípicos:", outliers)

        #Verificar valores faltantes y tomar acción adecuada
        missing_values = df_serie['DATE'].diff().dt.days > 1
        if missing_values.any():
            print("La serie", serie, "contiene valores faltantes.")
            #print("Valores faltantes:", df_serie.loc[missing_values, 'DATE'])

        #Verificar duplicados
        if df_serie['DATE'].duplicated().any():
            print("La serie", serie, "contiene valores duplicados.")

        #Verificar si la serie está ordenada
        if not df_serie['DATE'].is_monotonic:
            print("La serie", serie, "no está ordenada.")

        #Verificar si la serie tiene valores negativos
        if (df_serie['VALUE'] < 0).any():
            print("La serie", serie, "contiene valores negativos.")

        #Verificar si la serie tiene valores cero
        if (df_serie['VALUE'] == 0).any():
            print("La serie", serie, "contiene valores cero.")

        #Verificar si la serie tiene valores infinitos
        if (df_serie['VALUE'] == np.inf).any():
            print("La serie", serie, "contiene valores infinitos.")

    #Error en la serie    
    except Exception as e:
        print("Error en serie", serie)
        print(str(e))#Imprimir el error



KeyError: 'TIME_PERIOD'

In [3]:
#Procedimiento para guardar el dataframe en un archivo csv

#Parámetros para analizar las series de tiempo del archivo
archivo = 'series.xlsx'
hoja = 'series'

#Series)
series = [
    "F022.TPM.TIN.D001.NO.Z.D",
    "F073.TCO.PRE.Z.D",
    "F033.IND.PPI.N.Z.HIST13.0.A",
    "F074.IPC.IND.Z.EP18.C.M",
    "F073.UTR.PRE.Z.M"
]

# Leer datos desde el archivo Excel
df_excel = pd.read_excel(archivo, sheet_name=hoja)

# Filtrar datos por fechas
df_filtered = df_excel.loc[(df_excel['DATE'] >= '2023-01-01') & (df_excel['DATE'] <= '2023-01-31')]

# Procesar y almacenar las series de tiempo
for serie in series:
    try:
        #Filtrar datos de la serie
        df_serie = df_filtered.loc[df_filtered['SERIE'] == serie]

        #Verificar si hay datos en cada serie
        if df_serie.empty:
            print("No hay datos para la serie:", serie)
            continue

        #Preparar DataFrame final
        df_final = df_serie[['DATE', 'VALUE']].copy() #Copiar columnas DATE y VALUE
        df_final.columns = ['TIME_PERIOD', 'OBS_VALUE'] #Renombrar columnas
        df_final['TIME_PERIOD'] = df_final['TIME_PERIOD'].dt.strftime('%Y-%m-%d') #Convertir a formato AAAA-MM-DD
        df_final['OBS_VALUE'] = df_final['OBS_VALUE'].astype(str).str.replace('.', ',') #Reemplazar puntos por comas
        df_final['OBS_VALUE'] = df_final['OBS_VALUE'].str.replace(',0', '') #Eliminar decimales cero
        df_final['OBS_VALUE'] = df_final['OBS_VALUE'].str.replace(',nan', '') #Eliminar valores nulos
        df_final['OBS_VALUE'] = df_final['OBS_VALUE'].str.replace('0', '') #Eliminar ceros
        df_final['OBS_VALUE'] = df_final['OBS_VALUE'].str.replace(',', '.') #Reemplazar comas por puntos

        #Guardar en archivo CSV
        data_series = serie + '.csv'
        df_final.to_csv(data_series, index=False)
        print("Serie", serie, "almacenada en", data_series)

    except Exception as e:
        print("Error en serie", serie)
        print(str(e))


KeyboardInterrupt: 

In [1]:
#informe calidad de datos





data_series.head()

NameError: name 'data_series' is not defined