In [1]:
import numpy as np
import requests
import pandas as pd
import io
import warnings
warnings.filterwarnings("ignore")

# Script para Descargar y Leer el Archivo Excel del IPC

Este script se encarga de descargar un archivo Excel que contiene datos sobre el Índice de Precios al Consumidor (IPC) desde el sitio web del INDEC y lo carga en un DataFrame de pandas para su posterior análisis.

- Se define la URL directa del archivo Excel que se desea descargar. Ya que todos los datos son cargados en esa url directa.
- Se realiza una solicitud GET a la URL para obtener el archivo Excel.
- Se obtiene una lista de las hojas disponibles en el archivo y se imprime.
- Si la solicitud no es exitosa, se imprime un mensaje de error con el código de estado correspondiente.

In [2]:
# URL directa del ipc
url_excel = 'https://www.indec.gob.ar/ftp/cuadros/economia/sh_ipc_precios_promedio.xls'

# Obtener el archivo Excel
response = requests.get(url_excel)

# Verificar la solicitud
if response.status_code == 200:
    # Leer el contenido del archivo Excel en un DataFrame
    indec_ipc = pd.read_excel(io.BytesIO(response.content), sheet_name=None, engine='xlrd')
    paginador = list(indec_ipc.keys())
    print(paginador)
else:
    print(f"Error al descargar el archivo: {response.status_code}")


['Nacional', 'GBA']


In [3]:
nacional = indec_ipc[paginador[0]] # Leer solamente la hoja Nacional.
comienzo = nacional.iloc[:10] # Ver el comienzo del dataset.
comienzo

Unnamed: 0,"Precios al consumidor de una selección de alimentos, bebidas y otros artículos de la canasta del Índice de precios al consumidor, según regiones. Junio 2017- noviembre 2024",Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 90,Unnamed: 91,Unnamed: 92,Unnamed: 93,Unnamed: 94,Unnamed: 95,Unnamed: 96,Unnamed: 97,Unnamed: 98,Unnamed: 99
0,,,,,,,,,,,...,,,,,,,,,,
1,Región,Productos seleccionados,Unidad de medida,Año 2017,,,,,,,...,,,,,,,,,,
2,,,,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre,...,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre
3,,,,Pesos,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
5,GBA,Pan francés,kg,38.64,39.12,39.43,39.71,39.89,40.24,40.55,...,1942.55,2214.07,2376.84,2501.86,2597.5,2663.51,2774.95,2878.01,2948.01,3040.97
6,GBA,Harina de trigo común,kg,10.67,10.61,10.65,10.66,10.61,10.81,11.03,...,741.12,818.97,816.97,786.85,828.26,851.77,829.47,829.22,815.9,830.61
7,GBA,Arroz blanco simple,kg,20.96,21.08,21.25,21.49,21.74,21.74,22.1,...,2355.31,2445.35,2422.83,2351.11,2336.91,2301.88,2288.26,2262,2285.88,2273.69
8,GBA,Fideos secos tipo guisero,500 g,19.08,19.53,19.73,19.86,20.13,20.34,20.54,...,1260.22,1304.62,1359.24,1399.7,1371.32,1396.5,1431.34,1394.23,1374.73,1382.81
9,GBA,Carne picada común,kg,72.2,72.71,73.4,73.28,73.75,73.83,72.92,...,3807.3,4193.13,4441.39,4673.95,4837.91,4883.83,4913.59,4934.2,4918.39,5020.98


### Hay 3 filas nulas, antes de comenzar los datos. Que solo contienen el texto, "peso", es irrelevante para el analisis, seran eliminadas.

In [4]:
# Selecciona las filas 3 y 4
filas_seleccionadas = nacional.iloc[[0,3,4]]

# Identifica las columnas no nulas (en al menos una de las filas seleccionadas)
columnas_no_nulas = filas_seleccionadas.columns[filas_seleccionadas.notnull().any()]

# Filtra solo las columnas no nulas
resultado = filas_seleccionadas[columnas_no_nulas]

print("Columnas no nulas:", columnas_no_nulas.tolist())
print("Datos de las filas seleccionadas:")
print(resultado)


Columnas no nulas: ['Unnamed: 3']
Datos de las filas seleccionadas:
  Unnamed: 3
0        NaN
3      Pesos
4        NaN


In [5]:
# LLamar solo las filas necesarias 
nacional = nacional.iloc[:89]
nacional.tail(1) # Ver si abarca la ultilma fila.

Unnamed: 0,"Precios al consumidor de una selección de alimentos, bebidas y otros artículos de la canasta del Índice de precios al consumidor, según regiones. Junio 2017- noviembre 2024",Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 90,Unnamed: 91,Unnamed: 92,Unnamed: 93,Unnamed: 94,Unnamed: 95,Unnamed: 96,Unnamed: 97,Unnamed: 98,Unnamed: 99
88,Patagonia,Jabón de tocador,125 g,15.09,15.3,15.6,15.58,15.68,15.58,15.74,...,817.54,844.65,880.49,913.33,909.57,904.17,915.87,957.23,998.82,1011.4


In [6]:
# Elimina las filas 0, 3 y 4 del DataFrame original
nacional = nacional.drop(index=[0,3, 4])
# La primera fila como columnas.
nacional.columns = nacional.iloc[0]
nacional = nacional[1:] # Quitar la pprimera fila, ya que ahora es columna
nacional.head(3)


1,Región,Productos seleccionados,Unidad de medida,Año 2017,NaN,NaN.1,NaN.2,NaN.3,NaN.4,NaN.5,...,NaN.6,NaN.7,NaN.8,NaN.9,NaN.10,NaN.11,NaN.12,NaN.13,NaN.14,NaN.15
2,,,,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre,...,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre
5,GBA,Pan francés,kg,38.64,39.12,39.43,39.71,39.89,40.24,40.55,...,1942.55,2214.07,2376.84,2501.86,2597.5,2663.51,2774.95,2878.01,2948.01,3040.97
6,GBA,Harina de trigo común,kg,10.67,10.61,10.65,10.66,10.61,10.81,11.03,...,741.12,818.97,816.97,786.85,828.26,851.77,829.47,829.22,815.9,830.61


In [7]:
nacional['temporal'] = 'temporal'
nacional.insert(3, 'temporal-d', np.nan) # Insertar columna temporal para desplazar los datos

# Desplazar los datos hacia la derecha desde la columna 3
nacional.iloc[:, 4:] = nacional.iloc[:, 3:-1].values  # Mover los datos hacia la derecha
nacional = nacional.drop(nacional.columns[3], axis=1)  # Borrar la cuarta columna

# Asignar los años a la columna del año.
for año in range(2017, 2025):
    nacional[f'Año {año}'] = año
    
# Mostrar el DataFrame resultante
nacional.head(3)


1,Región,Productos seleccionados,Unidad de medida,Año 2017,NaN,NaN.1,NaN.2,NaN.3,NaN.4,NaN.5,...,NaN.6,NaN.7,NaN.8,NaN.9,NaN.10,NaN.11,NaN.12,NaN.13,NaN.14,temporal
2,,,,2017,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,...,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre
5,GBA,Pan francés,kg,2017,38.64,39.12,39.43,39.71,39.89,40.24,...,1942.55,2214.07,2376.84,2501.86,2597.5,2663.51,2774.95,2878.01,2948.01,3040.97
6,GBA,Harina de trigo común,kg,2017,10.67,10.61,10.65,10.66,10.61,10.81,...,741.12,818.97,816.97,786.85,828.26,851.77,829.47,829.22,815.9,830.61


In [8]:
# Extraer los años de las cabeceras de las columnas
years = nacional.columns[3:].values  # A partir de la cuarta columna
print(f'Años: {years}')
# Extraer los meses de la primera fila
months = nacional.iloc[0, 3:].values  # A partir de la cuarta columna
print(f'Meses: {months}')


Años: ['Año 2017' nan nan nan nan nan nan np.float64(nan) 'Año 2018' nan nan nan
 nan nan nan nan nan nan nan nan np.float64(nan) 'Año 2019' nan nan nan
 nan nan nan nan nan nan nan nan np.float64(nan) 'Año 2020' nan nan nan
 nan nan nan nan nan nan nan nan np.float64(nan) 'Año 2021' nan nan nan
 nan nan nan nan nan nan nan nan np.float64(nan) 'Año 2022' nan nan nan
 nan nan nan nan nan nan nan nan np.float64(nan) 'Año 2023' nan nan nan
 nan nan nan nan nan nan nan nan np.float64(nan) 'Año 2024' nan nan nan
 nan nan nan nan nan nan nan 'temporal']
Meses: [np.int64(2017) 'Junio' 'Julio' 'Agosto' 'Septiembre' 'Octubre'
 'Noviembre' 'Diciembre' np.int64(2018) 'Enero' 'Febrero' 'Marzo' 'Abril'
 'Mayo' 'Junio' 'Julio' 'Agosto' 'Septiembre' 'Octubre' 'Noviembre'
 'Diciembre' np.int64(2019) 'Enero' 'Febrero' 'Marzo' 'Abril' 'Mayo'
 'Junio' 'Julio' 'Agosto' 'Septiembre' 'Octubre' 'Noviembre' 'Diciembre'
 np.int64(2020) 'Enero ' 'Febrero' 'Marzo' 'Abril' 'Mayo' 'Junio' 'Julio'
 'Agosto' 'Septie

In [11]:
# Lista para almacenar las filas del DataFrame final
rows = []

# Mapeo manual de nombres de meses en español a números
meses_espanol = {
    "Enero": 1, "Febrero": 2, "Marzo": 3, "Abril": 4, "Mayo": 5, "Junio": 6,
    "Julio": 7, "Agosto": 8, "Septiembre": 9, "Octubre": 10, "Noviembre": 11, "Diciembre": 12
}

# Variable para almacenar el año actual
current_year = None

# Iterar sobre las filas de productos, regiones y unidades
for i in range(1, len(nacional)):  # Empezar desde la segunda fila (datos de precios)
    region = nacional.iloc[i, 0]  # Columna "Region"
    producto = nacional.iloc[i, 1]  # Columna "Productos seleccionados"
    unidad = nacional.iloc[i, 2]  # Columna "Unidad de medida"
    
    # Iterar sobre las columnas de años y meses
    for j in range(len(years)):
        year = years[j]  # Año correspondiente a la columna
        month = months[j]  # Mes correspondiente a la columna
        price = nacional.iloc[i, j + 3]  # Precio correspondiente (columna j + 3)
        
        # Si la columna es un año (por ejemplo, "Año 2017"), actualizar el año actual
        if isinstance(year, str) and year.startswith("Año "):
            try:
                current_year = int(year.replace("Año ", "").strip())
            except ValueError:
                print("Saltando columna: año no es un número válido.")  # Depuración
            continue  # Saltar esta columna, ya que no contiene un mes
        
        # Si el mes no es una cadena, saltar esta columna
        if not isinstance(month, str):
            print("Saltando columna: mes no es una cadena.")  # Depuración
            continue
        
        # Limpiar el nombre del mes (eliminar espacios adicionales)
        month_cleaned = month.strip().capitalize()
        
        # Convertir el mes a número usando el mapeo manual
        month_number = meses_espanol.get(month_cleaned)
        if month_number is None:
            print(f"Saltando columna: mes '{month_cleaned}' no reconocido.")  # Depuración
            continue
        
        # Si no hay un año actual, saltar esta columna
        if current_year is None:
            print("Saltando columna: no hay un año actual.")  # Depuración
            continue
        
        # Construir la fecha en formato yyyy-mm-dd (asumiendo el primer día del mes)
        date = f"{current_year}-{month_number:02d}-01"
        
        # Agregar una fila a la lista
        rows.append([region, producto, unidad, date, price])
        

# Crear el DataFrame final
final_df = pd.DataFrame(rows, columns=["Region", "Productos seleccionados", "Unidad de medida", "Date", "Price"])
# Reordenar y renombrar las columnas
final_df = final_df[["Date", "Region", "Productos seleccionados", "Unidad de medida", "Price"]]
final_df.columns = ["Date", "Region", "Product", "Unit", "Price"]

In [12]:
final_df

Unnamed: 0,Date,Region,Product,Unit,Price
0,2017-06-01,GBA,Pan francés,kg,38.64
1,2017-07-01,GBA,Pan francés,kg,39.12
2,2017-08-01,GBA,Pan francés,kg,39.43
3,2017-09-01,GBA,Pan francés,kg,39.71
4,2017-10-01,GBA,Pan francés,kg,39.89
...,...,...,...,...,...
7555,2024-07-01,Patagonia,Jabón de tocador,125 g,904.17
7556,2024-08-01,Patagonia,Jabón de tocador,125 g,915.87
7557,2024-09-01,Patagonia,Jabón de tocador,125 g,957.23
7558,2024-10-01,Patagonia,Jabón de tocador,125 g,998.82


In [1363]:
final_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7560 entries, 0 to 7559
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Date     7560 non-null   object
 1   Region   7560 non-null   object
 2   Product  7560 non-null   object
 3   Unit     7560 non-null   object
 4   Price    7560 non-null   object
dtypes: object(5)
memory usage: 295.4+ KB


### Validaciones y control de errores.

In [1364]:
region_u = final_df['Region'].unique()
region_u
# Valores Correctos.

array(['GBA', 'Pampeana', 'Noreste', 'Noroeste', 'Cuyo', 'Patagonia'],
      dtype=object)

In [1365]:
product_u = final_df['Product'].unique()
product_u
# Valores Correctos.

array(['Pan francés', 'Harina de trigo común', 'Arroz blanco simple',
       'Fideos secos tipo guisero', 'Carne picada común', 'Pollo entero',
       'Aceite de girasol', 'Leche fresca entera sachet',
       'Huevos de gallina', 'Papa', 'Azúcar', 'Detergente líquido',
       'Lavandina', 'Jabón de tocador'], dtype=object)

In [1366]:
unit_u = final_df['Unit'].unique()
unit_u
# Valores Correctos.

array(['kg', '500 g', '1,5 litros', 'Litro', 'Docena', '750 cc',
       '1.000 cc', '125 g'], dtype=object)

In [1367]:
# Convertir la columna "Price" a numérica, forzando los errores a NaN
final_df["Price"] = pd.to_numeric(final_df["Price"], errors="coerce")

# Mostrar las filas con valores faltantes
missing_values = final_df[final_df["Price"].isna()]
missing_values

Unnamed: 0,Date,Region,Product,Unit,Price
6693,2020-03-01,Patagonia,Carne picada común,kg,
6963,2020-03-01,Patagonia,Leche fresca entera sachet,Litro,
7053,2020-03-01,Patagonia,Huevos de gallina,Docena,
7323,2020-03-01,Patagonia,Detergente líquido,750 cc,
7413,2020-03-01,Patagonia,Lavandina,1.000 cc,
7503,2020-03-01,Patagonia,Jabón de tocador,125 g,


### Podemos identificar que los errores estan en Marzo de 2020. en solo algunos productos, vamos a sacar la adyacente de los meses anteriores y subsiguientes para rellenar con valores cercanos de esos productos y regiones continuando la tendencia de los datos.

In [1368]:
def fill_missing_with_adjacent(df):
    # Ordenar el DataFrame por "Date" para asegurar que los datos estén en orden cronológico
    df = df.sort_values(by="Date")
    
    # Iterar sobre cada fila con valores faltantes
    for index, row in df[df["Price"].isna()].iterrows():
        region = row["Region"]
        product = row["Product"]
        unit = row["Unit"]
        date = row["Date"]
        
        # Filtrar el DataFrame para obtener solo los datos del mismo producto y región
        product_data = df[(df["Region"] == region) & (df["Product"] == product) & (df["Unit"] == unit)]
        
        # Obtener los precios del mes anterior y el mes siguiente
        previous_price = product_data[product_data["Date"] < date]["Price"].dropna().tail(1)
        next_price = product_data[product_data["Date"] > date]["Price"].dropna().head(1)
        
        # Calcular el promedio de los valores disponibles
        if not previous_price.empty and not next_price.empty:
            df.at[index, "Price"] = (previous_price.iloc[0] + next_price.iloc[0]) / 2  # Promedio
        elif not previous_price.empty:
            df.at[index, "Price"] = previous_price.iloc[0]  # Usar solo el mes anterior
        elif not next_price.empty:
            df.at[index, "Price"] = next_price.iloc[0]  # Usar solo el mes siguiente
    
    return df

# Aplicar la función para rellenar valores faltantes
final_df = fill_missing_with_adjacent(final_df)

# Verificar si aún hay valores faltantes
print(final_df[final_df["Price"].isna()])

Empty DataFrame
Columns: [Date, Region, Product, Unit, Price]
Index: []


In [1371]:
# Convertir la columna "Date" a tipo datetime, forzando los errores a NaN
final_df["Date"] = pd.to_datetime(final_df["Date"], errors="coerce")

# Mostrar las filas con valores faltantes
missing_values = final_df[final_df["Date"].isna()]
print(missing_values)
# Valores Correctos.

Empty DataFrame
Columns: [Date, Region, Product, Unit, Price]
Index: []


### Verificar Outliers

In [1373]:
# Obtener los 5 valores más bajos en "Price"
lowest_prices = final_df.nsmallest(5, "Price")
print("5 valores más bajos en Price:")
print(lowest_prices)

# Obtener los 5 valores más altos en "Price"
highest_prices = final_df.nlargest(5, "Price")
print("\n5 valores más altos en Price:")
print(highest_prices)

5 valores más bajos en Price:
           Date Region                Product Unit  Price
5131 2017-07-01   Cuyo  Harina de trigo común   kg  10.28
5130 2017-06-01   Cuyo  Harina de trigo común   kg  10.45
5132 2017-08-01   Cuyo  Harina de trigo común   kg  10.46
5133 2017-09-01   Cuyo  Harina de trigo común   kg  10.49
5135 2017-11-01   Cuyo  Harina de trigo común   kg  10.51

5 valores más altos en Price:
           Date     Region             Product Unit    Price
6749 2024-11-01  Patagonia  Carne picada común   kg  6429.10
6748 2024-10-01  Patagonia  Carne picada común   kg  6106.38
6747 2024-09-01  Patagonia  Carne picada común   kg  6018.02
6741 2024-03-01  Patagonia  Carne picada común   kg  5797.99
6746 2024-08-01  Patagonia  Carne picada común   kg  5732.88


In [1383]:
# Crear un identificador único incremental para cada fila, como entidad
final_df['product_id'] = range(1, len(final_df) + 1)
final_df

Unnamed: 0,Date,Region,Product,Unit,Price,product_id
0,2017-06-01,GBA,Pan francés,kg,38.64,1
4860,2017-06-01,Noroeste,Lavandina,1.000 cc,14.75,2
4770,2017-06-01,Noroeste,Detergente líquido,750 cc,23.05,3
4680,2017-06-01,Noroeste,Azúcar,kg,16.35,4
4590,2017-06-01,Noroeste,Papa,kg,11.33,5
...,...,...,...,...,...,...
5219,2024-11-01,Cuyo,Harina de trigo común,kg,839.74,7556
5309,2024-11-01,Cuyo,Arroz blanco simple,kg,2267.79,7557
5399,2024-11-01,Cuyo,Fideos secos tipo guisero,500 g,1312.29,7558
5579,2024-11-01,Cuyo,Pollo entero,kg,3252.43,7559


In [1384]:
final_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7560 entries, 0 to 7559
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   Date        7560 non-null   datetime64[ns]
 1   Region      7560 non-null   object        
 2   Product     7560 non-null   object        
 3   Unit        7560 non-null   object        
 4   Price       7560 non-null   float64       
 5   product_id  7560 non-null   int64         
dtypes: datetime64[ns](1), float64(1), int64(1), object(3)
memory usage: 671.5+ KB


### Los valores parecieran ser normales y siguen la tendencia de precios. 

Create and Load at Alphacast

In [1410]:
from alphacast import Alphacast
alphacast = Alphacast('ak_EZGOL3ajzMuwiwBV3fTT')

In [1411]:
repo_name = "reto-tecnico" 
repo_description = "Prueba tecnica IPC completada"  
repo_slug = "reto-tecnico-mauricioarce" 
repo_privacy = "Public"  

# Crear el repositorio
repositorio = alphacast.repository.create(
    repo_name,
    repo_description=repo_description,
    slug=repo_slug,
    privacy=repo_privacy,
    returnIdIfExists=True 
)
print(f"Repositorio creado: {repositorio}")


Repositorio creado: {'id': 16342, 'name': 'reto-tecnico', 'description': 'Prueba tecnica IPC completada', 'privacy': 'Public', 'slug': 'reto-tecnico-16342'}


In [1419]:
# Verificacion
alphacast.repository.read_by_id(16342)

{'id': 16342,
 'name': 'reto-tecnico',
 'accountId': 8751,
 'description': 'Prueba tecnica IPC completada',
 'privacy': 'Public',
 'slug': 'reto-tecnico-16342',
 'permission': 'Owner'}

In [1420]:
# Crear dataset
dataset_name = 'prueba-tecnica-completada'
repo_id = 16342
description = 'Índice de precios al consumidor. Precios promedio de un conjunto de elementos de la canasta del IPC, según regiones (Junio de 2017-noviembre de 2024) y para el GBA (Abril de 2016-noviembre de 2024)'

alphacast.datasets.create(dataset_name, repo_id, description)


ValueError: Dataset already exists: 43861

In [1421]:
dataset_id = 43861
df = final_df[['Date', 'Region', 'Product', 'Unit', 'Price', 'product_id']]

# Inicializar columnas en Alphacast
alphacast.datasets.dataset(dataset_id).initialize_columns(
    dateColumnName="Date", 
    entitiesColumnNames=["product_id"], 
    dateFormat="%Y-%m-%d"
)

b'{"id": 43861, "columnDefinitions": [{"sourceName": "Date", "dataType": "Date", "dateFormat": "%Y-%m-%d", "isEntity": "True"}, {"sourceName": "product_id", "isEntity": "True"}], "updateAt": "2025-01-10T05:47:31.934318"}'

In [1422]:
alphacast.datasets.dataset(43861).upload_data_from_df(df, deleteMissingFromDB = False, onConflictUpdateDB = False, uploadIndex=False)

b'{"id": 5148773, "status": "Requested", "createdAt": "2025-01-10T05:48:16.252345", "datasetId": 43861}'

In [1423]:
alphacast.datasets.dataset(43861).processes()

b'[{"id": 5148773, "datasetId": 43861, "status": "Processed", "statusDescription": "7560 values added to database./n", "deleteMissingFromDB": 0, "onConflictUpdateDB": 0, "createdAt": "2025-01-10T05:48:16", "processedAt": "2025-01-10T05:48:19"}]'