In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import os
import ipywidgets as widgets

# Importando nuestros datos

Comenzamos obteniendo los archivos que contienen nuestros datasets, definiendo un path para cada uno para despues importarlos como dataframes

In [2]:
data_path_sniim = os.path.join("..","..","data","clean_data","precios_sniim.parquet")
data_path_siap = os.path.join("..","..","data","clean_data","siap.parquet.zip")
data_path_siap_wide = os.path.join("..","..","data","clean_data","siap_wide.parquet.zip")

In [3]:
df_precios_sniim = pd.read_parquet(data_path_sniim)
df_cultivos_siap = pd.read_parquet(data_path_siap)
df_cultivos_siap_wide = pd.read_parquet(data_path_siap_wide)

Después, podemos obtener algunas muestras de nuestras dataframes para verificar su estructura, las cuales están especificadas en nuestros diccionario de datos.

In [4]:
df_precios_sniim.sample(10)

Unnamed: 0,fecha,producto,presentacion,origen,destino,central,precio_min,precio_max,precio_frec
541517,2022-07-05,Fresa,Caja de 4 kg.,Importación,Nuevo León,"Mercado de Abasto ""Estrella"" de San Nicolás de...",62.5,67.5,67.5
12914,2022-09-02,Col Grande,Costal de 60 kg.,Puebla,Tabasco,Central de Abasto de Villahermosa,4.83,5.17,5.0
1432312,2022-12-15,Pepino,Caja de 20 kg.,Puebla,Tabasco,Central de Abasto de Villahermosa,15.0,17.0,16.0
1262780,2023-06-08,Chile Pasilla,Kilogramo,Zacatecas,Nuevo León,"Mercado de Abasto ""Estrella"" de San Nicolás de...",145.0,152.0,149.0
856030,2022-11-23,Epazote,Rollo de 5 kg.,Puebla,Veracruz,Mercado Malibrán,12.0,20.0,18.0
1090052,2023-05-11,Cebolla Morada,Arpilla de 25 kg.,Puebla,Tamaulipas,"Módulo de Abasto de Tampico, Madero y Altamira",14.0,18.4,18.4
765759,2021-03-30,Uva Superior,Caja de 25 kg.,Zacatecas,México,Central de Abasto de Toluca,30.0,31.2,30.0
990519,2021-12-24,Calabacita Italiana,Caja de 15 kg.,Puebla,Veracruz,Central de Abasto de Minatitlán,17.33,20.67,20.0
17748,2022-12-26,Tejocote,Caja de 13 kg.,Puebla,Veracruz,Central de Abasto de Jalapa,14.62,15.38,14.62
1718139,2022-09-28,Toronja Roja,Kilogramo,Veracruz,Veracruz,Central de Abasto de Minatitlán,22.0,26.0,23.0


In [5]:
df_cultivos_siap_wide.sample(10)

Unnamed: 0,Entidad,Municipio,Sembrada (ha),Cosechada (ha),Siniestrada (ha),Producción,Rendimiento (udm/ha),Cultivo,fecha
141,Sinaloa,Sinaloa,15375.0,5888.68,0.0,3075.39,0.52,ajonjolí,2020-11-01
418,Zacatecas,Tepetongo,12.0,0.0,0.0,0.0,0.0,sorgo forrajero en verde,2023-08-01
374,Sonora,Rayón,80.0,0.0,0.0,0.0,0.0,sorgo forrajero en verde,2023-09-01
144,Sonora,Cajeme,1257.0,1257.0,0.0,2844.9,2.26,garbanzo grano,2022-12-01
35,Durango,Lerdo,2.0,0.0,0.0,0.0,0.0,cebolla,2020-01-01
461,Veracruz,Atoyac,20.03,18.5,0.0,114.89,6.21,limón,2022-11-01
10,Guerrero,Ometepec,6.0,0.0,0.0,0.0,0.0,piña,2023-03-01
467,Oaxaca,San Pedro Mártir,3.0,3.0,0.0,229.92,76.64,alfalfa,2022-08-01
20,Durango,Nuevo Ideal,32.0,32.0,0.0,139.53,4.36,pera,2020-09-01
157,Michoacán,Ario,150.0,0.0,0.0,0.0,0.0,mango,2020-01-01


Antes de proseguir, podemos modificar las propiedades de seaborn para las visualizaciones que haremos mas adelante, seleccionando el estilo `whitegrid` y ajustando el tamaño de fuente a 1.2:

In [6]:
sns.set_style("whitegrid")
sns.set(font_scale=1.2)

# Analisis para datos sobre precios SNIIM

Antes de comenzar, crearemos un par de columnas en nuestra dataframe para indicar tanto el mes como el año de cada entrada:

In [7]:
df_precios_sniim["año"] = df_precios_sniim["fecha"].dt.year
df_precios_sniim["mes"] = df_precios_sniim["fecha"].dt.month

## Tendencia historica de los precios (2020 - 2023)

Para comenzar, podemos tratar de visualizar el cambio en los precios diarios para los productos de nuestro dataset. Sin embargo, existen algunos puntos importantes a considerar:
* **La cantidad de datos**, ya que nuestro dataframe cuenta con 2 019 574 entradas, para diversos precios de diferentes productos en el periodo 2020 - 2023 a lo largo del país.
* **La cantidad de productos**, en la columna `producto` de nuestro dataframe, tenemos 199 productos unicos, por lo que visualizar la variación o en el precio de cada uno al mismo tiempo puede no ser lo más práctico

In [18]:
df_precios_sniim.shape

(2019574, 11)

In [19]:
df_precios_sniim["producto"].nunique()

199

Sin embargo, podemos hacer uso de las librerias `ipywidgets` y `seaborn` para agregar interactividad a nuestros plots, esto nos permitirá agilizar el proceso de visualización de nuestros datos.

Para ello, primero definimos una función que nos generará un gráfico de los precios promedios diarios de un producto dado a lo largo del periodo seleccionado (2020 - 2023), ademas, podemos agregar una media móvil exponencial para tratar de apreciar mejor la tendencia del precio del producto a lo través del tiempo. Esto lo podemos lograr utilizando la libreria `seaborn`, ademas de los métodos `resample` y `ewm` de nuestro dataframe.

In [23]:
def graficar_precios(cultivo):
    """
    Grafica el promedio de los precios diarios de un cultivo desde el año 2020 hasta la fecha del ultimo registro, 
    ademas de una linea de tendencia (filtro exponencial)
    """
    subset_df = df_precios_sniim[df_precios_sniim["producto"] == cultivo]
    
    subset_df = subset_df.resample('D', on='fecha').mean(numeric_only=True)
    subset_df["ewm"] = subset_df["precio_frec"].ewm(span=14).mean()
    #subset_df["año"] = subset_df.index.year
    
    fig,ax = plt.subplots()
    
    sns.lineplot(x="fecha",
                 y="ewm",
                 hue="año",
                 data=subset_df,
                 errorbar=None,
                 ax=ax,
                 palette="tab10")
    
    sns.scatterplot(x="fecha",
                    y="precio_frec",
                    hue="año",
                    data=subset_df,
                    ax=ax,
                    palette="tab10",
                    s=25,
                    alpha=0.5)
    
    ax.title.set_text(f"Historial de precios para {cultivo} (promedio diario)")
    ax.set_xlabel("Fecha")
    ax.set_ylabel("Precio por kg, MXN")
    ax.grid(axis='y')
    ax.tick_params(axis='x',rotation=90);
    ax.legend(title='Año', labels=["2020","2021","2022","2023"])
    
    fig.set_size_inches(16,9)
    
    plt.show()
    
    return

Después obtenemos una lista de los valores únicos de la columna producto, la cual podremos utilizar en nuestro widget para seleccionar el producto de nuestro interés.

In [24]:
lista_productos = sorted(list(df_precios_sniim["producto"].unique()))
lista_anios = [2020,2021,2022,2023]
#lista_productos[:5]

Finalmente, generamos un widget de tipo `Dropdown` el cual tomará los valores de la lista anterior, y utilizando la función `interact` de `ipywidgets`, podemos generar el gráfico de tendencia del producto que seleccionemos en nuestro widget, ya que al seleccionarlo se ejecutará la funcion `graficar_precios`, la cual tomará como valor el producto seleccionado de la lista.

In [25]:
dd_productos = widgets.Dropdown(options=lista_productos,
                      value=lista_productos[0],
                      description="Producto: ")

widgets.interact(graficar_precios,cultivo=dd_productos)

interactive(children=(Dropdown(description='Producto: ', options=('Acelga', 'Aguacate Criollo', 'Aguacate Hass…

<function __main__.graficar_precios(cultivo)>

Con la celda anterior podemos apreciar rápida y facilmente las tendencias para diversos productos, podemos ver que para productos como el **Tomate Rojo, el Saladette y el Verde**, a pesar de algunas variaciones que parecen ser estacionarias, el precio se ha mantenido en el rango de los $20.00 pesos por kilo en promedio. Sin embargo, si se repiten los patrones, puede que el precio de estos alcance un pico en los próximos meses.

Para el caso del **Limón**, podemos ver que todas las variedades de éste tuvieron un gran pico en el su precio a principios del 2022, incluso el #2 alcanzo un precio promedio diario de mas de $70.00 pesos por kilo en este periodo. Además, podemos ver que todas las variedades (#2,#3,#4,#5 y sin semilla) de este producto muestran una tendencia a la alta a lo largo de estos últimos meses.

Por otro lado, vemos que para las diversas variedades de **Manzana**, su precio promedio ha ido en constante aumento desde el 2020 hasta la fecha, y segun las tendencias más actuales, esta alza podria continuar al menos en el corto plazo.

Para el caso del **Plátano**, parece ser que tanto la variedad Chiapas como el resto han estado experimentando un lento pero constante aumento en su precio desde el 2020. El mismo comportamiento parecen estarlo experimentando las diferentes presentaciones de la **Guayaba** y la **Piña**, esta última ha estado experimentando un aumento más pronunciado en su precio promedio en las últimas semanas.


## Tendencia anual

Realizando un procedimiento similar, podemos generar una grafica específica para cada año, esto permite estudiar con un poco mas de detalles la tendencia de los precios para un año en específico (o bien, simplemente para el año en curso). Además, podemos agregar un mensaje para indicar en donde y cuando se registraron los precios más altos y más bajos para el producto en el año seleccionado.

In [11]:
def grafica_anio(cultivo,anio):
    """
    Grafica el promedio de los precios de un producto para un anio dado, ademas de una linea de tendencia
    """
    subset_df = df_precios_sniim[df_precios_sniim["producto"] == cultivo]
    subset_df = subset_df[subset_df["año"] == anio]
    
    try:
        subset_df = subset_df.resample('D', on='fecha').mean(numeric_only=True)
        subset_df["ewm"] = subset_df["precio_frec"].ewm(span=7).mean()

        fig,ax = plt.subplots()

        sns.lineplot(x="fecha",
                     y="ewm",
                     data=subset_df,
                     errorbar=None,
                     ax=ax)

        sns.scatterplot(x="fecha",
                        y="precio_frec",
                        data=subset_df,
                        ax=ax,
                        s=25,
                        alpha=0.5)

        ax.title.set_text(f"Historial de precios para {cultivo}, año: {anio} (promedio diario)")
        ax.set_xlabel("Fecha")
        ax.set_ylabel("Precio por kg, MXN")
        ax.grid(axis='y')
        ax.tick_params(axis='x',rotation=90);

        fig.set_size_inches(16,9)
        
        subset_df2 = df_precios_sniim[df_precios_sniim["producto"] == cultivo]
        subset_df2 = subset_df2[subset_df2["año"] == anio]
        
        fecha_max = subset_df2[subset_df2["precio_max"] == subset_df2["precio_max"].max()]["fecha"].iloc[0]
        central_max = subset_df2[subset_df2["precio_max"] == subset_df2["precio_max"].max()]["central"].iloc[0]
        precio_max = subset_df2["precio_max"].max()
        
        print(f"Precio maximo: ${precio_max:.2f}/kg el {fecha_max.strftime('%d-%m-%Y')} en {central_max}")
        
        fecha_min = subset_df2[subset_df2["precio_min"] == subset_df2["precio_min"].min()]["fecha"].iloc[0]
        central_min = subset_df2[subset_df2["precio_min"] == subset_df2["precio_min"].min()]["central"].iloc[0]
        precio_min = subset_df2["precio_min"].min()
        
        print(f"Precio minimo: ${precio_min:.2f}/kg el {fecha_min.strftime('%d-%m-%Y')} en {central_min}")

        plt.show()
    
    except:
        print("No hay datos para esa combinacion")
    
    return

In [12]:
dd_productos = widgets.Dropdown(options=lista_productos,
                      value=lista_productos[0],
                      description="Producto: ")

dd_anios = widgets.Dropdown(options=lista_anios,
                      value=lista_anios[-1],
                      description="Año: ")

widgets.interact(grafica_anio,cultivo=dd_productos,anio=dd_anios)

interactive(children=(Dropdown(description='Producto: ', options=('Acelga', 'Aguacate Criollo', 'Aguacate Hass…

<function __main__.grafica_anio(cultivo, anio)>

## Distribución y variación de nuestros datos

Siguiendo una lógica similar a la anterior, podemos generar un par de gráficas que nos ayudarán a analizar mejor la distribución de los precios en el año, así como su variación. Para esto, podemos definir una función que genere un par de gráficos:

* Un diagrama de cajas (`boxplot`) de los precios del producto seleccionado **por mes**, lo cual nos puede ayudar a visualizar mejor la dispersión de nuestros precios, así como identificar posibles valores *aberrantes* (es decir, precios anormalmente altos o anormalmente bajos) en nuestros precios

* Un histograma (`histplot`) para visualizar mejor la distribución de los precios muestreados a lo largo del año.

In [13]:
def graficar_dist_precios(producto):
    """
    Genera dos diagramas:
        - Un diagrama de cajas con los datos de cada producto por mes (2023)
        - Un histograma de la distribucion de los precios para el producto dado en el anio (2023)
    """
    df = df_precios_sniim.copy()
    
    df_filter = df[(df["producto"] == producto) & (df["año"] == 2023)]
    
    try:
        fig, (ax1,ax2) = plt.subplots(2,1)

        sns.boxplot(x="mes",
                    y="precio_frec",
                    data=df_filter,
                    ax=ax1)
        

        ax1.title.set_text(f"Diagrama de cajas de precios por mes para {producto}")
        ax1.set_xlabel("Mes")
        ax1.set_ylabel("Precio por kg, MXN")
        
        sns.histplot(x="precio_frec",
                   data=df_filter,
                   ax=ax2,kde=True)
        
        ax2.title.set_text(f"Histograma de precios en el año para {producto}")
        ax2.set_xlabel("Precio mas frecuente")

        fig.set_size_inches(16,16)
        plt.tight_layout()
        plt.show()
    
    except:
        raise ValueError("Error! Parece que algo salio mal.")

In [14]:
dd_productos_hist = widgets.Dropdown(options=lista_productos,
                      value=lista_productos[0],
                      description="Producto: ")

widgets.interact(graficar_dist_precios,producto = dd_productos_hist)

interactive(children=(Dropdown(description='Producto: ', options=('Acelga', 'Aguacate Criollo', 'Aguacate Hass…

<function __main__.graficar_dist_precios(producto)>

Con los diagramas anteriores, principalmente con el de cajas, podemos apreciar mejor la variabilidad de los precios, ya que en casos como el de la **Coliflor** o el **Brócoli**, si bien la mediana de los precios se mantiene aparentemente constante a lo largo del año, podemos apreciar que hay algunos meses donde la variación (rango) de los precios puede ser mas amplia que en otros, e incluso en algunos meses se pueden detectar valores anormales de los  mismos (datos aberrantes).

## Desglose mensual de los precios

Ademas de las tendencias anuales y de las distribuciones de nuestros datos, otro de los paramétros de interés en nuestro análisis es el de los **promedios mensuales**, y más específicamente, su desglose por municipio.

De manera similar a lo anterior, podemos definir una función que nos ayude a visualizar mas facilmente estos promedios mensuales, y apoyandonos en la libreria de `ipywidgets`, podemos definir tanto el producto como la central de nuestro interés.

In [15]:
def graficar_promedios_mensuales(producto,central):
    """
    Genera una grafica (pointplot) con los promedios mensuales para el producto dado en la central dada
    """
    df = df_precios_sniim.copy()
    
    df_filter = df[(df["producto"] == producto) & (df["año"] == 2023)]
    df_grouped = df_filter.groupby(["central","mes"])["precio_frec"].mean().to_frame()
    
    df_unstacked = df_grouped.unstack()
    df_unstacked.columns = df_unstacked.columns.droplevel()
    df_unstacked = df_unstacked.reset_index()
    df_unstacked.columns.name=None
    
    df_melted = df_unstacked.melt(id_vars=["central"],var_name="mes",value_name="precio_promedio").dropna()
    
    dict_meses = {1: "Enero",
                  2: "Febrero",
                  3: "Marzo",
                  4: "Abril",
                  5: "Mayo",
                  6: "Junio",
                  7: "Julio",
                  8: "Agosto",
                  9: "Septiembre",
                  10: "Octubre",
                  11: "Noviembre",
                  12: "Diciembre"}
    
    df_melted["mes"] = df_melted["mes"].map(dict_meses)
    df_final = df_melted[df_melted["central"] == central]
    
    try:
        fig, ax = plt.subplots()

        sns.pointplot(x="mes",
                      y="precio_promedio",
                      data=df_final,
                      ax=ax,
                      color='r',
                      errorbar=None)

        ax.title.set_text(f"Precios mensuales para {producto} en {central} (promedio mensual)")
        ax.set_xlabel("Mes")
        ax.set_ylabel("Precio por kg, MXN")
        ax.grid(axis='x')

        fig.set_size_inches(16,9)
        plt.show()
    
    except:
        raise ValueError(f"No existen datos para {producto} en {central}")
        
    return

def obtener_valores_unicos(df,columna):
    """
    Regresa una lista con los valores unicos de la columna 'columna' en el dataframe 'df', ordenados.
    """
    return sorted(list(df[columna].unique()))

def fijar_central(producto):
    """
    Genera un widget (dropdown) con todas las centrales posibles para el producto dado en el argumento, despues 
    ejecuta la funcion 'graficar_promedios_mensuales' con el producto dado en el argumento y la central seleccionada
    """
    df = df_precios_sniim.copy()
    subset_df = df[(df["producto"] == producto) & (df["año"] == 2023)]
    
    lista_centrales = obtener_valores_unicos(subset_df,"central")
    
    dd_centrales = widgets.Dropdown(options=lista_centrales,
                      value=lista_centrales[0],
                      description="Central: ")
    
    widgets.interact(graficar_promedios_mensuales,producto=widgets.fixed(producto),central=dd_centrales)
    
    return

In [16]:
dd_productos2 = widgets.Dropdown(options=lista_productos,
                      value=lista_productos[0],
                      description="Producto: ")

widgets.interact(fijar_central,producto=dd_productos2)

interactive(children=(Dropdown(description='Producto: ', options=('Acelga', 'Aguacate Criollo', 'Aguacate Hass…

<function __main__.fijar_central(producto)>

Además, de ser necesario, podemos generar un desglose similar pero en forma de tabla (dataframe), para poder observar con mayor exactitud estos promedios mensuales.

In [55]:
def desglosar_promedios_mensuales(producto,central):
    """
    Genera una dataframe con los promedios mensuales para el producto dado en la central dada
    """
    df = df_precios_sniim.copy()
    
    df_filter = df[(df["producto"] == producto) & (df["año"] == 2023)]
    df_grouped = df_filter.groupby(["central","mes"])["precio_frec"].mean().to_frame()
    
    df_unstacked = df_grouped.unstack()
    df_unstacked.columns = df_unstacked.columns.droplevel()
    df_unstacked = df_unstacked.reset_index()
    df_unstacked.columns.name=None
    
    df_melted = df_unstacked.melt(id_vars=["central"],var_name="mes",value_name="precio_promedio").dropna()
    
    dict_meses = {1: "Enero",
                  2: "Febrero",
                  3: "Marzo",
                  4: "Abril",
                  5: "Mayo",
                  6: "Junio",
                  7: "Julio",
                  8: "Agosto",
                  9: "Septiembre",
                  10: "Octubre",
                  11: "Noviembre",
                  12: "Diciembre"}
    
    df_melted["mes"] = df_melted["mes"].map(dict_meses)
    df_final = df_melted[df_melted["central"] == central]
    
    df_final.columns = ["Central de Abastos","Mes","Precio promedio por kg., MXN"]
    
    df_final = df_final.style.set_caption(f"Desglose de precios promedios mensuales para {producto}").hide(axis="index")
    
    display(df_final)
        
    return

def fijar_central_desglose(producto):
    """
    Genera un widget (dropdown) con todas las centrales posibles para el producto dado en el argumento, despues 
    ejecuta la funcion 'desglosar_promedios_mensuales' con el producto dado en el argumento y la central seleccionada
    """
    df = df_precios_sniim.copy()
    subset_df = df[(df["producto"] == producto) & (df["año"] == 2023)]
    
    lista_centrales = obtener_valores_unicos(subset_df,"central")
    
    dd_centrales = widgets.Dropdown(options=lista_centrales,
                      value=lista_centrales[0],
                      description="Central: ")
    
    widgets.interact(desglosar_promedios_mensuales,producto=widgets.fixed(producto),central=dd_centrales)
    
    return

In [56]:
dd_productos3 = widgets.Dropdown(options=lista_productos,
                      value=lista_productos[0],
                      description="Producto: ")

widgets.interact(fijar_central_desglose,producto=dd_productos3)

interactive(children=(Dropdown(description='Producto: ', options=('Acelga', 'Aguacate Criollo', 'Aguacate Hass…

<function __main__.fijar_central_desglose(producto)>

De esta forma podemos obtener un valor más exacto del promedio mensual para cada producto en las diferentes centrales de abasto del país.

# Análisis de producción agrícola (SIAP)