
## Descripción Productos del Sector Agropecuario 2018 - 2023

El objetivo de este análisis es describir el comportamiento que han tenido los productos del sector agropecuario durante el periodo que va desde 2018 hasta el primer cuatrimestre del año 2023. Para este análisis, nos concentraremos en dos componentes, el de precios y el de abastecimiento. En este notebook, el análisis será más general, reuniendo los productos por grupos y encontrando tendencias y patrones para estos. Un dashboard para analizar cada producto individualmente (para los que  se disponga de datos suficientes) hace parte de este repositorio, esto en caso de que se requiera un análisis con este nivel de detalle. Para un resumen de los hallazgos, puede dirigirse al reporte final tambien en este repositorio.

## Data

Los datos para este ejercicio pertenecen al Departamento Administrativo Nacional de Estádistica (Dane), se puede acceder a ellos por medio del siguiente enlace:

* https://www.datos.gov.co/Estad-sticas-Nacionales/Sistema-de-Informaci-n-de-Precios-y-Abastecimiento/ugru-ez98

No tomaremos en cuenta los años de 2013 a 2017 debido a que en el componente de abastecimiento, no se especifica la unidad de medida para la cantidad de producto ingresado, quizá con una comunicación posterior se pueda ampliar este análisis, pero por el momento los datos que usaremos están compuestos de esta forma:

* **Componente Abastecimiento:** Tenemos once archivos .csv, cada uno cubriendo un semestre desde 2018 hasta 2023 (de este año solo el primer cuatrimestre) de manera mensual. Cada archivo contiene la cantidad de producto en kg que se entrega, a que lugar llega, de donde viene, la fecha en que fue entregado y a que categoría pertenece.

* **Componente Precio:** Tenemos seis archivos .csv, cada uno cubriendo un año desde 2018 hasta 2022, y un archivo con información del primer semestre del 2023, todos de manera mensual. Cada archivo contiene el precio del producto, el lugar donde se registró el precio, la fecha en que se hizo el registro y a que categoría pertenece el producto.

Los datos del componente abastecimiento ya han pasado por un preprocesado debido a que la información venía registrada por días, esto además de no coincidir con el componente precio, tenía como desventaja que el tamaño de los archivos era demasiado para este repositorio. Con el fin de hacer coincidir ambos componentes, se han agrupado los registros de cada mes sumando la cantidad entregada de cada producto por central de abastecimiento y lugar de procedencia. El notebook pre_clean.ipynb contiene información de este proceso.

## Limpieza y preparación de los datos

Lo primero que vamos a hacer es reunir los diversos archivos que tenemos por componente en un dataframe, así tendremos un dataframe para el componente de abastecimiento y otro para el componente de precios.

#### Componente abastecimiento

Los archivos contienen la misma información pero sus encabezados son distintos, vamos a cargar cada uno y a observar su esquema:

In [1]:
# Primero importemos las librerias necesarias para este análisis
import pandas as pd
import numpy as np
import os
import matplotlib.pyplot as plt

#Ahora leamos los archivos .csv para el componente abastecimiento, los encontramos en la siguiente ruta 
ruta = 'datasets/abastecimiento/'
#listamos todos los archivos en un lista
archivos_abastecimiento = os.listdir(ruta)
#Ordenamos los archivos de forma ascendente por año
archivos_abastecimiento = sorted(archivos_abastecimiento)

# Cargamos cada archivo en una lista de dataframes
df_abastecimiento = []
for archivo in archivos_abastecimiento:
    # Al escribir ruta + archivo obtenemos algo como 'datasets/abastecimiento/2018_01_abastecimiento.csv',
    # además es necesario utilizar el enconding latin-1 por los carácteres especiales en los
    # nombres de los departamentos y municipios.
    df_abastecimiento.append(pd.read_csv(ruta + archivo, sep =';', encoding = 'latin-1', decimal = ','))

# Como sabemos que algunos archivos difieren en el nombre de sus columnas vamos a encontrar, cuáles son y cómo difieren.
#Vamos a comparar todos los dataframes con el del primer semestre de 2018,veamos sus columnas
puntero = df_abastecimiento[0]
puntero.columns

Index(['Fuente', 'Cod. Depto Proc.', 'Cod. Municipio Proc.',
       'Departamento Proc.', 'Municipio Proc.', 'Grupo', 'Ali',
       'FechaEncuesta', 'Cant Kg'],
      dtype='object')

In [2]:
#Ahora vamos a compararlo con los otros dataframes y cada vez que encontremos uno que sea diferente en las columnas,
#cambiaremos el puntero a ese dataframe e imprimiremos las columnas que posee.
for df in df_abastecimiento:
    if np.any(df.columns != puntero.columns):
        puntero = df 
        print(puntero.columns) 
    print(df.columns == puntero.columns)

[ True  True  True  True  True  True  True  True  True]
[ True  True  True  True  True  True  True  True  True]
[ True  True  True  True  True  True  True  True  True]
[ True  True  True  True  True  True  True  True  True]
[ True  True  True  True  True  True  True  True  True]
[ True  True  True  True  True  True  True  True  True]
[ True  True  True  True  True  True  True  True  True]
Index(['Cuidad, Mercado Mayorista', 'Código Departamento',
       ' Código Municipio ', 'Departamento Proc.', 'Municipio Proc.', 'Grupo',
       'Alimento', 'Fecha', 'Cant Kg'],
      dtype='object')
[ True  True  True  True  True  True  True  True  True]
[ True  True  True  True  True  True  True  True  True]
[ True  True  True  True  True  True  True  True  True]
[ True  True  True  True  True  True  True  True  True]


In [3]:
#Por el resultado anterior sabemos que tenemos dos formas de nombrar las columnas, por lo que los dataframes quedan divididos
#en dos grupos, uno de siete y el otro de cuatro. También nos damos cuenta que, aunque difieren en los nombres, el orden en las
#columnas es el mismo. Por ejemplo:
df_abastecimiento[0].iloc[:1]

Unnamed: 0,Fuente,Cod. Depto Proc.,Cod. Municipio Proc.,Departamento Proc.,Municipio Proc.,Grupo,Ali,FechaEncuesta,Cant Kg
0,"Armenia, Mercar",'05,'05001,ANTIOQUIA,MEDELLÍN,PROCESADOS,Bebidas otras,2018-01-01,1000.0


In [4]:
df_abastecimiento[10].iloc[:1]

Unnamed: 0,"Cuidad, Mercado Mayorista",Código Departamento,Código Municipio,Departamento Proc.,Municipio Proc.,Grupo,Alimento,Fecha,Cant Kg
0,"Armenia, Mercar",'05,'05001,ANTIOQUIA,MEDELLÍN,FRUTAS,Tomate de árbol,2023-01-01,11250.0


In [5]:
#Ahora que estamos seguros de como estan nombrados y ordenados nuestros datos, vamos a utilizar los siguientes nombres para 
#las columnas:
nombres_columnas = ['Ciudad, Mercado Mayorista', 'Codigo Departamento', 'Codigo Municipio',
                    'Departamento Proc.', 'Municipio Proc.', 'Grupo','Alimento', 'Fecha', 'Cant Kg']
#Renombramos las columnas de todos los dataframes
for df in df_abastecimiento:
    nuevos_nombres = dict(zip(df.columns, nombres_columnas))
    df.rename(columns= nuevos_nombres, inplace = True)
#ahora todos tienen los mismos nombres veamos por ejemplo los dos dataframes anteriores:
print(df_abastecimiento[0].columns)
print(df_abastecimiento[10].columns)

Index(['Ciudad, Mercado Mayorista', 'Codigo Departamento', 'Codigo Municipio',
       'Departamento Proc.', 'Municipio Proc.', 'Grupo', 'Alimento', 'Fecha',
       'Cant Kg'],
      dtype='object')
Index(['Ciudad, Mercado Mayorista', 'Codigo Departamento', 'Codigo Municipio',
       'Departamento Proc.', 'Municipio Proc.', 'Grupo', 'Alimento', 'Fecha',
       'Cant Kg'],
      dtype='object')


In [6]:
#Ahora podemos concatenarlos en un solo dataframe que tenga toda la información sobre el componente abastecimiento
abastecimiento_df = pd.concat(df_abastecimiento)
#Veamos información general del nuevo dataframe
abastecimiento_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 917491 entries, 0 to 58324
Data columns (total 9 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   Ciudad, Mercado Mayorista  917491 non-null  object 
 1   Codigo Departamento        917491 non-null  object 
 2   Codigo Municipio           917491 non-null  object 
 3   Departamento Proc.         917491 non-null  object 
 4   Municipio Proc.            917491 non-null  object 
 5   Grupo                      917491 non-null  object 
 6   Alimento                   917491 non-null  object 
 7   Fecha                      917491 non-null  object 
 8   Cant Kg                    917491 non-null  float64
dtypes: float64(1), object(8)
memory usage: 70.0+ MB


In [7]:
#Para este análisis no vamos a necesitar el codigo por departamento ni el código por municipio, así que los eliminamos
abastecimiento_df = abastecimiento_df.drop(['Codigo Departamento', 'Codigo Municipio'], axis = 1)
abastecimiento_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 917491 entries, 0 to 58324
Data columns (total 7 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   Ciudad, Mercado Mayorista  917491 non-null  object 
 1   Departamento Proc.         917491 non-null  object 
 2   Municipio Proc.            917491 non-null  object 
 3   Grupo                      917491 non-null  object 
 4   Alimento                   917491 non-null  object 
 5   Fecha                      917491 non-null  object 
 6   Cant Kg                    917491 non-null  float64
dtypes: float64(1), object(6)
memory usage: 56.0+ MB


In [8]:
#No existen valores nulos así que no tenemos que limpiarlos, pasamos ahora a verificar los tipos de los datos.
#La única columna que no tiene el tipo de dato que le corresponde es la de Fecha, hacemos el cambio
abastecimiento_df['Fecha'] = pd.to_datetime(abastecimiento_df['Fecha'], dayfirst= True)
abastecimiento_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 917491 entries, 0 to 58324
Data columns (total 7 columns):
 #   Column                     Non-Null Count   Dtype         
---  ------                     --------------   -----         
 0   Ciudad, Mercado Mayorista  917491 non-null  object        
 1   Departamento Proc.         917491 non-null  object        
 2   Municipio Proc.            917491 non-null  object        
 3   Grupo                      917491 non-null  object        
 4   Alimento                   917491 non-null  object        
 5   Fecha                      917491 non-null  datetime64[ns]
 6   Cant Kg                    917491 non-null  float64       
dtypes: datetime64[ns](1), float64(1), object(5)
memory usage: 56.0+ MB


In [9]:
#Ahora queremos separar la ciudad de su mercado mayorista en dos columnas distintas.
#Primero veamos que datos unicos existen.
abastecimiento_df['Ciudad, Mercado Mayorista'].sort_values().unique()

array(['Armenia, Mercar', 'Barranquilla, Barranquillita',
       'Barranquilla, Granabastos', 'Bogotá, D.C., Corabastos',
       'Bogotá, D.C., Paloquemao', 'Bogotá, D.C., Plaza Las Flores',
       'Bogotá, D.C., Plaza Samper Mendoza', 'Bucaramanga, Centroabastos',
       'Cali, Cavasa', 'Cali, Santa Elena', 'Cali, Santa Helena',
       'Cartagena, Bazurto', 'Cúcuta, Cenabastos',
       'Cúcuta, La Nueva Sexta', 'Florencia (Caquetá)',
       'Ibagué, Plaza La 21', 'Ipiales (Nariño), Centro de acopio',
       'Manizales, Centro Galerías',
       'Medellín, Central Mayorista de Antioquia',
       'Medellín, Plaza Minorista "José María Villa"',
       'Montería, Mercado del Sur', 'Neiva, Surabastos',
       'Pasto, El Potrerillo', 'Pereira, La 41', 'Pereira, Mercasa',
       'Popayán, Plaza de mercado del barrio Bolívar',
       'Santa Marta (Magdalena)', 'Sincelejo, Nuevo Mercado',
       'Tibasosa (Boyacá), Coomproriente',
       'Tunja, Complejo de Servicios del Sur', 'Valledupar, Merc

In [10]:
#Podemos ver que todos están separados por comas, pero Santa Marta, Tibasosa, Florencia e Ipiales tienen entre paréntesis el 
#departamento. No necesitamos esto, así que eliminamos esa parte
abastecimiento_df['Ciudad, Mercado Mayorista'].replace(to_replace = "\s\(\w+\)", value = "", regex = True, inplace = True)
#Como no hay mercado para Santa Marta ni para Florencia, agregaremos el nombre de la ciudad.
abastecimiento_df['Ciudad, Mercado Mayorista'].replace("Santa Marta", "Santa Marta, Santa Marta", inplace = True)
abastecimiento_df['Ciudad, Mercado Mayorista'].replace("Florencia", "Florencia, Florencia", inplace = True)
#Además Bogotá D.C está separada por comas como Bogotá, D.C, "mercado", tenemos que corregir esto
abastecimiento_df['Ciudad, Mercado Mayorista'].replace(to_replace = ", D.C", value = " D.C", regex = True, inplace = True)
#Por ultimo aparecen registros con Cali, Santa Elena y Cali, Santa Helena; corresponden al mismo lugar pero hay un error de 
#ortografía, lo corregimos:
abastecimiento_df['Ciudad, Mercado Mayorista'].replace(to_replace = 'Cali, Santa Helena', value = 'Cali, Santa Elena', regex = True, inplace = True)

In [11]:
#Revisamos que los cambios se hayan aplicado
abastecimiento_df['Ciudad, Mercado Mayorista'].sort_values().unique()

array(['Armenia, Mercar', 'Barranquilla, Barranquillita',
       'Barranquilla, Granabastos', 'Bogotá D.C., Corabastos',
       'Bogotá D.C., Paloquemao', 'Bogotá D.C., Plaza Las Flores',
       'Bogotá D.C., Plaza Samper Mendoza', 'Bucaramanga, Centroabastos',
       'Cali, Cavasa', 'Cali, Santa Elena', 'Cartagena, Bazurto',
       'Cúcuta, Cenabastos', 'Cúcuta, La Nueva Sexta',
       'Florencia, Florencia', 'Ibagué, Plaza La 21',
       'Ipiales, Centro de acopio', 'Manizales, Centro Galerías',
       'Medellín, Central Mayorista de Antioquia',
       'Medellín, Plaza Minorista "José María Villa"',
       'Montería, Mercado del Sur', 'Neiva, Surabastos',
       'Pasto, El Potrerillo', 'Pereira, La 41', 'Pereira, Mercasa',
       'Popayán, Plaza de mercado del barrio Bolívar',
       'Santa Marta, Santa Marta', 'Sincelejo, Nuevo Mercado',
       'Tibasosa, Coomproriente', 'Tunja, Complejo de Servicios del Sur',
       'Valledupar, Mercabastos', 'Valledupar, Mercado Nuevo',
       'Vi

In [12]:
#Como todo quedó bien ahora si separamos la Ciudad y el Mercado Mayorista, además cambiaremos ciudad por municipio, ya que 
#es más preciso para referirnos al conjunto de datos que tenemos.
abastecimiento_df.insert(0, "Municipio", abastecimiento_df['Ciudad, Mercado Mayorista'].str.split(r',', expand = True)[0])
abastecimiento_df.insert(1, "Mercado Mayorista", abastecimiento_df['Ciudad, Mercado Mayorista'].str.split(r',', expand = True)[1])
abastecimiento_df.head()

Unnamed: 0,Municipio,Mercado Mayorista,"Ciudad, Mercado Mayorista",Departamento Proc.,Municipio Proc.,Grupo,Alimento,Fecha,Cant Kg
0,Armenia,Mercar,"Armenia, Mercar",ANTIOQUIA,MEDELLÍN,PROCESADOS,Bebidas otras,2018-01-01,1000.0
1,Armenia,Mercar,"Armenia, Mercar",ANTIOQUIA,MEDELLÍN,PROCESADOS,Galletas,2018-05-01,2400.0
2,Armenia,Mercar,"Armenia, Mercar",ANTIOQUIA,MEDELLÍN,VERDURAS Y HORTALIZAS,Tomate chonto,2018-06-01,14300.0
3,Armenia,Mercar,"Armenia, Mercar",ANTIOQUIA,BARBOSA,FRUTAS,Tomate de árbol,2018-05-01,7000.0
4,Armenia,Mercar,"Armenia, Mercar",ANTIOQUIA,CARAMANTA,FRUTAS,Tomate de árbol,2018-01-01,20000.0


In [13]:
#Ya no necesitamos la columna Ciudad, Mercado Mayorista, así que la eliminamos
abastecimiento_df.drop('Ciudad, Mercado Mayorista', axis = 1, inplace = True)

In [14]:
#Finalmente tenemos el siguiente dataframe para el componente de abastecimiento
abastecimiento_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 917491 entries, 0 to 58324
Data columns (total 8 columns):
 #   Column              Non-Null Count   Dtype         
---  ------              --------------   -----         
 0   Municipio           917491 non-null  object        
 1   Mercado Mayorista   917491 non-null  object        
 2   Departamento Proc.  917491 non-null  object        
 3   Municipio Proc.     917491 non-null  object        
 4   Grupo               917491 non-null  object        
 5   Alimento            917491 non-null  object        
 6   Fecha               917491 non-null  datetime64[ns]
 7   Cant Kg             917491 non-null  float64       
dtypes: datetime64[ns](1), float64(1), object(6)
memory usage: 63.0+ MB


In [15]:
#En el dataframe de abastecimiento existen duplicados así que vamos a eliminarlos
#Primero veamos cuales son estos duplicados.
abastecimiento_df[abastecimiento_df.duplicated(keep = False)].sort_values(['Fecha', 'Alimento'])

Unnamed: 0,Municipio,Mercado Mayorista,Departamento Proc.,Municipio Proc.,Grupo,Alimento,Fecha,Cant Kg
92316,Popayán,Plaza de mercado del barrio Bolívar,CAUCA,POPAYÁN,VERDURAS Y HORTALIZAS,Acelga,2021-09-01,240.0
93170,Popayán,Plaza de mercado del barrio Bolívar,CAUCA,POPAYÁN,VERDURAS Y HORTALIZAS,Acelga,2021-09-01,240.0
10839,Bogotá D.C.,Corabastos,HUILA,ALGECIRAS,FRUTAS,Aguacate Hass,2021-09-01,7500.0
21553,Bogotá D.C.,Corabastos,HUILA,ALGECIRAS,FRUTAS,Aguacate Hass,2021-09-01,7500.0
89568,Pereira,Mercasa,RISARALDA,GUÁTICA,FRUTAS,Aguacate Hass,2021-09-01,500.0
...,...,...,...,...,...,...,...,...
31852,Bogotá D.C.,Plaza Samper Mendoza,CUNDINAMARCA,UNE,VERDURAS Y HORTALIZAS,Verduras y hortalizas otras,2021-11-01,1000.0
44776,Cúcuta,Cenabastos,OTRO,CHILE,FRUTAS,Limón común,2022-10-01,1200.0
48052,Cúcuta,Cenabastos,OTRO,CHILE,FRUTAS,Limón común,2022-10-01,1200.0
32861,Cali,Cavasa,OTRO,ECUADOR,FRUTAS,Mango Tommy,2022-10-01,7500.0


In [16]:
#Ahora eliminemoslos
abastecimiento_df.drop_duplicates(inplace = True, ignore_index = True)
#Veamos cuantos registros quedaron después de eliminar los duplicados
abastecimiento_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 917155 entries, 0 to 917154
Data columns (total 8 columns):
 #   Column              Non-Null Count   Dtype         
---  ------              --------------   -----         
 0   Municipio           917155 non-null  object        
 1   Mercado Mayorista   917155 non-null  object        
 2   Departamento Proc.  917155 non-null  object        
 3   Municipio Proc.     917155 non-null  object        
 4   Grupo               917155 non-null  object        
 5   Alimento            917155 non-null  object        
 6   Fecha               917155 non-null  datetime64[ns]
 7   Cant Kg             917155 non-null  float64       
dtypes: datetime64[ns](1), float64(1), object(6)
memory usage: 56.0+ MB


#### Componente precios

Aquí pasa algo similar a lo que vimos en el caso de abastecimiento, los archivos contienen la misma información pero sus encabezados son distintos, vamos a cargar cada uno y a observar su esquema

In [17]:
#leamos los archivos .csv para el componente precios, y comparamos sus columnas igual que con el componente de abastecimiento 
ruta = 'datasets/precios/'
archivos_precios= os.listdir(ruta)
archivos_precios = sorted(archivos_precios)
df_precios = []
for archivo in archivos_precios:
    df_precios.append(pd.read_csv(ruta + archivo, sep =';', encoding = 'latin-1'))
puntero = df_precios[0]
print(puntero.columns)
for df in df_precios:
    if np.any(df.columns != puntero.columns):
        puntero = df 
        print(puntero.columns) 
    print(df.columns == puntero.columns)

Index(['Fecha', 'Grupo', 'Producto', 'Fuente', 'Precio'], dtype='object')
[ True  True  True  True  True]
Index(['Fecha', 'Grupo', 'Producto', 'Fuente', 'Precio_por_kilogramo'], dtype='object')
[ True  True  True  True  True]
Index(['Fecha', 'Grupo', 'Producto', 'Mercado', 'Precio_por_kilogramo'], dtype='object')
[ True  True  True  True  True]
Index(['Fecha', 'Grupo', 'Producto', 'Mercado',
       'Precio_promedio_por_kilogramo'],
      dtype='object')
[ True  True  True  True  True]
Index(['Fecha', 'Grupo', 'Producto', 'Mercado',
       'Precio promedio por kilogramo*'],
      dtype='object')
[ True  True  True  True  True]
[ True  True  True  True  True]


In [18]:
#Vemos que estos archivos tienen una mayor variedad en la forma de nombrar sus columnas, pero el orden en que aparecen
#es el mismo para todos los archivos, así que pasamos a renombrarlos y a concatenarlos en un solo dataframe
nombres_columnas = ['Fecha', 'Grupo', 'Producto', 'Fuente', 'Precio por kilogramo']
for df in df_precios:
    nuevos_nombres = dict(zip(df.columns, nombres_columnas))
    df.rename(columns= nuevos_nombres, inplace = True)
# ahora todos tienen los mismos nombres veamos por ejemplo:
print(df_precios[0].columns)
print(df_precios[5].columns)



Index(['Fecha', 'Grupo', 'Producto', 'Fuente', 'Precio por kilogramo'], dtype='object')
Index(['Fecha', 'Grupo', 'Producto', 'Fuente', 'Precio por kilogramo'], dtype='object')


In [19]:
#Antes de concatenar tenemos que ver que tenemos un problema con los acentos y la ñ para los dataframes de los años 2022 y 2023
#En las columnas de Fuente y Producto
print(df_precios[5]['Fuente'].unique())
print(df_precios[4]['Producto'].unique())

['Armenia, Mercar' 'Bogot\xa0, D.C., Corabastos'
 'Bucaramanga, Centroabastos' 'Chiquinquir\xa0 (Boyac\xa0)'
 'Duitama (Boyac\xa0), Mercaplaza' 'Florencia (Caquet\xa0)'
 'Ibagu\x82, Plaza La 21' 'Ipiales (Nari¤o), Ipiales somos todos'
 'Medell¡n, Central Mayorista de Antioquia' 'Neiva, Surabastos'
 'Pamplona (Norte de Santander)' 'Pasto, El Potrerillo' 'Pereira, Mercasa'
 'Tibasosa (Boyac\xa0), Coomproriente'
 'Tunja, Complejo de Servicios del Sur' 'Villavicencio, CAV'
 'Yopal (Casanare)' 'Buenaventura (Valle del Cauca)' 'Cali, Cavasa'
 'Cali, Santa Elena' 'Cartago (Valle del Cauca)' 'C£cuta, Cenabastos'
 'Manizales, Centro Galer¡as'
 'Medell¡n, Plaza Minorista "Jos\x82 Mar¡a Villa"'
 'Monter¡a, Mercado del Sur' 'Palmira (Valle del Cauca)' 'Pereira, La 41'
 'Popay\xa0n, Plaza de mercado del barrio Bol¡var' 'San Gil (Santander)'
 'Sincelejo, Nuevo Mercado' 'Socorro (Santander)'
 'Tulu\xa0 (Valle del Cauca)' 'Valledupar, Mercabastos'
 'Valledupar, Mercado Nuevo' 'Arauca (Arauca)' 'Cartag

In [20]:
#Así que vamos a remplazar esos carácteres extraños con los que le corresponden
caracteres_a_remover = {u'\xa0' : 'á', '¤' : 'ñ', 'Ą' : 'í', 'Ł':'ú', u'\x82': 'é', '˘' :'ó', '¡' : 'í', 
                        '¢' :'ó', '£' : 'ú', '¥' :'Ñ', u'\x81': 'ü'}
for caracter in caracteres_a_remover.items():
    df_precios[5].replace(to_replace = caracter[0], value =  caracter[1], regex = True,  inplace = True)
    df_precios[4].replace(to_replace = caracter[0], value =  caracter[1], regex = True,  inplace = True)


In [21]:
#Comprobemos que se hayan corregido los datos
print(df_precios[5]['Fuente'].unique())
print(df_precios[4]['Producto'].unique())

['Armenia, Mercar' 'Bogotá, D.C., Corabastos' 'Bucaramanga, Centroabastos'
 'Chiquinquirá (Boyacá)' 'Duitama (Boyacá), Mercaplaza'
 'Florencia (Caquetá)' 'Ibagué, Plaza La 21'
 'Ipiales (Nariño), Ipiales somos todos'
 'Medellín, Central Mayorista de Antioquia' 'Neiva, Surabastos'
 'Pamplona (Norte de Santander)' 'Pasto, El Potrerillo' 'Pereira, Mercasa'
 'Tibasosa (Boyacá), Coomproriente' 'Tunja, Complejo de Servicios del Sur'
 'Villavicencio, CAV' 'Yopal (Casanare)' 'Buenaventura (Valle del Cauca)'
 'Cali, Cavasa' 'Cali, Santa Elena' 'Cartago (Valle del Cauca)'
 'Cúcuta, Cenabastos' 'Manizales, Centro Galerías'
 'Medellín, Plaza Minorista "José María Villa"'
 'Montería, Mercado del Sur' 'Palmira (Valle del Cauca)' 'Pereira, La 41'
 'Popayán, Plaza de mercado del barrio Bolívar' 'San Gil (Santander)'
 'Sincelejo, Nuevo Mercado' 'Socorro (Santander)'
 'Tuluá (Valle del Cauca)' 'Valledupar, Mercabastos'
 'Valledupar, Mercado Nuevo' 'Arauca (Arauca)' 'Cartagena, Bazurto'
 'Túquerres (Nari

In [22]:
#Ahora ya podemos concatenar todos los dataframes de precios
precios_df = pd.concat(df_precios)

In [23]:
#Vamos a revisar los tipos de datos que tienen nuestra columnas
precios_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 304450 entries, 0 to 26811
Data columns (total 5 columns):
 #   Column                Non-Null Count   Dtype 
---  ------                --------------   ----- 
 0   Fecha                 304450 non-null  object
 1   Grupo                 304450 non-null  object
 2   Producto              304450 non-null  object
 3   Fuente                304450 non-null  object
 4   Precio por kilogramo  304450 non-null  int64 
dtypes: int64(1), object(4)
memory usage: 13.9+ MB


In [24]:
#Necesitamos cambiar el precio_por_kilogramo a float64 y la fecha a datetime
precios_df['Precio por kilogramo'] = precios_df['Precio por kilogramo'].astype(np.float64)
precios_df['Fecha'] = pd.to_datetime(precios_df['Fecha'], dayfirst= True)
#confirmamos que se hayan hecho los cambios
precios_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 304450 entries, 0 to 26811
Data columns (total 5 columns):
 #   Column                Non-Null Count   Dtype         
---  ------                --------------   -----         
 0   Fecha                 304450 non-null  datetime64[ns]
 1   Grupo                 304450 non-null  object        
 2   Producto              304450 non-null  object        
 3   Fuente                304450 non-null  object        
 4   Precio por kilogramo  304450 non-null  float64       
dtypes: datetime64[ns](1), float64(1), object(3)
memory usage: 13.9+ MB


In [25]:
#La columna Fuente tiene dos datos, el municipio y, si aplica, el lugar donde se resgistro el precio.
#Así que separaremos está columna en dos nuevas columnas llamadas Municipio y Fuente.
#Para esto veamos los registros unicos en esta columna, ordenados por orden alfabético
print(precios_df['Fuente'].sort_values().unique(),"\n número de registros:", len(precios_df['Fuente'].sort_values().unique()))

['Ancuya (Nariño)' 'Arauca (Arauca)' 'Armenia, Mercar' 'Armenia, Retiro'
 'Barranquilla, Barranquillita' 'Barranquilla, Granabastos'
 'Bogotá, D.C., Corabastos' 'Bogotá, D.C., Frigorífico Ble Ltda.'
 'Bogotá, D.C., Frigorífico Guadalupe' 'Bogotá, D.C., Paloquemao'
 'Bogotá, D.C., Plaza España' 'Bogotá, D.C., Plaza Las Flores'
 'Bucaramanga, Centroabastos' 'Bucaramanga, Frigoríficos'
 'Bucaramanga, Mercados del Centro' 'Bucaramanga, Mercados del centro'
 'Buenaventura (Valle del Cauca)' 'Cali, Cavasa' 'Cali, Galería Alameda'
 'Cali, La Floresta' 'Cali, Santa Elena' 'Cali, Santa Helena'
 'Cali, Siloé' 'Caparrapí (Cundinamarca)' 'Cartagena, Bazurto'
 'Cartago (Valle del Cauca)' 'Charalá (Santander)' 'Chiquinquirá (Boyacá)'
 'Consacá (Nariño)' 'Cúcuta, Cenabastos' 'Cúcuta, La Nueva Sexta'
 'Duitama (Boyacá)' 'Duitama (Boyacá), Mercaplaza'
 'El Carmen de Viboral (Antioquia)' 'El Santuario (Antioquia)'
 'Florencia (Caquetá)' 'Güepsa (Santander)' 'Ibagué, Frigorífico Carlima'
 'Ibagué, Plaza 

In [26]:
#Vemos que hay registros repetidos, pero la mayoría es por el uso de las mayúsculas y mínusculas, vamos a corregir esto:
precios_df['Fuente'] = precios_df['Fuente'].str.title()
#Verificamos si hubo cambios
print(precios_df['Fuente'].sort_values().unique(),"\n número de registros:", len(precios_df['Fuente'].sort_values().unique()))

['Ancuya (Nariño)' 'Arauca (Arauca)' 'Armenia, Mercar' 'Armenia, Retiro'
 'Barranquilla, Barranquillita' 'Barranquilla, Granabastos'
 'Bogotá, D.C., Corabastos' 'Bogotá, D.C., Frigorífico Ble Ltda.'
 'Bogotá, D.C., Frigorífico Guadalupe' 'Bogotá, D.C., Paloquemao'
 'Bogotá, D.C., Plaza España' 'Bogotá, D.C., Plaza Las Flores'
 'Bucaramanga, Centroabastos' 'Bucaramanga, Frigoríficos'
 'Bucaramanga, Mercados Del Centro' 'Buenaventura (Valle Del Cauca)'
 'Cali, Cavasa' 'Cali, Galería Alameda' 'Cali, La Floresta'
 'Cali, Santa Elena' 'Cali, Santa Helena' 'Cali, Siloé'
 'Caparrapí (Cundinamarca)' 'Cartagena, Bazurto'
 'Cartago (Valle Del Cauca)' 'Charalá (Santander)' 'Chiquinquirá (Boyacá)'
 'Consacá (Nariño)' 'Cúcuta, Cenabastos' 'Cúcuta, La Nueva Sexta'
 'Duitama (Boyacá)' 'Duitama (Boyacá), Mercaplaza'
 'El Carmen De Viboral (Antioquia)' 'El Santuario (Antioquia)'
 'Florencia (Caquetá)' 'Güepsa (Santander)' 'Ibagué, Frigorífico Carlima'
 'Ibagué, Plaza La 21' 'Ipiales (Nariño), Centro De

In [27]:
#El único registro que sigue duplicado es el de Cali, Santa Elena, por un error de ortografía, lo corregimos:
precios_df['Fuente'].replace(to_replace = 'Cali, Santa Helena', value = 'Cali, Santa Elena', regex = True, inplace = True)
#Confirmamos el cambio
print(precios_df['Fuente'].sort_values().unique(),"\n número de registros:", len(precios_df['Fuente'].sort_values().unique()))

['Ancuya (Nariño)' 'Arauca (Arauca)' 'Armenia, Mercar' 'Armenia, Retiro'
 'Barranquilla, Barranquillita' 'Barranquilla, Granabastos'
 'Bogotá, D.C., Corabastos' 'Bogotá, D.C., Frigorífico Ble Ltda.'
 'Bogotá, D.C., Frigorífico Guadalupe' 'Bogotá, D.C., Paloquemao'
 'Bogotá, D.C., Plaza España' 'Bogotá, D.C., Plaza Las Flores'
 'Bucaramanga, Centroabastos' 'Bucaramanga, Frigoríficos'
 'Bucaramanga, Mercados Del Centro' 'Buenaventura (Valle Del Cauca)'
 'Cali, Cavasa' 'Cali, Galería Alameda' 'Cali, La Floresta'
 'Cali, Santa Elena' 'Cali, Siloé' 'Caparrapí (Cundinamarca)'
 'Cartagena, Bazurto' 'Cartago (Valle Del Cauca)' 'Charalá (Santander)'
 'Chiquinquirá (Boyacá)' 'Consacá (Nariño)' 'Cúcuta, Cenabastos'
 'Cúcuta, La Nueva Sexta' 'Duitama (Boyacá)'
 'Duitama (Boyacá), Mercaplaza' 'El Carmen De Viboral (Antioquia)'
 'El Santuario (Antioquia)' 'Florencia (Caquetá)' 'Güepsa (Santander)'
 'Ibagué, Frigorífico Carlima' 'Ibagué, Plaza La 21'
 'Ipiales (Nariño), Centro De Acopio'
 'Ipiales (N

In [28]:
#Listo, ahora vamos a quitar el departamento que aparece entre paréntesis pues solo unos municipios lo tienen,
#luego agregaremos el departamento en una nueva columna para todos, cargando un dataset que contiene todos los municipios por
#departamento.
#Hay un caso especial y es el de La Unión-Antioquía y La Unión-Nariño, el proceso de agregar el departamento lo haremos manual 
#para estos dos municipios.
precios_df['Fuente'].replace(to_replace = "La Unión \(Antioquia\)", value = "La Unión Antioquia", regex = True, inplace = True)
precios_df['Fuente'].replace(to_replace = "La Unión \(Nariño\)", value = "La Unión Nariño", regex = True, inplace = True)
precios_df['Fuente'].replace(to_replace = "\s\(.+\)", value = "", regex = True, inplace = True)
precios_df['Fuente'].replace(to_replace = ", D.C", value = " D.C", regex = True, inplace = True)
#Vamos a eliminar los espacios que quedan de este proceso
precios_df['Fuente']= precios_df['Fuente'].str.strip()
#Veamos los cambios
print(precios_df['Fuente'].sort_values().unique(),"\n número de registros:", len(precios_df['Fuente'].sort_values().unique()))

['Ancuya' 'Arauca' 'Armenia, Mercar' 'Armenia, Retiro'
 'Barranquilla, Barranquillita' 'Barranquilla, Granabastos'
 'Bogotá D.C., Corabastos' 'Bogotá D.C., Frigorífico Ble Ltda.'
 'Bogotá D.C., Frigorífico Guadalupe' 'Bogotá D.C., Paloquemao'
 'Bogotá D.C., Plaza España' 'Bogotá D.C., Plaza Las Flores'
 'Bucaramanga, Centroabastos' 'Bucaramanga, Frigoríficos'
 'Bucaramanga, Mercados Del Centro' 'Buenaventura' 'Cali, Cavasa'
 'Cali, Galería Alameda' 'Cali, La Floresta' 'Cali, Santa Elena'
 'Cali, Siloé' 'Caparrapí' 'Cartagena, Bazurto' 'Cartago' 'Charalá'
 'Chiquinquirá' 'Consacá' 'Cúcuta, Cenabastos' 'Cúcuta, La Nueva Sexta'
 'Duitama' 'Duitama, Mercaplaza' 'El Carmen De Viboral' 'El Santuario'
 'Florencia' 'Güepsa' 'Ibagué, Frigorífico Carlima' 'Ibagué, Plaza La 21'
 'Ipiales, Centro De Acopio' 'Ipiales, Ipiales Somos Todos' 'La Ceja'
 'La Unión Antioquia' 'La Unión Nariño' 'Malambo, Atlantico'
 'Malambo, Carnes Y Carnes' 'Manizales, Centro Galerías' 'Marinilla'
 'Medellín, Central Ma

In [29]:
#Ahora separamos el municipio de la fuente del registro
precios_df.insert(0, "Municipio", precios_df['Fuente'].str.split(r',', expand = True)[0])
precios_df.insert(1, "Fuente Registro", precios_df['Fuente'].str.split(r',', expand = True)[1])
precios_df.head()

Unnamed: 0,Municipio,Fuente Registro,Fecha,Grupo,Producto,Fuente,Precio por kilogramo
0,Armenia,Mercar,2018-01-01,VERDURAS Y HORTALIZAS,Acelga,"Armenia, Mercar",1089.0
1,Barranquilla,Barranquillita,2018-01-01,VERDURAS Y HORTALIZAS,Acelga,"Barranquilla, Barranquillita",2961.0
2,Bogotá D.C.,Corabastos,2018-01-01,VERDURAS Y HORTALIZAS,Acelga,"Bogotá D.C., Corabastos",535.0
3,Bucaramanga,Centroabastos,2018-01-01,VERDURAS Y HORTALIZAS,Acelga,"Bucaramanga, Centroabastos",1500.0
4,Chiquinquirá,,2018-01-01,VERDURAS Y HORTALIZAS,Acelga,Chiquinquirá,1008.0


In [30]:
#En este dataframe no existen duplicados, así que podemos continuar
precios_df[precios_df.duplicated(keep = False)]

Unnamed: 0,Municipio,Fuente Registro,Fecha,Grupo,Producto,Fuente,Precio por kilogramo


In [31]:
#Como vemos en el registro de Chiquinquirá, nos quedan en la fuente de registro valores None, como no se específicaba donde
#se tomó este registro, llenaremos estos valores con "No especifica"
precios_df['Fuente Registro'].fillna("No especifica", inplace = True)
#Comprobamos los cambios
precios_df.head()

Unnamed: 0,Municipio,Fuente Registro,Fecha,Grupo,Producto,Fuente,Precio por kilogramo
0,Armenia,Mercar,2018-01-01,VERDURAS Y HORTALIZAS,Acelga,"Armenia, Mercar",1089.0
1,Barranquilla,Barranquillita,2018-01-01,VERDURAS Y HORTALIZAS,Acelga,"Barranquilla, Barranquillita",2961.0
2,Bogotá D.C.,Corabastos,2018-01-01,VERDURAS Y HORTALIZAS,Acelga,"Bogotá D.C., Corabastos",535.0
3,Bucaramanga,Centroabastos,2018-01-01,VERDURAS Y HORTALIZAS,Acelga,"Bucaramanga, Centroabastos",1500.0
4,Chiquinquirá,No especifica,2018-01-01,VERDURAS Y HORTALIZAS,Acelga,Chiquinquirá,1008.0


In [32]:
#Podemos eliminar la columna Fuente
precios_df.drop('Fuente', axis = 1, inplace = True)
#Y agregar la columna de departamento, para ello vamos a traer el dataset con la información
departamentos_df = pd.read_csv('datasets/Departamentos.csv', delimiter= ',', encoding='utf-8')
#Veamos que hay en el nuevo dataframe con los departamentos
departamentos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1123 entries, 0 to 1122
Data columns (total 5 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   REGION                        1123 non-null   object 
 1   CÓDIGO DANE DEL DEPARTAMENTO  1123 non-null   int64  
 2   DEPARTAMENTO                  1123 non-null   object 
 3   CÓDIGO DANE DEL MUNICIPIO     1123 non-null   float64
 4   MUNICIPIO                     1123 non-null   object 
dtypes: float64(1), int64(1), object(3)
memory usage: 44.0+ KB


In [33]:
#No necesitamos las columnas de región, ni las que tienen códigos
departamentos_df.drop(['REGION', 'CÓDIGO DANE DEL DEPARTAMENTO','CÓDIGO DANE DEL MUNICIPIO'], axis = 1, inplace = True)
#Vamos a capitalizar cada palabra de los nombres para que coincida con lo que tenemos en el dataframe de precios
departamentos_df['DEPARTAMENTO'] = departamentos_df['DEPARTAMENTO'].str.title() 
departamentos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1123 entries, 0 to 1122
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   DEPARTAMENTO  1123 non-null   object
 1   MUNICIPIO     1123 non-null   object
dtypes: object(2)
memory usage: 17.7+ KB


In [34]:
#Vamos a verificar cuantos registros tenemos antes de hacer el merge con el dataframe departamentos
#Para mantener la integridad de los datos
precios_df.count()

Municipio               304450
Fuente Registro         304450
Fecha                   304450
Grupo                   304450
Producto                304450
Precio por kilogramo    304450
dtype: int64

In [35]:
#Ahora hacemosel merge de las dos tablas
precios_df = pd.merge(precios_df, departamentos_df, left_on = 'Municipio', right_on = 'MUNICIPIO', how = 'left')
#Verificamos como quedó el nuevo dataframe
precios_df.count()

Municipio               322141
Fuente Registro         322141
Fecha                   322141
Grupo                   322141
Producto                322141
Precio por kilogramo    322141
DEPARTAMENTO            317784
MUNICIPIO               317784
dtype: int64

In [36]:
#Vemos que aumentaron los registros en el dataframe, esto se debe a que hay municipios con el mismo nombre en 
#distintos departamentos, los buscamos contando cuantos departamentos lista cada municipio
municipios_repetidos = precios_df.groupby('Municipio').agg({'DEPARTAMENTO': 'nunique'})
municipios_repetidos[municipios_repetidos['DEPARTAMENTO'] > 1]

Unnamed: 0_level_0,DEPARTAMENTO
Municipio,Unnamed: 1_level_1
Armenia,2
Florencia,2
Rionegro,2
Santa Bárbara,3


In [37]:
#Teniendo en cuenta el dataset original, eliminamos los matches municipio departamento que no existían en este.
precios_df = precios_df[~((precios_df['Municipio'] == 'Armenia') & (precios_df['DEPARTAMENTO'] != 'Quindío'))]
precios_df = precios_df[~((precios_df['Municipio'] == 'Florencia') & (precios_df['DEPARTAMENTO'] != 'Caquetá'))]
precios_df = precios_df[~((precios_df['Municipio'] == 'Rionegro') & (precios_df['DEPARTAMENTO'] != 'Antioquia'))]
precios_df = precios_df[~((precios_df['Municipio'] == 'Santa Bárbara') & (precios_df['DEPARTAMENTO'] != 'Antioquia'))]
precios_df.count()

Municipio               304450
Fuente Registro         304450
Fecha                   304450
Grupo                   304450
Producto                304450
Precio por kilogramo    304450
DEPARTAMENTO            300093
MUNICIPIO               300093
dtype: int64

In [38]:
#Ahora tenemos la misma cantidad de registros que antes, pero nos damos cuenta que que en las nuevas columnas de 
#Departamento y municipio, nos faltan registros. Esto significa que algunos municipios no hicieron match y debemos
#hacerlo manualmente.
#Veamos que municipios no encontraron su departamento
precios_df[precios_df['DEPARTAMENTO'].isnull()]['Municipio'].unique()

array(['Ubaté', 'El Carmen De Viboral', 'La Unión Nariño',
       'La Unión Antioquia', 'Ancuya', 'Consacá',
       'San Sebastián De Mariquita'], dtype=object)

In [39]:
#Agregamos el departamento manualmente
precios_df.loc[precios_df['Municipio'] == 'Ubaté','DEPARTAMENTO'] = 'Cundinamarca'
precios_df.loc[precios_df['Municipio'] == 'El Carmen De Viboral','DEPARTAMENTO'] = 'Antioquia'
precios_df.loc[precios_df['Municipio'] == 'La Unión Nariño','DEPARTAMENTO'] = 'Nariño'
precios_df.loc[precios_df['Municipio'] == 'La Unión Antioquia','DEPARTAMENTO'] = 'Antioquia'
precios_df.loc[precios_df['Municipio'] == 'Ancuya','DEPARTAMENTO'] = 'Nariño'
precios_df.loc[precios_df['Municipio'] == 'Consacá','DEPARTAMENTO'] = 'Nariño'
precios_df.loc[precios_df['Municipio'] == 'San Sebastián De Mariquita','DEPARTAMENTO'] = 'Tolima'
precios_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 304450 entries, 1 to 322140
Data columns (total 8 columns):
 #   Column                Non-Null Count   Dtype         
---  ------                --------------   -----         
 0   Municipio             304450 non-null  object        
 1   Fuente Registro       304450 non-null  object        
 2   Fecha                 304450 non-null  datetime64[ns]
 3   Grupo                 304450 non-null  object        
 4   Producto              304450 non-null  object        
 5   Precio por kilogramo  304450 non-null  float64       
 6   DEPARTAMENTO          304450 non-null  object        
 7   MUNICIPIO             300093 non-null  object        
dtypes: datetime64[ns](1), float64(1), object(6)
memory usage: 20.9+ MB


In [40]:
#Ya no tenemos municipios sin departamento.
# Ahora eliminamos la columna de Municipio repetida, y cambiamos el nombre de DEPARTAMENTO a Departamento, 
#para que coincida con la forma en que hemos nombrado nuestras columnas. Además, ordenamos las columnas para que 
#departamento aparezca al principio
precios_df.drop('MUNICIPIO', axis = 1, inplace = True)
precios_df.rename({'DEPARTAMENTO':'Departamento'}, axis = 1, inplace = True)
precios_df = precios_df.reindex(columns = ['Departamento', 'Municipio', 'Fuente Registro', 'Fecha', 'Grupo', 'Producto',
                              'Precio por kilogramo'])
precios_df.head()

Unnamed: 0,Departamento,Municipio,Fuente Registro,Fecha,Grupo,Producto,Precio por kilogramo
1,Quindío,Armenia,Mercar,2018-01-01,VERDURAS Y HORTALIZAS,Acelga,1089.0
2,Atlántico,Barranquilla,Barranquillita,2018-01-01,VERDURAS Y HORTALIZAS,Acelga,2961.0
3,Bogotá D.C.,Bogotá D.C.,Corabastos,2018-01-01,VERDURAS Y HORTALIZAS,Acelga,535.0
4,Santander,Bucaramanga,Centroabastos,2018-01-01,VERDURAS Y HORTALIZAS,Acelga,1500.0
5,Boyacá,Chiquinquirá,No especifica,2018-01-01,VERDURAS Y HORTALIZAS,Acelga,1008.0


In [41]:
#Podemos agregar el departamento de destino también al dataFrame de abastecimiento, con el fin de poder comparar por departamento
#Vamos a ver cuantos registros tenemos antes del merge
abastecimiento_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 917155 entries, 0 to 917154
Data columns (total 8 columns):
 #   Column              Non-Null Count   Dtype         
---  ------              --------------   -----         
 0   Municipio           917155 non-null  object        
 1   Mercado Mayorista   917155 non-null  object        
 2   Departamento Proc.  917155 non-null  object        
 3   Municipio Proc.     917155 non-null  object        
 4   Grupo               917155 non-null  object        
 5   Alimento            917155 non-null  object        
 6   Fecha               917155 non-null  datetime64[ns]
 7   Cant Kg             917155 non-null  float64       
dtypes: datetime64[ns](1), float64(1), object(6)
memory usage: 56.0+ MB


In [42]:
abastecimiento_df = pd.merge(abastecimiento_df, departamentos_df, left_on = 'Municipio', right_on = 'MUNICIPIO', how = 'left')
abastecimiento_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 942927 entries, 0 to 942926
Data columns (total 10 columns):
 #   Column              Non-Null Count   Dtype         
---  ------              --------------   -----         
 0   Municipio           942927 non-null  object        
 1   Mercado Mayorista   942927 non-null  object        
 2   Departamento Proc.  942927 non-null  object        
 3   Municipio Proc.     942927 non-null  object        
 4   Grupo               942927 non-null  object        
 5   Alimento            942927 non-null  object        
 6   Fecha               942927 non-null  datetime64[ns]
 7   Cant Kg             942927 non-null  float64       
 8   DEPARTAMENTO        942927 non-null  object        
 9   MUNICIPIO           942927 non-null  object        
dtypes: datetime64[ns](1), float64(1), object(8)
memory usage: 79.1+ MB


In [43]:
#Veamos que municipios se repiten
municipios_repetidos = abastecimiento_df.groupby('Municipio').agg({'DEPARTAMENTO': 'nunique'})
municipios_repetidos[municipios_repetidos['DEPARTAMENTO'] > 1]

Unnamed: 0_level_0,DEPARTAMENTO
Municipio,Unnamed: 1_level_1
Armenia,2
Florencia,2


In [44]:
#Eliminamos los municipios que se repiten
abastecimiento_df = abastecimiento_df[~((abastecimiento_df['Municipio'] == 'Armenia') & (abastecimiento_df['DEPARTAMENTO'] != 'Quindío'))]
abastecimiento_df = abastecimiento_df[~((abastecimiento_df['Municipio'] == 'Florencia') & (abastecimiento_df['DEPARTAMENTO'] != 'Caquetá'))]
abastecimiento_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 917155 entries, 1 to 942926
Data columns (total 10 columns):
 #   Column              Non-Null Count   Dtype         
---  ------              --------------   -----         
 0   Municipio           917155 non-null  object        
 1   Mercado Mayorista   917155 non-null  object        
 2   Departamento Proc.  917155 non-null  object        
 3   Municipio Proc.     917155 non-null  object        
 4   Grupo               917155 non-null  object        
 5   Alimento            917155 non-null  object        
 6   Fecha               917155 non-null  datetime64[ns]
 7   Cant Kg             917155 non-null  float64       
 8   DEPARTAMENTO        917155 non-null  object        
 9   MUNICIPIO           917155 non-null  object        
dtypes: datetime64[ns](1), float64(1), object(8)
memory usage: 77.0+ MB


In [45]:
#Y ya tenemos cada municipio con el departamento que le corresponde. Eliminamos la columna duplicada de municipio y renombramos
#y organizamos la columna Departamento.
abastecimiento_df.drop('MUNICIPIO', axis = 1, inplace = True)
abastecimiento_df.rename({'DEPARTAMENTO':'Departamento'}, axis = 1, inplace = True)
abastecimiento_df = abastecimiento_df.reindex(columns = ['Departamento', 'Municipio', 'Mercado Mayorista', 
                                            'Departamento Proc.', 'Municipio Proc.', 'Grupo', 'Alimento', 'Fecha', 'Cant Kg'])
#Verificamos como quedó el nuevo dataframe
abastecimiento_df.head()

Unnamed: 0,Departamento,Municipio,Mercado Mayorista,Departamento Proc.,Municipio Proc.,Grupo,Alimento,Fecha,Cant Kg
1,Quindío,Armenia,Mercar,ANTIOQUIA,MEDELLÍN,PROCESADOS,Bebidas otras,2018-01-01,1000.0
3,Quindío,Armenia,Mercar,ANTIOQUIA,MEDELLÍN,PROCESADOS,Galletas,2018-05-01,2400.0
5,Quindío,Armenia,Mercar,ANTIOQUIA,MEDELLÍN,VERDURAS Y HORTALIZAS,Tomate chonto,2018-06-01,14300.0
7,Quindío,Armenia,Mercar,ANTIOQUIA,BARBOSA,FRUTAS,Tomate de árbol,2018-05-01,7000.0
9,Quindío,Armenia,Mercar,ANTIOQUIA,CARAMANTA,FRUTAS,Tomate de árbol,2018-01-01,20000.0


In [46]:
#Vamos a estandarizar los datos en las columnas Departamento Proc.,'Municipio Proc.', Grupo y alimento haciendo 
#que todos estén capitalizados
abastecimiento_df['Departamento Proc.'] =abastecimiento_df['Departamento Proc.'].str.title()
abastecimiento_df['Municipio Proc.'] = abastecimiento_df['Municipio Proc.'].str.title()
abastecimiento_df['Grupo'] =abastecimiento_df['Grupo'].str.capitalize()
abastecimiento_df['Alimento'] =abastecimiento_df['Alimento'].str.capitalize()

In [47]:
#Veamos que en la columna Departamento Proc. aparecen dos registro para Bogotá
abastecimiento_df['Departamento Proc.'].sort_values().unique()

array(['Amazonas', 'Antioquia', 'Arauca',
       'Archipiélago De San Andrés, Providencia Y', 'Atlántico',
       'Bogotá, D. C.', 'Bogotá, D.C.', 'Bolívar', 'Boyacá', 'Caldas',
       'Caquetá', 'Casanare', 'Cauca', 'Cesar', 'Chocó', 'Cundinamarca',
       'Córdoba', 'Guainía', 'Guaviare', 'Huila', 'La Guajira',
       'Magdalena', 'Meta', 'Nariño', 'Norte De Santander', 'Otro',
       'Putumayo', 'Quindío', 'Risaralda', 'Santander', 'Sucre', 'Tolima',
       'Valle Del Cauca', 'Vaupés', 'Vichada'], dtype=object)

In [48]:
#Vamos a cambiar esos registros para que tengan el mismo nombre
abastecimiento_df.loc[abastecimiento_df['Departamento Proc.'].str.startswith('Bogotá'), 'Departamento Proc.'] = 'Bogotá, D. C.'
#Confirmemos que el cambio se realizó
abastecimiento_df['Departamento Proc.'].sort_values().unique()

array(['Amazonas', 'Antioquia', 'Arauca',
       'Archipiélago De San Andrés, Providencia Y', 'Atlántico',
       'Bogotá, D. C.', 'Bolívar', 'Boyacá', 'Caldas', 'Caquetá',
       'Casanare', 'Cauca', 'Cesar', 'Chocó', 'Cundinamarca', 'Córdoba',
       'Guainía', 'Guaviare', 'Huila', 'La Guajira', 'Magdalena', 'Meta',
       'Nariño', 'Norte De Santander', 'Otro', 'Putumayo', 'Quindío',
       'Risaralda', 'Santander', 'Sucre', 'Tolima', 'Valle Del Cauca',
       'Vaupés', 'Vichada'], dtype=object)

In [49]:
#Finalmente tenemos nuestro dataframe de abastecimiento limpio, procesado y listo para el análisis
abastecimiento_df['Grupo'].info()

<class 'pandas.core.series.Series'>
Int64Index: 917155 entries, 1 to 942926
Series name: Grupo
Non-Null Count   Dtype 
--------------   ----- 
917155 non-null  object
dtypes: object(1)
memory usage: 14.0+ MB


### Merge de los dos dataframes

In [50]:
#En nuestro dataframe de precios, nos falta procesar el texto del grupo para que coincida con el de abastecimiento
precios_df['Grupo'] = precios_df['Grupo'].str.capitalize()
precios_df['Producto'] = precios_df['Producto'].str.capitalize()
#Ahora vemos que grupos tenemos en el dataframe de precios
precios_df['Grupo'].sort_values().unique()

array(['Carnes', 'Frutas', 'Granos y cereales', 'Lacteos y huevos',
       'Lácteos y huevos', 'Pescados', 'Procesados',
       'Tuberculos, raices y platanos', 'Tubérculos, raíces y plátanos',
       'Verduras y hortalizas'], dtype=object)

In [51]:
#Vemos algunas inconsistencias, las corregimos para que coincidan con el dataframe de abastecimiento
precios_df['Grupo'].replace('Lácteos y huevos', 'Lacteos y huevos', inplace = True)
precios_df['Grupo'].replace('Tubérculos, raíces y plátanos', 'Tuberculos, raices y platanos', inplace = True)
precios_df['Grupo'].sort_values().unique()

array(['Carnes', 'Frutas', 'Granos y cereales', 'Lacteos y huevos',
       'Pescados', 'Procesados', 'Tuberculos, raices y platanos',
       'Verduras y hortalizas'], dtype=object)

In [52]:
#Otro problema se presenta con la columna de Alimento en el dataframe de precios, pues los alimentos están registrados
#con mucha especificidad, por ejemplo, no solo se diferencia entre cebolla cabezona blanca y roja sino que además se 
#dividen en categorías cada una, de esta forma no coinciden con los datos que tenemos en el dataframe de abastecimiento que es
#más general. 
#Para solucionarlo, crearemos un dataframe llamado merge, que tenga la misma información de precios, pero añadiendo
#Una columna Alimento, que facilite el merge con el dataframe abastecimiento.
sub_grupo = ['Aceites', 'Aceites', 'Aceites', 'Aceites',  'Acelga', 'Aguacate común','Aguacate hass', 'Aguacate papelillo',
                  'Ahuyama', 'Ahuyamín (sakata)', 'Ajo', 'Ajo importado', 'Ají topito dulce', 'Carne de pollo', 'Carne de pollo',
                  'Almejas con concha', 'Almejas sin concha', 'Apio', 'Arracacha', 'Arracacha', 'Arroz', 'Arroz','Arroz', 'Arroz',
                  'Arroz', 'Arveja amarilla seca importada', 'Arveja enlatada', 'Arveja verde en vaina', 'Arveja verde en vaina',
                  'Arveja verde seca importada', 'Avena', 'Avena', 'Azúcar', 'Azúcar', 'Azúcar', 'Badea', 'Bagre', 'Bagre','Bagre',
                  'Banano bocadillo', 'Banano criollo', 'Banano urabá', 'Basa', 'Basa', 'Berenjena', 'Blanquillo entero fresco', 
                  'Bocachico', 'Bocachico', 'Bocadillo veleño', 'Borojó', 'Breva', 'Brócoli', 'Cachama de cultivo fresca', 'Café',
                  'Café', 'Calabacín', 'Calabaza', 'Calamar anillos', 'Calamar blanco entero',  'Calamar morado entero', 'Camarón',
                  'Camarón', 'Capaz magdalena fresco', 'Carne de cerdo', 'Carne de cerdo', 'Carne de cerdo', 'Carne de cerdo',
                  'Carne de cerdo','Carne de cerdo','Carne de cerdo','Carne de cerdo','Carne de cerdo','Carne de cerdo',
                  'Carne de cerdo','Carne de cerdo','Carne de cerdo', 'Carne de res', 'Carne de res','Carne de res', 'Carne de res',
                  'Carne de res', 'Carne de res','Carne de res', 'Carne de res','Carne de res', 'Carne de res','Carne de res', 
                  'Carne de res','Carne de res', 'Carne de res','Carne de res', 'Carne de res','Carne de res', 'Carne de res',
                  'Carne de res', 'Carne de res', 'Cazuela de mariscos (paquete)', 'Cebolla cabezona blanca', 
                  'Cebolla cabezona blanca', 'Cebolla cabezona blanca', 'Cebolla cabezona blanca', 'Cebolla cabezona roja',
                  'Cebolla cabezona roja',  'Cebolla cabezona roja',  'Cebolla cabezona roja', 'Cebolla junca', 'Cebolla junca',
                  'Cebolla junca','Cebolla junca','Cebolla junca', 'Cebolla puerro', 'Cebollín chino','Chocolate', 'Chocolate',
                  'Chocolate', 'Chócolo mazorca', 'Cidra', 'Cilantro', 'Ciruela importada', 'Ciruela nacional',  'Coco', 'Coles',
                  'Coliflor', 'Color (bolsita)', 'Corvina, filete congelado nacional', 'Cuchuco de cebada', 'Cuchuco de maíz',
                  'Curuba', 'Durazno importado', 'Durazno nacional', 'Espinaca', 'Feijoa', 'Fresa', 'Fríjol','Fríjol','Fríjol',
                  'Fríjol','Fríjol','Fríjol','Fríjol','Fríjol','Fríjol','Fríjol','Fríjol', 'Fríjol verde','Fríjol verde',
                  'Fríjol verde', 'Fríjol', 'Fécula de maíz', 'Galletas', 'Galletas', 'Garbanzo importado', 'Gelatina', 
                  'Granadilla', 'Guanábana', 'Guayabas otras','Guayabas otras', 'Guayaba común', 'Guayabas otras', 'Guayaba pera',
                  'Guayabas otras', 'Gulupa', 'Haba verde', 'Habichuela','Habichuela', 'Harinas','Harinas', 'Higo', 'Huevo','Huevo','Huevo',
                  'Huevo','Huevo','Huevo','Huevo','Huevo', 'Jugo de frutas', 'Jugo instantáneo (sobre)', 'Kiwi', 'Langostino 16-20',
                  'Langostino u12', 'Leche en polvo', 'Lechuga batavia', 'Lechuga crespa verde', 'Lenteja importada', 'Limón común',
                  'Limón común', 'Limón común', 'Limón mandarino', 'Limón tahití', 'Lomitos de atún en lata', 'Lulo',
                  'Mandarina arrayana', 'Mandarina común', 'Mandarina oneco', 'Mango común', 'Mangos otros', 'Mango de azúcar', 
                  'Mangos otros', 'Mangos otros', 'Mangos otros', 'Mango tommy', 'Mango yulima', 'Manteca', 'Manzana nacional', 
                  'Manzana importada', 'Manzana importada', 'Manzana importada', 'Maracuyá','Maracuyá','Maracuyá','Maracuyá',
                  'Maracuyá', 'Margarina', 'Mayonesa doy pack', 'Maíz amarillo', 'Maíz amarillo', 'Maíz amarillo', 'Maíz blanco', 
                  'Maíz blanco', 'Maíz blanco', 'Maíz enlatado', 'Maíz pira', 'Melón cantalup', 'Menudencias de pollo', 
                  'Merluza, filete importado', 'Merluza, filete nacional', 'Mojarra lora entera congelada', 
                  'Mojarra lora entera fresca', 'Mora de castilla', 'Mostaza doy pack', 'Carne pollo', 'Carne pollo',
                  'Naranja común', 'Naranja sweet', 'Naranja valencia', 'Nicuro fresco', 'Palmitos de mar', 'Panela','Panela',
                  'Panela','Panela','Panela', 'Papa betina', 'Papa capira', 'Papa criolla limpia', 'Papa criolla sucia',
                  'Papa ica-huila', 'Papa morasurco', 'Papa nevada', 'Papa parda pastusa', 'Papa puracé', 'Papa r-12 negra', 
                  'Papa r-12 roja', 'Papa roja peruana', 'Papa rubí', 'Papa sabanera', 'Papa san félix', 'Papa superior', 
                  'Papa suprema', 'Papa tocarreña', 'Papa única', 'Papaya hawaiana', 'Papaya maradol', 'Papaya melona', 
                  'Papaya paulina', 'Papaya redonda', 'Papaya tainung', 'Pargo rojo entero congelado', 'Pargo rojo entero fresco', 
                  'Pargo rojo platero', 'Pastas alimenticias', 'Patilla', 'Patilla baby', 'Pechuga de pollo', 'Pepino cohombro', 
                  'Pepino de rellenar', 'Pera importada', 'Pera nacional', 'Perejil', 'Pescado cabezas', 'Carne de pollo', 
                  'Carne de pollo', 'Carne de pollo', 'Pimentón', 'Pimentón verde', 'Pitahaya', 'Piña gold', 'Piña manzana', 
                  'Piña perolera', 'Plátanos otros', 'Plátanos otros', 'Plátano hartón verde', 'Plátanos otros', 'Plátano guineo', 
                  'Plátano hartón maduro', 'Plátano hartón verde', 'Plátano hartón verde','Plátano hartón verde','Plátano hartón verde',
                  'Carne pollo','Carne pollo','Carne pollo', 'Quesos y cuajadas','Quesos y cuajadas', 'Queso costeño', 'Quesos y cuajadas',
                  'Quesos y cuajadas', 'Carne pollo', 'Remolacha','Remolacha','Remolacha','Remolacha', 'Repollo','Repollo','Repollo',
                  'Repollo', 'Rábano rojo', 'Róbalo, filete congelado', 'Sal yodada', 'Salmón, filete congelado', 'Salsa de tomate doy pack',
                  'Sardinas en lata', 'Sierra entera congelada', 'Sopa de pollo (caja)', 'Tangelo', 'Tilapia','Tilapia','Tilapia','Tilapia', 
                  'Tomate chonto', 'Tomate chonto','Tomate chonto', 'Tomate de árbol', 'Tomate larga vida', 'Tomate riogrande',
                  'Tomate riogrande','Tomate riogrande', 'Tomates otros','Tomates otros', 'Toyo blanco, filete congelado', 
                  'Trucha','Trucha', 'Uchuva', 'Ulluco', 'Uva importada', 'Uva isabela', 'Uva negra', 'Uva red globe nacional', 'Uva roja', 
                  'Uva verde', 'Vinagre', 'Yuca', 'Yuca','Yuca','Yuca', 'Zanahoria','Zanahoria','Zanahoria','Zapote', 'Ñame','Ñame','Ñame']
df = pd.DataFrame({'Producto': list(precios_df['Producto'].sort_values().unique()),
                   'Alimento': sub_grupo})
merge_df = pd.merge(precios_df, df, on = 'Producto', how = 'left')
merge_df


Unnamed: 0,Departamento,Municipio,Fuente Registro,Fecha,Grupo,Producto,Precio por kilogramo,Alimento
0,Quindío,Armenia,Mercar,2018-01-01,Verduras y hortalizas,Acelga,1089.0,Acelga
1,Atlántico,Barranquilla,Barranquillita,2018-01-01,Verduras y hortalizas,Acelga,2961.0,Acelga
2,Bogotá D.C.,Bogotá D.C.,Corabastos,2018-01-01,Verduras y hortalizas,Acelga,535.0,Acelga
3,Santander,Bucaramanga,Centroabastos,2018-01-01,Verduras y hortalizas,Acelga,1500.0,Acelga
4,Boyacá,Chiquinquirá,No especifica,2018-01-01,Verduras y hortalizas,Acelga,1008.0,Acelga
...,...,...,...,...,...,...,...,...
304445,Norte De Santander,Pamplona,No especifica,2023-06-01,Procesados,Vinagre,1750.0,Vinagre
304446,Risaralda,Pereira,Mercasa,2023-06-01,Procesados,Vinagre,6727.0,Vinagre
304447,Magdalena,Santa Marta,No especifica,2023-06-01,Procesados,Vinagre,1591.0,Vinagre
304448,Sucre,Sincelejo,Nuevo Mercado,2023-06-01,Procesados,Vinagre,1446.0,Vinagre


In [53]:
#Realmente no nos interesa la fuente donde se registró el precio, pues existen muchos registros en que no se específica,
#para este análisis nos basta con saber en que municipio y departamento se registro este precio, así que podemos eliminar esta columna
#Sin embargo, no podemos simplemente eliminarla, debemos agrupar por departamento y municipio, haciendo el promedio del precio,
#Para evitar duplicados y distorsión de la información
merge_df = merge_df.groupby(['Departamento', 'Municipio', 'Fecha', 'Grupo','Producto','Alimento']).agg({'Precio por kilogramo': 'mean'}).reset_index()
merge_df

Unnamed: 0,Departamento,Municipio,Fecha,Grupo,Producto,Alimento,Precio por kilogramo
0,Antioquia,El Carmen De Viboral,2018-01-01,Granos y cereales,Fríjol cargamanto blanco,Fríjol,6981.0
1,Antioquia,El Carmen De Viboral,2018-01-01,Granos y cereales,Fríjol cargamanto rojo,Fríjol,6294.0
2,Antioquia,El Carmen De Viboral,2018-01-01,"Tuberculos, raices y platanos",Papa capira,Papa capira,1648.0
3,Antioquia,El Carmen De Viboral,2018-01-01,"Tuberculos, raices y platanos",Papa criolla limpia,Papa criolla limpia,1603.0
4,Antioquia,El Carmen De Viboral,2018-01-01,"Tuberculos, raices y platanos",Papa nevada,Papa nevada,1470.0
...,...,...,...,...,...,...,...
259038,Valle Del Cauca,Tuluá,2023-06-01,Verduras y hortalizas,Pimentón,Pimentón,2586.0
259039,Valle Del Cauca,Tuluá,2023-06-01,Verduras y hortalizas,Remolacha bogotana,Remolacha,1589.0
259040,Valle Del Cauca,Tuluá,2023-06-01,Verduras y hortalizas,Repollo blanco,Remolacha,873.0
259041,Valle Del Cauca,Tuluá,2023-06-01,Verduras y hortalizas,Tomate chonto,Tomate chonto,2500.0


In [61]:
#Hacemos el merge con el dataframe de abastecimiento
merge_df = pd.merge(merge_df, abastecimiento_df, on =['Departamento', 'Municipio', 'Fecha', 'Grupo','Alimento'], how = 'left')


In [68]:
#Después de este merge quedamos con algunos NAN veamos
merge_df[merge_df['Cant Kg'].isnull()].info()

Unnamed: 0,Departamento,Municipio,Fecha,Grupo,Producto,Alimento,Precio por kilogramo,Mercado Mayorista,Departamento Proc.,Municipio Proc.,Cant Kg
0,Antioquia,El Carmen De Viboral,2018-01-01,Granos y cereales,Fríjol cargamanto blanco,Fríjol,6981.0,,,,
1,Antioquia,El Carmen De Viboral,2018-01-01,Granos y cereales,Fríjol cargamanto rojo,Fríjol,6294.0,,,,
2,Antioquia,El Carmen De Viboral,2018-01-01,"Tuberculos, raices y platanos",Papa capira,Papa capira,1648.0,,,,
3,Antioquia,El Carmen De Viboral,2018-01-01,"Tuberculos, raices y platanos",Papa criolla limpia,Papa criolla limpia,1603.0,,,,
4,Antioquia,El Carmen De Viboral,2018-01-01,"Tuberculos, raices y platanos",Papa nevada,Papa nevada,1470.0,,,,
...,...,...,...,...,...,...,...,...,...,...,...
1017637,Valle Del Cauca,Tuluá,2023-06-01,Verduras y hortalizas,Pimentón,Pimentón,2586.0,,,,
1017638,Valle Del Cauca,Tuluá,2023-06-01,Verduras y hortalizas,Remolacha bogotana,Remolacha,1589.0,,,,
1017639,Valle Del Cauca,Tuluá,2023-06-01,Verduras y hortalizas,Repollo blanco,Remolacha,873.0,,,,
1017640,Valle Del Cauca,Tuluá,2023-06-01,Verduras y hortalizas,Tomate chonto,Tomate chonto,2500.0,,,,


In [None]:
#Esto se debe principalmente a dos razones, por un lado existen registros del precio en ciertos municipios pero no existe
#dicho registro en el dataframe de abastecimiento. La segunda causa, es que el dataframe de abastecimiento tiene datos hasta
#abril, mientras que el de precios los tiene hasta junio del 2023. Eliminaremos estos registros NaN, pues no tenemos forma
#de saber su valor.
merge_df = merge_df.dropna().reset_index()

In [74]:
#Quedamos con una columna del antiguo index, así que la eliminamos
merge_df.drop('index', axis = 1, inplace = True)
#Así conseguimos un dataframe con información cruzada para el precio y el abastecimiento de ciertos alimentos.
merge_df.head()

Unnamed: 0,Departamento,Municipio,Fecha,Grupo,Producto,Alimento,Precio por kilogramo,Mercado Mayorista,Departamento Proc.,Municipio Proc.,Cant Kg
0,Antioquia,Medellín,2018-01-01,Carnes,Alas de pollo sin costillar,Carne de pollo,5916.5,Central Mayorista de Antioquia,Antioquia,Medellín,10991.0
1,Antioquia,Medellín,2018-01-01,Carnes,Alas de pollo sin costillar,Carne de pollo,5916.5,Central Mayorista de Antioquia,Antioquia,Barbosa,14600.0
2,Antioquia,Medellín,2018-01-01,Carnes,Alas de pollo sin costillar,Carne de pollo,5916.5,Central Mayorista de Antioquia,Antioquia,Caldas,17410.0
3,Antioquia,Medellín,2018-01-01,Carnes,Alas de pollo sin costillar,Carne de pollo,5916.5,Central Mayorista de Antioquia,Antioquia,Sabaneta,5300.0
4,Antioquia,Medellín,2018-01-01,Carnes,Alas de pollo sin costillar,Carne de pollo,5916.5,Central Mayorista de Antioquia,Santander,Bucaramanga,23500.0
...,...,...,...,...,...,...,...,...,...,...,...
873364,Valle Del Cauca,Cali,2023-04-01,Verduras y hortalizas,Zanahoria bogotana,Zanahoria,2554.0,Santa Elena,Antioquia,Medellín,3000.0
873365,Valle Del Cauca,Cali,2023-04-01,Verduras y hortalizas,Zanahoria bogotana,Zanahoria,2554.0,Santa Elena,"Bogotá, D. C.","Bogotá, D.C.",86400.0
873366,Valle Del Cauca,Cali,2023-04-01,Verduras y hortalizas,Zanahoria bogotana,Zanahoria,2554.0,Santa Elena,Nariño,Pasto,5000.0
873367,Valle Del Cauca,Cali,2023-04-01,Verduras y hortalizas,Zanahoria bogotana,Zanahoria,2554.0,Santa Elena,Nariño,Ipiales,79000.0


In [76]:
#Revisamos que no hayan quedado duplicados
merge_df[merge_df.duplicated()]
#Finalmente, podemos pasar a analizar los datos

Unnamed: 0,Departamento,Municipio,Fecha,Grupo,Producto,Alimento,Precio por kilogramo,Mercado Mayorista,Departamento Proc.,Municipio Proc.,Cant Kg


## Análisis de los datos
