In [15]:
import pandas as pd

# Cargar el archivo Excel 
df = pd.read_excel("../Data/datos_agronet.xlsx")

# Mapeo de nombres de mercado a categorías válidas
mercados_validos = {
    'Bogotá, D.C., Corabastos': 'Bogotá',
    'Corabastos': 'Bogotá',
    'Tunja': 'Tunja',
    'Tunja (Boyacá)': 'Tunja',
    'Duitama': 'Duitama',
    'Duitama (Boyacá)': 'Duitama',
    'Sogamoso (Boyacá)': 'Sogamoso'
}

# Aplicar mapeo
df['Mercado'] = df['Mercado'].map(mercados_validos)



In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 163931 entries, 0 to 163930
Data columns (total 4 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   Mercado      163931 non-null  object 
 1   Producto     163931 non-null  object 
 2   Fecha        163931 non-null  object 
 3   Precio $/KG  163931 non-null  float64
dtypes: float64(1), object(3)
memory usage: 5.0+ MB


In [17]:
df.Mercado.unique()

array(['Bogotá', 'Tunja', 'Sogamoso', 'Duitama'], dtype=object)

In [18]:
import pandas as pd

# Eliminar filas con mercados no deseados
df = df.dropna(subset=['Mercado'])

# Normalizar y convertir fechas
df['Fecha_limpia'] = df['Fecha'].str.split(',').str[-1].str.strip()

# Diccionario para traducir meses de español a inglés
meses_es_en = {
    'enero': 'January', 'febrero': 'February', 'marzo': 'March', 'abril': 'April',
    'mayo': 'May', 'junio': 'June', 'julio': 'July', 'agosto': 'August',
    'septiembre': 'September', 'octubre': 'October', 'noviembre': 'November', 'diciembre': 'December'
}

# Convertir a minúsculas y traducir meses
df['Fecha_limpia'] = df['Fecha_limpia'].str.lower()
for esp, eng in meses_es_en.items():
    df['Fecha_limpia'] = df['Fecha_limpia'].str.replace(esp, eng, regex=False)

# Eliminar " de " que impide la conversión correcta
df['Fecha_limpia'] = df['Fecha_limpia'].str.replace(" de ", " ", regex=False)

# Convertir a datetime
df['Fecha_dt'] = pd.to_datetime(df['Fecha_limpia'], errors='coerce')

  df['Fecha_dt'] = pd.to_datetime(df['Fecha_limpia'], errors='coerce')


In [20]:
df.head()

Unnamed: 0,Mercado,Producto,Fecha,Precio $/KG,Fecha_limpia,Fecha_dt
0,Bogotá,Aguacate papelillo,"Viernes, Julio 15 de 2005",2200.0,July 15 2005,2005-07-15
1,Bogotá,Aguacate papelillo,"Viernes, Julio 22 de 2005",2340.0,July 22 2005,2005-07-22
2,Bogotá,Aguacate papelillo,"Viernes, Julio 29 de 2005",2355.0,July 29 2005,2005-07-29
3,Bogotá,Aguacate papelillo,"Viernes, Agosto 5 de 2005",2410.0,August 5 2005,2005-08-05
4,Bogotá,Aguacate papelillo,"Viernes, Agosto 12 de 2005",2410.0,August 12 2005,2005-08-12


In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 163931 entries, 0 to 163930
Data columns (total 6 columns):
 #   Column        Non-Null Count   Dtype         
---  ------        --------------   -----         
 0   Mercado       163931 non-null  object        
 1   Producto      163931 non-null  object        
 2   Fecha         163931 non-null  object        
 3   Precio $/KG   163931 non-null  float64       
 4   Fecha_limpia  163931 non-null  object        
 5   Fecha_dt      163931 non-null  datetime64[ns]
dtypes: datetime64[ns](1), float64(1), object(4)
memory usage: 7.5+ MB


In [21]:
# Contar cuántos valores nulos (NaN o NaT) hay en la columna Fecha_dt
num_na = df['Fecha_dt'].isna().sum()
print(f"Número de valores nulos (NaN o NaT) en la columna Fecha_dt: {num_na}")

Número de valores nulos (NaN o NaT) en la columna Fecha_dt: 0


In [22]:
# Eliminar duplicados
df = df.drop_duplicates()

# Verificar y convertir columna de precio
# Quitar caracteres no numéricos y convertir a float (por si hay errores de entrada)
df['Precio $/KG'] = pd.to_numeric(df['Precio $/KG'], errors='coerce')

# Eliminar filas con precios nulos o inconsistentes
df = df.dropna(subset=['Precio $/KG'])

# Resetear índice y mostrar dataset limpio
df = df.reset_index(drop=True)
print(df)

# Guardar el dataframe limpio (opcional)
df.to_excel("../Data/datos_agronet_limpio.xlsx", index=False)  


         Mercado             Producto                       Fecha  \
0         Bogotá  Aguacate papelillo    Viernes, Julio 15 de 2005   
1         Bogotá  Aguacate papelillo    Viernes, Julio 22 de 2005   
2         Bogotá  Aguacate papelillo    Viernes, Julio 29 de 2005   
3         Bogotá  Aguacate papelillo    Viernes, Agosto 5 de 2005   
4         Bogotá  Aguacate papelillo   Viernes, Agosto 12 de 2005   
...          ...                  ...                         ...   
159428  Sogamoso           Zanahoria      Sabado, Mayo 10 de 2025   
159429  Sogamoso           Zanahoria      Sabado, Mayo 17 de 2025   
159430   Duitama           Zanahoria      Sabado, Mayo 17 de 2025   
159431    Bogotá           Zanahoria      Sabado, Mayo 17 de 2025   
159432     Tunja           Zanahoria      Sabado, Mayo 17 de 2025   

        Precio $/KG    Fecha_limpia   Fecha_dt  
0            2200.0    July 15 2005 2005-07-15  
1            2340.0    July 22 2005 2005-07-22  
2            2355.0    J

In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159433 entries, 0 to 159432
Data columns (total 6 columns):
 #   Column        Non-Null Count   Dtype         
---  ------        --------------   -----         
 0   Mercado       159433 non-null  object        
 1   Producto      159433 non-null  object        
 2   Fecha         159433 non-null  object        
 3   Precio $/KG   159433 non-null  float64       
 4   Fecha_limpia  159433 non-null  object        
 5   Fecha_dt      159433 non-null  datetime64[ns]
dtypes: datetime64[ns](1), float64(1), object(4)
memory usage: 7.3+ MB


## Limpieza de datos para el dataset Precios Coomproriente

In [4]:
import pandas as pd
import re

# Cargar el archivo Excel
df_coomproriente = pd.read_excel("../data/Precios_Coomproriente_05_06_25.xlsx")

# Normalizar nombres de columnas
df_coomproriente.columns = [col.strip() for col in df_coomproriente.columns]

# Validar columnas necesarias
if 'Producto' not in df_coomproriente.columns or 'Precio' not in df_coomproriente.columns or 'Cantidad' not in df_coomproriente.columns:
    raise ValueError("Faltan columnas requeridas: 'Producto', 'Precio' o 'Cantidad'.")

# Reemplazar "$" y "." en precio y convertir a float
df_coomproriente['Precio'] = df_coomproriente['Precio'].replace('[\$\.,]', '', regex=True)
df_coomproriente['Precio'] = pd.to_numeric(df_coomproriente['Precio'], errors='coerce')

df_coomproriente.describe()


Unnamed: 0,Precio,Fecha
count,1422.0,1440
mean,64920.323488,2025-05-01 23:54:00
min,1400.0,2025-03-27 00:00:00
25%,18000.0,2025-04-14 00:00:00
50%,50000.0,2025-04-30 00:00:00
75%,90000.0,2025-05-15 00:00:00
max,402000.0,2025-06-05 00:00:00
std,59981.484022,


In [5]:
# Cambiar "50" a "1" en la columna cantidad para Aguacate Papelillo
def ajustar_cantidad(cantidad, producto):
    if pd.isna(cantidad):
        return cantidad
    if "aguacate papelillo" in producto.lower():
        return re.sub(r'\b50\b', '1', cantidad)
    return cantidad

df_coomproriente['Cantidad'] = df_coomproriente.apply(lambda row: ajustar_cantidad(row['Cantidad'], row['Producto']), axis=1)

# Función para extraer el número de Kg
def extraer_kg(cantidad):
    if pd.isna(cantidad):
        return None
    match = re.search(r'(\d+(\.\d+)?)\s*(kg|kilogramo)', cantidad, re.IGNORECASE)
    return float(match.group(1)) if match else None

# Aplicar extracción y eliminar filas sin Kg
df_coomproriente['Kg'] = df_coomproriente['Cantidad'].apply(extraer_kg)
df_coomproriente = df_coomproriente[df_coomproriente['Kg'].notna()]

# Calcular precio por Kg
df_coomproriente['Precio_por_kg'] = df_coomproriente['Precio'] / df_coomproriente['Kg']
#Crear una columna llamada Mercado y asignar el valor "Sogamoso" en todo el DataFrame
df_coomproriente['Mercado'] = 'Sogamoso'
df_coomproriente.to_excel("../data/Precios_Coomproriente_limpio.xlsx", index=False)  
