# Limpieza de datos de produccion mensual agricola de la pagina del SIAP

Una vez que tengamos los datos en archivos CSV, realizaremos una pequeña exploración para llevar a cabo una limpieza sencilla. Esto implicará identificar datos faltantes, buscar instancias duplicadas y asegurarnos de que el tipo de dato de las columnas sea coherente.

### Librerías

In [1]:
import pandas as pd
import numpy as np
import os

In [2]:
def custom_to_float(value):
    '''
    Función que transformá cadenas de caracteres que son 
    números separados por comas en flotantes.
    '''
    if isinstance(value, str):
        return float(value.replace(',', ''))
    elif isinstance(value, (int, float)):
        return float(value)
    else:
        return None

In [3]:
def update_df_SIAP(file_SIAP, df_new, replace = False):
    '''
    Función para actualizar nuestra base de datos del SIAP,
    si no existe se crea con el data frame proporcionado.
    Si quieres reemplazar el archivo haz replace = True.
    '''

    if replace:
        os.remove(file_SIAP)

    if not os.path.exists(file_SIAP):
        df_new.to_csv(file_SIAP, index=False)
    else:
        df_new.to_csv(file_SIAP, mode='a', header=False, index=False)

Empezamos leyendo cada uno de los archivos y concatenándolos en un data frame

In [None]:
request_dict = {
  'anio': ['2020','2021','2022','2023'],
  'mes': ['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio', 'Julio', 'Agosto',
          'Septiembre', 'Octubre', 'Noviembre', 'Diciembre'],
  'ciclo': ['Ciclicos - Perennes'],
  'modalidad': ['Riego + Temporal'],
  'cultivo': ['Tomate rojo (jitomate)', 'Chile verde', 'Limón', 'Pepino', 'Plátano', 'Mango', 
              'Garbanzo grano', 'Brócoli', 'Cebolla', 'Sandía', 'Papaya', 'Calabacita', 'Lechuga', 
              'Tomate verde', 'Espárrago', 'Frambuesa', 'Nopalitos', 'Nuez', 'Fresa', 'Toronja (pomelo)', 
              'Zarzamora', 'Piña', 'Coliflor', 'Frijol', 'Berenjena', 'Uva', 'Guayaba', 'Naranja', 
              'Papa', 'Melón', 'Manzana', 'Pera', 'Durazno'
              ]
}

directory = '../descarga/datosSIAP'
df_temp = pd.DataFrame()

for anio in request_dict['anio']:

  for mes in request_dict['mes']:

    for ciclo in request_dict['ciclo']:

      for modalidad in request_dict['modalidad']:
        
        for cultivo in request_dict['cultivo']:    
          
          try:

            df = pd.read_csv(os.path.join(directory,(f"{anio.replace(' ', '')}_{mes.replace(' ', '')}" +
            f"_{ciclo.replace(' ', '')}_{modalidad.replace(' ', '')}" +
            f"_{cultivo.replace(' ', '')}.csv")))
          
            if df_temp.empty:
              df_temp = df
            else:
              df_temp = pd.concat([df_temp, df], axis=0)

          except Exception as e:
            print(f"Failed: {str(e)}")
            continue
            
df_temp = df_temp.reset_index(drop=True)

In [14]:
df_temp

Unnamed: 0,Año,Mes,Ciclo,Modalidad,Cultivo,Entidad,Distrito,Municipio,Superficie(ha)_Sembrada,Superficie(ha)_Cosechada,Superficie(ha)_Siniestrada,Producción,Rendimiento(udm/ha)
0,2020,Enero,Ciclicos - Perennes,Riego + Temporal,Tomate rojo (jitomate),Aguascalientes,Aguascalientes,Calvillo,16.00,6.00,0.0,90.00,15.00
1,2020,Enero,Ciclicos - Perennes,Riego + Temporal,Tomate rojo (jitomate),Baja California,Ensenada,Ensenada,19.50,0.00,0.0,0.00,0.00
2,2020,Enero,Ciclicos - Perennes,Riego + Temporal,Tomate rojo (jitomate),Baja California Sur,Mulegé,Mulegé,80.00,0.00,0.0,0.00,0.00
3,2020,Enero,Ciclicos - Perennes,Riego + Temporal,Tomate rojo (jitomate),Baja California Sur,Comondú,Comondú,127.00,0.00,0.0,0.00,0.00
4,2020,Enero,Ciclicos - Perennes,Riego + Temporal,Tomate rojo (jitomate),Baja California Sur,La Paz,La Paz,611.00,106.00,0.0,4429.76,41.79
...,...,...,...,...,...,...,...,...,...,...,...,...,...
355329,2023,Septiembre,Ciclicos - Perennes,Riego + Temporal,Durazno,Zacatecas,Zacatecas,Calera,1213.15,0.00,0.0,0.00,0.00
355330,2023,Septiembre,Ciclicos - Perennes,Riego + Temporal,Durazno,Zacatecas,Zacatecas,General Enrique Estrada,294.00,0.00,0.0,0.00,0.00
355331,2023,Septiembre,Ciclicos - Perennes,Riego + Temporal,Durazno,Zacatecas,Zacatecas,Guadalupe,7.50,0.00,0.0,0.00,0.00
355332,2023,Septiembre,Ciclicos - Perennes,Riego + Temporal,Durazno,Zacatecas,Zacatecas,Zacatecas,84.00,0.00,0.0,0.00,0.00


In [15]:
df_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 355334 entries, 0 to 355333
Data columns (total 13 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   Año                         355334 non-null  int64  
 1   Mes                         355334 non-null  object 
 2   Ciclo                       355334 non-null  object 
 3   Modalidad                   355334 non-null  object 
 4   Cultivo                     355334 non-null  object 
 5   Entidad                     355334 non-null  object 
 6   Distrito                    355334 non-null  object 
 7   Municipio                   355334 non-null  object 
 8   Superficie(ha)_Sembrada     355334 non-null  object 
 9   Superficie(ha)_Cosechada    355334 non-null  object 
 10  Superficie(ha)_Siniestrada  355334 non-null  object 
 11  Producción                  355334 non-null  object 
 12  Rendimiento(udm/ha)         355334 non-null  float64
dtypes: float64(1),

Observamos que no tenemos ningún dato faltante. Por otro lado, la columna *Superficie(ha)_Sembrada* es de tipo 'object'; sin embargo, las columnas *Superficie(ha)_Sembrada*, *Superficie(ha)_Cosechada*, *Superficie(ha)_Siniestrada*, *Producción* y *Rendimiento(udm/ha)* deben ser de tipo numérico. La razón de esta situación es la separación por comas de los números, como se muestra en la siguiente línea:

In [16]:
df_temp[df_temp["Municipio"] == "Villa de Cos"]

Unnamed: 0,Año,Mes,Ciclo,Modalidad,Cultivo,Entidad,Distrito,Municipio,Superficie(ha)_Sembrada,Superficie(ha)_Cosechada,Superficie(ha)_Siniestrada,Producción,Rendimiento(udm/ha)
2235,2020,Enero,Ciclicos - Perennes,Riego + Temporal,Cebolla,Zacatecas,Zacatecas,Villa de Cos,185.00,0.00,0.0,0.00,0.00
2774,2020,Enero,Ciclicos - Perennes,Riego + Temporal,Lechuga,Zacatecas,Zacatecas,Villa de Cos,85.00,0.00,0.0,0.00,0.00
8602,2020,Febrero,Ciclicos - Perennes,Riego + Temporal,Cebolla,Zacatecas,Zacatecas,Villa de Cos,185.00,0.00,0.0,0.00,0.00
9176,2020,Febrero,Ciclicos - Perennes,Riego + Temporal,Lechuga,Zacatecas,Zacatecas,Villa de Cos,85.00,0.00,0.0,0.00,0.00
15222,2020,Marzo,Ciclicos - Perennes,Riego + Temporal,Cebolla,Zacatecas,Zacatecas,Villa de Cos,290.00,0.00,0.0,0.00,0.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
350056,2023,Septiembre,Ciclicos - Perennes,Riego + Temporal,Lechuga,Zacatecas,Zacatecas,Villa de Cos,390.00,349.00,0.0,7888.18,22.60
350593,2023,Septiembre,Ciclicos - Perennes,Riego + Temporal,Tomate verde,Zacatecas,Zacatecas,Villa de Cos,148.80,125.00,0.0,4865.00,38.92
351616,2023,Septiembre,Ciclicos - Perennes,Riego + Temporal,Coliflor,Zacatecas,Zacatecas,Villa de Cos,73.0,52.0,0.0,1710.80,32.90
353354,2023,Septiembre,Ciclicos - Perennes,Riego + Temporal,Frijol,Zacatecas,Zacatecas,Villa de Cos,3939.10,1371.00,754.50,1797.35,1.31


Simplemente quitamos las comas de todos los números de estas columnas.

In [17]:
numeric_columns = ["Superficie(ha)_Sembrada", "Superficie(ha)_Cosechada", "Superficie(ha)_Siniestrada",
                   "Producción", "Rendimiento(udm/ha)"]
df_temp[numeric_columns] = df_temp[numeric_columns].applymap(custom_to_float)

In [18]:
df_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 355334 entries, 0 to 355333
Data columns (total 13 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   Año                         355334 non-null  int64  
 1   Mes                         355334 non-null  object 
 2   Ciclo                       355334 non-null  object 
 3   Modalidad                   355334 non-null  object 
 4   Cultivo                     355334 non-null  object 
 5   Entidad                     355334 non-null  object 
 6   Distrito                    355334 non-null  object 
 7   Municipio                   355334 non-null  object 
 8   Superficie(ha)_Sembrada     355334 non-null  float64
 9   Superficie(ha)_Cosechada    355334 non-null  float64
 10  Superficie(ha)_Siniestrada  355334 non-null  float64
 11  Producción                  355334 non-null  float64
 12  Rendimiento(udm/ha)         355334 non-null  float64
dtypes: float64(5),

In [19]:
df_temp[df_temp["Municipio"] == "Villa de Cos"]

Unnamed: 0,Año,Mes,Ciclo,Modalidad,Cultivo,Entidad,Distrito,Municipio,Superficie(ha)_Sembrada,Superficie(ha)_Cosechada,Superficie(ha)_Siniestrada,Producción,Rendimiento(udm/ha)
2235,2020,Enero,Ciclicos - Perennes,Riego + Temporal,Cebolla,Zacatecas,Zacatecas,Villa de Cos,185.0,0.0,0.0,0.00,0.00
2774,2020,Enero,Ciclicos - Perennes,Riego + Temporal,Lechuga,Zacatecas,Zacatecas,Villa de Cos,85.0,0.0,0.0,0.00,0.00
8602,2020,Febrero,Ciclicos - Perennes,Riego + Temporal,Cebolla,Zacatecas,Zacatecas,Villa de Cos,185.0,0.0,0.0,0.00,0.00
9176,2020,Febrero,Ciclicos - Perennes,Riego + Temporal,Lechuga,Zacatecas,Zacatecas,Villa de Cos,85.0,0.0,0.0,0.00,0.00
15222,2020,Marzo,Ciclicos - Perennes,Riego + Temporal,Cebolla,Zacatecas,Zacatecas,Villa de Cos,290.0,0.0,0.0,0.00,0.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
350056,2023,Septiembre,Ciclicos - Perennes,Riego + Temporal,Lechuga,Zacatecas,Zacatecas,Villa de Cos,390.0,349.0,0.0,7888.18,22.60
350593,2023,Septiembre,Ciclicos - Perennes,Riego + Temporal,Tomate verde,Zacatecas,Zacatecas,Villa de Cos,148.8,125.0,0.0,4865.00,38.92
351616,2023,Septiembre,Ciclicos - Perennes,Riego + Temporal,Coliflor,Zacatecas,Zacatecas,Villa de Cos,73.0,52.0,0.0,1710.80,32.90
353354,2023,Septiembre,Ciclicos - Perennes,Riego + Temporal,Frijol,Zacatecas,Zacatecas,Villa de Cos,3939.1,1371.0,754.5,1797.35,1.31


Por último, vemos que no tenemos instancias repetidas.

In [20]:
df_temp[df_temp.duplicated()]

Unnamed: 0,Año,Mes,Ciclo,Modalidad,Cultivo,Entidad,Distrito,Municipio,Superficie(ha)_Sembrada,Superficie(ha)_Cosechada,Superficie(ha)_Siniestrada,Producción,Rendimiento(udm/ha)


Ahora que estos datos están de la forma que queremos, podemos agregarlos a uno data frame general con todos los datos previamente limpiados.

In [21]:
file_SIAP = "SIAP.csv"
update_df_SIAP(file_SIAP, df_temp, replace=True)