# Limpieza de datos de produccion mensual agricola de la pagina del SIAP

Una vez que tengamos los datos en archivos CSV, realizaremos una pequeña exploración para llevar a cabo una limpieza sencilla. Esto implicará identificar datos faltantes, buscar instancias duplicadas y asegurarnos de que el tipo de dato de las columnas sea coherente.

### Librerías

In [1]:
import pandas as pd
import numpy as np
import os

In [2]:
def custom_to_float(value):
    '''
    Función que transformá cadenas de caracteres que son 
    números separados por comas en flotantes.
    '''
    if isinstance(value, str):
        return float(value.replace(',', ''))
    elif isinstance(value, (int, float)):
        return float(value)
    else:
        return None

In [3]:
def update_df_SIAP(file_SIAP, df_new):
    '''
    Función para actualizar nuestra base de datos del SIAP,
    si no existe se crea con el data frame proporcionado
    '''
    if not os.path.exists(file_SIAP):
        df_new.to_csv(file_SIAP, index=False)
    else:
        df_new.to_csv(file_SIAP, mode='a', header=False, index=False)

Empezamos leyendo cada uno de los archivos y concatenándolos en un data frame

In [5]:
request_dict = {
  'anio': ['2023'],
  'mes': ['Enero', 'Febrero'],
  'ciclo': ['Otoño - Invierno'],
  'modalidad': ['Riego'],
  'cultivo': ['Ajo', 'Ajonjolí']
}

directory = '../descarga/datosSIAP'
df_temp = pd.DataFrame()

for anio in request_dict['anio']:

  for mes in request_dict['mes']:

    for ciclo in request_dict['ciclo']:

      for modalidad in request_dict['modalidad']:
        
        for cultivo in request_dict['cultivo']:    

          df = pd.read_csv(os.path.join(directory,(f"{anio.replace(' ', '')}_{mes.replace(' ', '')}" +
                      f"_{ciclo.replace(' ', '')}_{modalidad.replace(' ', '')}" +
                      f"_{cultivo.replace(' ', '')}.csv")))
          
          if df_temp.empty:
            df_temp = df
          else:
            df_temp = pd.concat([df_temp, df], axis=0)
            
df_temp = df_temp.reset_index(drop=True)

In [6]:
df_temp

Unnamed: 0,Año,Mes,Ciclo,Modalidad,Cultivo,Entidad,Distrito,Municipio,Superficie(ha)_Sembrada,Superficie(ha)_Cosechada,Superficie(ha)_Siniestrada,Producción,Rendimiento(udm/ha)
0,2023,Enero,Otoño-Invierno,Riego,Ajo,Aguascalientes,Aguascalientes,Asientos,25.00,0.0,0.0,0.0,0.0
1,2023,Enero,Otoño-Invierno,Riego,Ajo,Aguascalientes,Aguascalientes,Cosío,42.00,0.0,0.0,0.0,0.0
2,2023,Enero,Otoño-Invierno,Riego,Ajo,Aguascalientes,Aguascalientes,Pabellón de Arteaga,35.00,0.0,0.0,0.0,0.0
3,2023,Enero,Otoño-Invierno,Riego,Ajo,Aguascalientes,Aguascalientes,Rincón de Romos,50.00,0.0,0.0,0.0,0.0
4,2023,Enero,Otoño-Invierno,Riego,Ajo,Aguascalientes,Aguascalientes,Tepezalá,25.00,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
263,2023,Febrero,Otoño-Invierno,Riego,Ajonjolí,Oaxaca,Istmo,Heroica Ciudad de Juchitán de Zaragoza,39.0,0.0,0.0,0.0,0.0
264,2023,Febrero,Otoño-Invierno,Riego,Ajonjolí,Oaxaca,Istmo,San Blas Atempa,32.75,0.0,0.0,0.0,0.0
265,2023,Febrero,Otoño-Invierno,Riego,Ajonjolí,Oaxaca,Istmo,San Pedro Huilotepec,43.5,0.0,0.0,0.0,0.0
266,2023,Febrero,Otoño-Invierno,Riego,Ajonjolí,Oaxaca,Istmo,Santa María Mixtequilla,25.0,0.0,0.0,0.0,0.0


In [10]:
df_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 268 entries, 0 to 267
Data columns (total 13 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Año                         268 non-null    int64  
 1   Mes                         268 non-null    object 
 2   Ciclo                       268 non-null    object 
 3   Modalidad                   268 non-null    object 
 4   Cultivo                     268 non-null    object 
 5   Entidad                     268 non-null    object 
 6   Distrito                    268 non-null    object 
 7   Municipio                   268 non-null    object 
 8   Superficie(ha)_Sembrada     268 non-null    object 
 9   Superficie(ha)_Cosechada    268 non-null    float64
 10  Superficie(ha)_Siniestrada  268 non-null    float64
 11  Producción                  268 non-null    float64
 12  Rendimiento(udm/ha)         268 non-null    float64
dtypes: float64(4), int64(1), object(8)


Observamos que no tenemos ningún dato faltante. Por otro lado, la columna *Superficie(ha)_Sembrada* es de tipo 'object'; sin embargo, las columnas *Superficie(ha)_Sembrada*, *Superficie(ha)_Cosechada*, *Superficie(ha)_Siniestrada*, *Producción* y *Rendimiento(udm/ha)* deben ser de tipo numérico. La razón de esta situación es la separación por comas de los números, como se muestra en la siguiente línea:

In [11]:
df_temp[df_temp["Municipio"] == "Villa de Cos"]

Unnamed: 0,Año,Mes,Ciclo,Modalidad,Cultivo,Entidad,Distrito,Municipio,Superficie(ha)_Sembrada,Superficie(ha)_Cosechada,Superficie(ha)_Siniestrada,Producción,Rendimiento(udm/ha)
124,2023,Enero,Otoño-Invierno,Riego,Ajo,Zacatecas,Zacatecas,Villa de Cos,1300.0,0.0,0.0,0.0,0.0
259,2023,Febrero,Otoño-Invierno,Riego,Ajo,Zacatecas,Zacatecas,Villa de Cos,1300.0,0.0,0.0,0.0,0.0


Simplemente quitamos las comas de todos los números de estas columnas.

In [12]:
numeric_columns = ["Superficie(ha)_Sembrada", "Superficie(ha)_Cosechada", "Superficie(ha)_Siniestrada",
                   "Producción", "Rendimiento(udm/ha)"]
df_temp[numeric_columns] = df_temp[numeric_columns].applymap(custom_to_float)

In [14]:
df_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 268 entries, 0 to 267
Data columns (total 13 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Año                         268 non-null    int64  
 1   Mes                         268 non-null    object 
 2   Ciclo                       268 non-null    object 
 3   Modalidad                   268 non-null    object 
 4   Cultivo                     268 non-null    object 
 5   Entidad                     268 non-null    object 
 6   Distrito                    268 non-null    object 
 7   Municipio                   268 non-null    object 
 8   Superficie(ha)_Sembrada     268 non-null    float64
 9   Superficie(ha)_Cosechada    268 non-null    float64
 10  Superficie(ha)_Siniestrada  268 non-null    float64
 11  Producción                  268 non-null    float64
 12  Rendimiento(udm/ha)         268 non-null    float64
dtypes: float64(5), int64(1), object(7)


In [15]:
df_temp[df_temp["Municipio"] == "Villa de Cos"]

Unnamed: 0,Año,Mes,Ciclo,Modalidad,Cultivo,Entidad,Distrito,Municipio,Superficie(ha)_Sembrada,Superficie(ha)_Cosechada,Superficie(ha)_Siniestrada,Producción,Rendimiento(udm/ha)
124,2023,Enero,Otoño-Invierno,Riego,Ajo,Zacatecas,Zacatecas,Villa de Cos,1300.0,0.0,0.0,0.0,0.0
259,2023,Febrero,Otoño-Invierno,Riego,Ajo,Zacatecas,Zacatecas,Villa de Cos,1300.0,0.0,0.0,0.0,0.0


Por último, vemos que no tenemos instancias repetidas.

In [16]:
df_temp[df_temp.duplicated()]

Unnamed: 0,Año,Mes,Ciclo,Modalidad,Cultivo,Entidad,Distrito,Municipio,Superficie(ha)_Sembrada,Superficie(ha)_Cosechada,Superficie(ha)_Siniestrada,Producción,Rendimiento(udm/ha)


Ahora que estos datos están de la forma que queremos, podemos agregarlos a uno data frame general con todos los datos previamente limpiados.

In [18]:
file_SIAP = "SIAP.csv"
update_df_SIAP(file_SIAP, df_temp)