# Limpieza de Datos de Producción Agrícola del SIAP

En este punto, se procede a realizar la depuración de los datos relativos a la producción agrícola proporcionados por **SIAP**. Para llevar a cabo esta tarea, se realizarán las siguientes etapas:

- Exploración de los Datos: Se realizará una revisión inicial de los datos para identificar posibles inconsistencias o datos faltantes que requieran atención.

- Limpieza de Datos Faltantes: Los registros que contengan datos faltantes o nulos serán evaluados y, en la medida de lo posible, se completarán o se eliminarán de la base de datos, dependiendo de su relevancia para el análisis.

### Importación de Librerías

In [45]:
import pandas as pd
pd.set_option('display.max_columns', None)
import os
import numpy as np

### Exploración a nivel básico de los datos

In [53]:
# Obtención de la ruta
actual_dir = os.getcwd()
ext_dir = os.path.dirname(actual_dir)
subdir1 = '/descarga'
subdir2 = '/data/'
data_processed = subdir1 + subdir2 + 'processed/'
dir = ext_dir + data_processed

# Leer DF
df_2003_2023 = pd.read_csv(dir + 'Cierre_agricola__2003_2023.csv', low_memory=False)

# Hacer copia del df original para trabajar sin afectar los datos originales
df = df_2003_2023.copy() 

# Mostrar shape del df
print(df.shape)

# Mostrar dataframe
df

(713499, 26)


Unnamed: 0,Anio,Idestado,Nomestado,Idddr,Nomddr,Idcader,Nomcader,Idmunicipio,Nommunicipio,Idciclo,Nomcicloproductivo,Idmodalidad,Nommodalidad,Idunidadmedida,Nomunidad,Idcultivo,Nomcultivo,Sembrada,Cosechada,Siniestrada,Volumenproduccion,Rendimiento,Precio,Valorproduccion,Nomcultivo Sin Um,Preciomediorural
0,2003,1,Aguascalientes,1,Aguascalientes,1,Aguascalientes,1,Aguascalientes,1,Otoño-Invierno,1,Riego,200201,Tonelada,5490000,Avena forrajera en verde,1062.0,1062.0,0.0,28529.0,26.86,323.4,9226278.60,,
1,2003,1,Aguascalientes,1,Aguascalientes,1,Aguascalientes,1,Aguascalientes,1,Otoño-Invierno,1,Riego,200201,Tonelada,5900000,Cebada forrajera en verde,2.0,2.0,0.0,54.0,27.0,250.0,13500.00,,
2,2003,1,Aguascalientes,1,Aguascalientes,1,Aguascalientes,1,Aguascalientes,1,Otoño-Invierno,1,Riego,200201,Tonelada,5980000,Centeno forrajero en verde,17.0,17.0,0.0,1020.0,60.0,350.0,357000.00,,
3,2003,1,Aguascalientes,1,Aguascalientes,1,Aguascalientes,1,Aguascalientes,1,Otoño-Invierno,1,Riego,200201,Tonelada,9090000,Triticale forrajero en verde,24.0,24.0,0.0,720.0,30.0,400.0,288000.00,,
4,2003,1,Aguascalientes,1,Aguascalientes,1,Aguascalientes,1,Aguascalientes,1,Otoño-Invierno,1,Riego,200201,Tonelada,15050000,Pastos y praderas,415.0,415.0,0.0,25830.0,62.24,314.9,8133867.00,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
713494,2022,32,Zacatecas,190,Jalpa,4,Jalpa,19,Jalpa,3,Perennes,1,Riego,200201,Tonelada,7960000,Nuez,10.0,10.0,0.0,25.4,2.54,,1231900.00,,48500.00
713495,2022,32,Zacatecas,190,Jalpa,4,Jalpa,19,Jalpa,3,Perennes,1,Riego,200201,Tonelada,9130000,Uva,20.0,20.0,0.0,190,9.5,,5130000.00,,27000.00
713496,2022,32,Zacatecas,190,Jalpa,4,Jalpa,19,Jalpa,3,Perennes,1,Riego,200201,Tonelada,15050000,Pastos y praderas,86.0,86.0,0.0,4602.1,53.51,,3221470.00,,700.00
713497,2022,32,Zacatecas,190,Jalpa,4,Jalpa,19,Jalpa,3,Perennes,2,Temporal,200201,Tonelada,5050000,Agave,38.0,4.0,0.0,370,92.5,,9176000.00,,24800.00


In [47]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 713499 entries, 0 to 713498
Data columns (total 26 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   Anio                713499 non-null  int64  
 1   Idestado            713499 non-null  int64  
 2   Nomestado           713499 non-null  object 
 3   Idddr               713499 non-null  int64  
 4   Nomddr              713499 non-null  object 
 5   Idcader             713499 non-null  int64  
 6   Nomcader            713499 non-null  object 
 7   Idmunicipio         713499 non-null  int64  
 8   Nommunicipio        713499 non-null  object 
 9   Idciclo             713499 non-null  int64  
 10  Nomcicloproductivo  713499 non-null  object 
 11  Idmodalidad         713499 non-null  int64  
 12  Nommodalidad        713499 non-null  object 
 13  Idunidadmedida      713499 non-null  int64  
 14  Nomunidad           713499 non-null  object 
 15  Idcultivo           713499 non-nul

In [48]:
# Verificar si hay valores nulos
df.isnull().sum()

Anio                       0
Idestado                   0
Nomestado                  0
Idddr                      0
Nomddr                     0
Idcader                    0
Nomcader                   0
Idmunicipio                0
Nommunicipio               0
Idciclo                    0
Nomcicloproductivo         0
Idmodalidad                0
Nommodalidad               0
Idunidadmedida             0
Nomunidad                  0
Idcultivo                  0
Nomcultivo            213406
Sembrada                   0
Cosechada                  0
Siniestrada                0
Volumenproduccion          0
Rendimiento                0
Precio                 66296
Valorproduccion            0
Nomcultivo Sin Um     500093
Preciomediorural      647203
dtype: int64

In [49]:
# Convertir la columna 'Sembrada' a tipo str y Reemplazar comas por puntos
df['Sembrada'] = df['Sembrada'].astype(str).str.replace(',', '.')

# Cambiar el tipo de la columna a float
df['Sembrada'] = df['Sembrada'].astype(float)

In [50]:
# Combinar las columnas 'Nomcultivo' y 'Nomcultivo Sin Um' en una sola columna
df['Nomcultivo'] = df.apply(lambda row: row['Nomcultivo Sin Um'] if pd.isna(row['Nomcultivo']) else row['Nomcultivo'], axis=1)

# Eliminar la columna original
df.drop(['Nomcultivo Sin Um'], axis=1, inplace=True)

In [51]:
# Verificar si hay valores nulos después de la trasformación
df.isnull().sum()

Anio                       0
Idestado                   0
Nomestado                  0
Idddr                      0
Nomddr                     0
Idcader                    0
Nomcader                   0
Idmunicipio                0
Nommunicipio               0
Idciclo                    0
Nomcicloproductivo         0
Idmodalidad                0
Nommodalidad               0
Idunidadmedida             0
Nomunidad                  0
Idcultivo                  0
Nomcultivo                 0
Sembrada                   0
Cosechada                  0
Siniestrada                0
Volumenproduccion          0
Rendimiento                0
Precio                 66296
Valorproduccion            0
Preciomediorural      647203
dtype: int64

In [52]:
# Examinar por duplicados
df[df.duplicated()] # No hay duplicados

Unnamed: 0,Anio,Idestado,Nomestado,Idddr,Nomddr,Idcader,Nomcader,Idmunicipio,Nommunicipio,Idciclo,Nomcicloproductivo,Idmodalidad,Nommodalidad,Idunidadmedida,Nomunidad,Idcultivo,Nomcultivo,Sembrada,Cosechada,Siniestrada,Volumenproduccion,Rendimiento,Precio,Valorproduccion,Preciomediorural


In [54]:
df.to_csv(dir + 'Cierre_agricola__2003_2023_Clean.csv', index=False)