# Limpiando Datos de SIAP

La limpieza de datos es una de las etapas más críticas y esenciales en el proceso de Ciencia de Datos. Antes de que los datos puedan ser utilizados para modelar, analizar o visualizar, es muy importante asegurarse de que estén limpios, consistentes y libres de anomalías o inexactitudes. Esto se debe a que la calidad de los datos determina directamente la calidad de los insights obtenidos. Datos incorrectos o inconsistentes pueden conducir a resultados engañosos, decisiones erróneas y, en última instancia, a la pérdida de confianza en los análisis realizados. Así, la limpieza de datos no es sólo un paso preliminar, sino un componente integral para garantizar que el análisis de datos sea preciso, relevante y confiable.

Como ejemplo, usaremos la información seleccionada mediante nuestro selector, es decir

* Todos los años
* Cultivo: Aguacate
* Ciclo: Otoño-Invierno
* Mes: Enero
* Modalidad: Riego

Para esto, primero importaremos algunas librerías.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os
from datetime import datetime

Se crea un loop para enlistar todos los archivos que están dentro de el folder.

In [2]:
file_pad = r"data\siap\selection"
path_list = []
for x in os.listdir(file_pad):
    if x.endswith(".csv"):
        x = file_pad + "\\" + x
        path_list.append(x)
print(path_list)

['data\\siap\\selection\\aguacate_enero_2018.csv', 'data\\siap\\selection\\aguacate_enero_2019.csv', 'data\\siap\\selection\\aguacate_enero_2020.csv', 'data\\siap\\selection\\aguacate_enero_2021.csv', 'data\\siap\\selection\\aguacate_enero_2022.csv', 'data\\siap\\selection\\aguacate_enero_2023.csv']


Como prueba, se lee el primer csv para analizar para explorar los datos.

In [3]:
dt = pd.read_csv(path_list[0],
                sep = ',',
                encoding='utf-8')

dt.head()

Unnamed: 0,Unnamed: 0_level_0,Entidad,Municipio,Superficie(ha),Superficie(ha).1,Superficie(ha).2,Producción,Rendimiento(udm/ha)
0,Unnamed: 0_level_1,Entidad,Municipio,Sembrada,Cosechada,Siniestrada,Producción,Rendimiento(udm/ha)
1,1,Aguascalientes,Calvillo,23.0,0.0,0.0,0.0,0.0
2,2,Baja California,Ensenada,46.75,0.0,0.0,0.0,0.0
3,3,Baja California Sur,Comondú,16.0,0.0,0.0,0.0,0.0
4,4,Baja California Sur,Mulegé,6.0,0.0,0.0,0.0,0.0


Una vez verificado el primer elemento de la lista de archivos. Leemos los csv dentro del archivo y los concatenamos a un solo dataframe.

In [4]:
dict_meses = {
    "enero": "1",
    "febrero": "2",
    "marzo": "3",
    "abril": "4",
    "mayo": "5",
    "junio": "6",
    "julio": "7",
    "agosto": "8",
    "septiembre": "9",
    "octubre": "10",
    "noviembre": "11",
    "diciembre": "12"
}

for i, filepath in enumerate(path_list):
    dt = pd.read_csv(filepath,
                   sep = ',',
                   encoding='utf-8',
                   header=[0,1])
    filename = filepath.split(os.sep)[-1]
    name = filename.split(".")[0]
    anio = name.split("_")[-1]
    mes = name.split("_")[-2]
    cultivo = " ".join(name.split("_")[:-2])
    
    dt[("Cultivo","Cultivo")] = cultivo
    dt[("Mes","Mes")] = dict_meses[mes]
    dt[("Año","Año")] = anio
    
    if i == 0:
        data_siap = dt.copy()
    else:
        data_siap = pd.concat([data_siap, dt])

Ahora, revisemos lo que hemos obtenido

In [5]:
print(data_siap.shape)

(3802, 11)


Notamos que el dataframe posee 8 'variables' y 649 observaciones.

In [6]:
data_siap.head()

Unnamed: 0_level_0,Unnamed: 0_level_0,Entidad,Municipio,Superficie(ha),Superficie(ha),Superficie(ha),Producción,Rendimiento(udm/ha),Cultivo,Mes,Año
Unnamed: 0_level_1,Unnamed: 0_level_1.1,Entidad,Municipio,Sembrada,Cosechada,Siniestrada,Producción,Rendimiento(udm/ha),Cultivo,Mes,Año
0,1,Aguascalientes,Calvillo,23.0,0.0,0.0,0.0,0.0,aguacate,1,2018
1,2,Baja California,Ensenada,46.75,0.0,0.0,0.0,0.0,aguacate,1,2018
2,3,Baja California Sur,Comondú,16.0,0.0,0.0,0.0,0.0,aguacate,1,2018
3,4,Baja California Sur,Mulegé,6.0,0.0,0.0,0.0,0.0,aguacate,1,2018
4,5,Baja California Sur,La Paz,57.0,0.0,0.0,0.0,0.0,aguacate,1,2018


Observamos los tipos de cada variable.

In [7]:
data_siap.dtypes

Unnamed: 0_level_0   Unnamed: 0_level_1      object
Entidad              Entidad                 object
Municipio            Municipio               object
Superficie(ha)       Sembrada               float64
                     Cosechada              float64
                     Siniestrada            float64
Producción           Producción             float64
Rendimiento(udm/ha)  Rendimiento(udm/ha)    float64
Cultivo              Cultivo                 object
Mes                  Mes                     object
Año                  Año                     object
dtype: object

En general, el primer renglon de la cabecera es similar al segundo, por lo tanto esté es redundante y puede ser eliminado, bajo ciertas consideraciones.

In [8]:
data_siap.columns = data_siap.columns.droplevel()
data_siap.head()

Unnamed: 0,Unnamed: 0_level_1,Entidad,Municipio,Sembrada,Cosechada,Siniestrada,Producción,Rendimiento(udm/ha),Cultivo,Mes,Año
0,1,Aguascalientes,Calvillo,23.0,0.0,0.0,0.0,0.0,aguacate,1,2018
1,2,Baja California,Ensenada,46.75,0.0,0.0,0.0,0.0,aguacate,1,2018
2,3,Baja California Sur,Comondú,16.0,0.0,0.0,0.0,0.0,aguacate,1,2018
3,4,Baja California Sur,Mulegé,6.0,0.0,0.0,0.0,0.0,aguacate,1,2018
4,5,Baja California Sur,La Paz,57.0,0.0,0.0,0.0,0.0,aguacate,1,2018


La parte eliminada, era redundante en la mayoría de los casos, sin embargo las columnas 'Sembrada','Cosechada','Siniestrada' perdieron sentido, entonces debemos indicar que se refiere a terreno en hectáreas. (ha)

In [9]:
nuevos_nombres_cols = {
    "Sembrada": "Sembrada (ha)",
    "Cosechada": "Cosechada (ha)",
    "Siniestrada": "Siniestrada (ha)"
}
data_siap = data_siap.rename(columns=nuevos_nombres_cols)
data_siap.head()

Unnamed: 0,Unnamed: 0_level_1,Entidad,Municipio,Sembrada (ha),Cosechada (ha),Siniestrada (ha),Producción,Rendimiento(udm/ha),Cultivo,Mes,Año
0,1,Aguascalientes,Calvillo,23.0,0.0,0.0,0.0,0.0,aguacate,1,2018
1,2,Baja California,Ensenada,46.75,0.0,0.0,0.0,0.0,aguacate,1,2018
2,3,Baja California Sur,Comondú,16.0,0.0,0.0,0.0,0.0,aguacate,1,2018
3,4,Baja California Sur,Mulegé,6.0,0.0,0.0,0.0,0.0,aguacate,1,2018
4,5,Baja California Sur,La Paz,57.0,0.0,0.0,0.0,0.0,aguacate,1,2018


Ademas, vemos que la primera columna (Unnamed: 0_level_1), parece ser una columna de indices, por lo que podemos eliminarla para evitar redundancias.

In [10]:
data_siap.drop(columns="Unnamed: 0_level_1",inplace=True)
data_siap.head()

Unnamed: 0,Entidad,Municipio,Sembrada (ha),Cosechada (ha),Siniestrada (ha),Producción,Rendimiento(udm/ha),Cultivo,Mes,Año
0,Aguascalientes,Calvillo,23.0,0.0,0.0,0.0,0.0,aguacate,1,2018
1,Baja California,Ensenada,46.75,0.0,0.0,0.0,0.0,aguacate,1,2018
2,Baja California Sur,Comondú,16.0,0.0,0.0,0.0,0.0,aguacate,1,2018
3,Baja California Sur,Mulegé,6.0,0.0,0.0,0.0,0.0,aguacate,1,2018
4,Baja California Sur,La Paz,57.0,0.0,0.0,0.0,0.0,aguacate,1,2018


Ahora los datos poseen una mejor apariencia, siendo más comodo obtener información de las variables. 

In [11]:
data_siap.dtypes

Entidad                 object
Municipio               object
Sembrada (ha)          float64
Cosechada (ha)         float64
Siniestrada (ha)       float64
Producción             float64
Rendimiento(udm/ha)    float64
Cultivo                 object
Mes                     object
Año                     object
dtype: object

Ahora notemos las variables 'Mes', 'Año', podemos juntarlas en una sola característica, una fecha.

In [12]:
data_siap["fecha_str"] = data_siap["Año"].astype(str) + "_" + data_siap["Mes"].astype(str)
data_siap["fecha"] = pd.to_datetime(data_siap["fecha_str"], format='%Y_%m', errors='ignore')
data_siap.head()

Unnamed: 0,Entidad,Municipio,Sembrada (ha),Cosechada (ha),Siniestrada (ha),Producción,Rendimiento(udm/ha),Cultivo,Mes,Año,fecha_str,fecha
0,Aguascalientes,Calvillo,23.0,0.0,0.0,0.0,0.0,aguacate,1,2018,2018_1,2018-01-01
1,Baja California,Ensenada,46.75,0.0,0.0,0.0,0.0,aguacate,1,2018,2018_1,2018-01-01
2,Baja California Sur,Comondú,16.0,0.0,0.0,0.0,0.0,aguacate,1,2018,2018_1,2018-01-01
3,Baja California Sur,Mulegé,6.0,0.0,0.0,0.0,0.0,aguacate,1,2018,2018_1,2018-01-01
4,Baja California Sur,La Paz,57.0,0.0,0.0,0.0,0.0,aguacate,1,2018,2018_1,2018-01-01


Una vez creada, podemos eliminar las columnas redundantes.

In [13]:
data_siap = data_siap.drop(labels = ["Año", "Mes", "fecha_str"], axis = 1)
data_siap.head()

Unnamed: 0,Entidad,Municipio,Sembrada (ha),Cosechada (ha),Siniestrada (ha),Producción,Rendimiento(udm/ha),Cultivo,fecha
0,Aguascalientes,Calvillo,23.0,0.0,0.0,0.0,0.0,aguacate,2018-01-01
1,Baja California,Ensenada,46.75,0.0,0.0,0.0,0.0,aguacate,2018-01-01
2,Baja California Sur,Comondú,16.0,0.0,0.0,0.0,0.0,aguacate,2018-01-01
3,Baja California Sur,Mulegé,6.0,0.0,0.0,0.0,0.0,aguacate,2018-01-01
4,Baja California Sur,La Paz,57.0,0.0,0.0,0.0,0.0,aguacate,2018-01-01


Variables como la Entidad, Municipio serán consideradas categóricas. Aprovechando que los existe una codificación para ambos. 

In [14]:
data_siap["Entidad"] = data_siap["Entidad"].astype("category")
data_siap["Municipio"] = data_siap["Municipio"].astype("category")
data_siap["Cultivo"] = data_siap["Cultivo"].astype("category")
data_siap.dtypes

Entidad                      category
Municipio                    category
Sembrada (ha)                 float64
Cosechada (ha)                float64
Siniestrada (ha)              float64
Producción                    float64
Rendimiento(udm/ha)           float64
Cultivo                      category
fecha                  datetime64[ns]
dtype: object

In [16]:
data_siap.describe()

Unnamed: 0,Sembrada (ha),Cosechada (ha),Siniestrada (ha),Producción,Rendimiento(udm/ha)
count,3802.0,3802.0,3802.0,3802.0,3802.0
mean,774.893651,466.228585,0.0,606.532898,0.487672
std,9919.177429,6141.967934,0.0,7906.76591,1.828384
min,0.3,0.0,0.0,0.0,0.0
25%,6.0125,0.0,0.0,0.0,0.0
50%,24.0,0.0,0.0,0.0,0.0
75%,91.675,0.0,0.0,0.0,0.0
max,259769.36,168222.19,0.0,210643.81,27.9


Cambiamos el orden de los datos de wide a tidy

In [17]:
siap_tidy = pd.melt(data_siap,
                    ["Entidad", "Municipio","Cultivo","fecha"],
                    var_name="variable",
                    value_name="values")
siap_tidy.head()

Unnamed: 0,Entidad,Municipio,Cultivo,fecha,variable,values
0,Aguascalientes,Calvillo,aguacate,2018-01-01,Sembrada (ha),23.0
1,Baja California,Ensenada,aguacate,2018-01-01,Sembrada (ha),46.75
2,Baja California Sur,Comondú,aguacate,2018-01-01,Sembrada (ha),16.0
3,Baja California Sur,Mulegé,aguacate,2018-01-01,Sembrada (ha),6.0
4,Baja California Sur,La Paz,aguacate,2018-01-01,Sembrada (ha),57.0


Vamos a guardar los resultados de estas tablas en un formato parquet ya que este es la forma más compacta. Para esto es necesario importar la librería arrow para poder usar pd.DataFrame.to_parquet(), ya que èsta funcion utiliza esta libaría como mecanismo de empaquetamiento.

In [18]:
import pyarrow

Se guarda en clean_data/ dentro del archivo data/

In [20]:
if not os.path.exists(os.path.join("data","clean_data")):
    os.mkdir(os.path.join("data","clean_data"))
    
siap_tidy.to_parquet(os.path.join("data","clean_data","siap.parquet.zip"), engine="pyarrow", compression = "gzip")