# Notebook para crear el Dataset de rendimientos agrícolas

Para la construcción del Dataset, se parte de la información encontrada en la base de datos _S06A(Cultivos)_, se seleccionan los predios ubicados en la provincia de Guanentá (17 municipios), posterior a ello, son filtrados los predios que tienen una producción tipo monocultivo con el fin de evitar doble contabilización de predios sembrados. Para este caso, se encueta que el 99.78% de los predios presentaron una siembra tipo monocultivo, lo cual corresponde a un total de 14764 Lotes. De dichos lotes son seleccionados aquellos que tienen un área no superior a 5 hectáreas y han presentado cultivos al aire libre (es decir, sin incluir cultivos hidropónicos ni invernaderos) con un rendimiento histórico documentado (cantidad de kilos de producto por unidad de área), para un total de 7039 lotes.

El Notebook está estructurado de tal manera que sea posible hacer un seguimiento a la construción del Dataset sin datos perdidos. Para ello, se divide en las siguientes secciones:

[1. Adquisición de los datos y depuración](#seccion 1)

[2. Imputación del Dataset](#seccion 2)

[2.1 Imputación usando _MICE_](#seccion 3)

[2.2 Imputación usando _missForest_](#seccion 4)

[2.3 Imputación final](#seccion 5)


# <a id='seccion 1'></a> 1. Adquisición de los datos y depuración

En la primera sección se cargan los paquetes necesarios para trabajar los modelos de pronósticos:

In [1]:
#install.packages("Hmisc")
library(readr)      #Cargar los datos desde un csv
library(ggplot2)    #Modificar las imágenes
library(reshape2)   #Modificar las imágenes
library(VIM)        #Visualizar datos pendientes
library(missForest) #Imputar utilizando RandomForest
library(mice)       #Imputar sin considerar la 
                    #distribución de las variables
library(mi)         #Imputar analizando colinealidad
library(magrittr)   #trabajar con funciones %>%
library(Amelia)     #Imputar
library(Hmisc)      #Imputar
        

"package 'readr' was built under R version 3.4.4"Loading required package: colorspace
Loading required package: grid
Loading required package: data.table

Attaching package: 'data.table'

The following objects are masked from 'package:reshape2':

    dcast, melt

VIM is ready to use. 
 Since version 4.0.0 the GUI is in its own package VIMGUI.

          Please use the package to use the new (and old) GUI.

Suggestions and bug-reports can be submitted at: https://github.com/alexkowa/VIM/issues

Attaching package: 'VIM'

The following object is masked from 'package:datasets':

    sleep

Loading required package: randomForest
randomForest 4.6-12
Type rfNews() to see new features/changes/bug fixes.

Attaching package: 'randomForest'

The following object is masked from 'package:ggplot2':

    margin

Loading required package: foreach
Loading required package: itertools
Loading required package: iterators
Loading required package: Matrix
Loading required package: stats4
mi (Version 1.0, pa

Ahora es cargada la base de datos de precios y se observan los campos que la componen:

In [2]:
#Se cargan los datos
DATA <- read.csv(file="DATA.csv",  na = c("", ""), 
                 header=TRUE, sep=";") 
DATA<-as.data.frame(DATA)
print("Tamaño del Dataset")
dim(DATA)

#A continuación se expone el código para describir
#el dataset.
print("Visualización de los 5 primeros datos y 5 primeras variables")
head(DATA[1:5])
print("Características de los datos y 5 primeras variables")
print(str(DATA[1:5]))
print("Resumen descriptivo de los datos y 5 primeras variables")
summary(DATA[1:5])
print("Visualización de los datos perdidos")
#Con el propósito de identificar si existen datos perdidos 
#(una aproximación visual), se adapta una función creada por 
#Nicholas Tierney https://njtierney.github.io/

#Inicio de la función
ggplot_missing <- function(x){
  
  x %>% 
    is.na %>%
    melt %>%
    ggplot(data = .,
           aes(x = Var2,
               y = Var1)) +
    geom_raster(aes(fill = value)) +
    scale_fill_grey(name = "",
                    labels = c("Presentes","Perdidos")) +
    theme_minimal() + 
    theme(axis.text.x  = element_text(angle=45, vjust=0.5)) + 
    labs(x = "Variables en el Dataset",
         y = "Filas / observaciones")
}
#Fin de la Función
ggplot_missing(DATA)

"no fue posible abrir el archivo 'DATA.csv': No such file or directory"

ERROR: Error in file(file, "rt"): no se puede abrir la conexión


Teniendo en cuenta la Figura de datos perdidos mostrada anteriormente, se puede observar que la mayor parte del Dataset está compuesta por datos ausentes, lo anterior se deriva del registro obtenido durante el Censo Nacional Agropecuario, donde cada una de las unidades productivas fue entrevistada (En el dataset, el campo **ID** indica cada predio, unidad productiva o Lote), por tanto, existe al menos un producto cultivado y recogido por lote, del cual se obtiene la información del rendimiento $[Kg/m^2]$.

Por otra parte, el campo **Municipio**, indica a cual de los 17 municipios pertenece el predio y, como idea general, el propósito del presente Notebook es completar los datos faltantes. Dicho objetivo se debe a que el proyecto raíz **Modelo de optimización multiobjetivo para la programación de la producción agrícola a pequeña escala en Santander, Colombia**,tiene como supuesto que cualquiera de los 17 productos puede ser cultivado en cualquier lote y que no necesariamente existe un mismo rendimiento de kilogramos cultivados por unidad de área para cada Lote. 

# <a id='seccion 2'></a> 2. Imputación del Dataset

Para revisar  la dispersión de los rendimientos, a continuación se grafican los rendimientos de cada producto por Municipio.

In [None]:
#Primero se construye una función para graficar todas 
#las series de manera independiente utilziando un bucle

#Creación de la función
GRAFICAR <- function(x, na.rm = TRUE, ...)
    {
    nm <- names(x)
      for (i in seq_along(nm[3:length(x[1,])])) 
        {
         plots <-ggplot(x,aes(x[,1], x[,(i+2)])) +
          geom_boxplot(outlier.colour="red")
          plots<-plots+labs(x = "Municipio")+
          labs(y = "Rendimiento [Kg/m2]")+labs(title = 
                "Rendimiento para el producto:", 
              subtitle = nm[i+2])+theme(axis.text.x  = 
              element_text(angle=45, vjust=0.5))
        print(plots)
        }
    }
#Fin de la función

#Se ejecuta la función
#GRAFICAR(DATA)

#Para facilitar le presentación de los datos, se 
#imprime a modo de ejemplo, los valores correspondientes
#al tercer producto
GRAFICAR(as.data.frame(c(DATA[1:2],DATA[5])))

Teniendo en cuenta la cantidad de datos perdidos, para todos los productos bajo estudio, la mayoría de las observaciones aparecen en la categoría *NA* . Por otra parte, se evidencia que el producto _Yuca_ es el que presenta mayor variabilidad en los rendimientos, seguido de _Perejil_, _Maíz Blanco_ y _Papas_.

Para proseguir con la imputación de datos, se trabajará con tres paquetes diferentes: *MICE*, *missForest* y *mi*, posteriormente se analiZará la diferencia entre los distintos métodos de imputación y finalmente se construirá el _Dataset_ final.

## <a id='seccion 3'></a> 2.1 Imputación usando MICE

Antes de generar la imputación, se revisa de manera breve la cantidad de datos perdidos, para ello el paquete _mice_ cuenta con  la función _md.pattern()_ la cual presenta de manera tabulada los valores perdidos en el _dataset_. Posterior a ello, se utiliza la función _aggr()_ del paquete _VIM_ para estimar de manera porcentual (a la par de visualizar), la cantidad de datos perdidos.

In [None]:
#Se tabulan la cantidad de datos perdidos
#md.pattern(DATA)
#A modo de ejemplo se muestran 10 variables
print("La distribución y cantidad de datos perdidos para 10 variables son:")
md.pattern(DATA[1:10])
print("El porcentaje de datos perdido por variable es:")
mice_plot <- aggr(DATA, col=c('black','gray'),numbers=
    TRUE, sortVars=TRUE,labels=names(DATA), 
    cex.axis=.7,gap=3, ylab=c("Datos perdidos","Patrón"))

Se puede concluir que en total existen _140796_ valores perdidos y que, la mayoría de los productos se encuentran presentes en menos del $1\%$ para cada relación (Producto sembrado en cada Finca), lo cual es acorde a la descripción introductoria, donde se expone que todas las fincas bajo estudio fueron cultivadas con al menos un producto. la cantidad de datos perdidos de manera descendente se presenta a continuación.

**Cebada**            $99.98579\%$
           
**Cilantro**          $99.98579\%$
         
**Lechuga**           $99.98579\%$
            
**Tomate**            $99.98579\%$
           
**Pimenton**          $99.97159\%$
         
**Ahuyama**           $99.95738\%$
          
**Banano**            $99.94317\%$
           
**Cebolla.larga**     $99.92897\%$
    
**Cebolla.cabezona**  $99.78690\%$
 
**Habichuela**        $99.51698\%$
       
**Lulo**              $99.21864\%$
             
**Arveja.verde**      $99.03395\%$
     
**Papaya**            $97.37179\%$
            
**Papas**             $94.51627\%$
                        
**Arracacha**         $92.59838\%$
        
**Platano**           $92.11536\%$
          
**Pinna**             $91.85964\%$
            
**Maiz.Blanco**       $91.19193\%$
      
**Frijol**            $90.18326\%$
           
**Perejil**           $82.01449\%$
          
**Yuca**              $71.07544\%$
             
**Municipio**         $0.000000\%$
        
**ID**                $0.000000\%$
               

A continuación se presentan el código utilizado para imputar los datos mediante variables predictoras del mismo dataset

In [None]:
#Se cargan los datos a imputar, para evitar la
#transformación de número a partir de transformar
#listas en datasets, se trabaja con los datos 
#premultiplicados por 100, evitando así el 
#uso de variables tipo float
DATA2<-read.csv(file="DATA100.csv",
       na = c("", ""), header=TRUE, sep=";") 
#se transforman a formato dataframe
DATA2<-as.data.frame(DATA2)
#Se eliminan las primeras dos variables puesto
#que el modelo no utiliza variables categóricas
DATA2<-DATA2[,3:23]
#se genera un modelo de regresión en el cual
#todas las variables del dataset que no estén
#siendo predecidas en ese isntante, funcionan como 
#variables predictoras:
#predictorMatrix = (1 - diag(1, ncol(DATA2)))
#Además, se genera l aimputación utilizando 1
#modelo (m=1) y 10 iteraciones
imputed_Data <- mice(DATA2, predictorMatrix = 
    (1 - diag(1, ncol(DATA2))), m=1, 
         maxit = 10, method = 'pmm', seed = 500)
#Los datos del modelo son almacenados en la varaible
#DATA_MC, para mantener las variables borradas
#(ID y Municipio), se iguala las dimensiones a
#la variable DATA, por otra parte, como los datos
#son obtenidos a partir de un dataset premultiplicado
#por 100, se dividen los valores por la misma
#cantidad
DATA_MC<-as.data.frame(c(DATA[1:2],mice::complete(imputed_Data,1)/100))
#Los estadísticos descriptivos del dataset imputado
print('Los estadísticos descriptivos del dataset imputado:')
summary(DATA_MC)
#Como existen datos vacíos, se procede a imputar 
#utilizando el promedio de cada producto
for(i in 3:ncol(DATA_MC)){
  DATA_MC[is.na(DATA_MC[,i]), i] <- mean(DATA_MC[,i], na.rm = TRUE)
}
print('Los estadísticos descriptivos del dataset nuevamente imputado:')
summary(DATA_MC)
#Para facilitar le presentación de los datos, se 
#imprime a modo de ejemplo, los valores correspondientes
#al tercer producto
GRAFICAR(as.data.frame(c(DATA_MC[1:2],DATA_MC[5])))
 

Teniendo en cuenta los resultados anteriores, en la estadística descriptiva se evidencia que esta metodología no es capaz de imputar todos los datos (como en el caso del producto Arracacha), lo anterior es consecuencia de la poca cantidad de datos en el dataset original. Por tanto, se imputan los datos con diversas metodologías y se promedian al final.
            

## <a id='seccion 4'></a> 2.2 Imputación usando missForest

El paquete  _missForest_  es una aplicación basada en el algoritmo *random forest*. Lo cual indica que es una imputación no paramétrica que puede ser utilizada a diferentes tipos de variables. Para lo anterior, el algoritmo genera un modelo *random forest* para cada variable a imputar en función de las varaibles observadas.

A continuación se expone el algoritmo y metodología usada para impotar el dataset.

In [None]:
#Se cargan los datos a imputar, para evitar la
#transformación de número a partir de transformar
#listas en datasets, se trabaja con los datos 
#premultiplicados por 100, evitando así el 
#uso de variables tipo float
DATA2<-read.csv(file="DATA100.csv",
       na = c("", ""), header=TRUE, sep=";") 
#se transforman a formato dataframe
DATA2<-as.data.frame(DATA2)
#Se eliminan las primeras dos variables puesto
#que el modelo no utiliza variables categóricas
DATA2<-DATA2[,3:23]
#Se ejecuta el algoritmo de random forest, 
#para ello se propone trabajar con una cantidad
#máxima de 100 árboles y un número de iteraciones
#no superior a 10. Teniendo en cuenta que
#los datos han sido transformados pre
#multiplicando sus valroes por 100, la
#salida es dividida en la misma proporción.
DATA_RF<-as.data.frame(c(DATA[1:2],
      missForest(DATA2,maxiter = 10, ntree = 100,
                 decreasing = FALSE)))
DATA_RF[3:23]<-DATA_RF[3:23]/100
#Los estadísticos descriptivos del dataset imputado
print('Los estadísticos descriptivos del dataset imputado:')
summary(DATA_RF)
#Como el modelo genera una nueva columna con la información
#relacionada con el error, ésta es eliminada para permitir
#los cálculos entre datasets.
DATA_RF<-DATA_RF[1:23]
#Para facilitar le presentación de los datos, se 
#imprime a modo de ejemplo, los valores correspondientes
#al tercer producto
GRAFICAR(as.data.frame(c(DATA_RF[1:2],DATA_RF[5])))
 

Para el caso de los productos imputados utilizando el algoritmo de _random forest_ es posible estimar el valor de todos los datos. Ahora bien, con el propósito de tener un un dataset consolidado, se procede a realizar un promedio de los dos métodos.

## <a id='seccion 5'></a> 2.3 Imputación final

In [None]:
#para generar una unión en los datasets ambos
#deben tener igual nombre de variables, debido
#a que el dataset obtenido mediante random forest
#genera un nuevo nombre de variables, estas
#deben ser unificadas con el nombre del dataset
#obtenido con el mñetido de Mice
colnames(DATA_RF)<-colnames(DATA_MC)
#un ejemplo para 5 variables se encuentra a 
#continuación
print('Dataset imputado con Mice')
head(DATA_MC[1:5])
print('Dataset imputado con Random Forest')
head(DATA_RF[1:5])
#Se verifica que posean la misma cantidad de variables
print('dimensiones del Dataset imputado con Mice')
dim(DATA_MC)
print('dimensiones del Dataset imputado con Random Forest')
dim(DATA_RF)
#Se crea un nuevo dataset con el tamaño del original
DATA_IMPUTADO<-DATA
#Se promedian los valores de los dataset
DATA_IMPUTADO[3:23]<-((as.numeric(unlist(DATA_RF[3:23])))
                      +(as.numeric(unlist(DATA_MC[3:23]))))/2
#un ejemplodel resultado final para 5 variables se 
#encuentra a continuación
print('Dataset imputado final')
head(DATA_IMPUTADO[1:5])
#Se genera el resumen estadístico del dataset final
print('Resumen estadístico del Dataset imputado final')
summary(DATA_IMPUTADO)
#Se grafican los resultados
#GRAFICAR(DATA_IMPUTADO)
#Para facilitar le presentación de los datos, se 
#imprime a modo de ejemplo, los valores correspondientes
#al tercer producto
GRAFICAR(as.data.frame(c(DATA_IMPUTADO[1:2],DATA_IMPUTADO[5])))

In [None]:
#Se guarda el dataset
write.csv(DATA_IMPUTADO, file="C:RENDIMIENTOS POR LOTE.csv")  