# Limpieza e inspección de los datos

Para organizar nuestro notebook (script), dedicaremos la _celda_ inicial a la carga de librerías necesarias para la ejecución del script completo. Si necesitamos instalar algunas de ellas porque no estén disponibles en nuestro repositorio, las instalaremos y dejaremos indicado que hemos necesitado instalarlas. Esto servirá para la configuración del entorno de trabajo de futuros proyectos. :)   

El notebook está esturcturado como sigue:
* **Bloque A**: carga de datos.
* **Bloque B**: inspección de datos.
* **Bloque C**: limpieza de datos y exportación del conjunto resultante.

### Librerías

In [None]:
#install.packages("naniar")
library(naniar)
library(ggplot2)

## BLOQUE A: carga de los datos
Los datos están en formato `.csv`, así que los leemos usando la función `read.csv()`.

In [None]:
getwd() # Imprime directorio de trabajo
data <- read.csv('data.csv') # Carga un fichero data
head(data)  # Muestra los objetos cargados en memoria 

## BLOQUE B: inspección de los datos
El objetivo de la inspección es la **familiarización con el conjunto de datos**. Algunas preguntas iniciales que podría estar bien hacerse pueden ser:
* ¿En qué tipo de objeto están almacenados los datos? ¿Cuál es su dimensión?
* ¿Hay datos ausentes? 
* ¿Cómo están distribuídas las variables? ¿Hay diferencias entre ausencia/presencia DEFECTO?
* ¿Hay valores atípicos?
* ...

In [None]:
# Tipo de objeto
cat("El fichero es un", class(data),"de", nrow(data), "filas y", ncol(data), "columnas.")
head(data)

In [None]:
# Ausencias
vis_miss(data)

In [None]:
options(repr.plot.width=8, repr.plot.height=2.5)

for (i in 1:19){
    p <- ggplot(data)
    p <- p + geom_histogram(aes(x=data[,i], y=..density.., fill=factor(defecto)), alpha = 0.2)
    p <- p + geom_density(aes(x=data[,i], y =..density.., fill = factor(defecto), colour = factor(defecto)), alpha = 0.35)
    p <- p + scale_x_continuous(name = names(data)[i])
    p <- p + theme_minimal()
    print(p)
}

In [None]:
# Outliers
options(repr.plot.width=8, repr.plot.height=2.5)

for (i in 1:19){
    p <- ggplot(data)
    p <- p + geom_boxplot(aes(x=factor(defecto), y=data[,i], fill=factor(defecto)), alpha = 0.2)
    p <- p + scale_y_continuous(name = names(data)[i])
    p <- p + theme_minimal()
    print(p)
}

In [None]:
# quimico6 parece que es casi siempre 0.0010
table(data$quimico6)

## BLOQUE 3: limpieza
Algunos aspectos a tratar son:
* Ausencias -> eliminaremos filas que no estén completas
* Baja varianza -> no trabajaremos con variables con sd < 0.005

Al final de la limpieza exportamos el fichero como `dataPrepared.csv`.

In [None]:
# Eliminamos ausencias 
???? 
cat("El fichero es un", class(data),"de", nrow(data), "filas y", ncol(data), "columnas.")

# Eliminamos variables con baja varianza (quimico9)
???? 

In [None]:
head(data)
write.csv(data, file = "dataPrepared.csv", row.names=FALSE)