# Tratamiento de datos básico con R

## Introducción

### El tratamiento de los datos en el contexto del proceso de data science
![El tratammiento de los datos es un suproceso del proceso general de la ciencia de los datos](https://www.dropbox.com/s/b3hwv654uiqr209/Obtenci%C3%B3n%20y%20Tratamiento%20de%20Datos.png?dl=1)

El tratamiento de los datos es un suproceso dentro del proceso de data science que se compone a su ves de otras actividades somo són: 

 * La **importación de los datos**.
 * [Opcional] La **integración de los datos** en el caso de que tengamos más de una fuente de datos.
 * La **limpieza de los datos**.
 * [Opcional] La **reducción de la dimensionalidad** de los datos (si fuera necesaria).
 * [Opcional] La **transformación de los datos** al formato y estructura más apropiada para los algoritmos o análisis que deseamos aplicar.

### La importancia del tratamiento de datos

**EL 80% del tiempo invertido en un análisis de datos típico se va en el tratamiento de los datos**
    [Forrester](https://go.forrester.com/blogs/15-02-17-3_ways_data_preparation_tools_help_you_get_ahead_of_big_data/)

**GARBAGE IN ==> GARBAGE OUT**, o dicho de manera más profusa, "A loading computer is an effective and useful tool for the safe running of a ship. However, its output can only be as accurate as the information entered into it".**
— MAIB (MArine Inventigation Branch).

### Conceptos Básicos 

**dataset**: una colección de valores relacionados,  normalmente números (si son cuantitativos) o cadenas (si son cualitativos).

Todo valor de un dataset pertence a una variable y una observación.

**variable (a.k.a. feature)**: contiene todos los  valores que miden  (en unas unidades concretas) el mismo atributo subyacente (como altura, temperatura, duración) para todas los elementos contemplados en el dataset.

**observación**: contiene todos los valores medidos en para un elemento (como una persona, o un día, o una raza) para cada variable. A los distintos valores que puede presentar unas variable se le llaman sus niveles, y al conjunto completo de los niveles posibles se le llama el dominio de la variable.

En un contexto dado, puede haber múltiples **niveles de observación/tipos de elementos** a estudiar. 

Por ejemplo, en un ensayo de un nuevo medicamento para la alergia podríamos tener tres tipos de observación: datos demográficos recopilados de cada persona (edad, sexo, raza), datos médicos recopilados de cada persona en cada día (número de estornudos, enrojecimiento de los ojos), y datos meteorológicos recopilados en cada día (temperatura, conteo de polen).


### Necesidad de los principios de Tidy data

León Tolstoy:
> Las familias felices son todas semejantes; 
> cada familia infeliz es infeliz a su manera.

Los conjuntos de datos son como las familias para Tolstoy, si están bien estructurados todos son similares, si no lo están, cada uno es un desastre diferente.

**Necesitamos una manera estandarizada de ligar la estructura de nuestros conjuntos de datos con su lo que representan (su semántica)**.

Veamos esto con un ejemplo, sean estas cuatro tablas que describen los mismo datos respecto de un experimento:

La tabla 0 sería:

| person       | treatment | result |
|--------------|-----------|--------|
| John Smith,Jane Doe, Mary Johnson   | a,b         | -,2,16,113,1     |

La tabla 1 sería:

|       ---      | treatmenta | treatmentb |
|----------------|------------|------------|
| John Smith     | —          | 2          |
| Jane Doe       | 16         | 11         |
| Mary Johnson   | 3          | 1          |

La tabla 2 sería:

|    ---     | John Smith | Jane Doe | Mary Johnson |
|------------|------------|----------|--------------|
| treatmenta | -          | 16       | 3            |
| treatmentb | 2          | 11       | 1            |


La tabla 3 sería:

| person       | treatment | result |
|--------------|-----------|--------|
| John Smith   | a         | -      |
| Jane Doe     | a         | 16     |
| Mary Johnson | a         | 3      |
| John Smith   | b         | 2      |
| Jane Doe     | b         | 11     |
| Mary Johnson | b         | 1      |


### Principios de Tidy data

1. Cada variable forma una columna y cada celda expresa un único valor atómico (que no tiene sentido dividir) para esa variable.
2. Cada observación forma una fila. De manera que los datos asociados a un mismo elemento no aparecen en distintas filas.
3. Cada tipo de elemento distinto está en un dataset distinto.

Es decir, vamos a intentar seguir las reglas de **3ª forma normal** de Codd.

Visualmente podemos describir los tres principios como:

![PrincipiosVisuales](https://d33wubrfki0l68.cloudfront.net/6f1ddb544fc5c69a2478e444ab8112fb0eea23f8/91adc/images/tidy-1.png)

### Bienvenidos al Tidyverse

**Tidyverse** es una colección de herramientas dentro de R para cargar, transformar y visualizar datos basada en los principios de tidy data, proporciona toda la información posible cuando hay fallos o resultados inesperados, y l uso de una sintaxis legible para R.

Concretamente, Tidyverse está compuesto por:
 ![Readr](https://d33wubrfki0l68.cloudfront.net/66d3133b4a19949d0b9ddb95fc48da074b69fb07/7dfb6/images/hex-readr.png) que es la librería encargada de proporcionar una manera rápida y amigable de leer datos rectangulares (como csv, tsv, fwf, excel, etc.). Está diseñada para analizar de forma flexible los muchos y diversos tipos de datos que se encuentran en los datasets reales, y fallar limpiamente cuando los datos cambian de forma inesperada. 

 ![Tibble](https://d33wubrfki0l68.cloudfront.net/f55c43407ae8944b985e2547fe868e5e2b3f9621/720bb/images/hex-tibble.png) que es la librería que proporciona una reimplementación eficiente del data.frame, manteniendo lo que el tiempo ha probado que es efectivo, y descartando lo que no lo es. Los tibbles son conjuntos de datos que s no cambian los nombres o tipos de variables, y no responden coincidencias parciales cuando se les consulta. Además los tibbles y se quejan más, por ejemplo, cuando una variable no existe. Esto nos obliga a enfrentarnos a los problemas antes, lo que normalmente conduce a un código más limpio y expresivo. Los tibbles también tienen un método print() mejorado que los hace más fáciles de usar con grandes conjuntos de datos que contienen objetos complejos.
 
 
 <img src="https://d33wubrfki0l68.cloudfront.net/071952491ec4a6a532a3f70ecfa2507af4d341f9/c167c/images/hex-dplyr.png" width="12%" height="12%">   que es la librería que proporciona una gramática de manipulación de datos, que incluye un conjunto coherente de verbos que nos ayudan a resolver los problemas más comunes de manipulación de datos.
 
 <img src="https://d33wubrfki0l68.cloudfront.net/5f8c22ec53a1ac61684f3e8d59c623d09227d6b9/b15de/images/hex-tidyr.png" width="12%" height="12%"> que proporcion mecanismos para separar y unir columnas transfromando los conjuntos de datos para seguir los principios arriba descritos.
 
 ![Purr](https://d33wubrfki0l68.cloudfront.net/9221ddead578362bd17bafae5b85935334984429/37a68/images/hex-purrr.png) que mejora las capacidades de programación funcional de R, y nos permite ahorrarnos la mayoría de los bucles que escribiríamos normalmente.
 
 <img src="https://d33wubrfki0l68.cloudfront.net/0ab849ed51b0b866ef6895c253d3899f4926d397/dbf0f/images/hex-ggplot2.png" width="12%" height="12%"> permite crear gráficos de forma casi declarativa, basados en [La Gramática de los Gráficos](http://amzn.to/2ef1eWp). 
 
 <img src="https://forcats.tidyverse.org/logo.png" width="12%" height="12%"> mejora la gestión de las variables que son factores.
 

A lo largo de los ejemplos de transformación de datos usaremos entre otros el dataset  **Gapminder** que contiene indicadores sociales y económicos sobre paises a lo largo del tiempo.



### Carga de librerías

Primero cargaremos las librerías necesarias para trabajar:


In [1]:
if (!require(pacman)){
  install.packages("pacman")
}
library(pacman)
p_load(gapminder,dplyr,ggpubr,ggplot2)

Loading required package: pacman
"there is no package called 'pacman'"

package 'pacman' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\japar\AppData\Local\Temp\RtmpKerQup\downloaded_packages


also installing the dependencies 'assertthat', 'fansi', 'utf8', 'cli', 'pillar', 'rlang', 'tibble'

"unable to access index for repository http://www.stats.ox.ac.uk/pub/RWin/bin/windows/contrib/3.5:
  no fue posible abrir la URL 'http://www.stats.ox.ac.uk/pub/RWin/bin/windows/contrib/3.5/PACKAGES'"

package 'assertthat' successfully unpacked and MD5 sums checked
package 'fansi' successfully unpacked and MD5 sums checked
package 'utf8' successfully unpacked and MD5 sums checked
package 'cli' successfully unpacked and MD5 sums checked
package 'pillar' successfully unpacked and MD5 sums checked
package 'rlang' successfully unpacked and MD5 sums checked
package 'tibble' successfully unpacked and MD5 sums checked
package 'gapminder' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\japar\AppData\Local\Temp\RtmpKerQup\downloaded_packages



gapminder installed
also installing the dependencies 'bindr', 'purrr', 'bindrcpp', 'pkgconfig', 'tidyselect', 'BH', 'plogr'

"unable to access index for repository http://www.stats.ox.ac.uk/pub/RWin/bin/windows/contrib/3.5:
  no fue posible abrir la URL 'http://www.stats.ox.ac.uk/pub/RWin/bin/windows/contrib/3.5/PACKAGES'"

package 'bindr' successfully unpacked and MD5 sums checked
package 'purrr' successfully unpacked and MD5 sums checked
package 'bindrcpp' successfully unpacked and MD5 sums checked
package 'pkgconfig' successfully unpacked and MD5 sums checked
package 'tidyselect' successfully unpacked and MD5 sums checked
package 'BH' successfully unpacked and MD5 sums checked
package 'plogr' successfully unpacked and MD5 sums checked
package 'dplyr' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\japar\AppData\Local\Temp\RtmpKerQup\downloaded_packages



dplyr installed
also installing the dependencies 'colorspace', 'gtable', 'lazyeval', 'plyr', 'reshape2', 'viridisLite', 'labeling', 'munsell', 'RColorBrewer', 'ggplot2', 'ggrepel', 'ggsci', 'tidyr', 'cowplot', 'ggsignif', 'scales', 'gridExtra', 'polynom'

"unable to access index for repository http://www.stats.ox.ac.uk/pub/RWin/bin/windows/contrib/3.5:
  no fue posible abrir la URL 'http://www.stats.ox.ac.uk/pub/RWin/bin/windows/contrib/3.5/PACKAGES'"

package 'colorspace' successfully unpacked and MD5 sums checked
package 'gtable' successfully unpacked and MD5 sums checked
package 'lazyeval' successfully unpacked and MD5 sums checked
package 'plyr' successfully unpacked and MD5 sums checked
package 'reshape2' successfully unpacked and MD5 sums checked
package 'viridisLite' successfully unpacked and MD5 sums checked
package 'labeling' successfully unpacked and MD5 sums checked
package 'munsell' successfully unpacked and MD5 sums checked
package 'RColorBrewer' successfully unpacked and MD5 sums checked
package 'ggplot2' successfully unpacked and MD5 sums checked
package 'ggrepel' successfully unpacked and MD5 sums checked
package 'ggsci' successfully unpacked and MD5 sums checked
package 'tidyr' successfully unpacked and MD5 sums checked
package 'cowplot' successfully unpacked and MD5 sums checked
package 'ggsignif' successfully unpacked and MD5 sums checked
package 'scales' successfully unpacked and MD5 sums checked
package 'gridExtr


ggpubr installed


también podrían haberse instalado cargado todas las librerías del tidyverse directamente con: 
```
install.packages("tidyverse")
library(tidyverse)
```


Seguidamente visualizamos el contenido de gapminder:


In [2]:
gapminder

country,continent,year,lifeExp,pop,gdpPercap
Afghanistan,Asia,1952,28.801,8425333,779.4453
Afghanistan,Asia,1957,30.332,9240934,820.8530
Afghanistan,Asia,1962,31.997,10267083,853.1007
Afghanistan,Asia,1967,34.020,11537966,836.1971
Afghanistan,Asia,1972,36.088,13079460,739.9811
Afghanistan,Asia,1977,38.438,14880372,786.1134
Afghanistan,Asia,1982,39.854,12881816,978.0114
Afghanistan,Asia,1987,40.822,13867957,852.3959
Afghanistan,Asia,1992,41.674,16317921,649.3414
Afghanistan,Asia,1997,41.763,22227415,635.3414


La variable gapminder es un **dataframe**: una estructura de datos rectangular  con filas y columnas similar a una tabla en una base de datos relacional, donde cada columna tiene asociado un tipo de datos concreto (entero, número en coma flotante, un factor, etc...).

La mayoría de los análisis de datos complejos en R se basan en data frames.

Más específicamente, gapminder es una variable de un subtipo concreto de dataframe usado en tidyverse, llamado **tibble** que funciona de manera más eficiente y coherente que los dataframes tradicionales de R y que es usado de manera general en todas las librerías del tidyverse. Además podemos ver el tamaño completo del tibble y el conjunto concreto de filas que se están visualizando en este momento.

En general llamaremos **observación** a cada una de las filas de un dataframe, y **variable** a cada una de las columnas.

Siempre que trabajemos con dataframes es importante tener en mente una definición clara de lo que representa una observación de ese dataframe, en este caso, dada observación representa los datos de un país para un año concreto. Así tenemos el continente al que pertenece (que se mantiene constante para cada país con los años), la esperanza de vida (columna lifeExp), y el producto interior bruto per capita (gdpPercap) que es una medida bastante común de la reiqueza del país, etc.

En subsiguientes notebooks abordaremos las actividades concretas del proceso:

## [Lectura e integración de datos](http://localhost:8888/notebooks/LecturaImportaciónDeDatos.ipynb)

## [Limpieza y Transformación de datos](http://localhost:8888/notebooks/TratamientoBasicoDeDatos.ipynb)

## [Reducción de la dimensionalidad]()




# Bibliografía

[Tidy data. Wickham, H. Journal of Statistical Software, 59(10), 1-23, 2014.](https://img1.wsimg.com/blobby/go/48119c9a-d3e2-49bc-a380-883861a5de98/downloads/1ceacuvb9_987654.pdf)

[Data Science with R](https://r4ds.had.co.nz/) (libro electrónico disponible online)

[Entrada sobre datos salvajes en simlystaticis de Jeff Leek](http://simplystatistics.org/2016/02/17/non-tidy-data)