
# Importación e Integración de datos con R

# Importación de datos

## Introducción

### El tratamiento de los datos en el contexto del proceso de data science
![El tratammiento de los datos es un suproceso del proceso general de la ciencia de los datos](https://www.dropbox.com/s/b3hwv654uiqr209/Obtenci%C3%B3n%20y%20Tratamiento%20de%20Datos.png?dl=1)

El tratamiento de los datos es un suproceso dentro del proceso de data science que se compone a su vez de otras actividades. En este notebook nos centramos en: 

 * La **importación e integración de los datos**.
## Fuentes de Variabilidad en las  entrada de datos

El formato de los datos:

 * Datos en ficheros textuales planos (csv, txt, ).
 * Datos de MS Office (usualmente Excel o Access)
 * Datos de bases de datos (MySQL, Postgres, Oracle, etc.)
 * Datos en formatos textuales estructurados (JSON, YAML, XML, etc.)
 * Datos en formatos de paquetes estadísticos (SPSS, STRATA, SAS, etc.)
 
La localización de los datos:
  * Sistema local de ficheros
  * Unidad compartida de red
  * La web

La propia complejidad y diversidad de la estructura de la información almacenada, que puede no corresponderse con el formato que se ha usado para almacenarlo.

Comenzaremos centrándonos en la variabilidad asociada al formato, y usando el sistema de ficheros local del sistema como localización por defecto de los datos.

## Ficheros textuales planos

### Ficheros CSV

Un fichero CSV es un fichero de texto plano donde la primera fila representa los nombres de las variables y los valores están separados por "," o ";".

R incorpora funciones estándar para leer ficheros CSV sin la necesidad de cargar ningua librería:


In [None]:
getwd()
read.csv("./swimming_pools.csv")

Esta función carga los datos (y al estar en un notebook de jupyter los muestra en la página) pero si no los asignamos a una variable no podremos trabajar con ellos:

In [None]:
datos <- read.csv("swimming_pools.csv")

Si queremos ver la estructura del dataframe que hemos cargado podemos usar la función str():

In [None]:
str(datos)

Existe una opción para que las cadenas que cargemos no se transformen automáticamente en factores: stringsAsFactors=F

In [None]:
datos <- read.csv("swimming_pools.csv",stringsAsFactors=F)

Podemos echar un vistazo a los datos usando la función _str()_:

**Ejercicio**:

Sin embargo el paquete del tidyverse readr proporciona funciones alternativas para la lectura de la mayoría de los tipos de ficheros que  funcionan mejor que las funciones por defecto:



**read_csv()** lee ficheros csv que usan ',' como separador

**read_csv2()** lee ficheros csv que usan ';' como separador (estos ficheros son comunes en los paises donde la , se usa como separador de decimales, como España), 


Las funciones de readr hacen un mejor trabajo que las básicas infiriendo el tipo de columnas de los datos a partir de los valores, y además si hay valores inesperados que no cuadran con el tipo de los datos inferidos proporcionarán dicha información, ayudándonos a encontrar errores o problemas en los datos leídos. 

**Ejercicio**: Cargar la librerías del tidyverse y el conjunto de datos de piscinas en un tibble llamado 'piscinas' usando las librerias de readr. Mostrar la estructura del conjunto de datos y sus estadísticas básicas (con _summary()_).

### Fichero textuales delimitados

Otro formato muy común de fichero de datos son los ficheros delimitados por algún tipo de cadena o carácter (por ejemplo tabuladores).
En R tenemos una función similar a la anterior para cargar este tipo de ficheros:

In [None]:
getwd()
dir()
read.delim("hotdogs.txt",stringsAsFactors=F,header=F)

El conjunto de datos de perritos calientes (hotdog.txt) contiene datos sobre marcas , clasificados por tipo: carne de res, carne y aves. El dataset proporciona la cantidad de sodio y calorías  para cada marca.

**Ejercicio**: Cargar el dataset de perritos calientes en un tibble llamado 'hotdogs' usando la función de readr read_tsv() y modificar los nombres de las variables en el dataset de perritos por 'tipo','sodio' y 'calorías',

Si el carácter o subcadena delimitadora es un poco más exótica, tendremos especificarla nosotros con una función distinta:

In [None]:
read.table("states2.txt",sep="/",header=T,stringsAsFactors=F)

El parámetro _header_ indica que la primera fila contiene el nombre de las columnas (por defecto toma valor a Falso).
El parámetro delim especifica la cadena delimitadora.

Hay otras dos funciones que nos serán muy útiles: a la hora de visualizar la estructura de los datos, _summary()_; y para visualizar los primeros valores de un dataframe _head()_.

**Ejercicio**: Use esas dos funciones sobre el dataset anterior.

En readr tenemos funciones también para la lectura de datos delimtados:

**read_tsv()** lee ficheros delimitados por tabuladores

**[read_delim()](https://www.rdocumentation.org/packages/readr/versions/1.3.1/topics/read_delim)** lee ficheros de texto plano donde podemos indicar los delimitadores tanto de columna, como de fila.

**Ejercicio**: Leer el fichero "states2.txt" usando las funciones de readr y almacenarlo en un tibbl llamado states. Comprobar el resultado usando las funciones summary, head y str.
 

In [None]:
states <- read_delim("states2.txt",delim="/")
states

## Ficheros textuales estructurados

### JSON

JSON es un formato textual para representar información estructurada muy popular que está basado en la sintaxis de la notación de objetos de Javascript.

La mayoría de las APIs modernas usan JSON como formato subyacente a HTTP para la transmisión de información estructurada. 

Si combinamos las capacidad para realizar peticiones HTTP del paquete [httr](https://www.rdocumentation.org/packages/httr/versions/1.4.0), con las capacidades de importación de json de R, podremos consumir APIs e importar la información que éstas proporcionan de manera muy cómoda.

Por ejemplo:

In [35]:
# Cargamos las librerías y lanzamos la petición
library(httr)
url <- "http://www.omdbapi.com/?apikey=72bc447a&t=Annie+Hall&y=&plot=short&r=json"
resp <- GET(url)

# Imprimimos el objeto respuesta directamente
print(resp)

# Imprimimos el contenido de resp como texto
print(content(resp,as="text"))

# Obtenermos el contenido de resp como objetos e imprimimos todo su
# contenido y algunos campos
jsonObj <- content(resp)
print(jsonObj)
jsonObj$Ratings

Response [http://www.omdbapi.com/?apikey=72bc447a&t=Annie+Hall&y=&plot=short&r=json]
  Date: 2019-02-01 11:32
  Status: 200
  Content-Type: application/json; charset=utf-8
  Size: 929 B

[1] "{\"Title\":\"Annie Hall\",\"Year\":\"1977\",\"Rated\":\"PG\",\"Released\":\"20 Apr 1977\",\"Runtime\":\"93 min\",\"Genre\":\"Comedy, Romance\",\"Director\":\"Woody Allen\",\"Writer\":\"Woody Allen, Marshall Brickman\",\"Actors\":\"Woody Allen, Diane Keaton, Tony Roberts, Carol Kane\",\"Plot\":\"Neurotic New York comedian Alvy Singer falls in love with the ditzy Annie Hall.\",\"Language\":\"English, German\",\"Country\":\"USA\",\"Awards\":\"Won 4 Oscars. Another 26 wins & 8 nominations.\",\"Poster\":\"https://m.media-amazon.com/images/M/MV5BZDg1OGQ4YzgtM2Y2NS00NjA3LWFjYTctMDRlMDI3NWE1OTUyXkEyXkFqcGdeQXVyMjUzOTY1NTc@._V1_SX300.jpg\",\"Ratings\":[{\"Source\":\"Internet Movie Database\",\"Value\":\"8.0/10\"},{\"Source\":\"Rotten Tomatoes\",\"Value\":\"97%\"},{\"Source\":\"Metacritic\",\"Value\":\"92/1

Si necesitamos un control más detallado del tratamiento que se da a la estructura del JSON de cara a la importación del dataset, o el acceso a la API se hace con GETs simples, es recomendable usar el paquete [jsonlite](https://cran.r-project.org/web/packages/jsonlite/index.html). Por ejemplo, si consumimos la API de datos financieros Quandl para ver la evolución de las acciones de Facebook:

In [36]:
library(jsonlite)

quandl_url <- "https://www.quandl.com/api/v3/datasets/WIKI/FB/data.json?auth_token=i83asDsiWUUyfoypkgMz"

quandl_data <- fromJSON(quandl_url)


str(quandl_data)

head(quandl_data)


Attaching package: 'jsonlite'

The following object is masked from 'package:purrr':

    flatten



List of 1
 $ dataset_data:List of 10
  ..$ limit       : NULL
  ..$ transform   : NULL
  ..$ column_index: NULL
  ..$ column_names: chr [1:13] "Date" "Open" "High" "Low" ...
  ..$ start_date  : chr "2012-05-18"
  ..$ end_date    : chr "2018-03-27"
  ..$ frequency   : chr "daily"
  ..$ data        : chr [1:1472, 1:13] "2018-03-27" "2018-03-26" "2018-03-23" "2018-03-22" ...
  ..$ collapse    : NULL
  ..$ order       : NULL


0,1,2,3,4,5,6,7,8,9,10,11,12
2018-03-27,156.31,162.85,150.75,152.19,76787884,0,1,156.31,162.85,150.75,152.19,76787884
2018-03-26,160.82,161.1,149.02,160.06,125438294,0,1,160.82,161.1,149.02,160.06,125438294
2018-03-23,165.44,167.1,159.02,159.39,52306891,0,1,165.44,167.1,159.02,159.39,52306891
2018-03-22,166.13,170.27,163.72,164.89,73389988,0,1,166.13,170.27,163.72,164.89,73389988
2018-03-21,164.8,173.4,163.3,169.39,105350867,0,1,164.8,173.4,163.3,169.39,105350867
2018-03-20,167.47,170.2,161.95,168.15,128925534,0,1,167.47,170.2,161.95,168.15,128925534
2018-03-19,177.01,177.17,170.06,172.56,86897749,0,1,177.01,177.17,170.06,172.56,86897749
2018-03-16,184.49,185.33,183.41,185.09,23090480,0,1,184.49,185.33,183.41,185.09,23090480
2018-03-15,183.24,184,182.19,183.86,15461869,0,1,183.24,184,182.19,183.86,15461869
2018-03-14,182.6,184.25,181.85,184.19,16426843,0,1,182.6,184.25,181.85,184.19,16426843


## Ficheros binarios y  otros formatos

Los ficheros binarios suelen estar asociados a aplicaciones concretas (como EXCEL, base de datos, etc.) La codificación de la información en el fichero es específica de cada aplicación, por lo que no podemos ver el contenido del fichero con cualquier editor, sino que necesitaremos la aplicación concreta asociada.

Afortunadamente R es un sistema extensible que incorpora paquetes que permiten importar datos de casi cualquier tipo de fichero.
Para la lectura de esos tipos de ficheros binarios debemos acudir normalmente a  paquetes específicos, por lo que no cubriremos en detalle cada tipo de fichero y paquete concreto. Sin embargo, se proporcionan enlaces a buenos tutoriales para los tipos de ficheros más comunes:

 * [Microsft Excel](https://www.datacamp.com/community/tutorials/r-tutorial-read-excel-into-r)
 * [Ficheros de SAS,STATA, y SPSS](https://www.datacamp.com/community/tutorials/r-data-import-tutorial#spss)
 * [Conectarse a MySQL y leer una tabla](https://www.r-bloggers.com/accessing-mysql-through-r/)
 
 **Ejercicio (Opcional)**: Cargar los datos del fichero excel _latitude.xls_.

## Importación de información no estructurada

R incorpora mecanismos para la importación de información no estructurada, pero dichas capacidades quedan fuera del objeto de este curso, puesto que existen asignaturas específicas sobre este tema en el máster. 

Sin embargo, si el alumno está interesado en utilizar web scraping para la obtención de datos del trabajo final, le recomendamos [este tutorial sobre el paquete rvest](https://blog.rstudio.com/2014/11/24/rvest-easy-web-scraping-with-r/).

## Importación desde la web

Si los ficheros están en alguno de los formatos especificados anteriormente, la lectura de la información a través de http suele estar integrada directamente en los propios paquetes, por lo que normalmente basta con sustituir el nombre del fichero local por una url y el resto del proceso será el mismo. Por ejemplo:

In [18]:
url_delim <- "http://s3.amazonaws.com/assets.datacamp.com/production/course_1478/datasets/potatoes.txt"
patatas <- read_tsv(url_delim)
summary(patatas)

Parsed with column specification:
cols(
  area = col_integer(),
  temp = col_integer(),
  size = col_integer(),
  storage = col_integer(),
  method = col_integer(),
  texture = col_double(),
  flavor = col_double(),
  moistness = col_double()
)


      area          temp          size        storage         method 
 Min.   :1.0   Min.   :1.0   Min.   :1.0   Min.   :1.00   Min.   :1  
 1st Qu.:1.0   1st Qu.:1.0   1st Qu.:1.0   1st Qu.:1.75   1st Qu.:2  
 Median :1.5   Median :1.5   Median :1.5   Median :2.50   Median :3  
 Mean   :1.5   Mean   :1.5   Mean   :1.5   Mean   :2.50   Mean   :3  
 3rd Qu.:2.0   3rd Qu.:2.0   3rd Qu.:2.0   3rd Qu.:3.25   3rd Qu.:4  
 Max.   :2.0   Max.   :2.0   Max.   :2.0   Max.   :4.00   Max.   :5  
    texture          flavor        moistness    
 Min.   :1.400   Min.   :2.000   Min.   :1.300  
 1st Qu.:2.200   1st Qu.:2.700   1st Qu.:2.175  
 Median :2.600   Median :2.900   Median :2.500  
 Mean   :2.542   Mean   :2.911   Mean   :2.421  
 3rd Qu.:2.900   3rd Qu.:3.100   3rd Qu.:2.700  
 Max.   :3.700   Max.   :3.500   Max.   :3.300  

Cuando los paquetes que leen del formato que queremos usar no integran automáticamente el uso de URLs, siempre podemos descargarnos nosotros el fichero y cargarlo de manera local con la función [download.file()](https://www.rdocumentation.org/packages/utils/versions/3.5.2/topics/download.file).

## Resolución de problemas durante la importación de datos

Durante la importación de datos se pueden generar problemas, que vienen asociados principalmente con el tipo de datos que se infiere para las variables.

readr incorpora un dataset de ejemplo para ver cómo pueden presentarse estos problemas:

In [37]:
challenge <- read_csv(readr_example("challenge.csv"))

Parsed with column specification:
cols(
  x = col_integer(),
  y = col_character()
)
"1000 parsing failures.
row # A tibble: 5 x 5 col     row col   expected        actual      file                                  expected   <int> <chr> <chr>           <chr>       <chr>                                 actual 1  1001 x     no trailing ch~ .238379750~ 'C:/Users/japar/OneDrive/Documentos/~ file 2  1002 x     no trailing ch~ .411679971~ 'C:/Users/japar/OneDrive/Documentos/~ row 3  1003 x     no trailing ch~ .746071676~ 'C:/Users/japar/OneDrive/Documentos/~ col 4  1004 x     no trailing ch~ .723450553~ 'C:/Users/japar/OneDrive/Documentos/~ expected 5  1005 x     no trailing ch~ .614524137~ 'C:/Users/japar/OneDrive/Documentos/~
... ................. ... ............................................................................... ........ ............................................................................... ...... .................................................................

Si queremos comprobar si readr ha detectado algún posible problema, siempre podemos llamar a la función problems sobre el tibble que se ha cargado:

In [38]:
problems(challenge)

row,col,expected,actual,file
1001,x,no trailing characters,.23837975086644292,'C:/Users/japar/OneDrive/Documentos/R/win-library/3.5/readr/extdata/challenge.csv'
1002,x,no trailing characters,.41167997173033655,'C:/Users/japar/OneDrive/Documentos/R/win-library/3.5/readr/extdata/challenge.csv'
1003,x,no trailing characters,.7460716762579978,'C:/Users/japar/OneDrive/Documentos/R/win-library/3.5/readr/extdata/challenge.csv'
1004,x,no trailing characters,.723450553836301,'C:/Users/japar/OneDrive/Documentos/R/win-library/3.5/readr/extdata/challenge.csv'
1005,x,no trailing characters,.614524137461558,'C:/Users/japar/OneDrive/Documentos/R/win-library/3.5/readr/extdata/challenge.csv'
1006,x,no trailing characters,.473980569280684,'C:/Users/japar/OneDrive/Documentos/R/win-library/3.5/readr/extdata/challenge.csv'
1007,x,no trailing characters,.5784610391128808,'C:/Users/japar/OneDrive/Documentos/R/win-library/3.5/readr/extdata/challenge.csv'
1008,x,no trailing characters,.2415937229525298,'C:/Users/japar/OneDrive/Documentos/R/win-library/3.5/readr/extdata/challenge.csv'
1009,x,no trailing characters,.11437866208143532,'C:/Users/japar/OneDrive/Documentos/R/win-library/3.5/readr/extdata/challenge.csv'
1010,x,no trailing characters,.2983446326106787,'C:/Users/japar/OneDrive/Documentos/R/win-library/3.5/readr/extdata/challenge.csv'


En este caso parece que los problemas vienen de que la primera columno no es en realidad un entero sino un flotante. Podemos especificar el formato de columnas a usar al importar los datos de la siguiente manera:

In [40]:
challenge <- read_csv(
  readr_example("challenge.csv"), 
  col_types = cols(
    x = col_double(),
    y = col_character()
  )
)

problems(challenge)
str(challenge)
tail(challenge)

row,col,expected,actual


Classes 'tbl_df', 'tbl' and 'data.frame':	2000 obs. of  2 variables:
 $ x: num  404 4172 3004 787 37 ...
 $ y: chr  NA NA NA NA ...
 - attr(*, "spec")=List of 2
  ..$ cols   :List of 2
  .. ..$ x: list()
  .. .. ..- attr(*, "class")= chr  "collector_double" "collector"
  .. ..$ y: list()
  .. .. ..- attr(*, "class")= chr  "collector_character" "collector"
  ..$ default: list()
  .. ..- attr(*, "class")= chr  "collector_guess" "collector"
  ..- attr(*, "class")= chr "col_spec"


x,y
0.8052743,2019-11-21
0.1635163,2018-03-29
0.471939,2014-08-04
0.7183186,2015-08-16
0.2698786,2020-02-04
0.6082372,2019-01-06


Ya no hay problemas en problems(), pero eso no significa que no tengamos errores.
Parece que estamos interpretando una fecha como una cadena, por lo que luego tendremos que 
parsearla/convertirla. Podemo hacer que readr lo haga por nosotros de la siguente manera:

In [44]:
challenge <- read_csv(
  readr_example("challenge.csv"), 
  col_types = cols(
    x = col_double(),
    y = col_date()
  )
)
str(challenge)
tail(challenge)

Classes 'tbl_df', 'tbl' and 'data.frame':	2000 obs. of  2 variables:
 $ x: num  404 4172 3004 787 37 ...
 $ y: Date, format: NA NA ...
 - attr(*, "spec")=List of 2
  ..$ cols   :List of 2
  .. ..$ x: list()
  .. .. ..- attr(*, "class")= chr  "collector_double" "collector"
  .. ..$ y:List of 1
  .. .. ..$ format: chr ""
  .. .. ..- attr(*, "class")= chr  "collector_date" "collector"
  ..$ default: list()
  .. ..- attr(*, "class")= chr  "collector_guess" "collector"
  ..- attr(*, "class")= chr "col_spec"


x,y
0.8052743,2019-11-21
0.1635163,2018-03-29
0.471939,2014-08-04
0.7183186,2015-08-16
0.2698786,2020-02-04
0.6082372,2019-01-06


# Integración de datos


La integración de datos supone unir en un dataset los datos de varios datasets independientes según criterios coherentes con la semántica de los datos.

Para ello es necesario identificar las distintas relaciones que se establecen entre los datos, y aplicar operaciones que generen datasets unidos conforme a esas relaciones.
A veces es interesante crear un digrama UML o Entidad Relación donde se hagán explícitas las distintas relaciones y se anoten las que vamos usar para nuestros diversos análisis y diagramas.

El tipo más común de relación es aquella en la que las tablas tienen una o varias columnas compartidas que en al menos uno de los casos identifican a la observación correspondiente. Este es el típo caso de clave ajena / join en bases de datos relacionales.

Hay tres familias de verbos diseñados para trabajar con datos relacionales:

* **Mutating Joins**: que añaden nuevas variables a un dataset partir de observaciones coincidentes en otro. Como ya hemos dicho es el caso más común de relación.

* **Filtering Joins**: que filtran las observaciones de un dataset en función de si coinciden o no con una observación en el otro.

* **Operaciones de conjuntos**: que tratan las observaciones como si fueran elementos de un conjunto.


Para trabajar con datos interesantes en esta sección utilizaremos un paquete de datos de vuelos de ejemplo proporcionado por readr, que tiene varios datasets:

 * _airlines_: que contiene los datos de las aerolineas.
 * _airports_: que contiene los datos de los aeropuertos, identificado por su código (columna faa).
 * _planes_: que contiene los datos de los aviones.
 * _weather_: que contiene los datos del tiempo atmosférico en cada hora en cada areopuerto.

In [48]:
#install.packages("nycflights13")
library(nycflights13)

airlines

airports

planes

weather


carrier,name
9E,Endeavor Air Inc.
AA,American Airlines Inc.
AS,Alaska Airlines Inc.
B6,JetBlue Airways
DL,Delta Air Lines Inc.
EV,ExpressJet Airlines Inc.
F9,Frontier Airlines Inc.
FL,AirTran Airways Corporation
HA,Hawaiian Airlines Inc.
MQ,Envoy Air


faa,name,lat,lon,alt,tz,dst,tzone
04G,Lansdowne Airport,41.13047,-80.61958,1044,-5,A,America/New_York
06A,Moton Field Municipal Airport,32.46057,-85.68003,264,-6,A,America/Chicago
06C,Schaumburg Regional,41.98934,-88.10124,801,-6,A,America/Chicago
06N,Randall Airport,41.43191,-74.39156,523,-5,A,America/New_York
09J,Jekyll Island Airport,31.07447,-81.42778,11,-5,A,America/New_York
0A9,Elizabethton Municipal Airport,36.37122,-82.17342,1593,-5,A,America/New_York
0G6,Williams County Airport,41.46731,-84.50678,730,-5,A,America/New_York
0G7,Finger Lakes Regional Airport,42.88356,-76.78123,492,-5,A,America/New_York
0P2,Shoestring Aviation Airfield,39.79482,-76.64719,1000,-5,U,America/New_York
0S9,Jefferson County Intl,48.05381,-122.81064,108,-8,A,America/Los_Angeles


tailnum,year,type,manufacturer,model,engines,seats,speed,engine
N10156,2004,Fixed wing multi engine,EMBRAER,EMB-145XR,2,55,,Turbo-fan
N102UW,1998,Fixed wing multi engine,AIRBUS INDUSTRIE,A320-214,2,182,,Turbo-fan
N103US,1999,Fixed wing multi engine,AIRBUS INDUSTRIE,A320-214,2,182,,Turbo-fan
N104UW,1999,Fixed wing multi engine,AIRBUS INDUSTRIE,A320-214,2,182,,Turbo-fan
N10575,2002,Fixed wing multi engine,EMBRAER,EMB-145LR,2,55,,Turbo-fan
N105UW,1999,Fixed wing multi engine,AIRBUS INDUSTRIE,A320-214,2,182,,Turbo-fan
N107US,1999,Fixed wing multi engine,AIRBUS INDUSTRIE,A320-214,2,182,,Turbo-fan
N108UW,1999,Fixed wing multi engine,AIRBUS INDUSTRIE,A320-214,2,182,,Turbo-fan
N109UW,1999,Fixed wing multi engine,AIRBUS INDUSTRIE,A320-214,2,182,,Turbo-fan
N110UW,1999,Fixed wing multi engine,AIRBUS INDUSTRIE,A320-214,2,182,,Turbo-fan


origin,year,month,day,hour,temp,dewp,humid,wind_dir,wind_speed,wind_gust,precip,pressure,visib,time_hour
EWR,2013,1,1,1,39.02,26.06,59.37,270,10.35702,,0,1012.0,10,2013-01-01 01:00:00
EWR,2013,1,1,2,39.02,26.96,61.63,250,8.05546,,0,1012.3,10,2013-01-01 02:00:00
EWR,2013,1,1,3,39.02,28.04,64.43,240,11.50780,,0,1012.5,10,2013-01-01 03:00:00
EWR,2013,1,1,4,39.92,28.04,62.21,250,12.65858,,0,1012.2,10,2013-01-01 04:00:00
EWR,2013,1,1,5,39.02,28.04,64.43,260,12.65858,,0,1011.9,10,2013-01-01 05:00:00
EWR,2013,1,1,6,37.94,28.04,67.21,240,11.50780,,0,1012.4,10,2013-01-01 06:00:00
EWR,2013,1,1,7,39.02,28.04,64.43,240,14.96014,,0,1012.2,10,2013-01-01 07:00:00
EWR,2013,1,1,8,39.92,28.04,62.21,250,10.35702,,0,1012.2,10,2013-01-01 08:00:00
EWR,2013,1,1,9,39.92,28.04,62.21,260,14.96014,,0,1012.7,10,2013-01-01 09:00:00
EWR,2013,1,1,10,41.00,28.04,59.65,260,13.80936,,0,1012.4,10,2013-01-01 10:00:00


Un diagrama describiendo las relaciones entre los conjuntos de datos sería:

![Diagrama](https://d33wubrfki0l68.cloudfront.net/245292d1ea724f6c3fd8a92063dcd7bfb9758d02/5751b/diagrams/relational-nycflights.png)

Donde las celdas sombreadas representan las columnas clave (que identifican unívocamente las observaciones) de cada conjunto de datos. 

Lo primero que vamos a hacer es crear un dataset de vuelos un poco más pequeño para poder manejar mejor la información:

In [50]:
flights2 <- flights %>% 
  select(year:day, hour, origin, dest, tailnum, carrier)
flights2

year,month,day,hour,origin,dest,tailnum,carrier
2013,1,1,5,EWR,IAH,N14228,UA
2013,1,1,5,LGA,IAH,N24211,UA
2013,1,1,5,JFK,MIA,N619AA,AA
2013,1,1,5,JFK,BQN,N804JB,B6
2013,1,1,6,LGA,ATL,N668DN,DL
2013,1,1,5,EWR,ORD,N39463,UA
2013,1,1,6,EWR,FLL,N516JB,B6
2013,1,1,6,LGA,IAD,N829AS,EV
2013,1,1,6,JFK,MCO,N593JB,B6
2013,1,1,6,LGA,ORD,N3ALAA,AA


Si quisieramos mostrar la información completa de las líneas aéreas asociada a cada vuelo, necesitaríamos hacer un join entre ambas tablas (concretamente un left join, para no añadir los datos de ninguna compañía aérea para la que no hubiera vuelos, y que si hay algún vuelo cuya compañia no está en la tabla de lineas aéreas, este no se pierda):

In [52]:
flights2 %>%
  select(-origin, -dest) %>% 
  left_join(airlines, by = "carrier")

year,month,day,hour,tailnum,carrier,name
2013,1,1,5,N14228,UA,United Air Lines Inc.
2013,1,1,5,N24211,UA,United Air Lines Inc.
2013,1,1,5,N619AA,AA,American Airlines Inc.
2013,1,1,5,N804JB,B6,JetBlue Airways
2013,1,1,6,N668DN,DL,Delta Air Lines Inc.
2013,1,1,5,N39463,UA,United Air Lines Inc.
2013,1,1,6,N516JB,B6,JetBlue Airways
2013,1,1,6,N829AS,EV,ExpressJet Airlines Inc.
2013,1,1,6,N593JB,B6,JetBlue Airways
2013,1,1,6,N3ALAA,AA,American Airlines Inc.


Observe cómo la nueva tabla tiene una columna adicional '**name**' con el nombre completo de la compañía aérea.

Otro tipo de join muy común es el inner join, que solo genera las filas para las que hay observaciones que conectan en las dos tablas, es decir, en este caso perderíamos los vuelos cuyas compañías no estuvieran en la tabla de líneas aéreas.


In [53]:
flights2 %>%
  select(-origin, -dest) %>% 
  inner_join(airlines, by = "carrier")

year,month,day,hour,tailnum,carrier,name
2013,1,1,5,N14228,UA,United Air Lines Inc.
2013,1,1,5,N24211,UA,United Air Lines Inc.
2013,1,1,5,N619AA,AA,American Airlines Inc.
2013,1,1,5,N804JB,B6,JetBlue Airways
2013,1,1,6,N668DN,DL,Delta Air Lines Inc.
2013,1,1,5,N39463,UA,United Air Lines Inc.
2013,1,1,6,N516JB,B6,JetBlue Airways
2013,1,1,6,N829AS,EV,ExpressJet Airlines Inc.
2013,1,1,6,N593JB,B6,JetBlue Airways
2013,1,1,6,N3ALAA,AA,American Airlines Inc.


Si usamos un diagrama de Venn para describir los distintos tipos de join tendríamos:

![joins](https://d33wubrfki0l68.cloudfront.net/aeab386461820b029b7e7606ccff1286f623bae1/ef0d4/diagrams/join-venn.png)

Para más información sobre otros tipos de join y el uso de operaciones de conjuntos para la gestión de datos relacionales, remitimos al alumno al capítulo correspondiente de [R for data Science](https://r4ds.had.co.nz/relational-data.html#filtering-joins)