<img src="logo.png">

# Combinación de data frames

Una base de datos es un conjunto de una o más tablas (dataframes). Por lo general, estas tablas están relacionadas entre sí (base de datos relacional). 

A veces, la razón para dispersar la información de una base en varias tablas es simplemente para no tener tablas tan grandes. En este capítulo aprenderemos a pasar la información de una tabla a otra mediante **R**.

## Tipos de *joins*

En bases de datos, la operación de llevar la información desde una tabla a otra se conoce como *join*. Existen diversos tipos, pero en esta sección únicamente analizaremos el interno, el izquierdo, el derecho y el total.

<img src="joins.png" width="400">

Hacer un join de un dataframe $A$ en otro dataframe $B$ consiste en llevar parte (o toda) la información desde $A$ hasta $B$. Por ejemplo, consideremos los dos dataframes siguientes:

<img src="im02.png">

Como puede observarse, el dataframe de la *izquierda* no contiene la información del país ni el tipo al que pertenece la marca (brand), en tanto que el de la *derecha* no contiene ni mpg, cyl, disp, ni hp. Esto puede deberse a que la información de la tabla izquierda es información puntual sobre cada carro dependiendo de su modelo, en tanto que la derecha es información sobre la marca.


De esta manera, si queremos llevar la información desde la tabla derecha a la izquierda, o desde la tabla izquierda a la derecha, requerimos hacer un join. Notemos que ambas tablas comparte una columna a través de la cual se relacionan: brand y car_brand. Estas columnas mediante las cuales realizamos el join se conocen como *columnas join*. 


In [None]:
data(mtcars)

# Agregramos la columna brand a mtcars
mtcars$brand  <- c("Mazda","Mazda","Datsun","Hornet","Hornet","Valiant","Duster","Merc",
                   "Merc","Merc","Merc","Merc","Merc","Merc","Cadillac","Lincoln",
                   "Chrysler","Fiat","Honda","Toyota","Toyota","Dodge","AMC","Camaro",
                   "Pontiac","Fiat","Porsche","Lotus","Ford","Ferrari","Maserati","Volvo")

mtcars$model  <- row.names(mtcars)

# creamos el dataframe de marcas
brands_origin <- data.frame(
  car_brand = c("Mazda","Toyota","Fiat","Volvo","Skoda"),
  country = c("Japan","Japan","Italy","Sweden","Checa"),
  type = c("A","B","C","D","E")
)

La función básica para realizar joins en **R** es ``merge()``. 

### Join interno (inner join)

Se refiere a formar una nueva tabla de la siguiente manera: se intersectan las columnas join de ambas tablas y se observan los elementos en común. Cada nuevo renglón se crea utilizando la información de la tabla izquierda y la información de la tabla derecha de esos elementos que se tienen en común.

<img src="im03.png">

In [None]:
merge(mtcars,brands_origin,   
      by.x="brand",by.y="car_brand")

### Join izquierdo (left join)

Este sirve para jalar la información de la segunda tabla hacia la primera (es decir, de derecha a izquierda). Cuando no hay coincidencia, coloca ``NA``.

<img src="im04.png">

In [None]:
merge(mtcars,brands_origin,
      by.x = "brand", by.y = "car_brand",
      all.x = TRUE
     )

### Join derecho (right join)

Este sirve para jalar la información de la primera tabla hacia la segunda (es decir, de izquerda a derecha). Cuando no hay coincidencia, coloca ``NA``.

<img src="im05.png">

In [None]:
merge(mtcars,brands_origin,
      by.x = "brand", by.y = "car_brand",
      all.y = TRUE
     )

### join total (full join)

Este se refiere a hacer una nueva tabla formada por todos los renglones de ambas y rellenando con ``NA`` donde no hay coincidencia.

<img src="im06.png">

In [None]:
merge(mtcars,brands_origin,
      by.x = "brand", by.y = "car_brand",
      all= TRUE
     )