# Joining (Merging) DataFrames

Usemos [MovieLens 100k data](http://grouplens.org/datasets/movielens/), Creemos dos dataframes:

- **movies**: muestra información sobre películas, a saber, un único **movie_id** y es **title**
- **ratings**: scómo está el **rating** Que una particular **user_id** dio a un particular **movie_id** en un particular **timestamp**

### Movies

In [1]:
import pandas as pd
movie_url = 'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/u.item'
movie_cols = ['movie_id', 'title']
movies = pd.read_table(movie_url, sep='|', header=None, names=movie_cols, usecols=[0, 1])
movies.head()

Unnamed: 0,movie_id,title
0,1,Toy Story (1995)
1,2,GoldenEye (1995)
2,3,Four Rooms (1995)
3,4,Get Shorty (1995)
4,5,Copycat (1995)


### Ratings

In [2]:
rating_url = 'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/u.data'
rating_cols = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_table(rating_url, sep='\t', header=None, names=rating_cols)
ratings.head()

Unnamed: 0,user_id,movie_id,rating,timestamp
0,196,242,3,881250949
1,186,302,3,891717742
2,22,377,1,878887116
3,244,51,2,880606923
4,166,346,1,886397596


Imagina que deseamos mirar los ratings de un set de películos, y queremos conocer el **title** de cada película además de su **movie_id**. La mejor manera de lograr este objetivo es "unirse" (o "fusionarse") el DataFrames utilizando la función de Pandas `merge` :

In [3]:
movie_ratings = pd.merge(movies, ratings)
movie_ratings.head()

Unnamed: 0,movie_id,title,user_id,rating,timestamp
0,1,Toy Story (1995),308,4,887736532
1,1,Toy Story (1995),287,5,875334088
2,1,Toy Story (1995),148,4,877019411
3,1,Toy Story (1995),280,4,891700426
4,1,Toy Story (1995),66,3,883601324


Esto es lo que acaba de pasar:

- Pandas notó que las películas y las calificaciones tenían una columna en común, a saber **movie_id**. TLa suya es la "clave" en la que se unirán los marcos de datos.
- La primera **movie_id** En las películas es 1. Por lo tanto, Pandas revisó cada fila en el marcado de datos de calificaciones, buscando un cine_id de 1. Cada vez que encontraba una fila de este tipo, grabó el **user_id**, **rating**, y **timestamp** lIsted en esa fila.En este caso, encontró 452 filas coincidentes.
- La segunda **movie_id** En las películas es 2. Una vez más, Pandas buscó calificaciones y encontró 131 filas coincidentes.
- Este proceso se repitió para todas las filas restantes de las películas.
Al final del proceso, se crea el cuadro de datos de películas_ratings, que contiene las dos columnas de las películas (**movie_id** y**title**) y las otras tres columnas de las clasificaciones (**user_id**, **rating**, y **timestamp**).

- **movie_id** 1 y su **title** se enumeran 452 veces, al lado del **user_id**, **rating**, y**timestamp** para cada una de las 452 clasificaciones coincidentes.
- **movie_id** 2 y su **title** se enumeran 131 veces, al lado del **user_id**, **rating**, y **timestamp** para cada una de las 131 calificaciones coincidentes.
- Y así sucesivamente, para cada película en el conjunto de datos.

In [4]:
print movies.shape
print ratings.shape
print movie_ratings.shape

(1682, 2)
(100000, 4)
(100000, 5)


Observe las formas de los tres marcos de datos:

- Hay 1682 filas en las películas DataFrame.
- Hay 100000 filas en la calificación DataFrame.
- La función `merge` dio como resultado un marco de datos de películas_ratings con 100000 filas, porque cada fila de las calificaciones coincidía con una fila de las películas.
- El DataFrame de películas_ratings tiene 5 columnas, a saber, las 2 columnas de las películas, más las 4 columnas de las calificaciones, menos la 1 columna en común.

De manera predeterminada, la función `merge` se une a los marcos de datos utilizando todos los nombres de columnas que son en común (**movie_id**), en este caso.La [documentación] (http://pandas.pydata.org/pandas-docs/stable/generated/pandas.dataframe.merge.html) explica cómo puede anular este comportamiento.

## Cuatro tipos de uniones

En realidad, hay cuatro tipos de uniones compatibles con la función Pandas `Merge`.Así es como los describen la documentación:

- **inner:** Use la intersección de claves de ambos cuadros (SQL: unión interna)
- **outer:** Use unión de claves de ambos cuadros (SQL: unión exterior completa)
- **left:** Use solo claves del marco izquierdo (SQL: la unión externa izquierda)
- **right:** Use solo claves del marco derecho (SQL: unión exterior derecha)

El valor predeterminado es la "unión interna", que se usó al crear el DataFrame de películas_ratings.
Es más fácil comprender los diferentes tipos mirando algunos ejemplos simples:

### Ejemplo con Dataframes A y B

In [5]:
A = pd.DataFrame({'color': ['green', 'yellow', 'red'], 'num':[1, 2, 3]})
A

Unnamed: 0,color,num
0,green,1
1,yellow,2
2,red,3


In [6]:
B = pd.DataFrame({'color': ['green', 'yellow', 'pink'], 'size':['S', 'M', 'L']})
B

Unnamed: 0,color,size
0,green,S
1,yellow,M
2,pink,L


### Inner Join

Solo incluyen observaciones encontradas tanto en A como en B:

In [7]:
pd.merge(A, B, how='inner')

Unnamed: 0,color,num,size
0,green,1,S
1,yellow,2,M


### Outer join

Incluya observaciones encontradas en A o B:

In [8]:
pd.merge(A, B, how='outer')

Unnamed: 0,color,num,size
0,green,1.0,S
1,yellow,2.0,M
2,red,3.0,
3,pink,,L


### Left join

Incluya todas las observaciones encontradas en A:

In [9]:
pd.merge(A, B, how='left')

Unnamed: 0,color,num,size
0,green,1,S
1,yellow,2,M
2,red,3,


### Right join

Incluya todas las observaciones encontradas en B:

In [10]:
pd.merge(A, B, how='right')

Unnamed: 0,color,num,size
0,green,1.0,S
1,yellow,2.0,M
2,pink,,L
