# Joining Data

A continuación tienes un dataset de películas obtenidas de IMDb. La copia de los datos fueron de la base de diferentes tablas y se guardaron en formato pickle.

OBS: En las celdas de procesamiento si ves ___ es para que reemplaces.

Por un lado se tiene `movies.p` con una tabla con el título de la película, un identificador de la base de datos, popularidad y la fecha de estreno. Y por otro, `financials.p` con una tabla que posee para cada identificador, se presenta el presupuesto y el ingreso que tuvo cada película.

OBS: Durante el avanze del notebook cargaremos otros archivos

Queremos unir estas dos tablas para saber para unir la información de la película con su información financiera:

1. Importa `pandas` como `pd`

2. Lea `"movies.p"` y asignalo a `movies`. Imprima la cabecera de `movies` y además vea el tamaño de `movies` usando `.shape`

In [None]:
___ = pd.read_pickle("./movies.p")

3. Lea `"financials.p"` y asignalo a `financials`. Imprima la cabecera de `financials` y además vea el tamaño de `financials` usando `.shape` 

4. Haga un join entre `movies` y `financials` usando `.merge()`, usando a la columna `"id"` como valor para el join. El join debe ser `"inner"` (valor por defecto). Asignelo a `movies_with_financials`

In [None]:
___ = movies.merge(right=___, on=[___])

5. Vea el tamaño de `movies_with_financials` usando `.shape`. ¿Se mantuvieron todas las filas de `movies`? ¿Y de `financials`?

6. Encuentre la película con `movies_with_financials` y la columna `"budget"` que más presupuesto tuvo usando `.sort_values()`

In [None]:
___.sort_values(___, ascending=___)

---

## Relación uno a uno

En una relación uno a uno, cada fila de la tabla de la izquierda está relacionada con una y solo una fila de la tabla de la derecha. Es esperable que cada película tenga un solo presupuesto y un solo ingreso, es decir del join que se obtuvo `movies_with_financials` sea 1 a 1. Vamos a comprobar si esto es así, usando `.drop_duplicates()`:

1. Elimina los duplicados de `movies_with_financials` usando `.drop_duplicates()`. Asignalo a `movies_with_financials_no_dup` 

2. Imprima el tamaño de `movies_with_financials` y de `movies_with_financials_no_dup`. ¿Son diferentes o no? 

Otra forma de ver si el join es una a uno es usando el argumento `validate` en el momento que hacemos el join usando `.merge()`.

1. Realiza de nuevo el join entre `movies` y `financials`, usando a la columna `"id"` como valor para el join. Pero ahora incorpora a `.merge()` el argumento `validate="one_to_one"`.

In [None]:
___ = ___.merge(___, validate="one_to_one")

2. ¿El merge se pudo realizar o dio un error?

---
## Relación uno a N

El género (acción, comedia, etc) de una película nos permite clasificar a las películas y con ello, si construimos algún sistema de recomendación para usuarios de una plataforma de streaming, tenemos una forma de agrupar a las películas. Por ejemplo, si una persona ve muchas películas de acción y con detectives, se le pueden recomendar películas de ese tipo. 

Ahora, una película tiene muchos géneros, por lo que un join entre el listado de peliculas y una tabla que no de que género es cada pelicula es esperable tener un join con una relación 1 a N:

1. Lea `movie_to_genres.p` y asignalo a `genres`. Imprima las columnas de `genres`. Observe que aparece `"movie_id"` que es equivalente a la columna `"id"` de `movies`.


In [None]:
___ = pd.read_pickle(___)

In [None]:
___.columns

2. Realiza el join de tipo inner entre `movies` y `genres` usando *id*. Pero teniendo en cuenta la diferencia en la forma en que se llama *id* en ambos DataFrames. Para esto en vez de usar `on="id"`, use los argumento `left_on` y `right_on` indicando el nombre de la columna en cada argumento dependiendo de qué DataFrame está de cada lado. Asignelo a `movies_with_genre`.

In [None]:
___ = movies.merge(right=___, left_on=___, right_on=___)

3. Imprima el tamaño de `movies_with_genre` y además calcule cuánto creció en cantidad de filas con respecto a `movies`.

In [None]:
___ / movies.shape[__]

4. Quite la columna `"movie_id"` de `movies_with_genre`. Se puede realizar usando slicing de columnas o usando el metodo `.drop()` con `axis=1` e `inplace=True`

In [None]:
movies_with_genre.drop(__, axis=1, inplace=True)

---

## Multiple joins

Se quiere saber de las películas con un voto de popularidad promedio mayor a 8, cuál es su elenco. Esto se puede lograr con joins, pero necesitamos realizar varios joins para llegar a esta información, ya que la información está en diferentes tablas, y para unir esta información usaremos a `movies` como DataFrame que une la información de las otras tablas...

1. Lea `ratings.p` y asignalo a `ratings`

2. Lea `actors_movies.p` y asignalo a `actors_movies`

3. Haz un join entre `movies` y `ratings` usando como llave a la columna `"id"`. Asignelo a `movies_with_ratings`

In [None]:
___ = ___.merge(right=___, ___)

4. Haz un segundo join entre `movies_with_ratings` y `actors_movies` usando como llave a la columna `"title"`. Asignalo a `movies_with_ratings_actorlist`

5. Filtre las películas de `movies_with_ratings_actorlist` con un `"vote_average"` de mayor a 8 e imprima el resultado, realizando un slicing de las columnas `"title"` y `"actor"`.

In [None]:
___.loc[___, [___, ___]]

----

## Left join

Establecer `how='left'` con el método `.merge()` es una técnica útil para enriquecer o mejorar un conjunto de datos con información adicional de una tabla diferente, pero sin perder ningún dato del DataFrame original.

Para esto, vamos a agregar a nuestro DataFrame `movie` el tagline (o slogan) que tiene una pelicula. Como sabemos, no toda pelicula tiene un tagline, por lo que vamos a usar un join de tipo left. Particularmente nos vamos a centrar en la peliculas de `Toy Story`.

Recuerden que se puede filtrar en pandas usando métodos de strings:

``` Python
df_eduardos = df[df["nombre_completo"].str.contains("Eduardo")]
```

1. Filtre en `movies` a las películas que tengan en el título el string `"Toy Story"`. Además del filtrado, haga una copia usando `.copy()`. Asignelo a `toy_story`.

In [None]:
___ = movies[movies[___].str.contains(___)]

2. Lea `taglines.p` y asignalo a `taglines`

3. Haz un join del tipo left (usando `how=”left”`) entre `toy_story` y `taglines` usando como key a `"id"`. Asignalo a `toy_story_tagline`

In [None]:
___ = ___.merge(___, how="left")

4. Imprima `toy_story_tagline`. ¿Que película no tuvo un tagline?

---

## Right join para para encontrar películas únicas

La mayoría de las películas de los últimos tiempos de ciencia ficción de gran presupuesto también pueden clasificarse como películas de acción. Tienes una tabla de películas de ciencia ficción en `scifi.p` y otra tabla de películas de acción en `action.p`. Tu objetivo es encontrar qué películas se consideran solo películas de ciencia ficción. Una vez que tenga esta tabla, puedes hacer un merge con la tabla de películas para ver los nombres de las películas.

1. `Lea scifi.p` y asignalo a `scifi`


2. Lea `action.p` y asignalo a `action`

3. Haz un merge entre `action` y `scifi` (en ese orden) usando un join de derecha (`how="right"`) y como llave a `"movie_id`. Agrega a `.merge()` los sufijos para indicar de donde vienen las columnas usando `suffixes=('_act', '_sci')`.  Guarda el resultado como action_scifi.

In [None]:
___ = ___.merge(___, suffixes=('_act', '_sci'))

4. Desde `action_scifi`, filtre las filas en donde `genre_act` es NaN y guardalo en `scifi_only`

5. Haz un inner join entre `scifi_only` y `movies`. Pero teniendo en cuenta la diferencia en la forma en que se llama id en ambos DataFrames. Para esto en vez de usa `on="id"`, use los argumento `left_on` y `right_on` indicando el nombre de la columna en cada argumento dependiendo de qué DataFrame está de cada lado. 

----
# Usando outer join para seleccionar actores

Un aspecto interesante de usar outer joins es que, debido a que devuelve a todas las filas que son parte del join y aquellas que no pero con valores nulos, se puede usar para encontrar aquellas filas que no tengan coincidencia entre las tablas.

Para probar esto, vamos a ver a los actores de Iron Man 1 e Iron Man 2. La mayoría de los actores actuaron en ambas películas, pero hay actores que no. Usando outer join vamos a ver cuales son los actores que actuaron en una sola película.

1. `Lea iron_man.p` y asignalo a `iron_man`

2. `Lea iron_man_2.p` y asignalo a `iron_man_2`

3. Haz un outer join (`how="outer"`) entre `iron_man` y `iron_man_2`, con sufijos `('_1','_2')` correspondiente a cada película. Como llave use `"id"` que corresponde al identificador del actor. Asignelo a `iron_man_1_2`

In [None]:
___ = ___.merge(___, suffixes=___)

4. Filtre a `iron_man_1_2` para los casos en donde las columnas `"name_1"` o `"name_2"` es NaN. Imprima las columnas `"name_1"` y `"name_2"` de este resultado

----

## Auto-join

Fusionar una tabla consigo misma puede ser útil cuando desea comparar valores en una columna con otros valores en la misma columna. Aquí vamos a hacer un auto-join para tener un listado del director de una película y un miembro del equipo. Para eso, vamos a usar `crews.p`, que tiene una tabla con columnas `"id"`, `"job"` y `"name"`.

1. Lea `crews.p` y asignalo a `crews`

2. Haga un auto-join de `crews` usando a la columna `"id"` como key. Use los sufijos `('_dir','_crew')`. Asignelo a `crews_self_merged`.

In [None]:
___ = ___.merge(right=___, on=___, suffixes=___)

3. Filtre a `crews_self_merged`, dejando solamente las filas en donde la columna `job_dir` sea igual a `"Director"`, y además que la columna `job_crew` sea distinta a `"Director"`. Asigenlo a `direct_crews`

4. Elimina los duplicados de `direct_crews`, usando `.drop_duplicates()` y con `inplace=True`

5. Muestre la cabecera de `direct_crews`

---

## Concatenando

Para este ejercicio usaremos los csv `abbey.csv`, `help.csv` y `pepper.csv`. Los cuales tienen las canciones de tres discos de los Beatles. La información proviene de los discos Abbey Road, Help! y Sgt. Pepper's Lonely Hearts Club Band. Usando estos tres csv vamos a ir probando varios tipos de concatenados:

1. Lea `abbey.csv` y asignalo a `beat_abbey`

In [None]:
___ = pd.read_csv(___)

2. Lea `help.csv` y asignalo a `beat_help`

3. Lea `pepper.csv` y asignalo a `beat_pepper`

4. Concatene `beat_help`, `beat_abbey` y `beat_pepper`, en ese orden, configurando sort en `True` (usando `sort=True`).

In [None]:
pd.concat([___, ___, ___], sort=True)

5. Concatene `beat_pepper`, `beat_help` y `beat_abbey`, en ese orden, configurando sort en `True` y además ignorando el index (usando `ignore_index=True`)