## Ejemplo 3: Uniendo `DataFrames` con `merge`

### 1. Objetivos:
- Tomar una base de datos segmentada y unirla usando el método `merge`    
 
### 2. Desarrollo:

#### a) Conformando un solo `DataFrame` a partir de la información de dos

Ya tenemos todos nuestros conjuntos de datos guardados cada uno en un archivo .csv. Cada uno contiene información que los demás no contienen, así que necesitamos una manera de unirlos para poder *complementar* con un conjunto la información que le hace falta a otro.

Vamos a leer nuestros dos archivos y crear un dataframe con cada uno `users` y `occupations`:

In [None]:
import pandas as pd

In [None]:
users = pd.read_csv('../../Datasets/MovieLens/users-raw.csv', index_col=0)

users.head()

In [None]:
occupations = pd.read_csv('../../Datasets/MovieLens/occupations-raw.csv', index_col=0)

occupations.head()

`users` contiene una columna llamada `occupation` que tiene códigos que corresponden a un índice de la tabla `occupations`. Cada código está mapeado a una descripción textual de la ocupación.

Para "jalar" la información textual de las ocupaciones a la tabla `users` hacemos lo siguiente usamos la función `merge()` de la siguiente manera:

```
pd.merge(-dataframe izquierda-, -dataframe derecha-,
        left_on=-columna de la tabla izquierda a vincular-,
        right_index=True)
```
    
en este caso la columna de `users` es `occupation` y de `occupations` será la columna del índice:

In [None]:
...

Guardamos el resultado en la variable `users_full`:

In [None]:
...

users_full.head()

También podríamos querer reordenar el índice con `df.reset_index()`:

In [None]:
...

users_full

Ahora podríamos cambiar los nombres de nuestras columnas para que sean más descriptivas usando el siguiente diccionario:

In [None]:
nuevas_columnas = {
    "occupation":"occupation_id",
    "description":"occupation"
}

Y la función `rename()` en la forma:

`df.rename(columns=-diccionario-)`

In [None]:
...

users_full.head(3)

Listo. Ahora tenemos un `DataFrame` que incluye la información de ambos conjuntos de datos. Esto incrementa muchísimo nuestras posibilidades de análisis y visualización.

---
---

## Reto 3: `merge` para completar información faltante

### 1. Objetivos:
    - Completar la tabla `users` usando la información contenida en las tablas `occupations` y `age_ranges`.
    
### 2. Desarrollo:

#### a) Complementado información usando el método `merge`

No es muy práctico tener las tablas `occupations` y `age_range` por sí solas, ya que la información que contienen está íntimamente relacionada con al información de la tabla `users`. Vamos entonces a unir las tres tablas en una sola tabla para tener esa información mucho más accesible. Tu Reto consiste en los siguientes pasos:

1. Lee tus archivos `users`, `occupations` y `age_range` (o como sea que les quisiste llamar) y conviértelos en `DataFrames`.
2. Utiliza el método `merge` para agregar la información contenida en la tabla `occupations` a la tabla `users`.
3. Utiliza el método `merge` para agregar la información contenida en la tabla `age_ranges` a la tabla `users`.
4. Si lo consideras necesario, renombra y reordena las columnas para que la información sea clara.
5. Guarda tu nuevo conjunto de datos en un nuevo archivo .csv.

In [None]:
...

Compara tus resultados con tus compañeros y tu ingeniero de datos de confianza para asegurarse de que todos tengan un conjunto similar o ¿no?