## Ejemplo 3: Uniendo `DataFrames` con `merge`

### 1. Objetivos:
- Tomar una base de datos segmentada y unirla usando el método `merge`    
 
### 2. Desarrollo:

#### a) Conformando un solo `DataFrame` a partir de la información de dos

Ya tenemos todos nuestros conjuntos de datos guardados cada uno en un archivo .csv. Cada uno contiene información que los demás no contienen, así que necesitamos una manera de unirlos para poder *complementar* con un conjunto la información que le hace falta a otro.

Vamos a leer nuestros dos archivos y crear un dataframe con cada uno `users` y `occupations`:

In [11]:
import pandas as pd

In [2]:
users = pd.read_csv('../../Datasets/MovieLens/users-raw.csv', index_col=0)

users.head()

Unnamed: 0_level_0,gender,age,occupation,cp
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,2460
5,M,25,20,55455


In [10]:
users.shape

(6040, 4)

In [3]:
occupations = pd.read_csv('../../Datasets/MovieLens/occupations-raw.csv', index_col=0)

occupations.head()

Unnamed: 0_level_0,description
occupation_id,Unnamed: 1_level_1
0,other or not specified
1,academic/educator
2,artist
3,clerical/admin
4,college/grad student


`users` contiene una columna llamada `occupation` que tiene códigos que corresponden a un índice de la tabla `occupations`. Cada código está mapeado a una descripción textual de la ocupación.

Para "jalar" la información textual de las ocupaciones a la tabla `users` hacemos lo siguiente usamos la función `merge()` de la siguiente manera:

```
pd.merge(-dataframe izquierda-, -dataframe derecha-,
        left_on=-columna de la tabla izquierda a vincular-,
        right_index=True)
```
    
en este caso la columna de `users` es `occupation` y de `occupations` será la columna del índice:

In [4]:
pd.merge(users, occupations, left_on="occupation", right_index=True)

Unnamed: 0_level_0,gender,age,occupation,cp,description
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,F,1,10,48067,K-12 student
19,M,1,10,48073,K-12 student
51,F,1,10,10562,K-12 student
75,F,1,10,01748,K-12 student
86,F,1,10,54467,K-12 student
...,...,...,...,...,...
5819,M,50,6,70808,doctor/health care
5866,F,25,6,06114,doctor/health care
5921,M,25,6,15146,doctor/health care
6026,M,35,6,11210,doctor/health care


Guardamos el resultado en la variable `users_full`:

In [5]:
users_full = pd.merge(users, occupations, left_on="occupation", right_index=True)

users_full.head()

Unnamed: 0_level_0,gender,age,occupation,cp,description
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,F,1,10,48067,K-12 student
19,M,1,10,48073,K-12 student
51,F,1,10,10562,K-12 student
75,F,1,10,1748,K-12 student
86,F,1,10,54467,K-12 student


También podríamos querer reordenar el índice con `df.reset_index()`:

In [6]:
users_full = users_full.reset_index()

users_full

Unnamed: 0,user_id,gender,age,occupation,cp,description
0,1,F,1,10,48067,K-12 student
1,19,M,1,10,48073,K-12 student
2,51,F,1,10,10562,K-12 student
3,75,F,1,10,01748,K-12 student
4,86,F,1,10,54467,K-12 student
...,...,...,...,...,...,...
6035,5819,M,50,6,70808,doctor/health care
6036,5866,F,25,6,06114,doctor/health care
6037,5921,M,25,6,15146,doctor/health care
6038,6026,M,35,6,11210,doctor/health care


Ahora podríamos cambiar los nombres de nuestras columnas para que sean más descriptivas usando el siguiente diccionario:

In [7]:
nuevas_columnas = {
    "occupation":"occupation_id",
    "description":"occupation"
}

Y la función `rename()` en la forma:

`df.rename(columns=-diccionario-)`

In [8]:
users_full = users_full.rename(columns=nuevas_columnas)

users_full.head(3)

Unnamed: 0,user_id,gender,age,occupation_id,cp,occupation
0,1,F,1,10,48067,K-12 student
1,19,M,1,10,48073,K-12 student
2,51,F,1,10,10562,K-12 student


Listo. Ahora tenemos un `DataFrame` que incluye la información de ambos conjuntos de datos. Esto incrementa muchísimo nuestras posibilidades de análisis y visualización.

---
---

## Reto 3: `merge` para completar información faltante

### 1. Objetivos:
    - Completar la tabla `users` usando la información contenida en las tablas `occupations` y `age_ranges`.
    
### 2. Desarrollo:

#### a) Complementado información usando el método `merge`

No es muy práctico tener las tablas `occupations` y `age_range` por sí solas, ya que la información que contienen está íntimamente relacionada con al información de la tabla `users`. Vamos entonces a unir las tres tablas en una sola tabla para tener esa información mucho más accesible. Tu Reto consiste en los siguientes pasos:

1. Lee tus archivos `users`, `occupations` y `age_range` (o como sea que les quisiste llamar) y conviértelos en `DataFrames`.
2. Utiliza el método `merge` para agregar la información contenida en la tabla `occupations` a la tabla `users`.
3. Utiliza el método `merge` para agregar la información contenida en la tabla `age_ranges` a la tabla `users`.
4. Si lo consideras necesario, renombra y reordena las columnas para que la información sea clara.
5. Guarda tu nuevo conjunto de datos en un nuevo archivo .csv.

In [12]:
df_users = pd.read_csv('../Ejemplo-02/users.csv', index_col=0)
df_users

Unnamed: 0_level_0,gender,age,occupation,cp
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,02460
5,M,25,20,55455
...,...,...,...,...
6036,F,25,15,32603
6037,F,45,1,76006
6038,F,56,1,14706
6039,F,45,0,01060


In [13]:
df_occupations = pd.read_csv('../Ejemplo-02/occupations.csv', index_col=0)
df_occupations

Unnamed: 0_level_0,description
occupation_id,Unnamed: 1_level_1
0,other or not specified
1,academic/educator
2,artist
3,clerical/admin
4,college/grad student
...,...
16,self-employed
17,technician/engineer
18,tradesman/craftsman
19,unemployed


In [15]:
df_age_range = pd.read_csv('../Ejemplo-02/age_ranges.csv', index_col=0)
df_age_range

Unnamed: 0_level_0,age_range
age_id,Unnamed: 1_level_1
1,Under 18
18,18-24
25,25-34
35,35-44
45,45-49
50,50-55
56,56+


In [17]:
 df_users_occupations = pd.merge(df_users, df_occupations, left_on="occupation", right_index=True)

In [18]:
nuevas_columnas = {
    "occupation":"occupation_id",
    "description":"occupation"
}

df_users_occupations = df_users_occupations.rename(columns=nuevas_columnas)

df_users_occupations.head(3)

Unnamed: 0_level_0,gender,age,occupation_id,cp,occupation
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,F,1,10,48067,K-12 student
1,F,1,10,48067,K-12 student
1,F,1,10,48067,K-12 student


In [23]:
df_users_occupations_age_ranges = pd.merge(df_users_occupations, df_age_range, left_on="age", right_index=True)
df_users_occupations_age_ranges

Unnamed: 0_level_0,gender,age,occupation_id,cp,occupation,age_range
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,F,1,10,48067,K-12 student,Under 18
1,F,1,10,48067,K-12 student,Under 18
1,F,1,10,48067,K-12 student,Under 18
19,M,1,10,48073,K-12 student,Under 18
19,M,1,10,48073,K-12 student,Under 18
...,...,...,...,...,...,...
5250,M,50,6,01545,doctor/health care,50-55
5250,M,50,6,01545,doctor/health care,50-55
5819,M,50,6,70808,doctor/health care,50-55
5819,M,50,6,70808,doctor/health care,50-55


In [24]:
nuevas_columnas_range = {
    "age":"age_id",
}

df_users_occupations_age_ranges = df_users_occupations_age_ranges.rename(columns=nuevas_columnas_range)
df_users_occupations_age_ranges

Unnamed: 0_level_0,gender,age_id,occupation_id,cp,occupation,age_range
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,F,1,10,48067,K-12 student,Under 18
1,F,1,10,48067,K-12 student,Under 18
1,F,1,10,48067,K-12 student,Under 18
19,M,1,10,48073,K-12 student,Under 18
19,M,1,10,48073,K-12 student,Under 18
...,...,...,...,...,...,...
5250,M,50,6,01545,doctor/health care,50-55
5250,M,50,6,01545,doctor/health care,50-55
5819,M,50,6,70808,doctor/health care,50-55
5819,M,50,6,70808,doctor/health care,50-55


In [25]:
df_users_occupations_age_ranges.to_csv("users_occupations_age_ranges.csv")

Compara tus resultados con tus compañeros y tu ingeniero de datos de confianza para asegurarse de que todos tengan un conjunto similar o ¿no?