## Ejemplo 3: Uniendo `DataFrames` con `merge`

### 1. Objetivos:
    - Tomar una base de datos segmentada y unirla usando el método `merge`
 
---
    
### 2. Desarrollo:

#### a) Conformando un solo `DataFrame` a partir de la información de dos

Ya tenemos todos nuestros conjuntos de datos guardados cada uno en un archivo .csv. Cada uno contiene información que los demás no contienen, así que necesitamos una manera de unirlos para poder *complementar* con un conjunto la información que le hace falta a otro.

Vamos a leer 2 de nuestros datasets:

In [1]:
import pandas as pd

In [8]:
users = pd.read_csv('../../Datasets/MovieLens/users-raw.csv', index_col=0, names=['gender', 'age', 'occupation', 'cp'])

In [10]:
users.index.name = 'user_id'

In [12]:
occupations = pd.read_csv('../../Datasets/MovieLens/occupations-raw.csv', index_col=0, names=['description'])

In [13]:
occupations.index.name = 'occupation_id'

In [15]:
users.head()

Unnamed: 0_level_0,gender,age,occupation,cp
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,2460
5,M,25,20,55455


`users` contiene una columna llamada `occupation` que tiene códigos que corresponden a un índice de la tabla `occupations`. Cada código está mapeado a una descripción textual de la ocupación.

Para "jalar" la información textual de las ocupaciones a la tabla `users` hacemos lo siguiente:

In [18]:
users_full = pd.merge(users, occupations, left_on='occupation', right_index=True).sort_index()

In [19]:
users_full

Unnamed: 0_level_0,gender,age,occupation,cp,description
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,F,1,10,48067,K-12 student
2,M,56,16,70072,self-employed
3,M,25,15,55117,scientist
4,M,45,7,02460,executive/managerial
5,M,25,20,55455,writer
...,...,...,...,...,...
6036,F,25,15,32603,scientist
6037,F,45,1,76006,academic/educator
6038,F,56,1,14706,academic/educator
6039,F,45,0,01060,other or not specified


Ahora podríamos cambiar los nombres de nuestras columnas para que sean más descriptivas:

In [20]:
users_full = users_full.rename(columns={'occupation': 'occupation_id', 'description': 'occupation'})

In [21]:
users_full

Unnamed: 0_level_0,gender,age,occupation_id,cp,occupation
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,F,1,10,48067,K-12 student
2,M,56,16,70072,self-employed
3,M,25,15,55117,scientist
4,M,45,7,02460,executive/managerial
5,M,25,20,55455,writer
...,...,...,...,...,...
6036,F,25,15,32603,scientist
6037,F,45,1,76006,academic/educator
6038,F,56,1,14706,academic/educator
6039,F,45,0,01060,other or not specified


Listo. Ahora tenemos un `DataFrame` que incluye la información de ambos conjuntos de datos. Esto incrementa muchísimo nuestras posibilidades de análisis y visualización.