## Ejemplo 3: Uniendo `DataFrames` con `merge`

### 1. Objetivos:
- Tomar una base de datos segmentada y unirla usando el método `merge`    
 
### 2. Desarrollo:

#### a) Conformando un solo `DataFrame` a partir de la información de dos

Ya tenemos todos nuestros conjuntos de datos guardados cada uno en un archivo .csv. Cada uno contiene información que los demás no contienen, así que necesitamos una manera de unirlos para poder *complementar* con un conjunto la información que le hace falta a otro.

Vamos a leer nuestros dos archivos y crear un dataframe con cada uno `users` y `occupations`:

In [15]:
import pandas as pd

In [16]:
users = pd.read_csv('../Ejemplo-02/users.csv', index_col=0)

users.head()

Unnamed: 0_level_0,gender,age,occupation,cp
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,2460
5,M,25,20,55455


In [20]:
occupations = pd.read_csv('../Ejemplo-02/occupations.csv', index_col=0)

occupations.head(11)

Unnamed: 0_level_0,description
occupation_id,Unnamed: 1_level_1
0,"other or, not specified"
1,academic/educator
2,artist
3,clerical/admin
4,college/grad student
5,customer service
6,doctor/health care
7,executive/managerial
8,farmer
9,homemaker


`users` contiene una columna llamada `occupation` que tiene códigos que corresponden a un índice de la tabla `occupations`. Cada código está mapeado a una descripción textual de la ocupación.

Para "jalar" la información textual de las ocupaciones a la tabla `users` hacemos lo siguiente usamos la función `merge()` de la siguiente manera:

```
pd.merge(-dataframe izquierda-, -dataframe derecha-,
        left_on=-columna de la tabla izquierda a vincular-,
        right_index=True)
```
    
en este caso la columna de `users` es `occupation` y de `occupations` será la columna del índice:

In [21]:
pd.merge(users, occupations, left_on="occupation", right_index=True)

Unnamed: 0_level_0,gender,age,occupation,cp,description
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,F,1,10,48067,K-12 student
1,F,1,10,48067,K-12 student
1,F,1,10,48067,K-12 student
19,M,1,10,48073,K-12 student
19,M,1,10,48073,K-12 student
...,...,...,...,...,...
6026,M,35,6,11210,doctor/health care
6026,M,35,6,11210,doctor/health care
6040,M,25,6,11106,doctor/health care
6040,M,25,6,11106,doctor/health care


Guardamos el resultado en la variable `users_full`:

In [22]:
users_full = pd.merge(users, occupations, left_on="occupation", right_index=True)

users_full.head()

Unnamed: 0_level_0,gender,age,occupation,cp,description
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,F,1,10,48067,K-12 student
1,F,1,10,48067,K-12 student
1,F,1,10,48067,K-12 student
19,M,1,10,48073,K-12 student
19,M,1,10,48073,K-12 student


In [27]:
# users_full = users_full.drop("occupation_id")
# users_full.drop("occupation_id", inplace=True)

También podríamos querer reordenar el índice con `df.reset_index()`:

In [23]:
users_full = users_full.reset_index(drop=True)

users_full

Unnamed: 0,gender,age,occupation,cp,description
0,F,1,10,48067,K-12 student
1,F,1,10,48067,K-12 student
2,F,1,10,48067,K-12 student
3,M,1,10,48073,K-12 student
4,M,1,10,48073,K-12 student
...,...,...,...,...,...
54355,M,35,6,11210,doctor/health care
54356,M,35,6,11210,doctor/health care
54357,M,25,6,11106,doctor/health care
54358,M,25,6,11106,doctor/health care


Ahora podríamos cambiar los nombres de nuestras columnas para que sean más descriptivas usando el siguiente diccionario:

In [24]:
nuevas_columnas = {
    "occupation":"occupation_id",
    "description":"occupation"
}

Y la función `rename()` en la forma:

`df.rename(columns=-diccionario-)`

In [25]:
users_full = users_full.rename(columns=nuevas_columnas)

users_full.head(3)

Unnamed: 0,gender,age,occupation_id,cp,occupation
0,F,1,10,48067,K-12 student
1,F,1,10,48067,K-12 student
2,F,1,10,48067,K-12 student


In [26]:
users_full.to_csv("users_full.csv")

Listo. Ahora tenemos un `DataFrame` que incluye la información de ambos conjuntos de datos. Esto incrementa muchísimo nuestras posibilidades de análisis y visualización.

---
---

## Reto 3: `merge` para completar información faltante

### 1. Objetivos:
    - Completar la tabla `users` usando la información contenida en las tablas `occupations` y `age_ranges`.
    
### 2. Desarrollo:

#### a) Complementado información usando el método `merge`

No es muy práctico tener las tablas `occupations` y `age_range` por sí solas, ya que la información que contienen está íntimamente relacionada con al información de la tabla `users`. Vamos entonces a unir las tres tablas en una sola tabla para tener esa información mucho más accesible. Tu Reto consiste en los siguientes pasos:

1. Lee tus archivos `users`, `occupations` y `age_range` (o como sea que les quisiste llamar) y conviértelos en `DataFrames`.
2. Utiliza el método `merge` para agregar la información contenida en la tabla `occupations` a la tabla `users`.
3. Utiliza el método `merge` para agregar la información contenida en la tabla `age_ranges` a la tabla `users`.
4. Si lo consideras necesario, renombra y reordena las columnas para que la información sea clara.
5. Guarda tu nuevo conjunto de datos en un nuevo archivo .csv.

In [None]:
...

Compara tus resultados con tus compañeros y tu ingeniero de datos de confianza para asegurarse de que todos tengan un conjunto similar o ¿no?

In [14]:
print(f"{56.5:f}%")
print("%")
print('%')
"%"

56.500000%
%
%


'%'