<a href="https://colab.research.google.com/github/fermuba/Procesamiento-de-Datos/blob/main/S8/Ejemplos_clase/Ejemplo_3_merge.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Ejemplo 3: Uniendo `DataFrames` con `merge`

### 1. Objetivos:
    - Tomar una base de datos segmentada y unirla usando el método `merge`

---
    
### 2. Desarrollo:

#### a) Conformando un solo `DataFrame` a partir de la información de dos

Ya tenemos todos nuestros conjuntos de datos guardados cada uno en un archivo .csv. Cada uno contiene información que los demás no contienen, así que necesitamos una manera de unirlos para poder *complementar* con un conjunto la información que le hace falta a otro.

Vamos a leer 2 de nuestros datasets:

In [1]:
# Cargamos librerias
import pandas as pd

In [2]:
# Permiso de acceso a Drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
# Cargamos el archivo a un df, no usamos name= porque tenemos los nombres de columnas
# en los archivos .csv
users = pd.read_csv('/content/drive/MyDrive/BEDU/ProcesamientoDatos/Datasets/MovieLens/users-raw.csv', index_col=0)#, names=['gender', 'age', 'occupation', 'cp'])
users.head(3)

Unnamed: 0_level_0,gender,age,occupation,cp
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117


In [4]:
# Comentamos las lineas de codigo porque no las necesitamos son para el caso
# en que no tenemos la fila con los nombres y hay que definir el indice
#users.index.name = 'user_id'
#users.head()

In [5]:
# Cargamos archivo .csv a df
occupations = pd.read_csv('/content/drive/MyDrive/BEDU/ProcesamientoDatos/Datasets/MovieLens/occupations-raw.csv', index_col=0)# names=['description'])

occupations.head()

Unnamed: 0_level_0,description
occupation_id,Unnamed: 1_level_1
0,other or not specified
1,academic/educator
2,artist
3,clerical/admin
4,college/grad student


In [6]:
# Idem comentario de la carga del dataset anterior
#occupations.index.name = 'occupation_id'

In [7]:
# Veamos información disponible en la columna
occupations['description']#.unique()

occupation_id
0     other or not specified
1          academic/educator
2                     artist
3             clerical/admin
4       college/grad student
5           customer service
6         doctor/health care
7       executive/managerial
8                     farmer
9                  homemaker
10              K-12 student
11                    lawyer
12                programmer
13                   retired
14           sales/marketing
15                 scientist
16             self-employed
17       technician/engineer
18       tradesman/craftsman
19                unemployed
20                    writer
Name: description, dtype: object

In [8]:
# Para manipular información del índice
occupations.index


Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19,
       20],
      dtype='int64', name='occupation_id')

In [9]:
# Para manipular información de columnas
occupations.columns

Index(['description'], dtype='object')

`users` contiene una columna llamada `occupation` que tiene códigos que corresponden a un índice de la tabla `occupations`. Cada código está mapeado a una descripción textual de la ocupación.

Para "jalar" la información textual de las ocupaciones a la tabla `users` hacemos lo siguiente:

In [10]:
# Realizamos la agrupacion y ordenamiento y lo asignamos a la variable
users_full = pd.merge(users, occupations, left_on='occupation', right_index=True).sort_index()

In [11]:
users_full.head()

Unnamed: 0_level_0,gender,age,occupation,cp,description
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,F,1,10,48067,K-12 student
2,M,56,16,70072,self-employed
3,M,25,15,55117,scientist
4,M,45,7,2460,executive/managerial
5,M,25,20,55455,writer


Ahora podríamos cambiar los nombres de nuestras columnas para que sean más descriptivas:

In [None]:
# Cambiar nombres de columnas
users_full = users_full.rename(columns={'occupation': 'occupation_id', 'description': 'occupation'})

In [12]:
# Otra opción
# Creamos diccionario
nombres_nuevos = {'occupation': 'occupation_id',
                  'description': 'occupation'
                  }

users_full = users_full.rename(columns= nombres_nuevos)


In [13]:
users_full

Unnamed: 0_level_0,gender,age,occupation_id,cp,occupation
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,F,1,10,48067,K-12 student
2,M,56,16,70072,self-employed
3,M,25,15,55117,scientist
4,M,45,7,02460,executive/managerial
5,M,25,20,55455,writer
...,...,...,...,...,...
6036,F,25,15,32603,scientist
6037,F,45,1,76006,academic/educator
6038,F,56,1,14706,academic/educator
6039,F,45,0,01060,other or not specified


Listo. Ahora tenemos un `DataFrame` que incluye la información de ambos conjuntos de datos. Esto incrementa muchísimo nuestras posibilidades de análisis y visualización.