# 7 - Pandas Dataframe - Join y Uniones


* En este Notebook vamos a ver las operaciones de ***Join y Uniones***:

    7. Joins
    8. Uniones


* Para más información ver el siguiente enlace:
    - https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html


<hr>


## Funciones para el Análisis Exploratorio de Datos - Parte III


* Veamos a continuación una serie de ejemplos de cada una de estas operaciones y/o funciones, usando los datos de los ficheros:

    - *vehicles.txt*
    - *users.txt*
    
### Importamos la librería de Pandas:


In [1]:
import pandas as pd

### Pasamos los datos de los Ficheros a un DataFrame:


* Fichero ***vehicles.txt***: Es un fichero de texto plano en formato CSV.:


* Fichero ***users.txt***: Fichero de texto plano con las mismas características que el fichero de vehicles.txt.

In [2]:
df_vehicles = pd.read_csv('./data/ejemplo_EDA/vehicles.txt', header=0)
df_vehicles

Unnamed: 0,user_id,brand,model,kilometers
0,1,Renault,Clio,10
1,2,Renault,Megane,23000
2,3,Seat,Ibiza,9000
3,2,Seat,Leon,20
4,5,Opel,Corsa,999
5,4,Renault,Clio,34000
6,1,Seat,Ibiza,2000
7,2,Seat,Cordoba,99999
8,3,Renault,Clio,88888


In [3]:
df_users = pd.read_csv('./data/ejemplo_EDA/users.txt', header=0)
df_users

Unnamed: 0,user_id,name
0,1,Don Pepito
1,2,Don Jose
2,3,Fofo
3,4,Miliki
4,5,Fofito
5,6,Gaby


<hr>


## 7. Joins (Merge)


* La operación Join (o Merge en Pandas) permite ***combinar registros de 2 o más DataFrames*** (o tablas) a partir de una o más ***claves comunes***.


* La ***sintaxis*** para realizar los merges seria:


```python
pd.merge(left_data_frame, right_data_frame, how='tipo_de_join', on='id')
```


* O en caso de que los ***ids*** tuviesen ***nombres diferentes*** sería:


```python
pd.merge(left_data_frame, right_data_frame, how='tipo_de_join', left_on='id_left', right_on='id_right')
```


* Siendo los tipos de Join permitidos:
    - ***inner***
    - ***left***
    - ***right***
    - ***outer***


* Veamos a continuación como se realizan y los resultados que arrojan los diferentes tipos de Joins, utilizando los siguientes dos DataFrames de ejemplo:


<img src="./imgs/04_02_join.png" style="width: 300px;"/>

In [4]:
df_x = pd.DataFrame({'id_x': ['a', 'b'], 'long': ['aaaa', 'bbb']})
df_y = pd.DataFrame({'id_y': ['b', 'c'], 'sort': ['bb', 'cc']})

### 7.1 INNER JOIN


* ***INNER JOIN*** selecciona todas las filas de los dos DataFrames siempre y cuando haya ***una coincidencia entre las columnas en ambos DataFrames***.


<img src="./imgs/04_03_inner.png" style="width: 700px;"/>


In [5]:
pd.merge(df_x, df_y, how='inner', left_on='id_x', right_on='id_y')

Unnamed: 0,id_x,long,id_y,sort
0,b,bbb,b,bb


### 7.2 LEFT JOIN


* ***LEFT JOIN*** mantiene ***todas las filas del DataFrame de la izquierda*** (left). ***Las filas del DataFrame de la derecha (right) se mostrarán si hay una coincidencia con los de la izquierda***. 


* Si existen valores en el DataFrame de la izquierda pero no en el de la derecha, éste mostrará NaN (***N***ot ***a*** ***N***umber).


<img src="./imgs/04_04_left.png" style="width: 700px;"/>

In [6]:
pd.merge(df_x, df_y, how='left', left_on='id_x', right_on='id_y')

Unnamed: 0,id_x,long,id_y,sort
0,a,aaaa,,
1,b,bbb,b,bb


### 7.3 RIGHT JOIN


* ***RIGHT JOIN*** mantiene ***todas las filas del DataFrame de la derecha*** (right). ***Las filas del DataFrame de la Izquierda (left) se mostrarán si hay una coincidencia con las de la derecha***. 


* Si existen valores en el DataFrame de la derecha pero no en el de la izquierda, éste mostrará NaN (***N***ot ***a*** ***N***umber).


<img src="./imgs/04_05_right.png" style="width: 700px;"/>

In [7]:
pd.merge(df_x, df_y, how='right', left_on='id_x', right_on='id_y')

Unnamed: 0,id_x,long,id_y,sort
0,b,bbb,b,bb
1,,,c,cc


### 7.4 OUTER JOIN


* ***OUTER JOIN*** o (FULL OUTER JOIN) devuelve todas las filas del DataFrame de la izquierda (left) y del de la derecha (right). ***Combina el resultado de los joins LEFT y RIGHT***. 


* Aparecerá NaN (***N***ot ***a*** ***N***umber) en cada uno de los DataFrames alternativamente cuando no haya una coincidencia.


<img src="./imgs/04_06_outer.png" style="width: 700px;"/>


In [8]:
pd.merge(df_x, df_y, how='outer', left_on='id_x', right_on='id_y')

Unnamed: 0,id_x,long,id_y,sort
0,a,aaaa,,
1,b,bbb,b,bb
2,,,c,cc


### 7.5 Ejemplo "real" utilizando la operación JOIN


* Dados los dos DataFrames *'df_vehicles'* y *'df_users'* que tienen como clave común el campo ***'user_id'*** vamos a:

    1. Identificar por el nombre a quien pertenece cada vehículo (inner join)
    2. Mostrar para todos los usuarios registrados en el DataFrame df_users, cuales son sus coches si los tienen (left join).
    
    
<img src="./imgs/04_07_ejemplo_join.png" style="width: 400px;"/>


#### 7.5.1. Identificar por el nombre a quien pertenece cada vehículo (inner join)

In [9]:
pd.merge(df_vehicles, df_users, how='inner', on=['user_id'])

Unnamed: 0,user_id,brand,model,kilometers,name
0,1,Renault,Clio,10,Don Pepito
1,1,Seat,Ibiza,2000,Don Pepito
2,2,Renault,Megane,23000,Don Jose
3,2,Seat,Leon,20,Don Jose
4,2,Seat,Cordoba,99999,Don Jose
5,3,Seat,Ibiza,9000,Fofo
6,3,Renault,Clio,88888,Fofo
7,5,Opel,Corsa,999,Fofito
8,4,Renault,Clio,34000,Miliki


#### 7.5.2 Mostrar para todos los usuarios registrados en el DataFrame df_users, cuales son sus coches si los tienen (left join)


* Se puede observar que el usuario con identifcador '6' no tiene ningún coche, por eso el valor de sus columnas (del DataFrame df_vehicles) tienen valor nulo (NaN).

In [10]:
pd.merge(df_users, df_vehicles, how='left', on=['user_id'])

Unnamed: 0,user_id,name,brand,model,kilometers
0,1,Don Pepito,Renault,Clio,10.0
1,1,Don Pepito,Seat,Ibiza,2000.0
2,2,Don Jose,Renault,Megane,23000.0
3,2,Don Jose,Seat,Leon,20.0
4,2,Don Jose,Seat,Cordoba,99999.0
5,3,Fofo,Seat,Ibiza,9000.0
6,3,Fofo,Renault,Clio,88888.0
7,4,Miliki,Renault,Clio,34000.0
8,5,Fofito,Opel,Corsa,999.0
9,6,Gaby,,,


<hr>


## 8. Uniones (Concat)


* Esta operación ***Union*** (o Concat en Pandas) permite ***unir dos o más DataFrames (de forma vertical)***.


* La ***sintaxis*** para realizar las uniones seria:


```python
pd.concat([df_1, df_2,...,df_n], sort=Boolean)
```


* Se reciben dos parámetros que son:
    1. Una lista de DataFrames a unir
    2. sort: Puede tener valores True o False y nos permite indicar si ordena las columnas por el orden alfabetico de sus nombres.


* Veamos a continuación un ejemplo de como unir dos DataFrames *'df_vehicles'* y un segundo DataFrame *'df_coches'* que definimos a continuación:

In [11]:
df_coches = pd.DataFrame({'user_id': [6, 6], 
                         'brand': ['Ferrari', 'Aston Martin'],
                         'model': ['Testarossa', 'db9'],
                         'kilometers': [2376, 6584]})
df_coches

Unnamed: 0,user_id,brand,model,kilometers
0,6,Ferrari,Testarossa,2376
1,6,Aston Martin,db9,6584


* La unión de estos dos DataFrames seria:


<img src="./imgs/04_08_union.png" style="width: 600px;"/>


* A continuación vemos como unir los dos DataFrames:

In [12]:
pd.concat([df_vehicles, df_coches], sort=False)

Unnamed: 0,user_id,brand,model,kilometers
0,1,Renault,Clio,10
1,2,Renault,Megane,23000
2,3,Seat,Ibiza,9000
3,2,Seat,Leon,20
4,5,Opel,Corsa,999
5,4,Renault,Clio,34000
6,1,Seat,Ibiza,2000
7,2,Seat,Cordoba,99999
8,3,Renault,Clio,88888
0,6,Ferrari,Testarossa,2376


<hr>

*Este Notebook ha sido desarrollado por **Ricardo Moya García** y registrado en Safe Creative como ***Atribución-NoComercial-CompartirIgual***.*

<img src="./imgs/CC_BY-NC-SA.png" alt="CC BY-NC">