In [None]:
# initial setup
try:
    # settings colab:
    import google.colab
    
    # si usan colab, deben cambiar el token de esta url
    ! mkdir -p ../Data
    # los que usan colab deben modificar el token de esta url:
    ! wget -O ../Data/state-population.csv https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_students_2020/master/M2/CLASE_07_Pandas_2/Data/state-population.csv?token=AA4GFHJSWCDF4ZWQKOIBQRC6WR7B6
    ! wget -O ../Data/state-areas.csv https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_students_2020/master/M2/CLASE_07_Pandas_2/Data/state-areas.csv?token=AA4GFHNVDHJQ74POQVV7KH26WR7FC
    ! wget -O ../Data/state-abbrevs.csv https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_students_2020/master/M2/CLASE_07_Pandas_2/Data/state-abbrevs.csv?token=AA4GFHNZV34U7PQETS35I3S6WR7IO
    
except ModuleNotFoundError:    
    # settings local:
    %run "../../../common/0_notebooks_base_setup.py"

---

<img src='../../../common/logo_DH.png' align='left' width=35%/>


# Pandas 2 - joins

<a id="section_toc"></a> 
## Tabla de Contenidos

[Intro](#section_intro)

$\hspace{.5cm}$[`concat`](#section_concat)

$\hspace{.5cm}$[`append`](#section_append)

$\hspace{.5cm}$[`ignore_index=True`](#section_ignore_index)

$\hspace{.5cm}$[`merge`](#section_merge)

$\hspace{.5cm}$[`join`](#section_join)

[Dataset](#section_dataset)

[Problema](#section_problema)

[Imports](#section_imports)

[Ejercicios](#section_ejercicios)

[Referencias](#section_referencias)

---


<a id="section_intro"></a> 
## Intro

[volver a TOC](#section_toc)


Las operaciones de merge o join combinan datasets asociando sus filas de acuerdo a una o más keys.

Estas operaciones son fundamentales en bases de datos relacionales.

Pandas proporciona varias métodos para combinar fácilmente objetos de tipo Series o DataFrame.


<a id="section_concat"></a> 
### `concat`

[volver a TOC](#section_toc)


https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html

La función `concat` concatena a lo largo de un eje (index o columns) uniendo o intersecando los valores de los índice .

**Ejemplo 1**: 

Unimos los dos DatFrame por filas (axis=0 por default)

`frames = [df1, df2, df3]`

`result = pd.concat(frames)`

![Image](img/merging_concat_basic.png)

**Ejemplo 2**: 

Unimos los dos DataFrame por columnas (axis = 1). 

Las filas de igual índice en los DataFrame orginales forman una única fila en el DataFrame resultado. 

En este ejemplo los índices que coinciden son 2 y 3, el resto de las filas del DataFrame resultado se completan con null.

Observemos que no se combinan las columnas de igual nombre.

`pd.concat([df1, df4], axis=1, sort=False)`

![Image](img/merging_concat_axis1.png)


**Ejemplo 3**: 

Unimos los dos DataFrame por columnas (axis = 1) usando `inner` como valor del argumento `join`.

`inner` indica que en el DataFrame resultado sólo están los registros (identificados por su índice) que pertenecen a los dos DataFrame originales.

En este caso, sólo los registros de índice 2 y 3.

`pd.concat([df1, df4], axis=1, join='inner')`

![Image](img/merging_concat_axis1_inner.png)

Los valores posibles del argumento `join` son `inner`, `outer`. `inner` devuelve los registros que son la **intersección** de los índices de los DataFrame originales, `outer` devuelve la **unión**.

`outer` es el valor por default del argumento `join` del método `concat`.


<a id="section_append"></a> 
### `append`

[volver a TOC](#section_toc)


https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html

Este método es equivalente a concat con `axis = 0`

**Ejemplo 1**:

`df1.append(df2)`

![Image](img/merging_append1.png)

**Ejemplo 2**:

Los registros de igual índice no se combinan en el DataFrame resultado

`df1.append(df4, sort=False)`

![Image](img/merging_append2.png)

**Ejemplo 3**:

append puede concatenar una lista de DataFrame

`df1.append([df2, df3])`

![Image](img/merging_append3.png)

<a id="section_ignore_index"></a> 
### `ignore_index=True` 

[volver a TOC](#section_toc)


Si los valores de los índices de los DataFrame que estamos combinando no representan un dato relevante, podemos setear `ignore_index=True` y el índice del DataFrame resultado "resetea" los valores que traen los registros del indíce original.   

Este argumento se puede usar tanto en `append` como `concat` 

`pd.concat([df1, df4], ignore_index=True, sort=False)`

![Image](img/merging_concat_ignore_index.png)

<a id="section_merge"></a> 
### `merge`

[volver a TOC](#section_toc)



https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.merge.html

`pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
         left_index=False, right_index=False, sort=True,
         suffixes=('_x', '_y'), copy=True, indicator=False,
         validate=None)`

Los argumentos cuyos valores vamos a establecer frecuentemente son:

* `left`: una instancia de DataFrame o Series

* `right`: otra instancia de DataFrame o Series

* `on`: columnas que usaremos como clave para combinar los registros. Deben estar presentes en ambos DataFrame. Si no se especifica el valor de este argumento y left_index y right_index son False, se inferirá que la intersección de las columnas de ambos DataFrame serán la clave del join
 
* `left_on`: columnas pertenecientes al DataFrame de la izquierda que usaremos como clave para combinar los registros

* `right_on`: columnas pertenecientes al DataFrame de la derecha que usaremos como clave para combinar los registros

* `left_index`: Si es True, usaremos como clave el índice (etiquetas de las filas) del DataFrame de la izquierda 

* `right_index`: Si es True, usaremos como clave el índice (etiquetas de las filas) del DataFrame de la derecha 

* `how`: Uno de los siguientes valores 'left', 'right', 'outer', 'inner'. El valor por default es `inner`

* `sort`: Si es True, ordena el DataFrame resultado en orden lexicográfico de los campos clave. El valor por default es True.

* `suffixes`: Una tupla de string que serán los sufijos de las columnas que tengan el mismo nombre en ambos DataFrame


#### Valores posibles del argumento `how`

El argumento how especifica cómo determinar qué claves se incluirán en el DataFrame resultado. 

Si una clave no aparece en alguno de los DataFrame, los valores en el DataFrame que sí la tiene se combinará con valores NA.

* `inner`: las claves en el DataFrame resultado son la intersección de las claves del DataFrame izquierdo y del derecho

* `outer`: las claves en el DataFrame resultado son la unión de las claves del DataFrame izquierdo y del derecho

* `left`: las claves en el DataFrame resultado son las del DataFrame izquierdo

* `right`: las claves en el DataFrame resultado son las del DataFrame derecho

**Ejemplo 1**:

El valor de `how` por default es `inner`. 

El DataFrame resultado tiene las claves que resultan de la intersección de las claves de los DataFrame left y right.

`pd.merge(left, right, on='key')`

![Image](img/merging_merge_on_key.png)

**Ejemplo 2**:

El valor de `how` por default es `inner`. Múltiples keys.

`pd.merge(left, right, on=['key1', 'key2'])`

![Image](img/merging_merge_on_key_multiple.png)

**Ejemplo 3**:

Left join.

El DataFrame resultado tiene las claves del DataFrame left.

Obervemos que la clave (K1, K0) aparece en dos registros del DataFrame resultado. Esto ocurre porque el registro con esa clave en left se combina con dos registros (con esa clave) en right

`pd.merge(left, right, how='left', on=['key1', 'key2'])`

![Image](img/merging_merge_on_key_left.png)

**Ejemplo 4**:

Right join.

El DataFrame resultado tiene las claves del DataFrame right.

Obervemos que la clave (K1, K0) aparece en dos registros del DataFrame resultado porque está presente dos veces en el DataFrame right.

![Image](img/merging_merge_on_key_right.png)

**Ejemplo 5**:

Outer join.

El DataFrame resultado tiene las claves que resultan de la unión de las claves de los DataFrame left y right.

![Image](img/merging_merge_on_key_outer.png)

<a id="section_join"></a> 
### `join`

[volver a TOC](#section_toc)


https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html

Combina las columnas de dos DataFrame usando los índices como claves.

**Ejemplo 1**:

EL valor por default de `how` es `left`

`left.join(right)`

![Image](img/merging_join.png)

**Ejemplo 2**:

`left.join(right, how='outer')`

![Image](img/merging_join_outer.png)

**Ejemplo 3**:

`left.join(right, how='inner')`

![Image](img/merging_join_inner.png)

<a id="section_dataset"></a> 
## Dataset

[volver a TOC](#section_toc)



Tenemos datos de población y área por estado en EEUU, divididos en tres archivos csv:
* state-abbrevs.csv
* state-areas.csv
* state-population.csv


<a id="section_problema"></a> 
## Problema

[volver a TOC](#section_toc)

Queremos crear un ranking de los estados por su densidad de población total en el año 2010.

<a id="section_imports"></a> 
## Imports

[volver a TOC](#section_toc)


In [None]:
import pandas as pd
import numpy as np

<a id="section_ejercicios"></a> 
## Ejercicios

[volver a TOC](#section_toc)


### Ejercicio 1

Leamos los datos en tres DataFrame, veamos los primeros registros de cada uno.

In [None]:
data_abbrevs = pd.read_csv("../Data/state-abbrevs.csv", sep=",")
data_abbrevs.head(3)

In [None]:
data_areas = pd.read_csv("../Data/state-areas.csv", sep=",")
data_areas.head(3)

In [None]:
data_population = pd.read_csv("../Data/state-population.csv", sep=",")
data_population.head(3)

## Ejercicio 2

Filtremos los datos de data_population, creando un nuevo DataFrame con los datos del año 2010

In [None]:
data_population_2010_mask = data_population.year == 2010
data_population_2010 = data_population.loc[data_population_2010_mask, :]
data_population_2010.head(3)

## Ejercicio 3

Para calcular la densidad de población tenemos que dividir los datos de la columna population de data_population_2010 por los datos de la columna area de data_areas. 

El problema es que estas dos tablas no tienen ningún campo en común como para que combinemos sus registros con un merge.

Para eso, vamos a usar data_abbrevs que vincula las dos formas de identificar a los estados.

Comencemos haciendo un merge entre data_population y data_abbrevs, usando un left para asegurarnos de que no perdemos ningún registro de data_population

In [None]:
data_population_2010_abbrevs = pd.merge(data_population_2010, data_abbrevs, \
                                   left_on = "state/region", right_on = "abbreviation", \
                                   how="left")
data_population_2010_abbrevs.head(3)

Ahora combinemos los datos de data_population_2010_abbrevs con data_areas, usando un inner join porque queremos estar seguros de tener los datos de población y de superficie entonces necesitamos que sí o sí que haya registros en las dos tablas.

In [None]:
data_population_2010_abbrevs_areas = pd.merge(data_population_2010_abbrevs, data_areas, 
                                             on = "state", how = "inner")
data_population_2010_abbrevs_areas.head(3)

## Ejercicio 4

Calculemos la densidad dividiendo population por area

In [None]:
data_population_2010_abbrevs_areas["density"] = data_population_2010_abbrevs_areas.population / data_population_2010_abbrevs_areas["area (sq. mi)"]
data_population_2010_abbrevs_areas.head(3)

## Ejercicio 5

Seleccionemos los registros de valor "total"  en el campo age y veamos los nombre de los estados ordenados de mayor a menor por densidad

In [None]:
data_population_2010_abbrevs_areas_age_mask = data_population_2010_abbrevs_areas.ages == "total"
data_population_2010_abbrevs_areas_age = data_population_2010_abbrevs_areas.loc[data_population_2010_abbrevs_areas_age_mask, :]
data_population_2010_abbrevs_areas_age_sort = data_population_2010_abbrevs_areas_age.sort_values(by = "density", ascending = False)
result = data_population_2010_abbrevs_areas_age_sort[["state", "density"]]
result


## Ejercicio 6 

Verifiquemos que tenemos un único registro por estado.

Para esos veamos que la cantidad de valores únicos en el campo estado del DataFrame result es igual a la cantidad de filas de ese DataFrame

In [None]:
len(result.state.unique()) == result.shape[0]

## Ejercicio 7 - Tarea

Repitamos este mismo análisis usando join en lugar de merge

Ayuda: 

Recordemos que join usas los índices de los DataFrame. Para eso vamos a tener que ir modificándolos de acuerdo a los DataFrame que estemos combinando. Los métodos set_index y reset_index les van a servir.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.set_index.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.reset_index.html


---
<a id="section_referencias"></a> 
## Referencias

[volver a TOC](#section_toc)


Python for Data Analysis. Wes McKinney. Cap 8.2

https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html

