<img src='letscodebr_cover.jpeg' align='left' width=100%/>

# Ada Tech [DS-PY-004] Técnicas de Programação I (PY) Aulas 4 e 5 : Pandas - Joins.

## Intro

As operações de merge ou join combinam conjuntos de dados associando suas linhas de acordo com uma ou mais chaves. 

Essas operações são essenciais em bancos de dados relacionais. O Pandas fornece vários métodos para combinar facilmente objetos do tipo Series ou DataFrame.

### `concat`

A função [`concat()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html) se concatena ao longo de um eixo (índice ou colunas) juntando ou cruzando os valores do índice.

**Exemplo 1**: 

Unimos os dois DataFrame por linhas (axis=0 por default)

`frames = [df1, df2, df3]`

`result = pd.concat(frames)`

<img src='img/merging_concat_basic.png' align='center' width=40%/>

**Exemplo 2**: 

Unimos os dois DataFrame por colunas (eixo = 1).

As linhas de índice igual no DataFrame original formam uma única linha no DataFrame de resultado.

Neste exemplo, os índices correspondentes são 2 e 3, o resto das linhas no DataFrame resultante são preenchidas com nulo.

Observe que as colunas com o mesmo nome não são combinadas.

`pd.concat([df1, df4], axis=1, sort=False)`

<img src='img/merging_concat_axis1.png' align='center' width=40%/>

**Exemplo 3**: 

Unimos os dois DataFrames por colunas (eixo = 1) usando `inner` como o valor do argumento` join`.

`inner` indica que no DataFrame resultante existem apenas os registros (identificados por seu índice) que pertencem aos dois DataFrames originais.

Nesse caso, indexe apenas os registros 2 e 3.
`pd.concat([df1, df4], axis=1, join='inner')`

<img src='img/merging_concat_axis1_inner.png' align='center' width=40%/>

Os valores possíveis do argumento `join` são `inner`, `outer`. O argumento `inner` retorna os registros que são a **interseção** dos índices originais do DataFrame,já `outer` retorna a **união**.

`outer` é o valor padrão do argumento` join` do método `concat`.

### `append`

O método [`pandas.DataFrame.append()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html) é equivalente a `concat` com `axis = 0`.

**Exemplo 1**:

`df1.append(df2)`

<img src='img/merging_append1.png' align='center' width=40%/>

**Exemplo 2**:

Registros de índice igual não são combinados no DataFrame de resultado.

`df1.append(df4, sort=False)`

<img src='img/merging_append2.png' align='center' width=40%/>

**Exemplo 3**:

append pode concatenar uma lista de DataFrame

`df1.append([df2, df3])`

<img src='img/merging_append3.png' align='center' width=$0%/>

### `ignore_index=True`

Se os valores dos índices do DataFrame que estamos combinando não representam dados relevantes, podemos definir `ignore_index = True` e o índice do DataFrame resultante "redefine" os valores que os registros de índice originais trazem.  

Este argumento pode ser usado em `append` e` concat`

`pd.concat([df1, df4], ignore_index=True, sort=False)`

<img src='img/merging_concat_ignore_index.png' align='center' width=60%/>

### `merge`

[`pandas.merge()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.merge.html)

Seus argumentos são:

```python
left, 
right, 
how ='inner', 
on = None, 
left_on = None, 
right_on = None,
left_index = False, 
right_index = False, 
sort = True,
suffixes=('_x', '_y'), 
copy = True, 
indicator = False,
validate = None`
```         
Os argumentos cujos valores definiremos com frequência são:

* `left`: uma instância de DataFrame ou Series

* `right`: outra instância de DataFrame ou Series

* `on`: colunas que usaremos como chave para combinar os registros. Elas devem estar presentes em ambos os DataFrames. Se o valor deste argumento não for especificado e left_index e right_index forem False, será inferido que a interseção das colunas de ambos DataFrame será a chave da junção.
 
* `left_on`: colunas pertencentes ao DataFrame à esquerda que usaremos como uma chave para combinar os registros.

* `right_on`: colunas pertencentes ao DataFrame à direita que usaremos como chave para combinar os registros.

* `left_index`: Se for True, usaremos o índice (rótulos de linha) do DataFrame à esquerda como chave.

* `right_index`: Se for True, usaremos o índice (rótulos de linha) do DataFrame à direita como chave.

* `how`: Um dos seguintes valores 'left', 'right', 'outer', 'inner'. O valor padrão é `interno`.

* `sort`: Se True, classifica o DataFrame resultante na ordem lexicográfica dos campos-chave. O valor padrão é verdadeiro.

* `suffixes`: Uma tupla de string que serão os sufixos das colunas que têm o mesmo nome em ambos os DataFrame.


#### Valores possíveis do argumento `how`

O argumento `how` especifica como determinar quais chaves incluir no DataFrame resultante.

Se uma chave não aparecer em nenhum DataFrame, os valores no DataFrame que a contém serão combinados com os valores NA.

* `inner`: as chaves no DataFrame resultante são a interseção das chaves do DataFrame esquerdo e direito.

* `outer`: as chaves no DataFrame resultante são a união das chaves do DataFrame esquerdo e direito.

* `left`: as chaves no DataFrame resultante são aquelas do DataFrame esquerdo.

* `right`: as chaves no DataFrame resultante são aquelas do DataFrame correto.

**Exemplo 1**:

O valor padrão de `how` é `inner`.

O DataFrame resultante possui as chaves que resultam da interseção das chaves do DataFrame esquerdo e direito.

`pd.merge(left, right, on='key')`

<img src='img/merging_merge_on_key.png' align='center' width=60%/>

**Exemplo 2**:

O valor padrão de `how` é `inner`. Chaves múltiplas.

`pd.merge(left, right, on=['key1', 'key2'])`

<img src='img/merging_merge_on_key_multiple.png' align='center' width=60%/>

**Exemplo 3**:

Left join.

O DataFrame resultante tem as chaves do DataFrame esquerdo.

Observe que a chave (K1, K0) aparece em dois registros do DataFrame de resultado. Isso acontece porque o registro com aquela chave à esquerda é combinado com dois registros (com aquela chave) à direita.

`pd.merge(left, right, how='left', on=['key1', 'key2'])`

<img src='img/merging_merge_on_key_left.png' align='center' width=60%/>

**Exemplo 4**:

Right join.

O DataFrame resultante possui as chaves do DataFrame correto.

Observe que a chave (K1, K0) aparece em dois registros do DataFrame de resultado porque está presente duas vezes no DataFrame correto.

<img src='img/merging_merge_on_key_right.png' align='center' width=60%/>

**Exemplo 5**:

Outer join.

O DataFrame resultante possui as chaves que resultam da união das chaves do DataFrame esquerdo e direito.

<img src='img/merging_merge_on_key_outer.png' align='center' width=60%/>

### `join`

O método [`pandas.DataFrame.join()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html) combina as colunas de dois DataFrames usando os índices como chaves.

**Exemplo 1**:

O valor padrão de `how` is` left`.

`left.join(right)`

<img src='img/merging_join.png' align='center' width=60%/>

**Exemplo 2**:

`left.join(right, how='outer')`

<img src='img/merging_join_outer.png' align='center' width=60%/>

**Exemplo 3**:

`left.join(right, how='inner')`

<img src='img/merging_join_inner.png' align='center' width=60%/>

## Dataset

Temos dados de população e área por estado nos EUA, divididos em três arquivos csv:

* state-abbrevs.csv
* state-areas.csv
* state-population.csv

## Problema

Queremos criar um ranking dos estados por sua densidade populacional total em 2010.

## Imports

In [1]:
import pandas as pd
import numpy as np

## Exercícios

### Exercício 1

Vamos ler os dados em três DataFrames, vamos olhar os primeiros registros de cada um.

In [2]:
data_abbrevs = pd.read_csv("../Data/state-abbrevs.csv", sep = ",")
data_abbrevs.head(3)

Unnamed: 0,state,abbreviation
0,Alabama,AL
1,Alaska,AK
2,Arizona,AZ


In [3]:
data_areas = pd.read_csv("../Data/state-areas.csv", sep = ",")
data_areas.head(3)

Unnamed: 0,state,area (sq. mi)
0,Alabama,52423
1,Alaska,656425
2,Arizona,114006


In [4]:
data_population = pd.read_csv("../Data/state-population.csv", sep = ",")
data_population.head(3)

Unnamed: 0,state/region,ages,year,population
0,AL,under18,2012,1117489.0
1,AL,total,2012,4817528.0
2,AL,under18,2010,1130966.0


## Exercício 2

Vamos filtrar os dados de data_population, criando um novo DataFrame com os dados do ano de 2010.

In [5]:
data_population_2010_mask = data_population.year == 2010
data_population_2010 = data_population.loc[data_population_2010_mask, : ]
data_population_2010.head(3)

Unnamed: 0,state/region,ages,year,population
2,AL,under18,2010,1130966.0
3,AL,total,2010,4785570.0
90,AK,under18,2010,187902.0


## Exercício 3

Para calcular a densidade populacional, temos que dividir os dados da coluna de população de data_population_2010 pelos dados da coluna de área de data_areas.

O problema é que essas duas tabelas não têm campos em comum para combinarmos seus registros com uma mesclagem.

Para isso, vamos usar data_abbrevs que liga as duas formas de identificação dos estados.

Vamos começar fazendo uma fusão entre data_population e data_abbrevs, usando um left para garantir que não perdemos nenhum registro data_population.

In [6]:
data_population_2010_abbrevs = pd.merge(data_population_2010, 
                                        data_abbrevs,
                                        left_on = "state/region",
                                        right_on = "abbreviation",
                                        how = "left"
                                       )
data_population_2010_abbrevs.head(3)

Unnamed: 0,state/region,ages,year,population,state,abbreviation
0,AL,under18,2010,1130966.0,Alabama,AL
1,AL,total,2010,4785570.0,Alabama,AL
2,AK,under18,2010,187902.0,Alaska,AK


Agora vamos combinar os dados de data_population_2010_abbrevs com data_areas, usando uma junção interna porque queremos ter certeza de que temos os dados de população e superfície, portanto, precisamos ter registros nas duas tabelas.

In [7]:
data_population_2010_abbrevs_areas = pd.merge(data_population_2010_abbrevs, 
                                              data_areas,
                                              on = "state", 
                                              how = "inner"
                                             )
data_population_2010_abbrevs_areas.head(3)

Unnamed: 0,state/region,ages,year,population,state,abbreviation,area (sq. mi)
0,AL,under18,2010,1130966.0,Alabama,AL,52423
1,AL,total,2010,4785570.0,Alabama,AL,52423
2,AK,under18,2010,187902.0,Alaska,AK,656425


## Exercício 4

Vamos calcular a densidade dividindo a população por área.

In [8]:
data_population_2010_abbrevs_areas["density"] = data_population_2010_abbrevs_areas.population / data_population_2010_abbrevs_areas["area (sq. mi)"]
data_population_2010_abbrevs_areas.head(3)

Unnamed: 0,state/region,ages,year,population,state,abbreviation,area (sq. mi),density
0,AL,under18,2010,1130966.0,Alabama,AL,52423,21.573851
1,AL,total,2010,4785570.0,Alabama,AL,52423,91.287603
2,AK,under18,2010,187902.0,Alaska,AK,656425,0.286251


## Exercício 5

Vamos selecionar os registros de valor "total" no campo idade e ver os nomes dos estados ordenados do maior para o menor por densidade.

In [9]:
data_population_2010_abbrevs_areas_age_mask = data_population_2010_abbrevs_areas.ages == "total"
data_population_2010_abbrevs_areas_age = data_population_2010_abbrevs_areas.loc[data_population_2010_abbrevs_areas_age_mask, :]
data_population_2010_abbrevs_areas_age_sort = data_population_2010_abbrevs_areas_age.sort_values(by = "density", ascending = False)
result = data_population_2010_abbrevs_areas_age_sort[["state", "density"]]
result


Unnamed: 0,state,density
17,District of Columbia,8898.897059
61,New Jersey,1009.253268
78,Rhode Island,681.339159
13,Connecticut,645.600649
42,Massachusetts,621.815538
41,Maryland,466.445797
15,Delaware,460.445752
65,New York,356.094135
19,Florida,286.597129
77,Pennsylvania,275.966651


## Exercício 6 

Vamos verificar se temos um único registro por estado.

Para tanto, vamos ver que o número de valores únicos no campo de estado do resultado do DataFrame é igual ao número de linhas desse DataFrame

In [10]:
len(result.state.unique()) == result.shape[0]

True

## Exercício 7

Vamos repetir esta mesma análise usando join em vez de merge

Ajuda:

Lembre-se de que o join usa os índices do DataFrame. Para isso teremos que modificá-los de acordo com o DataFrame que estamos combinando. Os métodos set_index e reset_index irão atendê-lo bem.

- [`pandas.DataFrame.set_index()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.set_index.html)

- [`pandas.DataFrame.reset_index()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.reset_index.html)

## Referências

Python for Data Analysis. Wes McKinney. Cap 8.2

- [Merge, join, concatenate and compare](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html)