# Extra√ß√£o, transforma√ß√£o e carga de dados

O processo de ETL √© uma parte fundamental do trabalho com dados e consiste em tr√™s etapas:

- **Extra√ß√£o**: a coleta de dados, potencialmente a partir de m√∫ltiplas fontes heterog√™neas. Pode envolver raspagem de p√°ginas web, acesso a interfaces de programa√ß√£o (APIs) ou consultas a bancos de dados.
- **Transforma√ß√£o**: a reorganiza√ß√£o dos dados, envolvendo opera√ß√µes como uni√£o, cruzamento e agrega√ß√£o.
- **Carga**: a persist√™ncia do novo conjunto de dados onde se quer armazen√°-lo.

Este notebook foca em exemplos de m√©todos de transforma√ß√£o com o Pandas.

Para isso usaremos tr√™s dataframes artificiais em nossos exemplos: `df_a`, `df_b` e `df_c`.

## Criando dataframes a partir de dicion√°rios

Como vamos criar dataframes customizados para nossos exemplos, precisaremos do aux√≠lio de **dicion√°rios**.

Um dicion√°rio √© um tipo de objeto Python que permite armazenar valores indexados por chaves, similar ao que o `DataFrame` do Pandas faz.

Usamos a nota√ß√£o abaixo para criar um dicion√°rio:

```python3
nome = {
        chave1: valor1,
        chave2: valor2,
        ...
        chaveN: valorN
        }
```

Acessamos um valor em um dicion√°rio atrav√©s da sua chave, usando a nota√ß√£o `dicion√°rio[chave]`.

No exemplo a seguir, o dicion√°rio `dados_df_a` t√™m como chaves os nomes das s√©ries associadas:

In [None]:
import pandas as pd

In [None]:
dados_df_a = {
            'id_indiv√≠duo': ['1', '2', '3', '4', '5'],
            'nome': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'], 
            'sobrenome': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']
            }

Note que cada s√©rie √© representada como uma lista.

Criar um `DataFrame` a partir de um dicion√°rio √© bem simples:

In [None]:
df_a = pd.DataFrame(dados_df_a)
df_a

Seguindo o mesmo modelo, vamos criar o dataframe `df_b`:

In [None]:
dados_df_b = {
            'id_indiv√≠duo': ['4', '5', '6', '7', '8'],
            'nome': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'], 
            'sobrenome': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']
            }

In [None]:
df_b = pd.DataFrame(dados_df_b)
df_b

In [None]:
dados_df_c = {
            'id_indiv√≠duo': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
            'id_exame': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]
            }

In [None]:
df_c = pd.DataFrame(dados_df_c)
df_c

## Uni√£o de dados

Uma das opera√ß√µes comuns √© unir observa√ß√µes que apresentam as mesmas caracter√≠sticas, mas est√£o em diferentes dataframes. 

Para isso usaremos o comando `concat` que recebe uma lista com ***n*** objetos `DataFrame` como par√¢metro.

In [None]:
df_new = pd.concat([df_a, df_b])
df_new

Tamb√©m seria poss√≠ve unir objetos `DataFrame` com caracter√≠sticas distintas.

No entanto, essa opera√ß√£o produziria um `DataFrame` com muitos dados faltando:

In [None]:
pd.concat([df_a, df_c])

## Cruzando dados

No exemplo anterior, vimos o resultado de unir dataframes cujas caracter√≠sticas n√£o s√£o id√™nticas.

No entanto, quanto temos pelo menos uma caracter√≠stica em comum entre dois dataframes, podemos **cruzar**
 esses dados, produzindo um novo dataframe que re√∫ne toda a informa√ß√£o dos dataframes originais.

No exemplo, abaixo as observa√ß√µes do dataframe **√† esquerda** (`df_a`) e do dataframe **√† direita** (`df_c`) foram cruzadas, tomando como caracter√≠stica em comum `id_indiv√≠duo`. 

Como voc√™ pode ver, o novo dataframe re√∫ne as informa√ß√µes de ambos os dataframes usados no cruzamento dos dados:

In [None]:
pd.merge(df_a, df_c, on='id_indiv√≠duo')

Em algumas situa√ß√µes, a mesma caracter√≠stica pode estar representada por diferentes nomes nos dataframes que se deseja cruzar.

Nesses casos, podemos usar os argumentos `left_on` e `right_on` para especificar, respectivamente, os nomes da caracter√≠stica no dataframe √† esquerda e no dataframe √† direita.

### Tipos de cruzamento

Uma opera√ß√£o de cruzamento de dados combina dados de dois dataframes que apresentem uma caracter√≠stica em comum.

No exemplo anterior, a caracter√≠stica em comum era o campo `id_indiv√≠duo`.

Note que as observa√ß√µes presentes no dataframe `df_c` cujos valores para `id_indiv√≠duo` n√£o est√£o presentes no dataframe `df_a` n√£o foram mostradas.

Se quisermos que essas observa√ß√µes sejam preservadas, podemos usar um **cruzamento √† direita**.

In [None]:
pd.merge(df_a, df_c, on='id_indiv√≠duo', how='right')

O resultado acima mostra tanto as observa√ß√µes com `id_indiv√≠duo` presentes nos dois dataframes como o restante das observa√ß√µes do dataframe √† direita. 

Note que as observa√ß√µes adicionadas pelo cruzamento √† direita apresentam dados faltando.

O mesmo aconteceria se us√°ssemos um **cruzamento √† esquerda**:

In [None]:
pd.merge(df_b, df_c, on='id_indiv√≠duo', how='left')

Nesse caso, a observa√ß√£o do dataframe `df_b` cujo `id_indiv√≠duo` n√£o estava presente no dataframe `df_c` foi mantida.

Em um caso mais extremo, podemos usar um **cruzamento externo**, que mant√©m todas as observa√ß√µes de ambos os dataframes:

In [None]:
pd.merge(df_b, df_c, on='id_indiv√≠duo', how='outer')

## Agregando dados

As opera√ß√µes de uni√£o e cruzamento tem por objetivo reunir informa√ß√µes espalhadas em m√∫ltiplas bases em um √∫nico dataframe.

Um tipo complementar de opera√ß√£o √© a **agrega√ß√£o**, que visa resumir blocos de informa√ß√µes atrav√©s de estat√≠sticas descritivas. 

As principais formas de agrega√ß√£o s√£o obtidas por meio de pivoteamento, seja unidimensional (**grupos**) ou bidimensional (**tabelas din√¢micas**).  

### Grupos

Organizar os dados em grupos pode ser √∫til tanto para analisar cada grupo como para calcular estat√≠sticas por grupo.

O primeiro passo da agrega√ß√£o √© definir uma ou mais caracter√≠sticas usadas como fatores do agrupamento.

No exemplo abaixo, agrupamos os dados do dataset `iris`.

Este dataset √© o mais baixado do reposit√≥rio de aprendizado de m√°quina [UCI](https://archive.ics.uci.edu/ml/), listando medidas de p√©talas e s√©palas de tr√™s esp√©cies de flores de √≠ris.

Por conveni√™ncia, vamos baix√°-lo da biblioteca `seaborn`:

In [None]:
import seaborn as sns
dados_√≠ris = sns.load_dataset('iris')
dados_√≠ris

Como podemos ver, o dataset cont√©m largura e altura das s√©palas e p√©talas de 150 amostras de flor √≠ris.

Vamos ver quantos exemplos temos por esp√©cie:

In [None]:
dados_√≠ris['species'].value_counts()

Para agrupar este dataset por esp√©cie, podemos usar o m√©todo `groupby()`:

In [None]:
grupos_√≠ris = dados_√≠ris.groupby(['species'])

Podemos, ent√£o, tratar cada um grupo como um `DataFrame` usando o m√©todo `get_group()`:

In [None]:
grupos_√≠ris.get_group('versicolor').head()

O agrupamento nos permite computar estat√≠sticas sobre os grupos ao mesmo tempo ou individualmente:

#### Ao mesmo tempo

In [None]:
grupos_√≠ris.min()

In [None]:
grupos_√≠ris.max()

In [None]:
grupos_√≠ris.mean()

#### Individualmente

In [None]:
grupos_√≠ris.get_group("versicolor").describe()

In [None]:
grupo_versicolor = grupos_√≠ris.get_group("versicolor")
grupo_versicolor.count()

#### Agregando por m√∫ltiplas caracter√≠sticas

Um recurso poderoso do Pandas √© permitir agrega√ß√µes a partir de m√∫ltiplas caracter√≠sticas.

Em geral, usamos esse recurso quando temos um conjunto de dados que apresentam caracter√≠sticas categ√≥ricas e n√∫mericas.

No dataset `iris`, no entanto, temos apenas uma caracter√≠sticas categ√≥rica dispon√≠vel.

Vamos aproveitar essa situa√ß√£o e dar uma olhada em um recurso bem legal do Pandas, chamado discretiza√ß√£o em intervalos:

In [None]:
pd.cut(dados_√≠ris["petal_width"], bins=3)

Entendeu o que aconteceu? 

O m√©todo `cut()` calculou os valores m√°ximo e m√≠nimo para a caracter√≠stica `petal_width` e dividiu esse intervalo em tr√™s subintervalos.

Assim, cada um dos valores originais foi substitu√≠do pelo subintervalo ao qual ele pertecene e passamos ter uma var√≠avel categ√≥rica üòÑ

Vamos substituir os dados originais pelos dados categorizados:

In [None]:
dados_√≠ris["petal_width"] = pd.cut(dados_√≠ris["petal_width"], bins=3)
dados_√≠ris

Um recurso adicional do Pandas para lidar com caracter√≠sticas categ√≥ricas √© renomear as categorias.

Vamos renomear os subintervalos gerados.

Note que desta vez estamos alterando os dados originais diretamente usando a op√ß√£o `inplace=True` (quase todos os m√©todos Pandas aceitam essa op√ß√£o).

In [None]:
dados_√≠ris["petal_width"].cat.rename_categories(["low", "medium", "high"], inplace=True)
dados_√≠ris

Agora que nosso dataset apresenta duas caracter√≠sticas categ√≥ricas, podemos fazer agrega√ß√µes por m√∫ltiplas caracter√≠sticas:

In [None]:
grupo2_√≠ris = dados_√≠ris.groupby(["species","petal_width"]).size()
grupo2_√≠ris

Neste caso, em vez de produzirmos os grupos, produzimos diretamente a agrega√ß√£o usando o m√©todo `size()`, que conta o tamanho de cada grupo.

Pelos dados acima, podemos verificar que todas as flores de √≠ris da esp√©cie `setosa` presentes no dataset apresentam uma largura de p√©tala pequena.

Tamb√©m √© poss√≠vel fazer uma excelente separa√ß√£o entre as esp√©cies `versicolor` e `virginica`.

Note que os dados acima s√£o uma s√©rie que apresentam um √≠ndice em m√∫ltiplos n√≠veis (conhecido no Pandas como `MultiIndex`):

In [None]:
grupo2_√≠ris.index

Em meio √†s mensagens verbosas do Pandas, vemos que h√° dois n√≠veis neste √≠ndice (`levels`), cujos nomes (`names`)  s√£o `species` e `petal_width`.

Podemos indexar esta s√©rie de v√°rias formas diferentes

In [None]:
grupo2_√≠ris["virginica","high"]

In [None]:
grupo2_√≠ris["virginica",]

In [None]:
grupo2_√≠ris[:,"high"]

Tamb√©m podemos converter essa s√©rie em um `DataFrame`. 

Para isso, usamos o m√©todo `reset_index()` e informamos o nome que queremos dar √† s√©rie:

In [None]:
df_√≠ris = grupo2_√≠ris.reset_index(name="count")
df_√≠ris

### Tabelas din√¢micas

Uma outra forma de agrega√ß√£o dispon√≠vel no Pandas √© atrav√©s de tabelas din√¢micas.

Neste caso, usamos o m√©todo `pivot_table()` e devemos informar as carater√≠sticas para o agrupamento a n√≠vel de linhas (`index`) e de colunas (`columns`).

Tamb√©m podemos informar um m√©todo de agrega√ß√£o usando a op√ß√£o `aggfunc`, que por padr√£o calcula a m√©dia:

In [None]:
pt_√≠ris = dados_√≠ris.pivot_table(index="species", columns="petal_width", aggfunc="size")
pt_√≠ris

Note que a tabela din√¢mica tenta gerar todas as combina√ß√µes poss√≠veis entre os valores das caracter√≠stica de linha e de coluna.

Como nosso dataset n√£o apresenta observa√ß√µes da esp√©cie `setosa` com largura de p√©tala `medium` ou `high`, esses valores s√£o marcados como faltando/inv√°lidos.

O m√©todo `pivot_table()` fornece a op√ß√£o `fill_value`, que nos permite escolher como preencher esses casos:

In [None]:
pt_√≠ris = dados_√≠ris.pivot_table(index="species", columns="petal_width", aggfunc="size", fill_value=0)
pt_√≠ris

O m√©todo `pivot_table()` produz um objeto do tipo `DataFrame`.

Assim, a indexa√ß√£o funciona da maneira como j√° conhecemos:

In [None]:
pt_√≠ris.loc["versicolor"]

In [None]:
pt_√≠ris.loc["versicolor","low"]

In [None]:
pt_√≠ris.loc[:,"low"]