# Extra√ß√£o, transforma√ß√£o e carga de dados

O processo de ETL √© uma parte fundamental do trabalho com dados e consiste em tr√™s etapas:

- **Extra√ß√£o**: a coleta de dados, potencialmente a partir de m√∫ltiplas fontes heterog√™neas. Pode envolver raspagem de p√°ginas web, acesso a interfaces de programa√ß√£o (APIs) ou consultas a bancos de dados.
- **Transforma√ß√£o**: a reorganiza√ß√£o dos dados, envolvendo opera√ß√µes como uni√£o, cruzamento e agrega√ß√£o.
- **Carga**: a persist√™ncia do novo conjunto de dados onde se quer armazen√°-lo.

Este notebook foca em exemplos de m√©todos de transforma√ß√£o com o Pandas.

Para isso usaremos tr√™s dataframes artificiais em nossos exemplos: `df_a`, `df_b` e `df_c`.

## Criando dataframes a partir de dicion√°rios

Como vamos criar dataframes customizados para nossos exemplos, precisaremos do aux√≠lio de **dicion√°rios**.

Um dicion√°rio √© um tipo de objeto Python que permite armazenar valores indexados por chaves, similar ao que o `DataFrame` do Pandas faz.

Usamos a nota√ß√£o abaixo para criar um dicion√°rio:

```python3
nome = {
        chave1: valor1,
        chave2: valor2,
        ...
        chaveN: valorN
        }
```

Acessamos um valor em um dicion√°rio atrav√©s da sua chave, usando a nota√ß√£o `dicion√°rio[chave]`.

No exemplo a seguir, o dicion√°rio `dados_df_a` t√™m como chaves os nomes das s√©ries associadas:

In [1]:
import pandas as pd

In [2]:
dados_df_a = {
            'id_indiv√≠duo': ['1', '2', '3', '4', '5'],
            'nome': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'], 
            'sobrenome': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']
            }

Note que cada s√©rie √© representada como uma lista.

Criar um `DataFrame` a partir de um dicion√°rio √© bem simples:

In [3]:
df_a = pd.DataFrame(dados_df_a)
df_a

Unnamed: 0,id_indiv√≠duo,nome,sobrenome
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches


Seguindo o mesmo modelo, vamos criar o dataframe `df_b`:

In [4]:
dados_df_b = {
            'id_indiv√≠duo': ['4', '5', '6', '7', '8'],
            'nome': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'], 
            'sobrenome': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']
            }

In [5]:
df_b = pd.DataFrame(dados_df_b)
df_b

Unnamed: 0,id_indiv√≠duo,nome,sobrenome
0,4,Billy,Bonder
1,5,Brian,Black
2,6,Bran,Balwner
3,7,Bryce,Brice
4,8,Betty,Btisan


In [6]:
dados_df_c = {
            'id_indiv√≠duo': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
            'id_exame': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]
            }

In [7]:
df_c = pd.DataFrame(dados_df_c)
df_c

Unnamed: 0,id_indiv√≠duo,id_exame
0,1,51
1,2,15
2,3,15
3,4,61
4,5,16
5,7,14
6,8,15
7,9,1
8,10,61
9,11,16


## Uni√£o de dados

Uma das opera√ß√µes comuns √© unir observa√ß√µes que apresentam as mesmas caracter√≠sticas, mas est√£o em diferentes dataframes. 

Para isso usaremos o comando `concat` que recebe uma lista com ***n*** objetos `DataFrame` como par√¢metro.

In [37]:
df_new = pd.concat([df_a, df_b])
df_new

Unnamed: 0,id_indiv√≠duo,nome,sobrenome
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches
0,4,Billy,Bonder
1,5,Brian,Black
2,6,Bran,Balwner
3,7,Bryce,Brice
4,8,Betty,Btisan


Tamb√©m seria poss√≠ve unir objetos `DataFrame` com caracter√≠sticas distintas.

No entanto, essa opera√ß√£o produziria um `DataFrame` com muitos dados faltando:

In [10]:
pd.concat([df_a, df_c])

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,id_exame,id_indiv√≠duo,nome,sobrenome
0,,1,Alex,Anderson
1,,2,Amy,Ackerman
2,,3,Allen,Ali
3,,4,Alice,Aoni
4,,5,Ayoung,Atiches
0,51.0,1,,
1,15.0,2,,
2,15.0,3,,
3,61.0,4,,
4,16.0,5,,


## Cruzando dados

No exemplo anterior, vimos o resultado de unir dataframes cujas caracter√≠sticas n√£o s√£o id√™nticas.

No entanto, quanto temos pelo menos uma caracter√≠stica em comum entre dois dataframes, podemos **cruzar**
 esses dados, produzindo um novo dataframe que re√∫ne toda a informa√ß√£o dos dataframes originais.

No exemplo, abaixo as observa√ß√µes do dataframe **√† esquerda** (`df_a`) e do dataframe **√† direita** (`df_c`) foram cruzadas, tomando como caracter√≠stica em comum `id_indiv√≠duo`. 

Como voc√™ pode ver, o novo dataframe re√∫ne as informa√ß√µes de ambos os dataframes usados no cruzamento dos dados:

In [11]:
pd.merge(df_a, df_c, on='id_indiv√≠duo')

Unnamed: 0,id_indiv√≠duo,nome,sobrenome,id_exame
0,1,Alex,Anderson,51
1,2,Amy,Ackerman,15
2,3,Allen,Ali,15
3,4,Alice,Aoni,61
4,5,Ayoung,Atiches,16


Em algumas situa√ß√µes, a mesma caracter√≠stica pode estar representada por diferentes nomes nos dataframes que se deseja cruzar.

Nesses casos, podemos usar os argumentos `left_on` e `right_on` para especificar, respectivamente, os nomes da caracter√≠stica no dataframe √† esquerda e no dataframe √† direita.

### Tipos de cruzamento

Uma opera√ß√£o de cruzamento de dados combina dados de dois dataframes que apresentem uma caracter√≠stica em comum.

No exemplo anterior, a caracter√≠stica em comum era o campo `id_indiv√≠duo`.

Note que as observa√ß√µes presentes no dataframe `df_c` cujos valores para `id_indiv√≠duo` n√£o est√£o presentes no dataframe `df_a` n√£o foram mostradas.

Se quisermos que essas observa√ß√µes sejam preservadas, podemos usar um **cruzamento √† direita**.

In [12]:
pd.merge(df_a, df_c, on='id_indiv√≠duo', how='right')

Unnamed: 0,id_indiv√≠duo,nome,sobrenome,id_exame
0,1,Alex,Anderson,51
1,2,Amy,Ackerman,15
2,3,Allen,Ali,15
3,4,Alice,Aoni,61
4,5,Ayoung,Atiches,16
5,7,,,14
6,8,,,15
7,9,,,1
8,10,,,61
9,11,,,16


O resultado acima mostra tanto as observa√ß√µes com `id_indiv√≠duo` presentes nos dois dataframes como o restante das observa√ß√µes do dataframe √† direita. 

Note que as observa√ß√µes adicionadas pelo cruzamento √† direita apresentam dados faltando.

O mesmo aconteceria se us√°ssemos um **cruzamento √† esquerda**:

In [15]:
pd.merge(df_b, df_c, on='id_indiv√≠duo', how='left')

Unnamed: 0,id_indiv√≠duo,nome,sobrenome,id_exame
0,4,Billy,Bonder,61.0
1,5,Brian,Black,16.0
2,6,Bran,Balwner,
3,7,Bryce,Brice,14.0
4,8,Betty,Btisan,15.0


Nesse caso, a observa√ß√£o do dataframe `df_b` cujo `id_indiv√≠duo` n√£o estava presente no dataframe `df_c` foi mantida.

Em um caso mais extremo, podemos usar um **cruzamento externo**, que mant√©m todas as observa√ß√µes de ambos os dataframes:

In [16]:
pd.merge(df_b, df_c, on='id_indiv√≠duo', how='outer')

Unnamed: 0,id_indiv√≠duo,nome,sobrenome,id_exame
0,4,Billy,Bonder,61.0
1,5,Brian,Black,16.0
2,6,Bran,Balwner,
3,7,Bryce,Brice,14.0
4,8,Betty,Btisan,15.0
5,1,,,51.0
6,2,,,15.0
7,3,,,15.0
8,9,,,1.0
9,10,,,61.0


## Agregando dados

As opera√ß√µes de uni√£o e cruzamento tem por objetivo reunir informa√ß√µes espalhadas em m√∫ltiplas bases em um √∫nico dataframe.

Um tipo complementar de opera√ß√£o √© a **agrega√ß√£o**, que visa resumir blocos de informa√ß√µes atrav√©s de estat√≠sticas descritivas. 

As principais formas de agrega√ß√£o s√£o obtidas por meio de pivoteamento, seja unidimensional (**grupos**) ou bidimensional (**tabelas din√¢micas**).  

### Grupos

Organizar os dados em grupos pode ser √∫til tanto para analisar cada grupo como para calcular estat√≠sticas por grupo.

O primeiro passo da agrega√ß√£o √© definir uma ou mais caracter√≠sticas usadas como fatores do agrupamento.

No exemplo abaixo, agrupamos os dados do dataset `iris`.

Este dataset √© o mais baixado do reposit√≥rio de aprendizado de m√°quina [UCI](https://archive.ics.uci.edu/ml/), listando medidas de p√©talas e s√©palas de tr√™s esp√©cies de flores de √≠ris.

Por conveni√™ncia, vamos baix√°-lo da biblioteca `seaborn`:

In [92]:
import seaborn as sns
dados_√≠ris = sns.load_dataset('iris')
dados_√≠ris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


Como podemos ver, o dataset cont√©m largura e altura das s√©palas e p√©talas de 150 amostras de flor √≠ris.

Vamos ver quantos exemplos temos por esp√©cie:

In [19]:
dados_√≠ris['species'].value_counts()

virginica     50
versicolor    50
setosa        50
Name: species, dtype: int64

Para agrupar este dataset por esp√©cie, podemos usar o m√©todo `groupby()`:

In [23]:
grupos_√≠ris = dados_√≠ris.groupby(['species'])

Podemos, ent√£o, tratar cada um grupo como um `DataFrame` usando o m√©todo `get_group()`:

In [25]:
grupos_√≠ris.get_group('versicolor').head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
50,7.0,3.2,4.7,1.4,versicolor
51,6.4,3.2,4.5,1.5,versicolor
52,6.9,3.1,4.9,1.5,versicolor
53,5.5,2.3,4.0,1.3,versicolor
54,6.5,2.8,4.6,1.5,versicolor


O agrupamento nos permite computar estat√≠sticas sobre os grupos ao mesmo tempo ou individualmente:

#### Ao mesmo tempo

In [30]:
grupos_√≠ris.min()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,4.3,2.3,1.0,0.1
versicolor,4.9,2.0,3.0,1.0
virginica,4.9,2.2,4.5,1.4


In [31]:
grupos_√≠ris.max()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.8,4.4,1.9,0.6
versicolor,7.0,3.4,5.1,1.8
virginica,7.9,3.8,6.9,2.5


In [29]:
grupos_√≠ris.mean()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.428,1.462,0.246
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


#### Individualmente

In [33]:
grupos_√≠ris.get_group("versicolor").describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,50.0,50.0,50.0,50.0
mean,5.936,2.77,4.26,1.326
std,0.516171,0.313798,0.469911,0.197753
min,4.9,2.0,3.0,1.0
25%,5.6,2.525,4.0,1.2
50%,5.9,2.8,4.35,1.3
75%,6.3,3.0,4.6,1.5
max,7.0,3.4,5.1,1.8


In [38]:
grupo_versicolor = grupos_√≠ris.get_group("versicolor")
grupo_versicolor.count()

sepal_length    50
sepal_width     50
petal_length    50
petal_width     50
species         50
dtype: int64

#### Agregando por m√∫ltiplas caracter√≠sticas

Um recurso poderoso do Pandas √© permitir agrega√ß√µes a partir de m√∫ltiplas caracter√≠sticas.

Em geral, usamos esse recurso quando temos um conjunto de dados que apresentam caracter√≠sticas categ√≥ricas e n√∫mericas.

No dataset `iris`, no entanto, temos apenas uma caracter√≠sticas categ√≥rica dispon√≠vel.

Vamos aproveitar essa situa√ß√£o e dar uma olhada em um recurso bem legal do Pandas, chamado discretiza√ß√£o em intervalos:

In [88]:
pd.cut(dados_√≠ris["petal_width"], bins=3)

0      (0.0976, 0.9]
1      (0.0976, 0.9]
2      (0.0976, 0.9]
3      (0.0976, 0.9]
4      (0.0976, 0.9]
5      (0.0976, 0.9]
6      (0.0976, 0.9]
7      (0.0976, 0.9]
8      (0.0976, 0.9]
9      (0.0976, 0.9]
10     (0.0976, 0.9]
11     (0.0976, 0.9]
12     (0.0976, 0.9]
13     (0.0976, 0.9]
14     (0.0976, 0.9]
15     (0.0976, 0.9]
16     (0.0976, 0.9]
17     (0.0976, 0.9]
18     (0.0976, 0.9]
19     (0.0976, 0.9]
20     (0.0976, 0.9]
21     (0.0976, 0.9]
22     (0.0976, 0.9]
23     (0.0976, 0.9]
24     (0.0976, 0.9]
25     (0.0976, 0.9]
26     (0.0976, 0.9]
27     (0.0976, 0.9]
28     (0.0976, 0.9]
29     (0.0976, 0.9]
           ...      
120       (1.7, 2.5]
121       (1.7, 2.5]
122       (1.7, 2.5]
123       (1.7, 2.5]
124       (1.7, 2.5]
125       (1.7, 2.5]
126       (1.7, 2.5]
127       (1.7, 2.5]
128       (1.7, 2.5]
129       (0.9, 1.7]
130       (1.7, 2.5]
131       (1.7, 2.5]
132       (1.7, 2.5]
133       (0.9, 1.7]
134       (0.9, 1.7]
135       (1.7, 2.5]
136       (1.

Entendeu o que aconteceu? 

O m√©todo `cut()` calculou os valores m√°ximo e m√≠nimo para a caracter√≠stica `petal_width` e dividiu esse intervalo em tr√™s subintervalos.

Assim, cada um dos valores originais foi substitu√≠do pelo subintervalo ao qual ele pertecene e passamos ter uma var√≠avel categ√≥rica üòÑ

Vamos substituir os dados originais pelos dados categorizados:

In [93]:
dados_√≠ris["petal_width"] = pd.cut(dados_√≠ris["petal_width"], bins=3)
dados_√≠ris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,"(0.0976, 0.9]",setosa
1,4.9,3.0,1.4,"(0.0976, 0.9]",setosa
2,4.7,3.2,1.3,"(0.0976, 0.9]",setosa
3,4.6,3.1,1.5,"(0.0976, 0.9]",setosa
4,5.0,3.6,1.4,"(0.0976, 0.9]",setosa
5,5.4,3.9,1.7,"(0.0976, 0.9]",setosa
6,4.6,3.4,1.4,"(0.0976, 0.9]",setosa
7,5.0,3.4,1.5,"(0.0976, 0.9]",setosa
8,4.4,2.9,1.4,"(0.0976, 0.9]",setosa
9,4.9,3.1,1.5,"(0.0976, 0.9]",setosa


Um recurso adicional do Pandas para lidar com caracter√≠sticas categ√≥ricas √© renomear as categorias.

Vamos renomear os subintervalos gerados.

Note que desta vez estamos alterando os dados originais diretamente usando a op√ß√£o `inplace=True` (quase todos os m√©todos Pandas aceitam essa op√ß√£o).

In [94]:
dados_√≠ris["petal_width"].cat.rename_categories(["low", "medium", "high"], inplace=True)
dados_√≠ris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,low,setosa
1,4.9,3.0,1.4,low,setosa
2,4.7,3.2,1.3,low,setosa
3,4.6,3.1,1.5,low,setosa
4,5.0,3.6,1.4,low,setosa
5,5.4,3.9,1.7,low,setosa
6,4.6,3.4,1.4,low,setosa
7,5.0,3.4,1.5,low,setosa
8,4.4,2.9,1.4,low,setosa
9,4.9,3.1,1.5,low,setosa


Agora que nosso dataset apresenta duas caracter√≠sticas categ√≥ricas, podemos fazer agrega√ß√µes por m√∫ltiplas caracter√≠sticas:

In [95]:
grupo2_√≠ris = dados_√≠ris.groupby(["species","petal_width"]).size()
grupo2_√≠ris

species     petal_width
setosa      low            50
versicolor  medium         49
            high            1
virginica   medium          5
            high           45
dtype: int64

Neste caso, em vez de produzirmos os grupos, produzimos diretamente a agrega√ß√£o usando o m√©todo `size()`, que conta o tamanho de cada grupo.

Pelos dados acima, podemos verificar que todas as flores de √≠ris da esp√©cie `setosa` presentes no dataset apresentam uma largura de p√©tala pequena.

Tamb√©m √© poss√≠vel fazer uma excelente separa√ß√£o entre as esp√©cies `versicolor` e `virginica`.

Note que os dados acima s√£o uma s√©rie que apresentam um √≠ndice em m√∫ltiplos n√≠veis (conhecido no Pandas como `MultiIndex`):

In [96]:
grupo2_√≠ris.index

MultiIndex(levels=[['setosa', 'versicolor', 'virginica'], ['low', 'medium', 'high']],
           codes=[[0, 1, 1, 2, 2], [0, 1, 2, 1, 2]],
           names=['species', 'petal_width'])

Em meio √†s mensagens verbosas do Pandas, vemos que h√° dois n√≠veis neste √≠ndice (`levels`), cujos nomes (`names`)  s√£o `species` e `petal_width`.

Podemos indexar esta s√©rie de v√°rias formas diferentes

In [71]:
grupo2_√≠ris["virginica","high"]

45

In [72]:
grupo2_√≠ris["virginica",]

petal_width
medium     5
high      45
dtype: int64

In [73]:
grupo2_√≠ris[:,"high"]

species
versicolor     1
virginica     45
dtype: int64

Tamb√©m podemos converter essa s√©rie em um `DataFrame`. 

Para isso, usamos o m√©todo `reset_index()` e informamos o nome que queremos dar √† s√©rie:

In [97]:
df_√≠ris = grupo2_√≠ris.reset_index(name="count")
df_√≠ris

Unnamed: 0,species,petal_width,count
0,setosa,low,50
1,versicolor,medium,49
2,versicolor,high,1
3,virginica,medium,5
4,virginica,high,45


### Tabelas din√¢micas

Uma outra forma de agrega√ß√£o dispon√≠vel no Pandas √© atrav√©s de tabelas din√¢micas.

Neste caso, usamos o m√©todo `pivot_table()` e devemos informar as carater√≠sticas para o agrupamento a n√≠vel de linhas (`index`) e de colunas (`columns`).

Tamb√©m podemos informar um m√©todo de agrega√ß√£o usando a op√ß√£o `aggfunc`, que por padr√£o calcula a m√©dia:

In [98]:
pt_√≠ris = dados_√≠ris.pivot_table(index="species", columns="petal_width", aggfunc="size")
pt_√≠ris

petal_width,low,medium,high
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
setosa,50.0,,
versicolor,,49.0,1.0
virginica,,5.0,45.0


Note que a tabela din√¢mica tenta gerar todas as combina√ß√µes poss√≠veis entre os valores das caracter√≠stica de linha e de coluna.

Como nosso dataset n√£o apresenta observa√ß√µes da esp√©cie `setosa` com largura de p√©tala `medium` ou `high`, esses valores s√£o marcados como faltando/inv√°lidos.

O m√©todo `pivot_table()` fornece a op√ß√£o `fill_value`, que nos permite escolher como preencher esses casos:

In [99]:
pt_√≠ris = dados_√≠ris.pivot_table(index="species", columns="petal_width", aggfunc="size", fill_value=0)
pt_√≠ris

petal_width,low,medium,high
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
setosa,50,0,0
versicolor,0,49,1
virginica,0,5,45


O m√©todo `pivot_table()` produz um objeto do tipo `DataFrame`.

Assim, a indexa√ß√£o funciona da maneira como j√° conhecemos:

In [100]:
pt_√≠ris.loc["versicolor"]

petal_width
low        0
medium    49
high       1
Name: versicolor, dtype: int64

In [101]:
pt_√≠ris.loc["versicolor","low"]

0

In [102]:
pt_√≠ris.loc[:,"low"]

species
setosa        50
versicolor     0
virginica      0
Name: low, dtype: int64