<a href="https://colab.research.google.com/github/fhsmartins/MBA/blob/main/Aula01/21_Pandas_preparacaodados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color="red"> MBA em IA e Big Data</font>
## <span style="color:red">Linguagens e Ferramentas para Inteligência Artificial e Big Data (Python e SQL)</span>

### <span style="color:darkred">Python - Aula 21</span>

*Leandro Franco de Souza*<br>
*ICMC/USP São Carlos*

*(com material dos Profs. Moacir Antonelli Ponti e Luis Gustavo Nonato)*

# <font color="red"> Conteúdo:</font>

### <span style="color:red">- Preparação de dados</span>

__Referências__ <br>
- McKinney, W. and PyData Development Team [Pandas: powerful Python data analysis toolkit](https://pandas.pydata.org/pandas-docs/stable/pandas.pdf)
- Documentação Pandas [http://pandas.pydata.org/pandas-docs/stable/index.html](http://pandas.pydata.org/pandas-docs/stable/index.html)
- Wickham, H. Tidy data: https://vita.had.co.nz/papers/tidy-data.pdf

---

# Preparação de dados. O que se deseja é que:

1. Cada variável forme uma coluna
2. Cada observação forme uma linha
3. Cada tipo de unidade observacional forme uma tabela

* 3.a forma normal de Codd!

**Exemplo**:

Recebemos duas tabelas, cada uma com temperaturas coletadas em cidades. A primeira é referente aos primeiros dias de coleta, a segunda aos dias seguintes, organizadas por outra pessoa e enviada.

Precisamos preparar os dados de forma que uma observação seja:
* uma cidade, um dia e uma temperatura naquele dia.

In [None]:
# criando os dataframes para o exemplo
import numpy as np
import pandas as pd
temps = np.array([[23, 21, 20],[30, 29, 28],[18, 21, 20],[9, 10, 13]])
dtemp1 = pd.DataFrame(temps, index=['São Paulo','Fortaleza','Montevideo','London'])

dtemp2 = pd.DataFrame({
    'São Paulo': [25, 27, 23, 25],
    'Fortaleza': [35, 32, 31, 29],
    'Montevideo': [20, 18, 21, 23],
    'London': [14, 15, 12, 13]
})

In [None]:
dtemp1

Unnamed: 0,0,1,2
São Paulo,23,21,20
Fortaleza,30,29,28
Montevideo,18,21,20
London,9,10,13


In [None]:
dtemp2

Unnamed: 0,São Paulo,Fortaleza,Montevideo,London
0,25,35,20,14
1,27,32,18,15
2,23,31,21,12
3,25,29,23,13


### `melt()` para reconfigurar tabelas

Permite criar formato largo ou longo.

Auxilia muito para colocar o DataFrame de maneira que cada linha seja uma observação

* `id_vars` são as variáveis que não serão modificadas e continuarão como colunas
* `value_vars` são as variáveis que passarão a ser "valor" (linhas)

In [None]:
print(dtemp1)

print(dtemp1.melt())

             0   1   2
São Paulo   23  21  20
Fortaleza   30  29  28
Montevideo  18  21  20
London       9  10  13
    variable  value
0          0     23
1          0     30
2          0     18
3          0      9
4          1     21
5          1     29
6          1     21
7          1     10
8          2     20
9          2     28
10         2     20
11         2     13


In [None]:
print(dtemp2)
print(dtemp2.melt())

   São Paulo  Fortaleza  Montevideo  London
0         25         35          20      14
1         27         32          18      15
2         23         31          21      12
3         25         29          23      13
      variable  value
0    São Paulo     25
1    São Paulo     27
2    São Paulo     23
3    São Paulo     25
4    Fortaleza     35
5    Fortaleza     32
6    Fortaleza     31
7    Fortaleza     29
8   Montevideo     20
9   Montevideo     18
10  Montevideo     21
11  Montevideo     23
12      London     14
13      London     15
14      London     12
15      London     13


Gostaríamos de uma tabela no seguinte formato:

|city|day|temp|
|---|---|---|
|São Paulo|0|23|
|São Paulo|1|21|
|...|...|...|
|Londres|0|9|
|...|...|...|

Vamos começar pela primeira tabela e ver o que podemos fazer.

In [None]:
dtemp1.melt().head()

Unnamed: 0,variable,value
0,0,23
1,0,30
2,0,18
3,0,9
4,1,21


As cidades somem pois essa informação está no índice.

In [None]:
dtemp1.index

Index(['São Paulo', 'Fortaleza', 'Montevideo', 'London'], dtype='object')

Solução: resetar o índice e criar uma nova coluna com os nomes das cidades

In [None]:
dtemp1 = dtemp1.rename_axis('city').reset_index()
dtemp1

Unnamed: 0,city,0,1,2
0,São Paulo,23,21,20
1,Fortaleza,30,29,28
2,Montevideo,18,21,20
3,London,9,10,13


O uso automático 'derrete' toda a tabela, gostaríamos de **fixar a cidade** como uma variável identificadora

In [None]:
dtemp1_melt = dtemp1.melt(id_vars=['city'])
dtemp1_melt

Unnamed: 0,city,variable,value
0,São Paulo,0,23
1,Fortaleza,0,30
2,Montevideo,0,18
3,London,0,9
4,São Paulo,1,21
5,Fortaleza,1,29
6,Montevideo,1,21
7,London,1,10
8,São Paulo,2,20
9,Fortaleza,2,28


Outro ponto que seria interessante é nomear as variáveis no formato longo

In [None]:
tabela1 = dtemp1.melt(id_vars=['city'], value_name='temperature', var_name='day')
tabela1

Unnamed: 0,city,day,temperature
0,São Paulo,0,23
1,Fortaleza,0,30
2,Montevideo,0,18
3,London,0,9
4,São Paulo,1,21
5,Fortaleza,1,29
6,Montevideo,1,21
7,London,1,10
8,São Paulo,2,20
9,Fortaleza,2,28


Agora na tabela 2.

O `melt` aqui já está mais próximo, veja que nesse caso as colunas informam o nome das cidades, então perdemos o valor dos dias

In [None]:
print(dtemp2)
print(dtemp2.melt())

   São Paulo  Fortaleza  Montevideo  London
0         25         35          20      14
1         27         32          18      15
2         23         31          21      12
3         25         29          23      13
      variable  value
0    São Paulo     25
1    São Paulo     27
2    São Paulo     23
3    São Paulo     25
4    Fortaleza     35
5    Fortaleza     32
6    Fortaleza     31
7    Fortaleza     29
8   Montevideo     20
9   Montevideo     18
10  Montevideo     21
11  Montevideo     23
12      London     14
13      London     15
14      London     12
15      London     13


Assim, podemos seguir o que foi feito na primeira tabela "transpondo" o DataFrame

In [None]:
dtemp2.transpose()

Unnamed: 0,0,1,2,3
São Paulo,25,27,23,25
Fortaleza,35,32,31,29
Montevideo,20,18,21,23
London,14,15,12,13


In [None]:
dtemp2_tran = dtemp2.transpose().rename_axis('city').reset_index()
dtemp2_tran

Unnamed: 0,city,0,1,2,3
0,São Paulo,25,27,23,25
1,Fortaleza,35,32,31,29
2,Montevideo,20,18,21,23
3,London,14,15,12,13


In [None]:
tabela2 = dtemp2_tran.melt(id_vars=['city'],  value_name='temperature', var_name='day')
tabela2

Unnamed: 0,city,day,temperature
0,São Paulo,0,25
1,Fortaleza,0,35
2,Montevideo,0,20
3,London,0,14
4,São Paulo,1,27
5,Fortaleza,1,32
6,Montevideo,1,18
7,London,1,15
8,São Paulo,2,23
9,Fortaleza,2,31


No entanto, veja que os dias da tabela 2 começam em 0

Sabendo que os dias da tabela 2 vem logo após os dias da tabela 1, podemos:
1. pegar o último dia na tabela 1
2. adicionar esse valor ao cada dia da tabela 2 usando `map` ou `apply`

In [None]:
last_day = tabela1['day'].max()

tabela2['day'] = tabela2['day'].apply(lambda x: x+last_day+1)
tabela2

Unnamed: 0,city,day,temperature
0,São Paulo,3,25
1,Fortaleza,3,35
2,Montevideo,3,20
3,London,3,14
4,São Paulo,4,27
5,Fortaleza,4,32
6,Montevideo,4,18
7,London,4,15
8,São Paulo,5,23
9,Fortaleza,5,31


## Combinando

No caso anterior temos 2 DataFrames, mas desejamos combiná-los

- `merge`: combina dados vinculando linhas por uma ou mais chave
- `concatenate`: combina dados a partir de um eixo específico

### `merge`

Realiza a fusão de dois: DataFrames, Series, ou Serie com DataFrame.

Fusão com base em:
- valores de colunas, uma em cada DataFrame
- valores de uma coluna em um dos DataFrame e índices no outro
- valores dos índices em ambos os DataFrames (ou série)

#### Merge baseado nos valores de colunas

In [None]:
# construindo dois DataFrames que serão fundidos com o método 'merge'
df1 = pd.DataFrame({'key': ['a','a','b','b','c','a'],
                   'data1': range(10,70,10)})

df2 = pd.DataFrame({'key': ['b','a','a','b'],
                   'data2': range(4)})

print(df1)
print(df2)

  key  data1
0   a     10
1   a     20
2   b     30
3   b     40
4   c     50
5   a     60
  key  data2
0   b      0
1   a      1
2   a      2
3   b      3


In [None]:
# fusão com base nos valores de 'key'
pd.merge(df1, df2, on='key')
# Apenas os valores que aparencem em ambos são utilizados no 'merge'

Unnamed: 0,key,data1,data2
0,a,10,1
1,a,10,2
2,a,20,1
3,a,20,2
4,a,60,1
5,a,60,2
6,b,30,0
7,b,30,3
8,b,40,0
9,b,40,3


Parâmetro `how` força que todos os valores sejam utilizados
* `outer`: realiza união entre os dados
* `inner`: realiza intersecção entre os dados

In [None]:
pd.merge(df1,df2,on='key',how='outer')  # o valor 'c' aparece na coluna 'key'
                                        # apenas em df1, enquanto o valor 'd'
                                        # aparece apenas em df2

Unnamed: 0,key,data1,data2
0,a,10,1.0
1,a,10,2.0
2,a,20,1.0
3,a,20,2.0
4,a,60,1.0
5,a,60,2.0
6,b,30,0.0
7,b,30,3.0
8,b,40,0.0
9,b,40,3.0


#### Merge baseado nos valores de coluna em DataFrame e rótulos no outro DataFrame
Para ser realizar o merging com base em colunas e rótulos, deve-se especificar os parâmetros
`left_on`, `right_on`, `left_index` e `right_index` de forma apropriada.
- __left\_on__ = nome da coluna do DataFrame da esquerda (primeiro parâmetro)
- __left\_index__ = True indica que o índice no DataFrame da esquerda (primeiro parâmetro) serão utilizados
- __right\_on__ = nome da coluna do DataFrame da direita (segundo parâmetro)
- __right\_index__ = True indica que o índice no DataFrame da direita (segundo parâmetro) serão utilizados

In [None]:
dcity = pd.DataFrame({'country':['BR','BR','UR']}, index=['São Paulo','Fortaleza','Montevideo'])
dcity

Unnamed: 0,country
São Paulo,BR
Fortaleza,BR
Montevideo,UR


In [None]:
tabela1

Unnamed: 0,city,day,temperature
0,São Paulo,0,23
1,Fortaleza,0,30
2,Montevideo,0,18
3,London,0,9
4,São Paulo,1,21
5,Fortaleza,1,29
6,Montevideo,1,21
7,London,1,10
8,São Paulo,2,20
9,Fortaleza,2,28


In [None]:
# Merge utilizando a coluna "city" da tabela 1 (de temperaturas) e os índices em dcity
pd.merge(tabela1, dcity, left_on='city', right_index=True, how='outer')

Unnamed: 0,city,day,temperature,country
0,São Paulo,0,23,BR
4,São Paulo,1,21,BR
8,São Paulo,2,20,BR
1,Fortaleza,0,30,BR
5,Fortaleza,1,29,BR
9,Fortaleza,2,28,BR
2,Montevideo,0,18,UR
6,Montevideo,1,21,UR
10,Montevideo,2,20,UR
3,London,0,9,


Se não especificarmos união (`outer`), apenas ocorrências de valores em ambos será considerada

In [None]:
pd.merge(tabela1, dcity, left_on='city', right_index=True)

Unnamed: 0,city,day,temperature,country
0,São Paulo,0,23,BR
4,São Paulo,1,21,BR
8,São Paulo,2,20,BR
1,Fortaleza,0,30,BR
5,Fortaleza,1,29,BR
9,Fortaleza,2,28,BR
2,Montevideo,0,18,UR
6,Montevideo,1,21,UR
10,Montevideo,2,20,UR


### `concat`

Concatena DataFrames e/ou Series nas direções:
- __axis = 0__ concatena por linhas
- __axis = 1__ concatena por colunas. Quando empregado em um conjunto de séries resulta em um DataFrame

O método assume como parâmetro uma lista de DataFrames ou séries.

In [None]:
# Construindo 3 séries especificando os rótulos das linhas
s1 = pd.Series([0, 1], index=['a', 'b'])
s2 = pd.Series([2, 3, 4], index=['a', 'c', 'd'])
s3 = pd.Series([1, 5, 6], index=['a','b', 'e'])
print(s1)
print(s2)
print(s3)

# Contatenando as 3 séries na vertical
# o resultado é uma nova série (rótulos podem estar repetidos)
serie1 = pd.concat([s1,s2,s3])

a    0
b    1
dtype: int64
a    2
c    3
d    4
dtype: int64
a    1
b    5
e    6
dtype: int64


In [None]:
serie1

a    0
b    1
a    2
c    3
d    4
a    1
b    5
e    6
dtype: int64

In [None]:
# concatenando as 3 séries por colunas especificando o parâmetro 'axis=1'
# o resutado é um DataFrame
print(pd.concat([s1,s2,s3],axis=1))

     0    1    2
a  0.0  2.0  1.0
b  1.0  NaN  5.0
c  NaN  3.0  NaN
d  NaN  4.0  NaN
e  NaN  NaN  6.0


In [None]:
print(pd.concat([tabela1,tabela2], axis=1))

          city  day  temperature        city  day  temperature
0    São Paulo    0         23.0   São Paulo    3           25
1    Fortaleza    0         30.0   Fortaleza    3           35
2   Montevideo    0         18.0  Montevideo    3           20
3       London    0          9.0      London    3           14
4    São Paulo    1         21.0   São Paulo    4           27
5    Fortaleza    1         29.0   Fortaleza    4           32
6   Montevideo    1         21.0  Montevideo    4           18
7       London    1         10.0      London    4           15
8    São Paulo    2         20.0   São Paulo    5           23
9    Fortaleza    2         28.0   Fortaleza    5           31
10  Montevideo    2         20.0  Montevideo    5           21
11      London    2         13.0      London    5           12
12         NaN  NaN          NaN   São Paulo    6           25
13         NaN  NaN          NaN   Fortaleza    6           29
14         NaN  NaN          NaN  Montevideo    6      

In [None]:
tabela_temperaturas = pd.concat([tabela1,tabela2],axis=0)
#tabela_temperaturas = tabela_temperaturas.reset_index()
#del(tabela_temperaturas['index'])
print(tabela_temperaturas)

          city day  temperature
0    São Paulo   0           23
1    Fortaleza   0           30
2   Montevideo   0           18
3       London   0            9
4    São Paulo   1           21
5    Fortaleza   1           29
6   Montevideo   1           21
7       London   1           10
8    São Paulo   2           20
9    Fortaleza   2           28
10  Montevideo   2           20
11      London   2           13
0    São Paulo   3           25
1    Fortaleza   3           35
2   Montevideo   3           20
3       London   3           14
4    São Paulo   4           27
5    Fortaleza   4           32
6   Montevideo   4           18
7       London   4           15
8    São Paulo   5           23
9    Fortaleza   5           31
10  Montevideo   5           21
11      London   5           12
12   São Paulo   6           25
13   Fortaleza   6           29
14  Montevideo   6           23
15      London   6           13


---

#### <font color="blue">Exercício 2.8</font>

Carregue os arquivos `sales1.csv`, `sales1_shipdate.csv`  e `sales2.csv`, os quais possuem informações de vendas realizadas. Devemos juntar as bases de dados e tratá-las.

O arquivo `sales1_shipdate.csv` contém as datas de envio das ordens na `sales1.csv`. Já `sales2.csv` contém essa coluna no próprio arquivo

Para isso:

1. Combine as bases de dados, consolidando-as em um único DataFrame
2. Exiba na tela quais atributos possuem dados faltantes após a concatenação
    * Sabendo que `Total Revenue` é a multiplicação do preço unitário pela quantidade de unidades, preencha os valores faltantes dessa coluna
3. Detecte linhas duplicadas. Remova duplicatas, mantendo a primeira ocorrência, e imprima na tela quantas linhas foram removidas

# <font color="red">Resumo da aula</font>

### <span style="color:red">- Preparação de dados</span>