# Capítulo 4 - Preparação de dados

## Seção 2 - Tidy Data

O objetivo é ter um conjunto de dados com os seguintes critérios:

- Cada linha é uma observação
- Cada coluna é uma variável
- Cada tipo de unidade de observação forma uma tabela

A ideia do último item colocar em uma tabela tudo que é necessário para responder uma pergunta. Do livro:

"Quando os dados estão organizados, é necessário combinar várias tabelas para responder a uma pergunta. Por exemplo, pode haver uma tabela separada que armazene informações de empresas e outra tabela contendo preços de ações. Se quisermos observar os preços de todas as ações no mercado de tecnologia, talvez antes tenhamos de encontrar todas as empresas de tecnologia na tabela de informações sobre empresas e então combinar esses dados com os dados de preços das ações a fim de obter as informações de que precisamos para responder à nossa pergunta. Os dados podem ter sido separados em tabelas distintas para reduzir a quantidade de informações redundantes (não precisamos armazenar informações sobre as empresas em cada entrada de preço das ações), mas essa organização implica que, como analista de dados, teremos de combinar os dados relevantes por conta própria para responder à nossa pergunta."

"Em outras ocasioes, um único conjunto de dados pode estar dividido em várias partes. Por exemplo, com dados de séries temporais, cada data pode estar em um arquivo separado. Em outro caso, um arquivo pode ter sido separado em partes para que os arquivos individuais fossem menores. Talvez você precise combinar dados de diversas origens para responder a uma pergunta (por exemplo, combinar latitudes e longitudes com CEPs). Nos dois casos, você terá de combinar dados em um único dataframe para análise.

## Seção 3 - Concatenação

A concatenação de dados no pandas é feita com a função _concat_. Um exemplo concatenando linhas:

In [1]:
import pandas as pd

df1 = pd.read_csv('../data/concat_1.csv')
df2 = pd.read_csv('../data/concat_2.csv')
df3 = pd.read_csv('../data/concat_3.csv')

print(df1, '\n', df2, '\n', df3, '\n-----')

row_concat = pd.concat([df1, df2, df3])
print(row_concat)

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3 
     A   B   C   D
0  a4  b4  c4  d4
1  a5  b5  c5  d5
2  a6  b6  c6  d6
3  a7  b7  c7  d7 
      A    B    C    D
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11 
-----
     A    B    C    D
0   a0   b0   c0   d0
1   a1   b1   c1   d1
2   a2   b2   c2   d2
3   a3   b3   c3   d3
0   a4   b4   c4   d4
1   a5   b5   c5   d5
2   a6   b6   c6   d6
3   a7   b7   c7   d7
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11


Observe que _concat_ empilhou os dados, incluindo os rótulos dos índices. O resultado é que antes tínhamos 3 dataframes com rótulos 0, 1, 2 e 3. E agora temos um dataframe em que todos eles tem 3 rótulos 0, 3 rótulos 1 etc.

Dessa forma, se quisermos buscar a primeira linha do dataframe, teremos que acessar com loc[0]. Se usarmos iloc[0] o pandas vai retornar um dataframe com as 3 linhas de rótulo 0:

In [2]:
print(row_concat.iloc[0])

print('------------')

print(row_concat.loc[0])

A    a0
B    b0
C    c0
D    d0
Name: 0, dtype: object
------------
    A   B   C   D
0  a0  b0  c0  d0
0  a4  b4  c4  d4
0  a8  b8  c8  d8


É necessário ter as colunas alinhadas com o que se deseja concatenar. Se concatenar uma série sem especificar as colunas (ou seja, a série está desalinhada com o dataframe que já existe), o resultado será que uma nova coluna será criada pra nova série:

In [3]:
new_row_series = pd.Series(['n1', 'n2', 'n3', 'n4'])

print(pd.concat([df1, new_row_series]))

     A    B    C    D    0
0   a0   b0   c0   d0  NaN
1   a1   b1   c1   d1  NaN
2   a2   b2   c2   d2  NaN
3   a3   b3   c3   d3  NaN
0  NaN  NaN  NaN  NaN   n1
1  NaN  NaN  NaN  NaN   n2
2  NaN  NaN  NaN  NaN   n3
3  NaN  NaN  NaN  NaN   n4


O jeito certo de concatenar isso é criando um dataframe. Um serie nomeada não funciona. da série ou criando um novo dataframe com as mesmas colunas

In [4]:
new_row_series = pd.Series({'A': 'n1', 'B': 'n2', 'C': 'n3', 'D': 'n4'})
print('Essa series com os indices nomeados como coluna não funciona:')
print(pd.concat([df1, new_row_series]))
print('----------')
new_row_df = pd.DataFrame([['n1', 'n2', 'n3', 'n4']], columns=['A', 'B', 'C', 'D'])
print('Já esse dataframe com as mesmas colunas funciona corretamente:')
print(pd.concat([df1, new_row_df]))

Essa series com os indices nomeados como coluna não funciona:
     A    B    C    D    0
0   a0   b0   c0   d0  NaN
1   a1   b1   c1   d1  NaN
2   a2   b2   c2   d2  NaN
3   a3   b3   c3   d3  NaN
A  NaN  NaN  NaN  NaN   n1
B  NaN  NaN  NaN  NaN   n2
C  NaN  NaN  NaN  NaN   n3
D  NaN  NaN  NaN  NaN   n4
----------
Já esse dataframe com as mesmas colunas funciona corretamente:
    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
0  n1  n2  n3  n4


A questão dos rótulos pode ser resolvida usando o parâmetro ignore_index=True:

In [5]:
print(pd.concat([df1, df2, df3], ignore_index=True))

      A    B    C    D
0    a0   b0   c0   d0
1    a1   b1   c1   d1
2    a2   b2   c2   d2
3    a3   b3   c3   d3
4    a4   b4   c4   d4
5    a5   b5   c5   d5
6    a6   b6   c6   d6
7    a7   b7   c7   d7
8    a8   b8   c8   d8
9    a9   b9   c9   d9
10  a10  b10  c10  d10
11  a11  b11  c11  d11


A concatenação de colunas com concat é igual a de linhas, exceto que nesse caso é necessário passar o parâmetro axis=1. Os nomes de colunas podem ficar duplicados se os dataframes tiverem o mesmo nome de colunas. É necessário renomear usando o atributo columns:

In [6]:
col_concat = pd.concat([df1, df2, df3], axis=1)
print(col_concat)

print('Depois de alterado o nome das colunas:')
col_concat.columns = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L']
print(col_concat)

    A   B   C   D   A   B   C   D    A    B    C    D
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11
Depois de alterado o nome das colunas:
    A   B   C   D   E   F   G   H    I    J    K    L
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11


Pra adicionar uma única coluna, basta atribuir direto ao nome da nova coluna:

In [7]:
col_concat['nova'] = [1, 2, 3, 4]
print(col_concat)

    A   B   C   D   E   F   G   H    I    J    K    L  nova
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8     1
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9     2
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10     3
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11     4


Na concatenação de dataframes com diferentes rótulos de colunas/linhas, o pandas vai tentar casar os dataframes de acordo com as colunas/linhas e colocar NaN no resto.

Vamos ver primeiro como funciona concatenando linhas:

In [8]:
df1.columns = ['A', 'B', 'C', 'D']
df2.columns = ['E', 'F', 'G', 'H']
df3.columns = ['A', 'C', 'F', 'H']

print(df1, '\n', df2, '\n', df3)

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3 
     E   F   G   H
0  a4  b4  c4  d4
1  a5  b5  c5  d5
2  a6  b6  c6  d6
3  a7  b7  c7  d7 
      A    C    F    H
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11


df1 tem as colunas A e C em comum com df3.
df2 tem as colunas F e H em comum com df3.

Se tentarmos concatenar esses 3 dataframes, no final teremos as colunas A, B, C, D, E, F, G, H.

- Os dados de df1 ocuparão as linhas 0:4 e as colunas A, B, C, D.
- Os dados de df2 ocuparão as linhas 4:8 e as colunas E, F, G, H.
- Os dados de df3 ocuparão as linhas 8:12 e estarão nas colunas A, C, F, H.

Todos os outros dados serão completados com NaN, que é a forma como o pandas representa os valores faltantes

In [9]:
print(pd.concat([df1, df2, df3]))

     A    B    C    D    E    F    G    H
0   a0   b0   c0   d0  NaN  NaN  NaN  NaN
1   a1   b1   c1   d1  NaN  NaN  NaN  NaN
2   a2   b2   c2   d2  NaN  NaN  NaN  NaN
3   a3   b3   c3   d3  NaN  NaN  NaN  NaN
0  NaN  NaN  NaN  NaN   a4   b4   c4   d4
1  NaN  NaN  NaN  NaN   a5   b5   c5   d5
2  NaN  NaN  NaN  NaN   a6   b6   c6   d6
3  NaN  NaN  NaN  NaN   a7   b7   c7   d7
0   a8  NaN   b8  NaN  NaN   c8  NaN   d8
1   a9  NaN   b9  NaN  NaN   c9  NaN   d9
2  a10  NaN  b10  NaN  NaN  c10  NaN  d10
3  a11  NaN  b11  NaN  NaN  c11  NaN  d11


Esse comportamento é o padrão de pandas de fazer a concatenação como uma união entre os conjuntos. É possível também fazer ocmo uma interseção. Para isso, podemos usar o parâmetro join='inner' (o default é join='outer').

Como não há nenhuma coluna em comum com os três dataframes, o join de intersecção entre eles é um dataframe vazio. Mas o join entre os dataframes (df1 e df3) e (df2 e df3) produzem resultados com as colunas em comum:

In [10]:
print('Inner join entre df1, df2 e df3:')
print(pd.concat([df1, df2, df3], join='inner'))
print('----------------------------')
print('Inner join entre df1 e df3:')
print(pd.concat([df1, df3], join='inner'))
print('----------------------------')
print('Inner join entre df2 e df3:')
print(pd.concat([df2, df3], join='inner'))

Inner join entre df1, df2 e df3:
Empty DataFrame
Columns: []
Index: [0, 1, 2, 3, 0, 1, 2, 3, 0, 1, 2, 3]
----------------------------
Inner join entre df1 e df3:
     A    C
0   a0   c0
1   a1   c1
2   a2   c2
3   a3   c3
0   a8   b8
1   a9   b9
2  a10  b10
3  a11  b11
----------------------------
Inner join entre df2 e df3:
     F    H
0   b4   d4
1   b5   d5
2   b6   d6
3   b7   d7
0   c8   d8
1   c9   d9
2  c10  d10
3  c11  d11


A concatenação de colunas casando as linhas possui o mesmo funcionamento. Para ilustrar, vamos alterar os índices de forma que df1 e df2 tenham índices totalmente diferentes e df3 possua índices em comum com df1 e df2:

In [11]:
df1.index = [0, 1, 2, 3]
df2.index = [4, 5, 6, 7]
df3.index = [0, 2, 5, 7]

print(df1, '\n', df2, '\n', df3)

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3 
     E   F   G   H
4  a4  b4  c4  d4
5  a5  b5  c5  d5
6  a6  b6  c6  d6
7  a7  b7  c7  d7 
      A    C    F    H
0   a8   b8   c8   d8
2   a9   b9   c9   d9
5  a10  b10  c10  d10
7  a11  b11  c11  d11


Se formos concatenar os 3 df2 em colunas (e casando as linhas), teremos um dataframe com 8 linhas e com os índices 0...7. Os índices terão dados provenientes dos seguintes dataframes:

- 0: df1 (A, B, C, D) e df3 (A, C, F, H)
- 1: df1 (A, B, C, D)
- 2: df1 (A, B, C, D) e df3 (A, C, F, H)
- 3: df1 (A, B, C, D)
- 4: df2 (E, F, G, H)
- 5: df2 (E, F, G, H) e df3 (A, C, F, H)
- 6: df2 (E, F, G, H)
- 7: df2 (E, F, G, H) e df3 (A, C, F, H)

In [12]:
print(pd.concat([df1, df2, df3], axis=1))

     A    B    C    D    E    F    G    H    A    C    F    H
0   a0   b0   c0   d0  NaN  NaN  NaN  NaN   a8   b8   c8   d8
1   a1   b1   c1   d1  NaN  NaN  NaN  NaN  NaN  NaN  NaN  NaN
2   a2   b2   c2   d2  NaN  NaN  NaN  NaN   a9   b9   c9   d9
3   a3   b3   c3   d3  NaN  NaN  NaN  NaN  NaN  NaN  NaN  NaN
4  NaN  NaN  NaN  NaN   a4   b4   c4   d4  NaN  NaN  NaN  NaN
5  NaN  NaN  NaN  NaN   a5   b5   c5   d5  a10  b10  c10  d10
6  NaN  NaN  NaN  NaN   a6   b6   c6   d6  NaN  NaN  NaN  NaN
7  NaN  NaN  NaN  NaN   a7   b7   c7   d7  a11  b11  c11  d11


## Seção 4 - Combinando vários conjuntos de dados

De forma mais geral, podemos combinar diversos conjuntos de dados usando função merge e fazer algo semelhante com os join do SQL (inner join e left/right/full outer join).

Para testar, vamos abrir algumas bases de dados e visualizar o seu conteúdo.

In [13]:
person = pd.read_csv('../data/survey_person.csv')
site = pd.read_csv('../data/survey_site.csv')
survey = pd.read_csv('../data/survey_survey.csv')
visited = pd.read_csv('../data/survey_visited.csv')

print(person)
print('----------------------------------------------')
print(site)
print('----------------------------------------------')
print(survey)
print('----------------------------------------------')
print(visited)

      ident   personal    family
0      dyer    William      Dyer
1        pb      Frank   Pabodie
2      lake   Anderson      Lake
3       roe  Valentina   Roerich
4  danforth      Frank  Danforth
----------------------------------------------
    name    lat    long
0   DR-1 -49.85 -128.57
1   DR-3 -47.15 -126.72
2  MSK-4 -48.87 -123.40
----------------------------------------------
    taken person quant  reading
0     619   dyer   rad     9.82
1     619   dyer   sal     0.13
2     622   dyer   rad     7.80
3     622   dyer   sal     0.09
4     734     pb   rad     8.41
5     734   lake   sal     0.05
6     734     pb  temp   -21.50
7     735     pb   rad     7.22
8     735    NaN   sal     0.06
9     735    NaN  temp   -26.00
10    751     pb   rad     4.35
11    751     pb  temp   -18.50
12    751   lake   sal     0.10
13    752   lake   rad     2.19
14    752   lake   sal     0.09
15    752   lake  temp   -16.00
16    752    roe   sal    41.60
17    837   lake   rad     1.46
18  

Para ilustrar, vamos fazer um merge de n:1 (ou 1:n). Para isso, fazemos o seguinte:

- chamamos o método merge a um dataframe passando outro dataframe como parâmetro. 
- o dataframe em que o método é chamado é o left. O outro, right.
- informamos a coluna em que o merge é aplicado através do parâmetro 'on'. Caso o nome das colunas seja diferentes nos dois dataframes, podemos usar left_on e right_on
- informamos a forma do merge no parâmetro how (inner, outer, left, right). O valor default é inner.

Podemos modificar o passo 2 para fazer o merge baseando em várias colunas.

In [14]:
site.merge(visited, left_on='name', right_on='site')

Unnamed: 0,name,lat,long,ident,site,dated
0,DR-1,-49.85,-128.57,619,DR-1,1927-02-08
1,DR-1,-49.85,-128.57,622,DR-1,1927-02-10
2,DR-1,-49.85,-128.57,844,DR-1,1932-03-22
3,DR-3,-47.15,-126.72,734,DR-3,1939-01-07
4,DR-3,-47.15,-126.72,735,DR-3,1930-01-12
5,DR-3,-47.15,-126.72,751,DR-3,1930-02-26
6,DR-3,-47.15,-126.72,752,DR-3,
7,MSK-4,-48.87,-123.4,837,MSK-4,1932-01-14
