**Objetivos**

Este capítulo abordará:
1. *Tidy data* (dados organizados).
2. Concatenação de dados.
3. Combinação (`merge`) de conjuntos de dados.

O que é *tidy data*? Wickham o define como um conceito que atende aos seguintes critérios:
* Cada linha é uma observação.
* Cada coluna é uma variável.
* Cada tipo de unidade de observação forma uma tabela.

In [1]:
import pandas as pd

df1 = pd.read_csv("concat_1.csv")
df1

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3


In [2]:
df2 = pd.read_csv("concat_2.csv")
df2

Unnamed: 0,A,B,C,D
0,a4,b4,c4,d4
1,a5,b5,c5,d5
2,a6,b6,c6,d6
3,a7,b7,c7,d7


In [3]:
df3 = pd.read_csv("concat_3.csv")
df3

Unnamed: 0,A,B,C,D
0,a8,b8,c8,d8
1,a9,b9,c9,d9
2,a10,b10,c10,d10
3,a11,b11,c11,d11


In [4]:
# empilhando dataframes usando concat (nomes das linhas ficam repetidos, neste exemplo)
row_concat = pd.concat([df1, df2, df3])
row_concat

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,a4,b4,c4,d4
1,a5,b5,c5,d5
2,a6,b6,c6,d6
3,a7,b7,c7,d7
0,a8,b8,c8,d8
1,a9,b9,c9,d9


In [5]:
row_concat.iloc[3, ]

A    a3
B    b3
C    c3
D    d3
Name: 3, dtype: object

In [6]:
row_concat.loc[0, ] # extrai 3 linhas, pois índice está repetido!

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
0,a4,b4,c4,d4
0,a8,b8,c8,d8


In [7]:
new_row_series = pd.Series(["n1", "n2", "n3", "n4"])
new_row_series

0    n1
1    n2
2    n3
3    n4
dtype: object

In [9]:
# quer concatenar uma Serie como uma nova linha de um dataframe?
# desculpe, não vai rolar...
pd.concat([df1, new_row_series])

Unnamed: 0,A,B,C,D,0
0,a0,b0,c0,d0,
1,a1,b1,c1,d1,
2,a2,b2,c2,d2,
3,a3,b3,c3,d3,
0,,,,,n1
1,,,,,n2
2,,,,,n3
3,,,,,n4


In [11]:
# corrigindo o problema anterior
# colchetes duplos indicam que uma Serie foi transformada em um dataframe
new_row_df = pd.DataFrame([["n1", "n2", "n3", "n3"]],
                          columns = ["A", "B", "C", "D"])

new_row_df

Unnamed: 0,A,B,C,D
0,n1,n2,n3,n3


In [12]:
# agora sim!
pd.concat([df1, new_row_df])

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,n1,n2,n3,n3


In [13]:
df1.append(df2) # concatena um único objeto a um dataframe existente

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,a4,b4,c4,d4
1,a5,b5,c5,d5
2,a6,b6,c6,d6
3,a7,b7,c7,d7


In [14]:
df1.append(new_row_df)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,n1,n2,n3,n3


In [17]:
data_dict = {"A": "n1",
            "B": "n2",
            "C": "n3",
            "D": "n4"}

df1.append(data_dict, ignore_index = True) # dicionário terá o índice de linha = 4

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,n1,n2,n3,n4


In [18]:
# ignorando índice, de modo que não haja índices repetidos
row_concat_i = pd.concat([df1, df2, df3], ignore_index = True)
row_concat_i

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5
6,a6,b6,c6,d6
7,a7,b7,c7,d7
8,a8,b8,c8,d8
9,a9,b9,c9,d9


In [19]:
# concatenando colunas (axis = 1)
col_concat = pd.concat([df1, df2, df3], axis = 1) 
col_concat

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


In [21]:
# extrai 3 colunas, pois índice está repetido!
col_concat["A"]

Unnamed: 0,A,A.1,A.2
0,a0,a4,a8
1,a1,a5,a9
2,a2,a6,a10
3,a3,a7,a11


In [22]:
# criando nova coluna sem função
col_concat["new_col_list"] = ["n1", "n2", "n3", "n4"]
col_concat

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2,new_col_list
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8,n1
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9,n2
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10,n3
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11,n4


In [23]:
# criando nova coluna sem função
col_concat["new_col_series"] = pd.Series(["n1", "n2", "n3", "n4"])
col_concat

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2,new_col_list,new_col_series
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8,n1,n1
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9,n2,n2
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10,n3,n3
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11,n4,n4


In [24]:
# ignorando índice, de modo que não haja índices repetidos
col_concat_i = pd.concat([df1, df2, df3], axis = 1, ignore_index = True)
col_concat_i

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


In [25]:
# mudando índices de colunas
df1.columns = list("ABCD")
df2.columns = list("EFGH")
df3.columns = list("ACFH")

df1

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3


In [26]:
df2

Unnamed: 0,E,F,G,H
0,a4,b4,c4,d4
1,a5,b5,c5,d5
2,a6,b6,c6,d6
3,a7,b7,c7,d7


In [27]:
df3

Unnamed: 0,A,C,F,H
0,a8,b8,c8,d8
1,a9,b9,c9,d9
2,a10,b10,c10,d10
3,a11,b11,c11,d11


In [28]:
row_concat = pd.concat([df1, df2, df3])
row_concat

Unnamed: 0,A,B,C,D,E,F,G,H
0,a0,b0,c0,d0,,,,
1,a1,b1,c1,d1,,,,
2,a2,b2,c2,d2,,,,
3,a3,b3,c3,d3,,,,
0,,,,,a4,b4,c4,d4
1,,,,,a5,b5,c5,d5
2,,,,,a6,b6,c6,d6
3,,,,,a7,b7,c7,d7
0,a8,,b8,,,c8,,d8
1,a9,,b9,,,c9,,d9


In [29]:
# concatenação apenas com colunas compartilhadas pela lista de objetos
# join = 'outer' ---> todas as colunas serão mantidas
# join = 'inner' ---> mantém somente as colunas que sejam compartilhadas
pd.concat([df1, df2, df3], join = "inner")

0
1
2
3
0
1
2
3
0
1
2


In [30]:
pd.concat([df1, df3], join = "inner")

Unnamed: 0,A,C
0,a0,c0
1,a1,c1
2,a2,c2
3,a3,c3
0,a8,b8
1,a9,b9
2,a10,b10
3,a11,b11


In [31]:
# mudando índices de linhas
df1.index = [0, 1, 2, 3]
df2.index = [4, 5, 6, 7]
df3.index = [0, 2, 5, 7]

df1

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3


In [32]:
df2

Unnamed: 0,E,F,G,H
4,a4,b4,c4,d4
5,a5,b5,c5,d5
6,a6,b6,c6,d6
7,a7,b7,c7,d7


In [33]:
df3

Unnamed: 0,A,C,F,H
0,a8,b8,c8,d8
2,a9,b9,c9,d9
5,a10,b10,c10,d10
7,a11,b11,c11,d11


In [34]:
col_concat = pd.concat([df1, df2, df3], axis = 1)
col_concat

Unnamed: 0,A,B,C,D,E,F,G,H,A.1,C.1,F.1,H.1
0,a0,b0,c0,d0,,,,,a8,b8,c8,d8
1,a1,b1,c1,d1,,,,,,,,
2,a2,b2,c2,d2,,,,,a9,b9,c9,d9
3,a3,b3,c3,d3,,,,,,,,
4,,,,,a4,b4,c4,d4,,,,
5,,,,,a5,b5,c5,d5,a10,b10,c10,d10
6,,,,,a6,b6,c6,d6,,,,
7,,,,,a7,b7,c7,d7,a11,b11,c11,d11


In [35]:
pd.concat([df1, df2, df3], axis = 1, join = "inner")

Unnamed: 0,A,B,C,D,E,F,G,H,A.1,C.1,F.1,H.1


In [36]:
pd.concat([df1, df3], axis = 1, join = "inner")

Unnamed: 0,A,B,C,D,A.1,C.1,F,H
0,a0,b0,c0,d0,a8,b8,c8,d8
2,a2,b2,c2,d2,a9,b9,c9,d9


In [37]:
person = pd.read_csv("survey_person.csv")
site = pd.read_csv("survey_site.csv")
survey = pd.read_csv("survey_survey.csv")
visited = pd.read_csv("survey_visited.csv")

In [38]:
person

Unnamed: 0,ident,personal,family
0,dyer,William,Dyer
1,pb,Frank,Pabodie
2,lake,Anderson,Lake
3,roe,Valentina,Roerich
4,danforth,Frank,Danforth


In [39]:
site

Unnamed: 0,name,lat,long
0,DR-1,-49.85,-128.57
1,DR-3,-47.15,-126.72
2,MSK-4,-48.87,-123.4


In [40]:
visited

Unnamed: 0,ident,site,dated
0,619,DR-1,1927-02-08
1,622,DR-1,1927-02-10
2,734,DR-3,1939-01-07
3,735,DR-3,1930-01-12
4,751,DR-3,1930-02-26
5,752,DR-3,
6,837,MSK-4,1932-01-14
7,844,DR-1,1932-03-22


In [41]:
survey

Unnamed: 0,taken,person,quant,reading
0,619,dyer,rad,9.82
1,619,dyer,sal,0.13
2,622,dyer,rad,7.8
3,622,dyer,sal,0.09
4,734,pb,rad,8.41
5,734,lake,sal,0.05
6,734,pb,temp,-21.5
7,735,pb,rad,7.22
8,735,,sal,0.06
9,735,,temp,-26.0


**Pandas (SQL): Descrição**
* left (left outer): mantém todas as chaves da esquerda.
* right (right outer): mantém todas as chaves da direita.
* outer (full outer): mantém todas as chaves tanto da esquerda quanto da direita.
* inner (inner): mantém somente as chaves que existem tanto na esquerda quanto na direita.

- `how`: como o resultado final combinado se parecerá.
- `on`: ele especifica com quais colunas será feita a correspondência; se as colunas à esquerda e à direita não tiverem o mesmo nome, poderemos usar os parâmetros `left_on` e `right_on` em seu lugar.

In [42]:
# merge um a um
# modificando visited de modo que não haja valores duplicados de site
visited_subset = visited.loc[[0, 2, 6], ]

# o valor default de how é inner
# portnato, não precisa ser especifiado
o2o_merge = site.merge(visited_subset,
                      left_on = "name",
                       right_on = "site")

o2o_merge

Unnamed: 0,name,lat,long,ident,site,dated
0,DR-1,-49.85,-128.57,619,DR-1,1927-02-08
1,DR-3,-47.15,-126.72,734,DR-3,1939-01-07
2,MSK-4,-48.87,-123.4,837,MSK-4,1932-01-14


In [43]:
# merge de muitos para um
# nesse tipo de merge, um dos dataframes tem valores de chave que se repetem
m2o_merge = site.merge(visited,
                       left_on = "name",
                       right_on = "site")

m2o_merge

Unnamed: 0,name,lat,long,ident,site,dated
0,DR-1,-49.85,-128.57,619,DR-1,1927-02-08
1,DR-1,-49.85,-128.57,622,DR-1,1927-02-10
2,DR-1,-49.85,-128.57,844,DR-1,1932-03-22
3,DR-3,-47.15,-126.72,734,DR-3,1939-01-07
4,DR-3,-47.15,-126.72,735,DR-3,1930-01-12
5,DR-3,-47.15,-126.72,751,DR-3,1930-02-26
6,DR-3,-47.15,-126.72,752,DR-3,
7,MSK-4,-48.87,-123.4,837,MSK-4,1932-01-14


In [44]:
# merge de muitos para muitos
# usado quando queremos efetuar uma correspondência baseada em várias colunas
ps = person.merge(survey,
                  left_on = "ident",
                  right_on = "person")

vs = visited.merge(survey,
                  left_on = "ident",
                  right_on = "taken")

ps

Unnamed: 0,ident,personal,family,taken,person,quant,reading
0,dyer,William,Dyer,619,dyer,rad,9.82
1,dyer,William,Dyer,619,dyer,sal,0.13
2,dyer,William,Dyer,622,dyer,rad,7.8
3,dyer,William,Dyer,622,dyer,sal,0.09
4,pb,Frank,Pabodie,734,pb,rad,8.41
5,pb,Frank,Pabodie,734,pb,temp,-21.5
6,pb,Frank,Pabodie,735,pb,rad,7.22
7,pb,Frank,Pabodie,751,pb,rad,4.35
8,pb,Frank,Pabodie,751,pb,temp,-18.5
9,lake,Anderson,Lake,734,lake,sal,0.05


In [45]:
vs

Unnamed: 0,ident,site,dated,taken,person,quant,reading
0,619,DR-1,1927-02-08,619,dyer,rad,9.82
1,619,DR-1,1927-02-08,619,dyer,sal,0.13
2,622,DR-1,1927-02-10,622,dyer,rad,7.8
3,622,DR-1,1927-02-10,622,dyer,sal,0.09
4,734,DR-3,1939-01-07,734,pb,rad,8.41
5,734,DR-3,1939-01-07,734,lake,sal,0.05
6,734,DR-3,1939-01-07,734,pb,temp,-21.5
7,735,DR-3,1930-01-12,735,pb,rad,7.22
8,735,DR-3,1930-01-12,735,,sal,0.06
9,735,DR-3,1930-01-12,735,,temp,-26.0


In [46]:
# fazendo a correspondência de muitos para muitos
# passando as várias colunas com as quais a correspondência será feita, usando uma lista Python
ps_vs = ps.merge(vs,
                left_on = ["ident", "taken", "quant", "reading"],
                right_on = ["person", "ident", "quant", "reading"])

ps_vs.loc[0, ]

ident_x           dyer
personal       William
family            Dyer
taken_x            619
person_x          dyer
quant              rad
reading           9.82
ident_y            619
site              DR-1
dated       1927-02-08
taken_y            619
person_y          dyer
Name: 0, dtype: object