## combinando conjunto de dados
---

In [2]:
import pandas as pd

usando a função `.concat()` pode-se juntar duas ou mais series ou dataframes:

In [12]:
sr1 = pd.Series([i for i in range(0, 10, 2)], index=list('abcde'))
sr2 = pd.Series([i for i in range(11, 21, 2)], index=list('fghij'))
print(sr1)
print(sr2)

a    0
b    2
c    4
d    6
e    8
dtype: int64
f    11
g    13
h    15
i    17
j    19
dtype: int64


In [13]:
sr3 = pd.concat([sr1, sr2])
sr3

a     0
b     2
c     4
d     6
e     8
f    11
g    13
h    15
i    17
j    19
dtype: int64

observe que é necessário passar as datasets usando uma lista como parâmetro para `.concat()`. Serve para datafranes também:

In [40]:
df1 = pd.DataFrame([['a1', 'a2'], ['a3', 'b4']], columns=['1-2', '3-a'])
df2 = pd.DataFrame([['a1', 'b2'], ['b3', 'c4']], columns=['1-2', '3-a'])

In [36]:
df1

Unnamed: 0,1-2,3-a
0,a1,a2
1,a3,b4


In [37]:
df2

Unnamed: 0,1-2,3-a
0,a1,b2
1,b3,c4


In [38]:
df3 = pd.concat([df1, df2])
df3

Unnamed: 0,1-2,3-a
0,a1,a2
1,a3,b4
0,a1,b2
1,b3,c4


por padrão, ao concatenar dataframes, estes serão juntados através das linhas (`axis=0`). isto pode ser mudado usando `axis=1`:

In [39]:
df4 = pd.concat([df1, df2], axis=1)
df4

Unnamed: 0,1-2,3-a,1-2.1,3-a.1
0,a1,a2,a1,b2
1,a3,b4,b3,c4


se os dataframes tiverem índices explícitos, estes permanecem ao serem concatenados, o que pode gerar duplicação de informação:

In [44]:
df5 = pd.DataFrame([['a1', 'a2'], ['a3', 'b4']], columns=['1-2', '3-a'], index=list('ab'))
df6 = pd.DataFrame([['a1', 'b2'], ['b3', 'c4']], columns=['1-2', '3-a'], index=list('ab'))

In [45]:
df5

Unnamed: 0,1-2,3-a
a,a1,a2
b,a3,b4


In [46]:
df6

Unnamed: 0,1-2,3-a
a,a1,b2
b,b3,c4


In [56]:
df7 = pd.concat([df5, df6])
df7

Unnamed: 0,1-2,3-a
a,a1,a2
b,a3,b4
a,a1,b2
b,b3,c4


ou, ainda, falta de valores:

In [67]:
df8 = pd.DataFrame([['a1', 'a2'], ['a3', 'b4']], columns=['1-2', '3-a'], index=list('ab'))
df9 = pd.DataFrame([['a1', 'b2'], ['b3', 'c4']], columns=['1-2', '3-a'], index=list('cd'))

In [50]:
df8

Unnamed: 0,1-2,3-a
a,a1,a2
b,a3,b4


In [51]:
df9

Unnamed: 0,1-2,3-a
c,a1,b2
d,b3,c4


In [54]:
df10 = pd.concat([df8, df9], axis=1)
df10

Unnamed: 0,1-2,3-a,1-2.1,3-a.1
a,a1,a2,,
b,a3,b4,,
c,,,a1,b2
d,,,b3,c4


com o parâmetro `verify_integrity=True`, é apresentado uma exceção caso haja algum índice repetindo:

```
pd.concat([df8, df9], axis=1, verify_integrity=True)
```
o que apresenta a mensagem:
```
ValueError: Indexes have overlapping values
```

ou, se preferir, pode simplismente ignorar os índices repetidos e o próprio pandas completa com índices diferentes, basta usar `ignore_index=True`:

In [62]:
pd.concat([df8, df9], axis=1, ignore_index=True)

Unnamed: 0,0,1,2,3
a,a1,a2,,
b,a3,b4,,
c,,,a1,b2
d,,,b3,c4


pode, ainda, criar um multiindexing através do parâmetro `keys=` onde deve ser passado o nome dos níveis:

In [63]:
pd.concat([df8, df9], axis=1, keys=['1º', '2º'])

Unnamed: 0_level_0,1º,1º,2º,2º
Unnamed: 0_level_1,1-2,3-a,1-2,3-a
a,a1,a2,,
b,a3,b4,,
c,,,a1,b2
d,,,b3,c4


na situação em que os dataframes têm várias colunas e linhas e elas nem sempre são iguais, a concatenação acaba ficando com valores NA, como visto acima. Neste caso, pode se usar o parâmetro `join=`

In [68]:
dfd = pd.DataFrame([['a1', 'a2'], ['a3', 'b4']], columns=['1-2', '3-a'], index=list('ab'))
dff = pd.DataFrame([['a1', 'b2'], ['b3', 'c4']], columns=['1-2', '3-a'], index=list('bc'))

In [69]:
dfd

Unnamed: 0,1-2,3-a
a,a1,a2
b,a3,b4


In [70]:
dff

Unnamed: 0,1-2,3-a
b,a1,b2
c,b3,c4


In [73]:
pd.concat([dfd, dff], axis=1)

Unnamed: 0,1-2,3-a,1-2.1,3-a.1
a,a1,a2,,
b,a3,b4,a1,b2
c,,,b3,c4


In [71]:
pd.concat([dfd, dff], axis=1, join='outer')

Unnamed: 0,1-2,3-a,1-2.1,3-a.1
a,a1,a2,,
b,a3,b4,a1,b2
c,,,b3,c4


In [72]:
pd.concat([dfd, dff], axis=1, join='inner')

Unnamed: 0,1-2,3-a,1-2.1,3-a.1
b,a3,b4,a1,b2


`outer` é o valor padrão, por isso, não há mudanças entre usá-lo ou não. Já o `inner` apresenta apenas os valores de índices presentes em todos os dataframes.

usando `join_axes=`, pode ser passado uma lista contendo índices apenas os índices que deseja apresentar.

há, ainda, a opção de usar `<dataset1>.append(<dataset2>)`, onde dataset pode ser uma series ou dataframe:

In [86]:
dfd._append(dff)

Unnamed: 0,1-2,3-a
a,a1,a2
b,a3,b4
b,a1,b2
c,b3,c4


este método é menos eficiente, já que ele cria um novo dataset com as informações das outras, ao invés de simplesmente juntá-las, o que pode gastar muita memórias, principalmente em projetos grandes. Além disso, `._append()` tem menos funcionalidades que as demais opções.