## Concatenação

O Pandas possui uma função para concatenar datasets, chamada ``concat()``. Abaixo veremos alguns exemplos de utilização.

In [1]:
# Importando os pacotes
import numpy as np
import pandas as pd

In [2]:
# Criando uma classe para criar um dataframe
def make_df(cols, ind):
    """Cria rapidamente um DataFrame"""
    data = {c: [str(c) + str(i) for i in ind] for c in cols}
    return pd.DataFrame(data, ind)

# Exemplo
df1 = make_df('ABC', [1, 2, 3]); df1
df1

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3


In [3]:
# Concatenando 2 DataFrames
df2 = make_df('ABC', [3, 4, 5]) # Criando um segundo DataFrame

pd.concat([df1, df2])

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
3,A3,B3,C3
4,A4,B4,C4
5,A5,B5,C5


In [4]:
# Caso haja índices repetidos, o Pandas os preserva duplicando-os
x = make_df('AB', [0, 1])
y = make_df('AB', [2, 3])

y.index = x.index # Duplicando os índices

print(x); print(y); print(pd.concat([x, y]))

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
    A   B
0  A0  B0
1  A1  B1
0  A2  B2
1  A3  B3


**Concatenação com Join**  
Por padrão ao concatenar datasets com índice/colunas diferentes o Pandas preenche os valores faltantes com NAN.

In [9]:
#Exemplo
df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [3, 4])
print(df5, chr(10)); print(df6, chr(10)); print(pd.concat([df5, df6], sort=False))

    A   B   C
1  A1  B1  C1
2  A2  B2  C2 

    B   C   D
3  B3  C3  D3
4  B4  C4  D4 

     A   B   C    D
1   A1  B1  C1  NaN
2   A2  B2  C2  NaN
3  NaN  B3  C3   D3
4  NaN  B4  C4   D4


Existem alguns parâmetros que podemos configurar para modificar isso, como por exemplo o join:

In [6]:
# Utilizando o join inner, que só trará indices/colunas em comum
print(pd.concat([df5, df6], join='inner'))

    B   C
1  B1  C1
2  B2  C2
3  B3  C3
4  B4  C4


In [7]:
# Podemos também definir qual o Dataframe mandatário para o Join:
print(pd.concat([df5, df6], join_axes=[df5.columns]))

     A   B   C
1   A1  B1  C1
2   A2  B2  C2
3  NaN  B3  C3
4  NaN  B4  C4


**Método append**  
Tenha em mente que, diferentemente dos métodos ``append()`` e ``extend ()`` das listas do Python, o método ``append()`` do Pandas não modifica o objeto original - em vez disso, ele cria um novo objeto com os dados combinados. Também não é um método muito eficiente, porque envolve a criação de um novo índice e buffer de dados. Portanto, se você planeja executar várias operações de anexação, geralmente é melhor construir uma lista de DataFrames e passá-los de uma vez para a função ``concat()``.

In [8]:
print(df1, chr(10)); print(df2, chr(10)); print(df1.append(df2))

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
3  A3  B3  C3 

    A   B   C
3  A3  B3  C3
4  A4  B4  C4
5  A5  B5  C5 

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
3  A3  B3  C3
3  A3  B3  C3
4  A4  B4  C4
5  A5  B5  C5
