# Manipulação de dados
Objetivos:
- Tidy data (dados organizados)
- Concatenação de dados
- Combinação (merge) de dados

### Concatenação
É a junção de linhas ou colunas em seus dados. A concatenação é feita usando a função `concat` do Pandas<br>
Iniciaremos com alguns conjuntos de dados de exemplo.

In [1]:
import pandas as pd

# importantado dados
path = "C:\\Users\\Mateus\\Documents\\MateusYamaguti\\TUTORIAL-Analise-de-dados-com-python-e-pandas\\data\\"
df1 = pd.read_csv(f"{path}\\concat_1.csv")
df2 = pd.read_csv(f"{path}\\concat_2.csv")
df3 = pd.read_csv(f"{path}\\concat_3.csv")

In [2]:
print(df1,"\n")
print(df2,"\n")
print(df3,"\n")

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3 

    A   B   C   D
0  a4  b4  c4  d4
1  a5  b5  c5  d5
2  a6  b6  c6  d6
3  a7  b7  c7  d7 

     A    B    C    D
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11 



Para empilhar os dataframe um sobre o outro usamos o método `concat([<list>])`, e passamos uma lista.

In [3]:
row_concat = pd.concat([df1, df2, df3])

print(row_concat)

     A    B    C    D
0   a0   b0   c0   d0
1   a1   b1   c1   d1
2   a2   b2   c2   d2
3   a3   b3   c3   d3
0   a4   b4   c4   d4
1   a5   b5   c5   d5
2   a6   b6   c6   d6
3   a7   b7   c7   d7
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11


Perceba que os dataframes são empilhados cegamente e os índices se matém o mesmo. Pode-se aplicar o método iloc para se constatar isso

In [4]:
print(row_concat.iloc[3,])

A    a3
B    b3
C    c3
D    d3
Name: 3, dtype: object


Se cria-se uma nova serie de dados e tentassemos adicionar em um dataframe ela não seria feita corretamente, veja:

In [5]:
# Cria uma nova linha de dados
new_row_series = pd.Series(["n1", "n2", "n3", "n4"])

# tenta concatenar com o df1
print(pd.concat([df1, new_row_series]))

     A    B    C    D    0
0   a0   b0   c0   d0  NaN
1   a1   b1   c1   d1  NaN
2   a2   b2   c2   d2  NaN
3   a3   b3   c3   d3  NaN
0  NaN  NaN  NaN  NaN   n1
1  NaN  NaN  NaN  NaN   n2
2  NaN  NaN  NaN  NaN   n3
3  NaN  NaN  NaN  NaN   n4


Para resolver esse problema precisamos converter nossa série em um dataframe com as colunas correspondentes

In [6]:
# Observe os colchetes duplos
new_row_df = pd.DataFrame([["n1", "n2", "n3", "n4"]], columns=["A", "B", "C", "D"])
print(new_row_df)

    A   B   C   D
0  n1  n2  n3  n4


In [7]:
print(pd.concat([df1, new_row_df]))

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
0  n1  n2  n3  n4


Podemos criar um dicionário para se concatenar com o DataFrame **Desatualizado**

In [8]:
# data_dict = {"A": "n1",
#              "B": "n2",
#              "C": "n3",
#              "D": "n4",                
#             }

# print(pd.concat([df1, data_dict]))

Podemos ignorar os índices e apenas concatenar os dados utilizando o parâmetro `ignore_index=True`

In [9]:
row_concat_i = pd.concat([df1, df2, df3], ignore_index=True)
print(row_concat_i)

      A    B    C    D
0    a0   b0   c0   d0
1    a1   b1   c1   d1
2    a2   b2   c2   d2
3    a3   b3   c3   d3
4    a4   b4   c4   d4
5    a5   b5   c5   d5
6    a6   b6   c6   d6
7    a7   b7   c7   d7
8    a8   b8   c8   d8
9    a9   b9   c9   d9
10  a10  b10  c10  d10
11  a11  b11  c11  d11


Adicionar colunas é semelhante a adicionar linha, porém utilizando os parâmetro `axis=1`

In [10]:
col_concat = pd.concat([df1, df2, df3], axis=1)
print(col_concat)

    A   B   C   D   A   B   C   D    A    B    C    D
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11


In [11]:
# Selecionando coluna
print(col_concat["A"])

    A   A    A
0  a0  a4   a8
1  a1  a5   a9
2  a2  a6  a10
3  a3  a7  a11


In [12]:
# Adicionando uma coluna
col_concat["new_col_list"] = ["n1", "n2", "n3", "n4"]
print(col_concat)

    A   B   C   D   A   B   C   D    A    B    C    D new_col_list
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8           n1
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9           n2
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10           n3
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11           n4


In [13]:
# Reiniciando os índices das colunas
print(pd.concat([df1, df2, df3], axis=1, ignore_index=True))

   0   1   2   3   4   5   6   7    8    9    10   11
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11


Concatenação com índices diferentes<br>
O que acontece quando os índices das linhas e das colunas não estão alinhados? Para testar isso, vamos alterar o nome das colunas do nosso dataframa

In [14]:
df1.columns = ["A", "B", "C", "D"]
df2.columns = ["E", "F", "G", "H"]
df3.columns = ["A", "C", "F", "H"]

Se tentarmos concatenar esses dataframe conforme foi feita até o momento, as colunas se alinharão e será preenchidos os espaços com **NaN**

In [15]:
row_concat = pd.concat([df1, df2, df3])
print(row_concat)

     A    B    C    D    E    F    G    H
0   a0   b0   c0   d0  NaN  NaN  NaN  NaN
1   a1   b1   c1   d1  NaN  NaN  NaN  NaN
2   a2   b2   c2   d2  NaN  NaN  NaN  NaN
3   a3   b3   c3   d3  NaN  NaN  NaN  NaN
0  NaN  NaN  NaN  NaN   a4   b4   c4   d4
1  NaN  NaN  NaN  NaN   a5   b5   c5   d5
2  NaN  NaN  NaN  NaN   a6   b6   c6   d6
3  NaN  NaN  NaN  NaN   a7   b7   c7   d7
0   a8  NaN   b8  NaN  NaN   c8  NaN   d8
1   a9  NaN   b9  NaN  NaN   c9  NaN   d9
2  a10  NaN  b10  NaN  NaN  c10  NaN  d10
3  a11  NaN  b11  NaN  NaN  c11  NaN  d11


Uma maneira de evitar a inclusão de NaN é manter as colunas que sejam compartilhadas pela lista de objetos. Se tentarmos manter todas as colunas de todos os dataframe, teremos um dataframe vazio

In [16]:
print(pd.concat([df1, df2, df3], join="inner"))

Empty DataFrame
Columns: []
Index: [0, 1, 2, 3, 0, 1, 2, 3, 0, 1, 2, 3]


Se compartilhas dataframe em comum, apenas os que derem macth retornaram

In [17]:
print(pd.concat([df1, df3], ignore_index=False, join="inner"))

     A    C
0   a0   c0
1   a1   c1
2   a2   c2
3   a3   c3
0   a8   b8
1   a9   b9
2  a10  b10
3  a11  b11


Concatenando colunas com linhas diferentes. Para isso, vamos alterar os índices do nosso DataFrame

In [18]:
df1.index = [0, 1, 2, 3]
df2.index = [4, 5, 6, 7]
df3.index = [0, 2, 5, 7]

Ao concaternarmos ao longo de axis=1 ou axis=0 os novos dataframes serão somados por colunas, não havendo correspondência entre as linhas, aparecerão valores ausentes.

In [19]:
col_concat = pd.concat([df1, df2, df3], axis=1)
print(col_concat)

     A    B    C    D    E    F    G    H    A    C    F    H
0   a0   b0   c0   d0  NaN  NaN  NaN  NaN   a8   b8   c8   d8
1   a1   b1   c1   d1  NaN  NaN  NaN  NaN  NaN  NaN  NaN  NaN
2   a2   b2   c2   d2  NaN  NaN  NaN  NaN   a9   b9   c9   d9
3   a3   b3   c3   d3  NaN  NaN  NaN  NaN  NaN  NaN  NaN  NaN
4  NaN  NaN  NaN  NaN   a4   b4   c4   d4  NaN  NaN  NaN  NaN
5  NaN  NaN  NaN  NaN   a5   b5   c5   d5  a10  b10  c10  d10
6  NaN  NaN  NaN  NaN   a6   b6   c6   d6  NaN  NaN  NaN  NaN
7  NaN  NaN  NaN  NaN   a7   b7   c7   d7  a11  b11  c11  d11


Para concatenar sem espaços vazios, podemos optar por concatenar apenas índices que coincidem

In [20]:
print(pd.concat([df1, df3], axis=1, join="inner"))

    A   B   C   D   A   C   F   H
0  a0  b0  c0  d0  a8  b8  c8  d8
2  a2  b2  c2  d2  a9  b9  c9  d9


### Combinando vários conjuntos de dados

