![Growdev](https://www.growdev.com.br/assets/images/logo_growdev.png)

![Formação Engenharia de Dados](https://d335luupugsy2.cloudfront.net/cms/files/524558/1707226566/$occu5m8t1op)

# Tópicos da Aula de Hoje

- Concatenação de Linhas `concat`
- Junção de Linhas `append`
- Índices em Dataframes
- Exercícios Práticos

**Bora pra aula?**

# Concat

A função `concat` em Pandas é utilizada para combinar DataFrames ao longo de um eixo (linhas ou colunas)

## Concatenação pela linha (0-axis)

In [None]:
# Importando a biblioteca Pandas
import pandas as pd

In [None]:
clientes_janeiro = pd.DataFrame({
    'ClienteID': [1, 2, 3],
    'Nome': ['Joao', 'Henrique', 'Francisca'],
    'Idade': [23, 45, 34],
    'Estado': ['RJ', 'SP', 'RS']
})

clientes_fevereiro = pd.DataFrame({
    'ClienteID': [4, 5],
    'Nome': ['Zuleika', 'Ana'],
    'Idade': [56, 19],
    'Estado': ['RJ', 'RS']
})

In [None]:
clientes_janeiro.head()

Unnamed: 0,ClienteID,Nome,Idade,Estado
0,1,Joao,23,RJ
1,2,Henrique,45,SP
2,3,Francisca,34,RS


In [None]:
clientes_fevereiro.head()

Unnamed: 0,ClienteID,Nome,Idade,Estado
0,4,Zuleika,56,RJ
1,5,Ana,19,RS


In [None]:
clientes_totais = pd.concat([clientes_janeiro, clientes_fevereiro])

In [None]:
clientes_totais.head()

Unnamed: 0,ClienteID,Nome,Idade,Estado
0,1,Joao,23,RJ
1,2,Henrique,45,SP
2,3,Francisca,34,RS
0,4,Zuleika,56,RJ
1,5,Ana,19,RS


Antes de fazer o concat, é importante entender se os dataframes estão na mesma estrutura de colunas, isso é, mesmos nomes e mesmos tipos de dados (mesmo `schema`)

Nomes diferentes de coluna

In [None]:
clientes_janeiro = pd.DataFrame({
    'ClienteID': [1, 2, 3],
    'Nome': ['Joao', 'Henrique', 'Francisca'],
    'Idade': [23, 45, 34],
    'Estado': ['RJ', 'SP', 'RS']
})

clientes_fevereiro = pd.DataFrame({
    'ClienteID': [4, 5],
    'Nome': ['Zuleika', 'Ana'],
    'Anos': [56, 19],
    'Estado': ['RJ', 'RS']
})
clientes_fevereiro = clientes_fevereiro.rename(columns={'Anos': 'Idade'})

clientes_totais_2 = pd.concat([clientes_janeiro, clientes_fevereiro])

In [None]:
clientes_totais_2.head()

Unnamed: 0,ClienteID,Nome,Idade,Estado
0,1,Joao,23,RJ
1,2,Henrique,45,SP
2,3,Francisca,34,RS
0,4,Zuleika,56,RJ
1,5,Ana,19,RS


In [None]:
clientes_totais_2.iloc[[4]]

Unnamed: 0,ClienteID,Nome,Idade,Estado
1,5,Ana,19,RS


Tipos diferentes na mesma coluna

In [None]:
clientes_janeiro = pd.DataFrame({
    'ClienteID': [1, 2, 3],
    'Nome': ['Joao', 'Henrique', 'Francisca'],
    'Idade': [23, 45, 34],
    'Estado': ['RJ', 'SP', 'RS']
})

clientes_fevereiro = pd.DataFrame({
    'ClienteID': [4, 5],
    'Nome': ['Zuleika', 'Ana'],
    'Idade': ['56', '19'],
    'Estado': ['RJ', 'RS']
})

clientes_totais_3 = pd.concat([clientes_janeiro, clientes_fevereiro])
clientes_totais_3['Idade'] = pd.to_numeric(clientes_totais_3['Idade'])

Trabalhando com Index

In [None]:
clientes_janeiro = pd.DataFrame({
    'Nome': ['Joao', 'Henrique', 'Francisca'],
    'Idade': [23, 45, 34],
    'Estado': ['RJ', 'SP', 'RS']
})

clientes_fevereiro = pd.DataFrame({
    'Nome': ['Zuleika', 'Ana'],
    'Idade': ['56', '19'],
    'Estado': ['RJ', 'RS']
})

In [None]:
clientes_totais_unique_index = pd.concat([clientes_janeiro, clientes_fevereiro], ignore_index=True)

In [None]:
clientes_totais_unique_index.head()

Unnamed: 0,Nome,Idade,Estado
0,Joao,23,RJ
1,Henrique,45,SP
2,Francisca,34,RS
3,Zuleika,56,RJ
4,Ana,19,RS


In [None]:
clientes_totais_unique_index.iloc[[1]]

Unnamed: 0,Nome,Idade,Estado
1,Henrique,45,SP


In [None]:
clientes_totais_3.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, 0 to 1
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   ClienteID  5 non-null      int64 
 1   Nome       5 non-null      object
 2   Idade      5 non-null      int64 
 3   Estado     5 non-null      object
dtypes: int64(2), object(2)
memory usage: 200.0+ bytes


In [None]:
# Criando dois DataFrames de exemplo
d1 = {"Name": ["Pankaj", "Lisa"], "ID": [1, 2]}
d2 = {"Name": "David", "ID": 3}

df1 = pd.DataFrame(d1, index=[1, 2])
df2 = pd.DataFrame(d2, index=[3])

In [None]:
print('********\n', df1)
print('********\n', df2)

********
      Name  ID
1  Pankaj   1
2    Lisa   2
********
     Name  ID
3  David   3


In [None]:
df3 = pd.concat([df1, df2])

print('********\n', df3)

********
      Name  ID
1  Pankaj   1
2    Lisa   2
3   David   3


Observe que a concatenação é realizada em linhas, ou seja, no eixo 0. Além disso, os índices dos objetos DataFrame de origem são preservados na saída.

In [None]:
df3 = pd.concat([df1, df2], ignore_index=True)

print('********\n', df3)

********
      Name  ID
0  Pankaj   1
1    Lisa   2
2   David   3


## Concatenação pela coluna (1-axis)

In [None]:
clientes_identificacao = pd.DataFrame({
    'ClienteID': [1, 2, 3, 4, 5],
    'Nome': ['Joao', 'Henrique', 'Francisca', 'Zuleika', 'Ana']
})

clientes_demografia = pd.DataFrame({
    'Idade': [23, 45, 34, 56, 19],
    'Estado': ['RJ', 'SP', 'RS', 'RJ', 'RS']
})

In [None]:
clientes_identificacao_indexado = pd.DataFrame({
    'ClienteID': [1, 2, 3, 4, 5],
    'Nome': ['Joao', 'Henrique', 'Francisca', 'Zuleika', 'Ana']
}, index = [0,1,2,3,4])

clientes_demografia_indexado = pd.DataFrame({
    'Idade': [23, 45, 34, 56, 19],
    'Estado': ['RJ', 'SP', 'RS', 'RJ', 'RS']
}, index = [4,3,2,1,0])

In [None]:
clientes_demografia.head()

Unnamed: 0,Idade,Estado
0,23,RJ
1,45,SP
2,34,RS
3,56,RJ
4,19,RS


In [None]:
clientes_identificacao.head()

Unnamed: 0,ClienteID,Nome
0,1,Joao
1,2,Henrique
2,3,Francisca
3,4,Zuleika
4,5,Ana


In [None]:
clientes_todas_colunas = pd.concat([clientes_identificacao, clientes_demografia], axis=1)

In [None]:
clientes_todas_colunas.head()

Unnamed: 0,ClienteID,Nome,Idade,Estado
0,1,Joao,23,RJ
1,2,Henrique,45,SP
2,3,Francisca,34,RS
3,4,Zuleika,56,RJ
4,5,Ana,19,RS


In [None]:
clientes_todas_colunas_indexado = pd.concat([clientes_identificacao_indexado, clientes_demografia_indexado], axis=1)

In [None]:
clientes_todas_colunas_indexado.head()

Unnamed: 0,ClienteID,Nome,Idade,Estado
0,1,Joao,19,RS
1,2,Henrique,56,RJ
2,3,Francisca,34,RS
3,4,Zuleika,45,SP
4,5,Ana,23,RJ


In [None]:
# Criando dois DataFrames de exemplo
d1 = {"Name": ["Pankaj", "Lisa"], "ID": [1, 2]}
d2 = {"Role": ["Admin", "Editor"]}

df1 = pd.DataFrame(d1, index=[1, 2])
df2 = pd.DataFrame(d2, index=[1, 2])

In [None]:
print('********\n', df1)
print('********\n', df2)

********
      Name  ID
1  Pankaj   1
2    Lisa   2
********
      Role
1   Admin
2  Editor


In [None]:
df3 = pd.concat([df1, df2], axis=1)
print('********\n', df3)

NameError: name 'df1' is not defined

A concatenação ao longo da coluna faz sentido quando os objetos de origem contêm diferentes tipos de dados de um objeto.

## Atribuindo chaves

In [None]:
clientes_janeiro = pd.DataFrame({
    'ClienteID': [1, 2, 3],
    'Nome': ['Joao', 'Henrique', 'Francisca'],
    'Idade': [23, 45, 34],
    'Estado': ['RJ', 'SP', 'RS']
})

clientes_fevereiro = pd.DataFrame({
    'ClienteID': [4, 5],
    'Nome': ['Zuleika', 'Ana'],
    'Idade': [56, 19],
    'Estado': ['RJ', 'RS']
})

clientes_totais_com_chaves = pd.concat([clientes_janeiro, clientes_fevereiro], keys = ["janeiro", "fevereiro"])
clientes_totais_com_chaves.head()

Unnamed: 0,Unnamed: 1,ClienteID,Nome,Idade,Estado
janeiro,0,1,Joao,23,RJ
janeiro,1,2,Henrique,45,SP
janeiro,2,3,Francisca,34,RS
fevereiro,0,4,Zuleika,56,RJ
fevereiro,1,5,Ana,19,RS


Temos então MultiIndex, uma combinação do index do dataframe de origem e da chave que atribuímos a cada dataframe

In [None]:
clientes_totais_com_chaves.index

MultiIndex([(  'janeiro', 0),
            (  'janeiro', 1),
            (  'janeiro', 2),
            ('fevereiro', 0),
            ('fevereiro', 1)],
           )

In [None]:
clientes_totais_com_chaves.loc[[('janeiro',2)]]

Unnamed: 0,Unnamed: 1,ClienteID,Nome,Idade,Estado
janeiro,2,3,Francisca,34,RS


In [None]:
d1 = {"Name": ["Pankaj", "Lisa"], "ID": [1, 2]}
d2 = {"Name": "David", "ID": 3}

df1 = pd.DataFrame(d1, index=[1, 2])
df2 = pd.DataFrame(d2, index=[3])

df3 = pd.concat([df1, df2], keys=["DF1", "DF2"])
print('********\n', df3)

********
          Name  ID
DF1 1  Pankaj   1
    2    Lisa   2
DF2 3   David   3


In [None]:
df3

Unnamed: 0,Unnamed: 1,Name,ID
DF1,1,Pankaj,1
DF1,2,Lisa,2
DF2,3,David,3


In [None]:
df3.index

MultiIndex([('DF1', 1),
            ('DF1', 2),
            ('DF2', 3)],
           )

## Ignorando os objetos do Dataframe na concatenação

In [None]:
d1 = {"Name": ["Pankaj", "Lisa"], "ID": [1, 2]}
d2 = {"Name": "David", "ID": 3}

df1 = pd.DataFrame(d1, index=[10, 20])
df2 = pd.DataFrame(d2, index=[30])

df3 = pd.concat([df1, df2], ignore_index=True)
print('********\n', df3)

********
      Name  ID
0  Pankaj   1
1    Lisa   2
2   David   3


# Append

A função `append` em Pandas permite adicionar linhas de um DataFrame a outro, criando um novo DataFrame com as linhas adicionadas.

Ele funciona de forma semelhante ao método `concat` com `axis=0`, mas é mais simples e direto.

**PORÉM**, a função foi removida da biblioteca pandas, pois a própria função concat é capaz de fazer esse trabalho :D

In [None]:
df = pd.DataFrame([[1, 2], [3, 4]], columns=list('AB'), index=['x', 'y'])
df

Unnamed: 0,A,B
x,1,2
y,3,4


In [None]:
df2 = pd.DataFrame([[5, 6], [7, 8]], columns=list('AB'), index=['x', 'y'])
df2

Unnamed: 0,A,B
x,5,6
y,7,8


In [None]:
df.append(df2)

AttributeError: 'DataFrame' object has no attribute 'append'

Se você estiver utilizando uma versão do pandas antes da 2.x.x, o `append` funcionará

# Índices em Dataframes

Os índices em DataFrames desempenham um papel fundamental na identificação e acesso às linhas de dados.

Eles podem ser únicos ou compostos por vários níveis, formando um índice hierárquico conhecido como DataFrame multi-índice.

## Índice Único

Um índice único consiste em uma única coluna de rótulos exclusivos que identificam cada linha de dados no DataFrame. Ele é frequentemente utilizado quando não há necessidade de índices hierárquicos ou quando apenas um nível de identificação é necessário.

**Mais comum**

In [None]:
df = pd.DataFrame([[1, 2], [3, 4]], columns=list('AB'), index=['x', 'y'])
df

Unnamed: 0,A,B
x,1,2
y,3,4


In [None]:
df.loc[['x']]

Unnamed: 0,A,B
x,1,2


In [None]:
df.set_index('A', inplace=True)
df

Unnamed: 0_level_0,B
A,Unnamed: 1_level_1
1,2
3,4


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2 entries, 1 to 3
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   B       2 non-null      int64
dtypes: int64(1)
memory usage: 32.0 bytes


In [None]:
df.loc[[1]]

Unnamed: 0_level_0,B
A,Unnamed: 1_level_1
1,2


In [None]:
df.reset_index()

Unnamed: 0,A,B
0,1,2
1,3,4


In [None]:
df = pd.DataFrame([[1, 2], [3, 4]], columns=list('AB'))
df

Unnamed: 0,A,B
0,1,2
1,3,4


In [None]:
df.reset_index(drop=True)

Unnamed: 0,A,B
0,1,2
1,3,4


In [None]:
df

Unnamed: 0,A,B
0,1,2
1,3,4


In [None]:
# Acesso aos elementos de dataframes com índice único

df.loc[1, 'A']

3

In [None]:
df.loc[[1]]

Unnamed: 0,A,B
1,3,4


## Multi-Index

Um DataFrame multi-índice possui índices compostos por vários níveis, permitindo uma estrutura de dados hierárquica. Isso é útil para lidar com conjuntos de dados complexos que exigem uma organização mais detalhada.

**Menos comum**

In [None]:
arrays = [['SP', 'SP', 'RS', 'RS'], ['Sao Paulo', 'Campinas', 'Porto Alegre', 'Campo Bom']]
multi_index = pd.MultiIndex.from_arrays(arrays, names=('Estado', 'Cidade'))
df_multi_index = pd.DataFrame({'Populacao': [12_330_000, 1_139_047, 1_332_570, 69_458], 'IDH': [0.783, 0.816, 0.805, 0.745], 'PIB_Percentual_Brasil':[15.4, 0.81, 1.1, 0.55]}, index=multi_index)
df_multi_index

Unnamed: 0_level_0,Unnamed: 1_level_0,Populacao,IDH,PIB_Percentual_Brasil
Estado,Cidade,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
SP,Sao Paulo,12330000,0.783,15.4
SP,Campinas,1139047,0.816,0.81
RS,Porto Alegre,1332570,0.805,1.1
RS,Campo Bom,69458,0.745,0.55


In [None]:
# Acesso aos elementos de dataframes multi-índice
df_multi_index.loc[('RS','Campo Bom'),  'IDH']

0.745

In [None]:
# Acesso aos elementos de dataframes multi-índice
df_multi_index.loc[('RS','Campo Bom'), ('Populacao', 'PIB_Percentual_Brasil')]

Populacao                69458.00
PIB_Percentual_Brasil        0.55
Name: (RS, Campo Bom), dtype: float64

In [None]:
# Acesso aos elementos de dataframes multi-índice
df_multi_index.loc[('RS','Campo Bom')]

Populacao                69458.000
IDH                          0.745
PIB_Percentual_Brasil        0.550
Name: (RS, Campo Bom), dtype: float64

# Exercícios Práticos

**Crie um DataFrame com um índice único e outro com um DataFrame multi-índice. Em seguida, manipule esses índices utilizando as funções set_index, reset_index e MultiIndex.from_arrays.**

**Pratique a concatenação de DataFrames com diferentes tipos de índices, incluindo índices únicos e multi-índices.**

**Experimente adicionar e remover linhas de DataFrames com diferentes tipos de índices usando as funções concat e drop.**