In [2]:
import pandas as pd

#### **Renomeando e combinando**

Renomeando colunas

In [10]:
#Criando um dataframe de exemplo
dados = {
    'Nome': [],
    'Idade': [],
    'Nota': []
}
df = pd.DataFrame(dados)
print("Dataframe de exemplo")
display(df)

Dataframe de exemplo


Unnamed: 0,Nome,Idade,Nota


In [11]:
df.loc[0] = ['Ana', 23, 85]
df

Unnamed: 0,Nome,Idade,Nota
0,Ana,23,85


In [12]:
df.loc[1] = ['Bruno', 34, 90]
df.loc[2] = ['Carlos', 45, 78]
df.loc[3] = ['Diana', 29, 92]
df.loc[4] = ['Eduardo', 40, 88]
df

Unnamed: 0,Nome,Idade,Nota
0,Ana,23,85
1,Bruno,34,90
2,Carlos,45,78
3,Diana,29,92
4,Eduardo,40,88


**1. Usando o *rename()***

In [13]:
#Renomeando colunas
df_renomeado = df.rename(columns={'Nome': 'Estudante', 'Nota': 'Pontuação'})
#df_renomeado = df.rename(columns=dict(Nome = 'Estudante', Nota= 'Pontuação'))
print("Dataframe com colunas renomeadas")
display(df_renomeado)

Dataframe com colunas renomeadas


Unnamed: 0,Estudante,Idade,Pontuação
0,Ana,23,85
1,Bruno,34,90
2,Carlos,45,78
3,Diana,29,92
4,Eduardo,40,88


**2. Alterando os nomes das colunas diretamente**

In [14]:
#Alterando os nomes das colunas diretamente usando o atributo columns=
df.columns = ['Aluno', 'Idade', 'Nota final']
print("Dataframe com novos nomes de colunas:")
display(df)

Dataframe com novos nomes de colunas:


Unnamed: 0,Aluno,Idade,Nota final
0,Ana,23,85
1,Bruno,34,90
2,Carlos,45,78
3,Diana,29,92
4,Eduardo,40,88


Renomeando índices das linhas

**1. Usando *rename()***

In [15]:
#Criando um dataframe de exemplo com índices personalizados
df_index = df.set_index('Aluno')
print("Dataframe com índice 'Aluno':")
display(df_index)

Dataframe com índice 'Aluno':


Unnamed: 0_level_0,Idade,Nota final
Aluno,Unnamed: 1_level_1,Unnamed: 2_level_1
Ana,23,85
Bruno,34,90
Carlos,45,78
Diana,29,92
Eduardo,40,88


In [16]:
df.Aluno[0]

'Ana'

In [17]:
#Renomeando índices
df_index_renomeado = df_index.rename(index={'Ana': 'A1', 'Bruno': 'B2'})
print("Dataframe com índices renomeados")
display(df_index_renomeado)

Dataframe com índices renomeados


Unnamed: 0_level_0,Idade,Nota final
Aluno,Unnamed: 1_level_1,Unnamed: 2_level_1
A1,23,85
B2,34,90
Carlos,45,78
Diana,29,92
Eduardo,40,88


**Alterando os nomes dos índices diretamente**

In [18]:
#Alterando os nomes dos índices diretamente
df_index.index = ['E1', 'E2', 'E3', 'E4', 'E5']
print("Dataframe com novos nomes de índices")
display(df_index)

Dataframe com novos nomes de índices


Unnamed: 0,Idade,Nota final
E1,23,85
E2,34,90
E3,45,78
E4,29,92
E5,40,88


Da mesma forma que o objeto do DataFrame tem um atributo com a lista dos nomes das colunas *(.columns=[...])*, ele também tem um objeto com a lista dos nomes dos índices *(.index=[...])*. Esse atributo se chama index e podemos passar uma nova lista com os novos índices acessando via df.index.

Renomeando eixos

Em Pandas, eixos referem-se às linhas (eixo 0) e colunas (eixo 1). Podemos renomear os eixos usando o método rename_axis().

In [19]:
#Renomeando os eixos
df_eixos_renomeados = df.rename_axis('Índice do aluno', axis= 'rows').rename_axis('Características', axis= 'columns')
print("Dataframe com eixos renomeados:")
display(df_eixos_renomeados)

Dataframe com eixos renomeados:


Características,Aluno,Idade,Nota final
Índice do aluno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Ana,23,85
1,Bruno,34,90
2,Carlos,45,78
3,Diana,29,92
4,Eduardo,40,88


#### **Combinando Dataframes**

No mundo real, os dados frequentemente estão distribuídos em várias tabelas ou bases de dados. Por exemplo, informações de clientes podem estar em uma tabela, enquanto suas transações estão em outra. Para realizar uma análise completa, precisamos combinar esses dados. O Pandas oferece várias ferramentas poderosas para juntar e concatenar DataFrames, permitindo criar um conjunto de dados coeso a partir de fontes distintas.

##### **Usando *join()*:**

In [20]:
#Dataframe de exemplo 1
dados1 = {
    'ID': [1, 2, 3, 4],
    'Nome': ['Ana', 'Bruno', 'Carlos', 'Diana']
}
df1 = pd.DataFrame(dados1).set_index('ID')
print("Dataframe 1:")
display(df1)

#Dataframe de exemplo 2
dados2 = {
    'ID': [1, 2, 3, 5],
    'Nota': [85, 90, 78, 88]
}
df2 = pd.DataFrame(dados2).set_index('ID')
print("Dataframe 2:")
display(df2)

Dataframe 1:


Unnamed: 0_level_0,Nome
ID,Unnamed: 1_level_1
1,Ana
2,Bruno
3,Carlos
4,Diana


Dataframe 2:


Unnamed: 0_level_0,Nota
ID,Unnamed: 1_level_1
1,85
2,90
3,78
5,88


**1. Join interno (Inner join)**

O join interno retorna apenas as linhas onde os índices estão presentes em ambos os DataFrames.

Caso não tenha sido definida um indice no dataframe é possível usar o método .set_index ao fazer o join

In [33]:
#Join interno
df_inner = df1.join(df2, how='inner')
#df_inner = df1.set_index('ID').join(df2.set_index('ID'), how='inner')
print("Join interno (Inner join):")
display(df_inner)

Join interno (Inner join):


Unnamed: 0_level_0,Nome,Nota
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Ana,85
2,Bruno,90
3,Carlos,78


**2. Join externo (Outer join)**

O join externo retorna todas as linhas dos DataFrames, preenchendo com NaN onde não há correspondência.

In [22]:
#Join externo
df_outer = df1.join(df2, how='outer')
print("Join externo (Outer join):")
display(df_outer)

Join externo (Outer join):


Unnamed: 0_level_0,Nome,Nota
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Ana,85.0
2,Bruno,90.0
3,Carlos,78.0
4,Diana,
5,,88.0


**3. Join à esquerda (Left join)**

O join à esquerda retorna todas as linhas do DataFrame à esquerda (df1) e as correspondências do DataFrame à direita (df2).

In [30]:
#Join à esquerda
df_left = df1.join(df2, how='left', lsuffix='_df1', rsuffix='_df2')
print("Join à esquerda (Left join):")
display(df_left)

Join à esquerda (Left join):


Unnamed: 0_level_0,Nome,Nota
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Ana,85.0
2,Bruno,90.0
3,Carlos,78.0
4,Diana,


**4. Join à direita (Right join)**

O join à direita retorna todas as linhas do DataFrame à direita (df2) e as correspondências do DataFrame à esquerda (df1).

In [24]:
#Join à direita
df_right = df1.join(df2, how='right')
print("Join à direita (Right join):")
display(df_right)

Join à direita (Right join):


Unnamed: 0_level_0,Nome,Nota
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Ana,85
2,Bruno,90
3,Carlos,78
5,,88


O conceito de "direita" e "esquerda" no Pandas é relativo. Consideramos como esquerda, o que está à esquerda no código. Ou seja, o DataFrame que recebe o método join(). Nesse caso, podemos ver que quem está à esquerda é o df1, ele recebe o método join(), e mais à direita temos o df2, que está sendo passado como argumento do join().

##### **Usando *concat()*:**

O método concat é usado para concatenar DataFrames ao longo de um eixo (linha ou coluna).

**1. Concatenando dataframes verticalmente**

In [26]:
#Dataframe de exemplo 3
dados3 = {
    'Nome': ['Eduardo', 'Fernanda'],
    'Nota': [92, 87]
}
df3 = pd.DataFrame(dados3)
print("Dataframe 3:")
display(df3)

#Concatenando verticalmente
df_vertical = pd.concat([df1.reset_index(), df3], ignore_index=True)
print("Concatenando vertical:")
display(df_vertical)

Dataframe 3:


Unnamed: 0,Nome,Nota
0,Eduardo,92
1,Fernanda,87


Concatenando vertical:


Unnamed: 0,ID,Nome,Nota
0,1.0,Ana,
1,2.0,Bruno,
2,3.0,Carlos,
3,4.0,Diana,
4,,Eduardo,92.0
5,,Fernanda,87.0


In [32]:
novo_df = pd.concat([df1, df3])
novo_df

Unnamed: 0,Nome,Nota
1,Ana,
2,Bruno,
3,Carlos,
4,Diana,
0,Eduardo,92.0
1,Fernanda,87.0


**2. Concatenando dataframes horizontalmente**

In [27]:
#Dataframe de exemplo 4
dados4 = {
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Curitiba']
}
df4 = pd.DataFrame(dados4)
print("Dataframe 4:")
display(df4)

#Concatenando horizontalmente
df_horizontal = pd.concat([df1.reset_index(), df4], axis=1)
print("Concatenando horizontal:")
display(df_horizontal)

Dataframe 4:


Unnamed: 0,Cidade
0,São Paulo
1,Rio de Janeiro
2,Belo Horizonte
3,Curitiba


Concatenando horizontal:


Unnamed: 0,ID,Nome,Cidade
0,1,Ana,São Paulo
1,2,Bruno,Rio de Janeiro
2,3,Carlos,Belo Horizonte
3,4,Diana,Curitiba
