# Volume IV
### Introdução ao Pandas

In [None]:
import pandas as pd

In [None]:
# Criação do DataFrame com dados de bancos brasileiros
df_bancos = pd.DataFrame({
    "banco": ['Itaú Unibanco', 'Bradesco', 'Banco do Brasil'] * 2,
    "lucro_liquido_bi": [35.6, 28.6, 33.8, 37.1, 30.2, 35.9],
    "ano": sorted([2022, 2023] * 3)
})

# Exibe o DataFrame criado
print(df_bancos)

             banco  lucro_liquido_bi   ano
0    Itaú Unibanco              35.6  2022
1         Bradesco              28.6  2022
2  Banco do Brasil              33.8  2022
3    Itaú Unibanco              37.1  2023
4         Bradesco              30.2  2023
5  Banco do Brasil              35.9  2023


In [None]:
# Criando o DataFrame de exemplo
df_bancos = pd.DataFrame({
    "banco": ['Itaú Unibanco', 'Bradesco', 'Banco do Brasil'] * 2,
    "lucro_liquido_bi": [35.6, 28.6, 33.8, 37.1, 30.2, 35.9],
    "ano": sorted([2022, 2023] * 3)
})

# Acessando o atributo .columns
nomes_das_colunas = df_bancos.columns
print(nomes_das_colunas)

Index(['banco', 'lucro_liquido_bi', 'ano'], dtype='object')


In [3]:
# Convertendo os nomes das colunas para uma lista Python
lista_de_colunas = df_bancos.columns.tolist()

print(lista_de_colunas)

['banco', 'lucro_liquido_bi', 'ano']


In [4]:
print("Colunas antes:", df_bancos.columns)

# Renomeando todas as colunas
df_bancos.columns = ['Instituicao Financeira', 'Lucro (Bi)', 'Ano Fiscal']

print("Colunas depois:", df_bancos.columns)
print("\nDataFrame com novas colunas:")
print(df_bancos.head()) # .head() mostra as 5 primeiras linhas

Colunas antes: Index(['banco', 'lucro_liquido_bi', 'ano'], dtype='object')
Colunas depois: Index(['Instituicao Financeira', 'Lucro (Bi)', 'Ano Fiscal'], dtype='object')

DataFrame com novas colunas:
  Instituicao Financeira  Lucro (Bi)  Ano Fiscal
0          Itaú Unibanco        35.6        2022
1               Bradesco        28.6        2022
2        Banco do Brasil        33.8        2022
3          Itaú Unibanco        37.1        2023
4               Bradesco        30.2        2023


In [None]:
# Criando um DataFrame com nomes de colunas "sujos"
df_sujo = pd.DataFrame({
    'Nome Cliente ': ['Ana', 'Bruno'], # Espaço no final
    '  Idade': [25, 30],               # Espaço no início
    'CIDADE_RESIDENCIA': ['SP', 'RJ']  # Tudo maiúsculo
})

print("Colunas originais:", df_sujo.columns)

# Limpando os nomes das colunas:
df_sujo.columns = df_sujo.columns.str.strip().str.lower().str.replace('_', ' ')

print("Colunas limpas:", df_sujo.columns)

Colunas originais: Index(['Nome Cliente ', '  Idade', 'CIDADE_RESIDENCIA'], dtype='object')
Colunas limpas: Index(['nome cliente', 'idade', 'cidade residencia'], dtype='object')


In [None]:
# Usando o DataFrame dos bancos novamente
# Resetando os nomes
df_bancos.columns = ['banco', 'lucro_liquido_bi', 'ano'] 

for coluna in df_bancos.columns:
    print(f"Analisando a coluna: '{coluna}'")
    # Aqui você poderia, por exemplo, verificar o tipo de dados de cada coluna
    print(f" -> Tipo de dado: {df_bancos[coluna].dtype}\n")

Analisando a coluna: 'banco'
 -> Tipo de dado: object

Analisando a coluna: 'lucro_liquido_bi'
 -> Tipo de dado: float64

Analisando a coluna: 'ano'
 -> Tipo de dado: int64



In [None]:
import pandas as pd

df_bancos = pd.DataFrame({
    "banco": ['Itaú Unibanco', 'Bradesco', 'Banco do Brasil', 
              'Itaú Unibanco', 'Bradesco', 'Banco do Brasil'],
    "lucro_liquido_bi": [35.6, 28.6, 33.8, 37.1, 30.2, 35.9],
    "ano": [2022, 2022, 2022, 2023, 2023, 2023]
})

print(df_bancos)

             banco  lucro_liquido_bi   ano
0    Itaú Unibanco              35.6  2022
1         Bradesco              28.6  2022
2  Banco do Brasil              33.8  2022
3    Itaú Unibanco              37.1  2023
4         Bradesco              30.2  2023
5  Banco do Brasil              35.9  2023


In [9]:
# A pergunta gera um vetor (Series) booleano
pergunta = df_bancos['lucro_liquido_bi'] < 35
print(pergunta)

0    False
1     True
2     True
3    False
4     True
5    False
Name: lucro_liquido_bi, dtype: bool


In [10]:
# Aplicando a máscara ao DataFrame original
bancos_com_lucro_menor_que_35 = df_bancos[pergunta]

print(bancos_com_lucro_menor_que_35)

             banco  lucro_liquido_bi   ano
1         Bradesco              28.6  2022
2  Banco do Brasil              33.8  2022
4         Bradesco              30.2  2023


# Exercícios

* Exercício 40: Mude o nome da coluna do dataframe do exercício 39 de "cotacoes" para "precos".
* Exercício 41: Selecione a coluna de preços do dataframe estudado.
* Exercício 42: Selecione as duas últimas colunas do dataframe estudado.
* Exercício 43: Selecione as informações da Petrobras no dataframe estudado.
* Exercício 44: Selecione apenas empresas com P/L menor que 20.
* Exercício 45: Selecione empresas com P/L maior que 10 e volume maior que 2000.
* Exercício 46: Selecione empresas que a cotação seja maior que 20 ou o volume é maior que 4000.

In [13]:
#gabarito 40

dicionario = {
       "nomes": ["Weg", "Petrobras", "Vale", "Petrobras", "Lojas Renner"],
       "tickers": ["WEGE3", "PETR3", "VALE3", "PETR4", "LREN3"],  
       "cotacoes": [20, 30, 40, 12, 35],
       "preco_sobre_lucro": [25, 6, 12, 7, 25],  
       "volume": [5000, 1000, 4000, 7000, 1200]
}

df_info_empresas = pd.DataFrame(dicionario)

df_info_empresas = df_info_empresas.set_index("tickers")

df_info_empresas.columns = ['nomes', 'precos', 'preco_sobre_lucro', 'volume']

df_info_empresas

Unnamed: 0_level_0,nomes,precos,preco_sobre_lucro,volume
tickers,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
WEGE3,Weg,20,25,5000
PETR3,Petrobras,30,6,1000
VALE3,Vale,40,12,4000
PETR4,Petrobras,12,7,7000
LREN3,Lojas Renner,35,25,1200


In [14]:
#gabarito 41

precinho = df_info_empresas['precos']
precinho

tickers
WEGE3    20
PETR3    30
VALE3    40
PETR4    12
LREN3    35
Name: precos, dtype: int64

In [15]:
#gabarito 42

pl_e_volume = df_info_empresas[['preco_sobre_lucro', 'volume']]
pl_e_volume

Unnamed: 0_level_0,preco_sobre_lucro,volume
tickers,Unnamed: 1_level_1,Unnamed: 2_level_1
WEGE3,25,5000
PETR3,6,1000
VALE3,12,4000
PETR4,7,7000
LREN3,25,1200


In [16]:
#gabarito 43

petrobras = df_info_empresas[df_info_empresas['nomes'] == "Petrobras"]
petrobras

Unnamed: 0_level_0,nomes,precos,preco_sobre_lucro,volume
tickers,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
PETR3,Petrobras,30,6,1000
PETR4,Petrobras,12,7,7000


In [17]:
#gabarito 44

pl_menor_20 = df_info_empresas[df_info_empresas['preco_sobre_lucro'] < 20]
pl_menor_20

Unnamed: 0_level_0,nomes,precos,preco_sobre_lucro,volume
tickers,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
PETR3,Petrobras,30,6,1000
VALE3,Vale,40,12,4000
PETR4,Petrobras,12,7,7000


In [18]:
#gabarito 45 

pl_maior_10_e_volume_maior_2000 = df_info_empresas[(df_info_empresas['preco_sobre_lucro'] > 10) &
                                                      (df_info_empresas['volume'] > 2000)]
pl_maior_10_e_volume_maior_2000

Unnamed: 0_level_0,nomes,precos,preco_sobre_lucro,volume
tickers,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
WEGE3,Weg,20,25,5000
VALE3,Vale,40,12,4000


In [20]:
#gabarito 46

cotacao_20_e_volume_maior_4000 = df_info_empresas[(df_info_empresas['precos'] > 20) |
                                                      (df_info_empresas['volume'] > 7000)]
cotacao_20_e_volume_maior_4000

Unnamed: 0_level_0,nomes,precos,preco_sobre_lucro,volume
tickers,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
PETR3,Petrobras,30,6,1000
VALE3,Vale,40,12,4000
LREN3,Lojas Renner,35,25,1200


# Mundo 5

Agora que você aprendeu como manipular colunas, chegou a hora de aprender a selecionar dados dentro da tabela. Como pegar um dado específico, como o preço da Weg em algum dia específico? 