**Prof. Gustavo Moreira / Esalq-USP** 👽

# 1) Relembrando: dataframes!

In [None]:
#Importando bibliotecas para uso
import numpy as np
import pandas as pd

In [None]:
# Criando as séries com 20 pessoas
idades = pd.Series([25, 32, 29, 40, 37, 22, 45, 38, 28, 50,
                    42, 31, 33, 26, 48, 39, 35, 27, 47, 36])
clientes = pd.Series([
    "Ana", "Bruno", "Carla", "Daniel", "Eduarda", "Felipe", "Gabriela", "Henrique", "Isabela", "João",
    "Karina", "Lucas", "Mariana", "Nathan", "Olívia", "Pedro", "Quésia", "Rafael", "Sabrina", "Tiago"
])
renda = pd.Series([2500, 3200, 2900, 4000, 3700, None, 4500, 3800, None, 5000,
                   4200, 3100, 3300, None, 4800, 3900, 3500, None, 4700, 3600])

# Criando o DataFrame
df = pd.DataFrame({
    'clientes': clientes,
    'idade': idades,
    'renda': renda
})

print(df)

In [None]:
#Mostrando dados de quem tem renda superior a 3000

clientes_com_renda_alta = df[df['renda'] > 3000]

print(clientes_com_renda_alta)

In [None]:
#Limpando objetos não mais úteis

del idades, clientes, renda

# 2) Conceitos básicos de manipulação de dados

In [None]:
print(df.head(5))  # Exibe os primeiros 5 registros

In [None]:
print(df.tail(5))  # Exibe os últimos 5 registros

In [None]:
print(df.info())  # Mostra tipos de dados e valores não nulos


*   O tipo int64 representa números inteiros de 64 bits.
*   O tipo object geralmente representa strings (textos), mas também pode armazenar dados mistos.
*   O tipo float64 representa números com casas decimais (ponto flutuante de 64 bits).

In [None]:
#Identificando valores ausentes:

print(df.isnull().sum())  # Conta quantos valores faltantes existem por coluna

In [None]:
# Reorganizando a posição das variáveis

df = df.reindex(['renda','idade','clientes'], axis=1)
print(df.head())

In [None]:
# Excluindo alguma variavel de interesse do df:

novo_df = df.drop('idade', axis=1) # Exclui a variável idade
print(novo_df.head())

In [None]:
#Ordenar os dados pela renda (do maior para o menor)

df_ordenado = novo_df.sort_values(by='renda', ascending=False)
print(df_ordenado)

In [None]:
# Excluindo algumas observações:

novo_df = novo_df.drop(3) #Exclui observação da linha 3
print(novo_df.head())

# 3) O uso de operadores lógicos

In [None]:
#%% Filtrando observações por meio de operadores

# Também é possível filtrar observações por meio dos operadores:
# Alguns operadores úteis para realizar filtros:

# "== igual"
# "> maior"
# ">= maior ou igual"
# "< menor"
# "<= menor ou igual"
# "!= diferente"
# "& indica e"
# "| indica ou"

In [None]:
#Filtrar clientes com idade igual a 40 anos:

df_40_anos = df[df['idade'] == 40]
print(df_40_anos)

In [None]:
#Filtrar clientes com renda acima de 4000:

df_renda_alta = df[df['renda'] > 4000]
print(df_renda_alta)

In [None]:
# Filtrar clientes com idade maior ou igual a 40 anos:

df_maiores_40 = df[df['idade'] >= 40]
print(df_maiores_40)

In [None]:
#Filtrar clientes com idade menor que 30 anos:

df_jovens = df[df['idade'] < 30]
print(df_jovens)

In [None]:
#Filtrar clientes com renda menor ou igual a 3500:

df_renda_baixa = df[df['renda'] <= 3500]
print(df_renda_baixa)

In [None]:
#Filtrar clientes que não têm 25 anos:

df_sem_25 = df[df['idade'] != 25]
print(df_sem_25)

In [None]:
# Filtrar clientes com mais de 30 anos E renda acima de 4000:

df_filtro = df[(df['idade'] > 30) & (df['renda'] > 4000)]
print(df_filtro)

In [None]:
#Filtrar clientes com menos de 25 anos OU renda maior que 4500:

df_filtro = df[(df['idade'] < 25) | (df['renda'] > 4500)]
print(df_filtro)

# 4) Algumas estatísticas descritivas:

In [None]:
print(df.describe())  # Estatísticas básicas das colunas numéricas

** Count: Mostra quantos valores não nulos existem na coluna.

** Mean: Exibe a média aritmética dos valores.

** std (desvio padrão): Mede a dispersão dos dados em relação à média.

** min: Mostra o menor valor encontrado na coluna.

** 25%: Indica o percentil 25 (25% dos dados estão abaixo desse valor).

** 50% (mediana): O valor central quando os dados estão ordenados.

** 75%: Indica o percentil 75 (75% dos valores estão abaixo dele).

** max: Mostra o maior valor encontrado na coluna.

In [None]:
#Criar uma nova variável categorizando a variável renda:

df['categoria_renda'] = df['renda'].apply(lambda x: 'Alta' if x > 4000 else 'Média' if x > 3000 else 'Baixa')
print(df)

In [None]:
#Contar quantos clientes há por categoria de renda

print(df['categoria_renda'].value_counts())


# 5) Importando séries financeiras (Yahoo Finanças)

Para saber o código dos ativos, busque no site: https://finance.yahoo.com/

In [None]:
# Podemos importar alguns dados diretamente da internet, sem precisar passar
# pelo nosso computador, esse é o caso do Yahoo Finanças:

!pip install yfinance # Instala a biblioteca yfinance
import yfinance as yf #Importando o pacote previamente instalado e dando o apelido de yf

In [None]:
dados = yf.download("BTC-USD", start="2023-01-01", end="2025-01-01", progress=False)
print(dados.head())  # Mostra as primeiras linhas

In [None]:
#Também posso importar dados de diversas empresas ao mesmo tempo:

tickers = ["PETR4.SA", "ITSA3.SA", "VALE3.SA"]  # Petrobrás, Itaú e Vale
dados_multi = yf.download(tickers, start="2023-01-01", end="2025-01-01", progress=False)
print(dados_multi.head())

# 6) Exercícios

In [None]:
# 📌 A) Escolher um ativo e definir período
ticker = "____"  # Escolha um código de ação do Yahoo Finanças
dados = yf.download(ticker, start="____", end="____")

# 📌 B) Mostrar as primeiras linhas do DataFrame

# 📌 C) Exibir e analisar estatísticas básicas

# 📌 D) Aplicar filtros

# D.a) Filtrar os dias em que o preço de fechamento foi maior que um valor específico

# D.b) Filtrar os dias em que o volume negociado foi maior que um limite determinado

# 📌 E) Descobrir o maior e menor preço de fechamento no período

# 📌 F) Calcule a variação percentual diária da ação

# G.a) Filtrar os dias em que a ação subiu mais de 3%

# G.b) Filtrar os dias em que a ação caiu mais de 3%

# H) Analisar a relação entre Volume e Variação de Preço
# Dica: Use `.corr()` para calcular a correlação entre colunas


# 7) Resolução