# Criando um DataFrame

In [0]:
!pip install pandas

In [0]:
import pandas as pd # Importando a bilioteca Pandas

df_spark = spark.read.table('transacoes_cliente') # Lendo a tabela criada em Spark
df = df_spark.toPandas() # Convertendo a tabela Spark em Pandas

display(df)

cliente,data_compra,preco_btc,quantidade_btc
Sherry Decker,2025-01-26T00:00:00.000+0000,526338.91,0.75138
Gerald Hensley,2024-12-09T00:00:00.000+0000,663110.3,0.34418
Timothy Duncan,2024-09-26T00:00:00.000+0000,620115.11,0.46826
Matthew Foster,2024-09-19T00:00:00.000+0000,655694.97,1.02724
Jeffrey Chavez,2024-08-19T00:00:00.000+0000,642216.0,0.09623
Angie Henderson,2024-08-03T00:00:00.000+0000,674066.77,0.8185
William Baker,2024-07-21T00:00:00.000+0000,665345.55,0.96962
Richard Aguirre,2024-07-14T00:00:00.000+0000,664987.81,0.65771
Margaret Hawkins DDS,2024-07-08T00:00:00.000+0000,626697.78,1.40505
Holly Wood,2024-06-01T00:00:00.000+0000,622789.83,0.43479


# Criar uma nova coluna com o total de BTC comprados

In [0]:
df['total_de_compras'] = df['preco_btc'] * df['quantidade_btc']
display(df)

cliente,data_compra,preco_btc,quantidade_btc,total_de_compras
Sherry Decker,2025-01-26T00:00:00.000+0000,526338.91,0.75138,395480.53019580006
Gerald Hensley,2024-12-09T00:00:00.000+0000,663110.3,0.34418,228229.303054
Timothy Duncan,2024-09-26T00:00:00.000+0000,620115.11,0.46826,290375.1014086
Matthew Foster,2024-09-19T00:00:00.000+0000,655694.97,1.02724,673556.1009827999
Jeffrey Chavez,2024-08-19T00:00:00.000+0000,642216.0,0.09623,61800.44568
Angie Henderson,2024-08-03T00:00:00.000+0000,674066.77,0.8185,551723.6512450001
William Baker,2024-07-21T00:00:00.000+0000,665345.55,0.96962,645132.352191
Richard Aguirre,2024-07-14T00:00:00.000+0000,664987.81,0.65771,437369.13251510006
Margaret Hawkins DDS,2024-07-08T00:00:00.000+0000,626697.78,1.40505,880541.715789
Holly Wood,2024-06-01T00:00:00.000+0000,622789.83,0.43479,270782.7901857


# Filtrando quem possui mais de 1 BTC

In [0]:
df_filtrado = df[df['quantidade_btc'] > 1] 
display(df_filtrado)

cliente,data_compra,preco_btc,quantidade_btc,total_de_compras
Matthew Foster,2024-09-19T00:00:00.000+0000,655694.97,1.02724,673556.1009827999
Margaret Hawkins DDS,2024-07-08T00:00:00.000+0000,626697.78,1.40505,880541.715789
Zachary Hicks,2024-05-08T00:00:00.000+0000,649923.13,1.32714,862538.9827482
Allison Hill,2024-03-04T00:00:00.000+0000,611133.11,1.11258,679934.4755237999
Dylan Miller,2024-01-19T00:00:00.000+0000,661851.98,1.2927,855576.054546
Denise Jacobs,2023-05-05T00:00:00.000+0000,347290.47,1.40212,486942.9137964
Jessica Callahan,2023-01-18T00:00:00.000+0000,222339.79,1.40334,312018.32089860004
Brittany Farmer,2023-01-09T00:00:00.000+0000,420280.9,1.15313,484638.5142170001
Nathan Maldonado,2022-09-19T00:00:00.000+0000,277925.07,1.13392,315144.79537440004
Joshua Blair,2022-06-25T00:00:00.000+0000,126232.56,1.39372,175932.84352320002


In [0]:
quantidade_transacoes = df[df["quantidade_btc"] > 1].shape[0]
print(f"Número de transações com mais de 1 BTC: {quantidade_transacoes}")

Número de transações com mais de 1 BTC: 36


In [0]:
# ver as infos das colunas
display(df_filtrado.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 36 entries, 3 to 98
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   cliente           36 non-null     object        
 1   data_compra       36 non-null     datetime64[ns]
 2   preco_btc         36 non-null     float64       
 3   quantidade_btc    36 non-null     float64       
 4   total_de_compras  36 non-null     float64       
dtypes: datetime64[ns](1), float64(3), object(1)
memory usage: 1.7+ KB


# Ordenacao da tabela

##Ordenando transações pelo preco_btc do maior para o menor

In [0]:
df_ordenado = df.sort_values(by='total_de_compras', ascending=False)
display(df_ordenado.head())

cliente,data_compra,preco_btc,quantidade_btc,total_de_compras
Margaret Hawkins DDS,2024-07-08T00:00:00.000+0000,626697.78,1.40505,880541.715789
Zachary Hicks,2024-05-08T00:00:00.000+0000,649923.13,1.32714,862538.9827482
Dylan Miller,2024-01-19T00:00:00.000+0000,661851.98,1.2927,855576.054546
Amy Silva,2021-12-21T00:00:00.000+0000,577134.24,1.28409,741092.3062416
Allison Hill,2024-03-04T00:00:00.000+0000,611133.11,1.11258,679934.4755237999


# Agrupamento de dados

## O código abaixo faz duas operações principais:

- Criação de uma nova coluna mes_compra extraindo o mês e ano da coluna data_compra.
- Agrupamento das transações por mês e soma dos valores da coluna total_de_compra.

In [0]:
df["mes_compra"] = df["data_compra"].dt.to_period("M")

df_agrupado = df.groupby("mes_compra")["total_de_compras"].sum().reset_index()
display(df_agrupado)


createDataFrame attempted Arrow optimization because 'spark.sql.execution.arrow.pyspark.enabled' is set to true; however, failed by the reason below:
  Unable to convert the field mes_compra. If this column is not necessary, you may consider dropping it or converting to primitive type before the conversion.
Direct cause: Unsupported type in conversion from Arrow: extension<pandas.period<ArrowPeriodType>>
Attempting non-optimization as 'spark.sql.execution.arrow.pyspark.fallback.enabled' is set to true.



mes_compra,total_de_compras
List(),15605.2362294
List(),175308.2614948
List(),12072.413383799998
List(),16842.6127474
List(),70809.3943251
List(),6669.4304544
List(),145661.531684
List(),90088.199436
List(),21930.1268963
List(),48702.350250400006


# Aplicando Condições (If no Pandas)

## Criando uma coluna que indica se a compra foi acima de R$ 200.000:

In [0]:
df["alta_compra"] = df["total_de_compras"] > 200000
display(df[["cliente", "total_de_compras", "alta_compra"]].head())

cliente,total_de_compras,alta_compra
Sherry Decker,395480.53019580006,True
Gerald Hensley,228229.303054,True
Timothy Duncan,290375.1014086,True
Matthew Foster,673556.1009827999,True
Jeffrey Chavez,61800.44568,False


# Estatistica Basica

Podemos gerar estatísticas rápidas sobre os dados.

###Verificando estatísticas descritivas:

In [0]:
display(df.describe())  # Mostra média, mínimo, máximo e desvio padrão

preco_btc,quantidade_btc,total_de_compras
100.0,100.0,100.0
256800.68159999995,0.7764485999999999,197218.758476756
215494.84059827388,0.4724554333490626,217412.8566673595
7155.12,0.01074,720.8277418
69510.155,0.3575975,41573.1460199
200151.675,0.813715,108696.6472648
413989.41,1.1705975,287256.43084195
674066.77,1.49892,880541.715789


### Verificando se há valores nulos:

In [0]:
display(df.isnull().sum())  # Conta quantos valores nulos existem por coluna

cliente               0
data_compra           0
preco_btc             0
quantidade_btc        0
total_de_compras      0
mes_compra            0
resultado_operacao    0
mes_compra_str        0
alta_compra           0
dtype: int64

In [0]:
!pip install requests



In [0]:
import requests

In [0]:
# URL da API para obter o preço atual do Bitcoin em USD
url = "https://api.coinbase.com/v2/prices/spot"

# Fazendo a requisição para a API
response = requests.get(url)

# Convertendo o JSON para um dicionário Python
dados = response.json()

# Extraindo o preço do Bitcoin em dólares
preco_atual_btc_dolar = round(float(dados['data']['amount']),2)

print(f"Preço atual do Bitcoin: ${preco_atual_btc:.2f}")

Preço atual do Bitcoin: $105586.58


In [0]:
# Obtendo a cotacao do dolar em relacao ao real da AwesomeAPI
url_dolar = "https://economia.awesomeapi.com.br/last/USD-BRL"
response_dolar = requests.get(url_dolar)
dados_dolar = response_dolar.json()

# Extraindo a cotacao do dolar
cotacao_dolar_real = float(dados_dolar["USDBRL"]["bid"])

# Convertendo o preco do BTC para R$
preco_atual_btc_real = preco_atual_btc_dolar * cotacao_dolar_real

# verificar se obteve lucro ou prejuizo com a compra do bitcoin
def verificar_lucro(preco_btc):
    if  preco_btc < preco_atual_btc:
        return 'Lucro'
    else:
        return 'Prejuizo'
    
# Aplicando a funcao para categorizar cada transacao
df['resultado_operacao'] = df['preco_btc'].apply(verificar_lucro)
display(df.head())

cliente,data_compra,preco_btc,quantidade_btc,total_de_compras,mes_compra,resultado_operacao,mes_compra_str,alta_compra
Sherry Decker,2025-01-26T00:00:00.000+0000,526338.91,0.75138,395480.53019580006,List(),Prejuizo,2025-01,True
Gerald Hensley,2024-12-09T00:00:00.000+0000,663110.3,0.34418,228229.303054,List(),Prejuizo,2024-12,True
Timothy Duncan,2024-09-26T00:00:00.000+0000,620115.11,0.46826,290375.1014086,List(),Prejuizo,2024-09,True
Matthew Foster,2024-09-19T00:00:00.000+0000,655694.97,1.02724,673556.1009827999,List(),Prejuizo,2024-09,True
Jeffrey Chavez,2024-08-19T00:00:00.000+0000,642216.0,0.09623,61800.44568,List(),Prejuizo,2024-08,False


In [0]:
!pip install plotly



In [0]:
import plotly.express as px
import pandas as pd

# Convertendo a coluna "mes_compra" para string
df["mes_compra_str"] = df["mes_compra"].astype(str)

# Gráfico 1: Total de Compra por Mês
fig1 = px.bar(df.groupby("mes_compra_str")["total_de_compras"].sum().reset_index(),
              x="mes_compra_str",
              y="total_de_compras",
              title="Total de Compra por Mês",
              labels={"mes_compra_str": "Mês", "total_de_compras": "Total de Compra (USD)"},
              text_auto=True)
fig1.show()

# Gráfico 2: Distribuição de Lucro vs Prejuízo
fig2 = px.pie(df, names="resultado_operacao",
              title="Distribuição de Lucro vs Prejuízo",
              hole=0.3)
fig2.show()

# Gráfico 3: Evolução do Preço do Bitcoin ao longo do Tempo
fig3 = px.line(df, x="data_compra", y="preco_btc",
               title="Evolução do Preço do Bitcoin ao longo do Tempo",
               labels={"data_compra": "Data da Compra", "preco_btc": "Preço do BTC (USD)"},
               markers=True)
fig3.show()