<a href="https://colab.research.google.com/github/carlosdqlima/Analista-Dados-Bootcamp-SoulCode/blob/main/atividade-05-buckets-gcp-python/bucket.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Atividade 05 - Bucket

Na GCP crie uma bucket (Cloud Storage) com qualquer nome e dentro dela crie uma
pasta com o nome de dados_bruto e dentro dele salve o arquivo (csv) com os dados do
da base escolhida no site https://dados.gov.br/, deixe o acesso público ativado

No colab faça a leitura desse arquivo e a partir dele crie diferentes insight (pandas/pyspark/numpy) com os resultados de agrupamentos e salve esses arquivos como csv e envie diretamente pelo cada um deles para o bucket dentro de uma pasta chamada "Dados_tratados"

## Base de dados: https://dados.gov.br/dados/conjuntos-dados/estoque-do-tesouro-direto

Info:
Esse conjunto de dados mostra o volume total de recursos aplicados ao Tesouro Direto. A metodologia de cálculo dessa estatística é a mesma usada para cálculo do estoque de toda a Dívida Pública Federal, na qual os juros são acumulados de acordo com a taxa de emissão de cada título. Assim, esse estoque não é valorado pelos preços de mercado dos títulos.

##Instale a biblioteca do Google Cloud no Colab


In [None]:
!pip install --upgrade google-cloud-storage google-cloud-bigquery

Collecting google-cloud-storage
  Downloading google_cloud_storage-2.18.2-py2.py3-none-any.whl.metadata (9.1 kB)
Downloading google_cloud_storage-2.18.2-py2.py3-none-any.whl (130 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m130.5/130.5 kB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: google-cloud-storage
  Attempting uninstall: google-cloud-storage
    Found existing installation: google-cloud-storage 2.8.0
    Uninstalling google-cloud-storage-2.8.0:
      Successfully uninstalled google-cloud-storage-2.8.0
Successfully installed google-cloud-storage-2.18.2


In [None]:
from google.colab import auth
auth.authenticate_user()

In [None]:
from google.cloud import storage
# Inicialize o cliente
client = storage.Client()

# Defina o nome do bucket
bucket_name = 'bootcamp_dados'
bucket = client.bucket(bucket_name)

# Caminho dentro do bucket (pasta_csv)
destination_blob_path = 'dados_bruto/EstoqueTesouroDireto.csv'

# Faça o upload de um arquivo CSV
blob = bucket.blob(destination_blob_path)
blob.upload_from_filename('/content/EstoqueTesouroDireto.csv')

In [None]:
from google.cloud import storage
import pandas as pd
import io

# Inicialize o cliente do Cloud Storage
client = storage.Client()

# Defina o nome do bucket e o caminho do arquivo
bucket_name = 'bootcamp_dados'
file_name = 'dados_bruto/EstoqueTesouroDireto.csv'  # Caminho completo do arquivo dentro do bucket

# Obtenha o bucket e o blob (arquivo)
bucket = client.bucket(bucket_name)
blob = bucket.blob(file_name)

# Faça o download do arquivo como bytes
data = blob.download_as_bytes()

# Carregue os dados em um DataFrame do pandas
df = pd.read_csv(io.BytesIO(data))

# Exiba o DataFrame
print(df.head())

                                                                             Tipo Titulo;Vencimento do Titulo;Mes Estoque;PU;Quantidade;Valor Estoque
Tesouro IPCA+ com Juros Semestrais;15/05/2045;1... 096763;11680 80;13749431                                                 86                       
Tesouro IGPM+ com Juros Semestrais;01/07/2017;1... 064966;11019 60;17973683                                                 50                       
Tesouro IPCA+ com Juros Semestrais;15/05/2015;1... 426939;10408 60;14201774                                                 24                       
Tesouro IGPM+ com Juros Semestrais;01/01/2031;1... 474340;15951 20;40922394                                                 29                       
Tesouro IGPM+ com Juros Semestrais;01/04/2021;1... 573046;11017 00;16884357                                                 24                       


# Tratamento

In [None]:
import pandas as pd

# Carregar o arquivo CSV com o separador ';'
file_path = 'EstoqueTesouroDireto.csv'
df = pd.read_csv(file_path, sep=';')

# Substituir ',' por '.' nos valores numéricos
df['PU'] = df['PU'].str.replace(',', '.').astype(float)
df['Quantidade'] = df['Quantidade'].str.replace(',', '.').astype(float)
df['Valor Estoque'] = df['Valor Estoque'].str.replace(',', '.').astype(float)

# Salvar o arquivo tratado em CSV com ',' como separador
df.to_csv('EstoqueTesouroDiretoTratado.csv', sep=',', index=False)

print("Arquivo tratado salvo como 'EstoqueTesouroDiretoTratado.csv'.")

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7639 entries, 0 to 7638
Data columns (total 6 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Tipo Titulo           7639 non-null   object 
 1   Vencimento do Titulo  7639 non-null   object 
 2   Mes Estoque           7639 non-null   object 
 3   PU                    7639 non-null   float64
 4   Quantidade            7639 non-null   float64
 5   Valor Estoque         7639 non-null   float64
dtypes: float64(3), object(3)
memory usage: 358.2+ KB


# Upload base de dados após tratamento

In [None]:
from google.cloud import storage
# Inicialize o cliente
client = storage.Client()

# Defina o nome do bucket
bucket_name = 'bootcamp_dados'
bucket = client.bucket(bucket_name)

# Caminho dentro do bucket (pasta_csv)
destination_blob_path = 'dados_tratados/EstoqueTesouroDiretoTratado.csv'

# Faça o upload de um arquivo CSV
blob = bucket.blob(destination_blob_path)
blob.upload_from_filename('/content/EstoqueTesouroDiretoTratado.csv')

# Download base de dados após tratamento do bucket

In [None]:
from google.cloud import storage
import pandas as pd
import io

# Inicialize o cliente do Cloud Storage
client = storage.Client()

# Defina o nome do bucket e o caminho do arquivo
bucket_name = 'bootcamp_dados'
file_name = 'dados_tratados/EstoqueTesouroDiretoTratado.csv'  # Caminho completo do arquivo dentro do bucket

# Obtenha o bucket e o blob (arquivo)
bucket = client.bucket(bucket_name)
blob = bucket.blob(file_name)

# Faça o download do arquivo como bytes
data = blob.download_as_bytes()

# Carregue os dados em um DataFrame do pandas
df = pd.read_csv(io.BytesIO(data))

# Exiba o DataFrame
print(df.head())

                          Tipo Titulo Vencimento do Titulo Mes Estoque  \
0  Tesouro IPCA+ com Juros Semestrais           15/05/2045     12/2006   
1  Tesouro IGPM+ com Juros Semestrais           01/07/2017     12/2006   
2  Tesouro IPCA+ com Juros Semestrais           15/05/2015     12/2006   
3  Tesouro IGPM+ com Juros Semestrais           01/01/2031     12/2006   
4  Tesouro IGPM+ com Juros Semestrais           01/04/2021     12/2006   

            PU  Quantidade  Valor Estoque  
0  1177.096763     11680.8    13749431.86  
1  1631.064966     11019.6    17973683.50  
2  1364.426939     10408.6    14201774.24  
3  2565.474340     15951.2    40922394.29  
4  1532.573046     11017.0    16884357.24  


# Criando o ambiente e importando as bibliotecas Pyspark

In [None]:
!pip install pyspark

Collecting pyspark
  Downloading pyspark-3.5.2.tar.gz (317.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m317.3/317.3 MB[0m [31m1.2 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.5.2-py2.py3-none-any.whl size=317812365 sha256=1dd9c4cdb5c92843d2913872d58463338e411f9fae4d973e3e09a20ffb498c2e
  Stored in directory: /root/.cache/pip/wheels/34/34/bd/03944534c44b677cd5859f248090daa9fb27b3c8f8e5f49574
Successfully built pyspark
Installing collected packages: pyspark
Successfully installed pyspark-3.5.2


In [None]:
import pandas as pd
from pyspark.sql import SparkSession

# Criar uma sessão do Spark
spark = SparkSession.builder \
    .appName("PandasToPySpark") \
    .getOrCreate()

In [None]:
# Converter o DataFrame do Pandas para um DataFrame do PySpark
pyspark_df = spark.createDataFrame(df)

# Exibir as primeiras linhas do DataFrame PySpark
pyspark_df.show()

+--------------------+--------------------+-----------+-----------+----------+-------------+
|         Tipo Titulo|Vencimento do Titulo|Mes Estoque|         PU|Quantidade|Valor Estoque|
+--------------------+--------------------+-----------+-----------+----------+-------------+
|Tesouro IPCA+ com...|          15/05/2045|    12/2006|1177.096763|   11680.8|1.374943186E7|
|Tesouro IGPM+ com...|          01/07/2017|    12/2006|1631.064966|   11019.6| 1.79736835E7|
|Tesouro IPCA+ com...|          15/05/2015|    12/2006|1364.426939|   10408.6|1.420177424E7|
|Tesouro IGPM+ com...|          01/01/2031|    12/2006| 2565.47434|   15951.2|4.092239429E7|
|Tesouro IGPM+ com...|          01/04/2021|    12/2006|1532.573046|   11017.0|1.688435724E7|
|Tesouro IPCA+ com...|          15/08/2024|    12/2006|1262.761762|    8685.6|1.096784355E7|
|       Tesouro IPCA+|          15/05/2015|    12/2006| 787.117534|   46287.0|3.643330928E7|
|       Tesouro IPCA+|          15/08/2024|    12/2006| 395.196198|   

In [None]:
# Definir quais funcões sql pyspark vamos importar
from pyspark.sql.functions import *

# Insights

In [None]:
'''
1. Qual é a média de preços unitários (PU) por tipo de título?
'''

media_pu_por_tipo = df.groupby('Tipo Titulo')['PU'].mean()

display(media_pu_por_tipo)

media_pu_por_tipo.to_csv('media_pu_por_tipo.csv')

Unnamed: 0_level_0,PU
Tipo Titulo,Unnamed: 1_level_1
Tesouro Educa+,2270.570501
Tesouro IGPM+ com Juros Semestrais,2572.146907
Tesouro IPCA+,1699.200741
Tesouro IPCA+ com Juros Semestrais,2601.256658
Tesouro Prefixado,832.031723
Tesouro Prefixado com Juros Semestrais,969.186299
Tesouro RendA+,752.067232
Tesouro Selic,6008.599062


In [None]:
from google.cloud import storage
# Inicialize o cliente
client = storage.Client()

# Defina o nome do bucket
bucket_name = 'bootcamp_dados'
bucket = client.bucket(bucket_name)

# Caminho dentro do bucket (pasta_csv)
destination_blob_path = 'dados_tratados/media_pu_por_tipo.csv'

# Faça o upload de um arquivo CSV
blob = bucket.blob(destination_blob_path)
blob.upload_from_filename('/content/media_pu_por_tipo.csv')

In [None]:
'''
2. Qual é o desvio padrão do Preço Unitário (PU) por tipo de título.
'''

desvio_padrao_tipo_titulo = pyspark_df.groupBy('Tipo Titulo').agg(round(stddev('PU')).alias('Desvio Padrão PU'))

desvio_padrao_tipo_titulo.show()

desvio_padrao_tipo_titulo = desvio_padrao_tipo_titulo.toPandas()
desvio_padrao_tipo_titulo.to_csv('desvio_padrao_tipo_titulo.csv', index=False)

+--------------------+----------------+
|         Tipo Titulo|Desvio Padrão PU|
+--------------------+----------------+
|      Tesouro RendA+|           491.0|
|      Tesouro Educa+|           597.0|
|       Tesouro IPCA+|           957.0|
|Tesouro IPCA+ com...|          1081.0|
|Tesouro Prefixado...|            68.0|
|Tesouro IGPM+ com...|          1451.0|
|       Tesouro Selic|          3925.0|
|   Tesouro Prefixado|           127.0|
+--------------------+----------------+



In [None]:
from google.cloud import storage
# Inicialize o cliente
client = storage.Client()

# Defina o nome do bucket
bucket_name = 'bootcamp_dados'
bucket = client.bucket(bucket_name)

# Caminho dentro do bucket (pasta_csv)
destination_blob_path = 'dados_tratados/desvio_padrao_tipo_titulo.csv'

# Faça o upload de um arquivo CSV
blob = bucket.blob(destination_blob_path)
blob.upload_from_filename('/content/desvio_padrao_tipo_titulo.csv')

In [None]:
'''
3 - Índice de Retorno Relativo (Retorno/PU):
'''

indice_retorno_relativo = pyspark_df.withColumn('Índice de Retorno Relativo', col('PU') / col('Valor Estoque'))

indice_retorno_relativo.show()

indice_retorno_relativo_pd = indice_retorno_relativo.toPandas()
indice_retorno_relativo_pd.to_csv('indice_retorno_relativo.csv', index=False)

+--------------------+--------------------+-----------+-----------+----------+-------------+--------------------------+
|         Tipo Titulo|Vencimento do Titulo|Mes Estoque|         PU|Quantidade|Valor Estoque|Índice de Retorno Relativo|
+--------------------+--------------------+-----------+-----------+----------+-------------+--------------------------+
|Tesouro IPCA+ com...|          15/05/2045|    12/2006|1177.096763|   11680.8|1.374943186E7|      8.561057467577428E-5|
|Tesouro IGPM+ com...|          01/07/2017|    12/2006|1631.064966|   11019.6| 1.79736835E7|      9.074739554638313E-5|
|Tesouro IPCA+ com...|          15/05/2015|    12/2006|1364.426939|   10408.6|1.420177424E7|       9.60743999969401E-5|
|Tesouro IGPM+ com...|          01/01/2031|    12/2006| 2565.47434|   15951.2|4.092239429E7|       6.26912081883467E-5|
|Tesouro IGPM+ com...|          01/04/2021|    12/2006|1532.573046|   11017.0|1.688435724E7|      9.076881187808841E-5|
|Tesouro IPCA+ com...|          15/08/20

In [None]:
from google.cloud import storage
# Inicialize o cliente
client = storage.Client()

# Defina o nome do bucket
bucket_name = 'bootcamp_dados'
bucket = client.bucket(bucket_name)

# Caminho dentro do bucket (pasta_csv)
destination_blob_path = 'dados_tratados/indice_retorno_relativo.csv'

# Faça o upload de um arquivo CSV
blob = bucket.blob(destination_blob_path)
blob.upload_from_filename('/content/indice_retorno_relativo.csv')