<div style="text-align: left;">

## Módulo: Analytics Engineering
    
<br>

## Aula 1 - Exercício 1

#### Desenvolver um pipeline de dados para a análise de sentimento de notícias relacionadas ao Bitcoin usando dados obtidos da API Alpha Vantage (https://www.alphavantage.co/documentation/) com os seguintes passos:

> #### 1: Fazer uma chamada à API Alpha Vantage com a função NEWS_SENTIMENT para obter dados de sentimento de notícias relacionadas ao Bitcoin. Exemplo a seguir:
> #### 'https://www.alphavantage.co/query?function=NEWS_SENTIMENT&tickers=CRYPTO:BTC&time_from=20230926T0000&limit=1000&apikey=' + api_key'

#### 'function=NEWS_SENTIMENT':  Este é o parâmetro que especifica a função da API que está sendo chamada, neste caso, a função "NEWS_SENTIMENT" que retorna informações de sentimento de notícias.

#### 'tickers=CRYPTO:BTC': Neste parâmetro, é especificado o ticker do ativo financeiro que deseja ser analisado. No caso em questão, é "CRYPTO:BTC", indicando que análises de sentimento de notícias relacionadas ao Bitcoin estão sendo solicitadas.

#### 'time_from=20230926T0000': Este parâmetro define a data e hora a partir das quais as informações de sentimento de notícias são solicitadas. No exemplo fornecido, a data é definida como 26 de setembro de 2023 às 00:00 (meia-noite).

#### 'limit=1000': Este parâmetro define o número máximo de notícias a serem recuperadas. No exemplo mencionado, a busca está limitada a 1000 notícias.

#### 'apikey=': Aqui é preciso adicionar a chave da API adquirida via login no site da API.

#### O resultado dessa chamada à API será um conjunto de informações de sentimento de notícias relacionadas ao Bitcoin, incluindo possíveis métricas de sentimento, pontuações, resumos ou outros dados relevantes. O formato e a estrutura exatos dos dados dependem da API Alpha Vantage e das informações disponíveis em seu serviço no momento da chamada.







In [1]:
import requests

url = 'https://www.alphavantage.co/query?function=NEWS_SENTIMENT&tickers=CRYPTO:BTC&time_from=20240412T0000&limit=1000&apikey=API_KEY'
r = requests.get(url)

data = r.json()

print(data)





### Os resultados da primeira notícia encontrada:

In [2]:
data['feed'][3]

{'title': "Bitcoin 'Will Resume Its Trend Higher,' Says Galaxy Digital CEO Amid Israel-Iran Escalation",
 'url': 'https://www.benzinga.com/markets/cryptocurrency/24/04/38241323/bitcoin-will-resume-its-trend-higher-says-galaxy-digital-ceo-amid-israel-iran-escalation',
 'time_published': '20240415T013937',
 'authors': ['Benzinga Neuro'],
 'summary': 'Mike Novogratz, CEO of Galaxy Digital, warned about the economic repercussions of war while forecasting a robust performance for Bitcoin BTC/USD. What Happened: Novogratz, the billionaire founder of Galaxy Digital, took to social media platform X on Sunday to express his concerns about the ...',
 'banner_image': 'https://cdn.benzinga.com/files/images/story/2024/04/14/Bitcoin-Vs-Gold-Vs-Stock-Market.jpeg?width=1200&height=800&fit=crop',
 'source': 'Benzinga',
 'category_within_source': 'News',
 'source_domain': 'www.benzinga.com',
 'topics': [{'topic': 'Economy - Monetary', 'relevance_score': '0.310843'},
  {'topic': 'Blockchain', 'relevance_

> ### 2. Efetuado a chamada, será preciso encontrar uma chave única por notícia para evitar duplicidades no pipeline e o mínimo de informações por notícia que será necessário armazenar é o título, data de publicação e o resultado da análise de sentimento para o Bitcoin, exemplo a seguir com todas essas informações necessárias da última nóticia:

In [3]:
print("Resultado para a primeira notícia encontrada:")
print("Título", data['feed'][0]['title'])
print("Data de publicação", data['feed'][0]['time_published'])
print("Resultado apenas do Ticker igual ao Bitcoin ('CRYPTO:BTC')", data['feed'][0]['ticker_sentiment'][1])

Resultado para a primeira notícia encontrada:
Título KuCoin Announces a Monumental $20 Million Gratitude Airdrop for Its Loyal Community
Data de publicação 20240415T021900
Resultado apenas do Ticker igual ao Bitcoin ('CRYPTO:BTC') {'ticker': 'CRYPTO:USDT', 'relevance_score': '0.116914', 'ticker_sentiment_score': '0.184356', 'ticker_sentiment_label': 'Somewhat-Bullish'}


> ### 3. Preparar um pipeline capaz de extrair e armazenar essas informações em um banco de dados usando os conceitos das camadas especializadas Bronze e Silver

In [4]:
import pandas as pd

# Criar listas para armazenar os dados extraídos
titles = []
time_published = []
ticker_sentiments = []

for item in data['feed']:
    titles.append(item['title'])
    time_published.append(item['time_published'])
    ticker_sentiments.append(item['ticker_sentiment'])


df_bronze = pd.DataFrame({
    'title': titles,
    'time_published': time_published,
    'ticker_sentiment': ticker_sentiments
})

df_bronze


Unnamed: 0,title,time_published,ticker_sentiment
0,KuCoin Announces a Monumental $20 Million Grat...,20240415T021900,"[{'ticker': 'CRYPTO:BTC', 'relevance_score': '..."
1,How Global Markets Are Reacting To Iran-Israel...,20240415T021856,"[{'ticker': 'GS', 'relevance_score': '0.152499..."
2,"Asia stocks slide, gold rises as Middle East c...",20240415T021423,"[{'ticker': 'CBAUF', 'relevance_score': '0.049..."
3,"Bitcoin 'Will Resume Its Trend Higher,' Says G...",20240415T013937,"[{'ticker': 'BRPHF', 'relevance_score': '0.198..."
4,IRS investigation chief expects uptick in cryp...,20240415T003959,"[{'ticker': 'CRYPTO:BTC', 'relevance_score': '..."
...,...,...,...
136,Cathie Wood's Ark Invest Sells $20M+ Coinbase ...,20240412T025431,"[{'ticker': 'PATH', 'relevance_score': '0.2313..."
137,"'We're High On' Bitcoin, Says Ultra Rich Inves...",20240412T021732,"[{'ticker': 'BRPHF', 'relevance_score': '0.110..."
138,GBTC fees will drop when Bitcoin ETFs 'start t...,20240412T013140,"[{'ticker': 'CRYPTO:BTC', 'relevance_score': '..."
139,El Salvador's newest Hilton hotel to tap into ...,20240412T005349,"[{'ticker': 'CYFRF', 'relevance_score': '0.091..."


In [5]:
df_bronze.dtypes

title               object
time_published      object
ticker_sentiment    object
dtype: object

In [None]:
!pip install sqlalchemy psycopg2-binary
!pip install psycopg2-binary

In [20]:
# Serializar os dados da coluna "ticker_sentiment" para ser armazenada no banco de dados como JSON.
import json

df_bronze['ticker_sentiment'] = df_bronze['ticker_sentiment'].apply(json.dumps)

In [22]:
from sqlalchemy import create_engine
import pandas as pd


conn_str = 'postgresql://username:password@hostname:port/database'

engine = create_engine(conn_str)

df_bronze.to_sql('sentimento_btc', con=engine, if_exists='replace', index=False)


141

## Camada Silver

In [48]:
from sqlalchemy import create_engine, text as sql_text

query = """
SELECT *
FROM public.sentimento_btc
"""
df_silver = pd.read_sql(sql=sql_text(query), con=engine.connect())
df_silver

Unnamed: 0,title,time_published,ticker_sentiment
0,KuCoin Announces a Monumental $20 Million Grat...,20240415T021900,"[{""ticker"": ""CRYPTO:BTC"", ""relevance_score"": ""..."
1,How Global Markets Are Reacting To Iran-Israel...,20240415T021856,"[{""ticker"": ""GS"", ""relevance_score"": ""0.152499..."
2,"Asia stocks slide, gold rises as Middle East c...",20240415T021423,"[{""ticker"": ""CBAUF"", ""relevance_score"": ""0.049..."
3,"Bitcoin 'Will Resume Its Trend Higher,' Says G...",20240415T013937,"[{""ticker"": ""BRPHF"", ""relevance_score"": ""0.198..."
4,IRS investigation chief expects uptick in cryp...,20240415T003959,"[{""ticker"": ""CRYPTO:BTC"", ""relevance_score"": ""..."
...,...,...,...
136,Cathie Wood's Ark Invest Sells $20M+ Coinbase ...,20240412T025431,"[{""ticker"": ""PATH"", ""relevance_score"": ""0.2313..."
137,"'We're High On' Bitcoin, Says Ultra Rich Inves...",20240412T021732,"[{""ticker"": ""BRPHF"", ""relevance_score"": ""0.110..."
138,GBTC fees will drop when Bitcoin ETFs 'start t...,20240412T013140,"[{""ticker"": ""CRYPTO:BTC"", ""relevance_score"": ""..."
139,El Salvador's newest Hilton hotel to tap into ...,20240412T005349,"[{""ticker"": ""CYFRF"", ""relevance_score"": ""0.091..."


In [49]:
df_silver.dtypes

title               object
time_published      object
ticker_sentiment    object
dtype: object

In [58]:
import pandas as pd
import json

# Converte a coluna "time_published" para datetime e extrai o dia da publicação para uma coluna "day_published"
df_silver['time_published'] = pd.to_datetime(df_silver['time_published'])
df_silver['day_published'] = df_silver['time_published'].dt.date

# Converter a coluna 'day_published' para o formato de data ideal
df_silver['day_published'] = pd.to_datetime(df_silver['day_published'], format='%Y%m%d')

# Extrair os sentimentos de cada notícia
df_silver['sentiments'] = df_silver['ticker_sentiment'].apply(lambda x: [float(item['ticker_sentiment_score']) for item in json.loads(x)])

df_silver['mean_sentiment'] = df_silver['sentiments'].apply(lambda x: round(sum(x) / len(x), 2) if len(x) > 0 else 0)


In [60]:
df_silver.to_sql('tabela_silver', con=engine, if_exists='replace', index=False)

141

> ### 4. Por fim, desenvolver um pipeline de dados transformados para contabilizar a quantidade de notícias encontradas por dia, e o "sentimento médio" por dia na camada Gold

In [76]:
from sqlalchemy import create_engine, text as sql_text

query = """
SELECT *
FROM public.tabela_silver
"""
df_gold = pd.read_sql(sql=sql_text(query), con=engine.connect())
df_gold

Unnamed: 0,title,time_published,ticker_sentiment,day_published,sentiments,mean_sentiment
0,KuCoin Announces a Monumental $20 Million Grat...,2024-04-15 02:19:00,"[{""ticker"": ""CRYPTO:BTC"", ""relevance_score"": ""...",2024-04-15,"{0.184356,0.184356,0.660107}",0.34
1,How Global Markets Are Reacting To Iran-Israel...,2024-04-15 02:18:56,"[{""ticker"": ""GS"", ""relevance_score"": ""0.152499...",2024-04-15,"{0.0,0.311315,-0.094714}",0.07
2,"Asia stocks slide, gold rises as Middle East c...",2024-04-15 02:14:23,"[{""ticker"": ""CBAUF"", ""relevance_score"": ""0.049...",2024-04-15,"{0.038877,-0.008878,-0.166198,-0.166198,-0.008...",-0.06
3,"Bitcoin 'Will Resume Its Trend Higher,' Says G...",2024-04-15 01:39:37,"[{""ticker"": ""BRPHF"", ""relevance_score"": ""0.198...",2024-04-15,"{-0.253674,-0.071974}",-0.16
4,IRS investigation chief expects uptick in cryp...,2024-04-15 00:39:59,"[{""ticker"": ""CRYPTO:BTC"", ""relevance_score"": ""...",2024-04-15,{0.120285},0.12
...,...,...,...,...,...,...
136,Bitcoin no longer in 'easy mode' - expect a le...,2024-04-12 04:03:00,"[{""ticker"": ""CRYPTO:BTC"", ""relevance_score"": ""...",2024-04-12,{0.136076},0.14
137,Technical charts suggest a roaring altseason m...,2024-04-12 03:38:05,"[{""ticker"": ""CRYPTO:BTC"", ""relevance_score"": ""...",2024-04-12,"{0.296913,-0.076694,-0.076694,-0.076694,-0.076...",-0.01
138,Cathie Wood's Ark Invest Sells $20M+ Coinbase ...,2024-04-12 02:54:31,"[{""ticker"": ""PATH"", ""relevance_score"": ""0.2313...",2024-04-12,"{0.447904,0.292292,0.447904,0.461358,0.181413,...",0.40
139,"'We're High On' Bitcoin, Says Ultra Rich Inves...",2024-04-12 02:17:32,"[{""ticker"": ""BRPHF"", ""relevance_score"": ""0.110...",2024-04-12,"{0.213117,0.726247}",0.47


In [77]:
# Calcula a quantidade de notícias por dia
df_gold = df_gold.groupby('day_published').agg(
    num_news=('title', 'count'),
    mean_sentiment=('mean_sentiment', 'mean')
).reset_index()

print(df_gold)


  day_published  num_news  mean_sentiment
0    2024-04-12        92        0.185217
1    2024-04-13        20        0.081000
2    2024-04-14        24        0.034167
3    2024-04-15         5        0.062000


In [79]:
df_gold.to_sql('tabela_gold', con=engine, if_exists='replace', index=False)

4

## Resultado

In [80]:
from sqlalchemy import create_engine, text as sql_text

query = """
SELECT *
FROM public.tabela_gold
"""
final = pd.read_sql(sql=sql_text(query), con=engine.connect())
final

Unnamed: 0,day_published,num_news,mean_sentiment
0,2024-04-12,92,0.185217
1,2024-04-13,20,0.081
2,2024-04-14,24,0.034167
3,2024-04-15,5,0.062
