<div style="text-align: left;">

## Módulo: Analytics Engineering
    
<br>

## Aula 1 - Exercício 1

#### Desenvolver um pipeline de dados para a análise de sentimento de notícias relacionadas ao Bitcoin usando dados obtidos da API Alpha Vantage (https://www.alphavantage.co/documentation/) com os seguintes passos:

> #### 1: Fazer uma chamada à API Alpha Vantage com a função NEWS_SENTIMENT para obter dados de sentimento de notícias relacionadas ao Bitcoin. Exemplo a seguir:
> #### 'https://www.alphavantage.co/query?function=NEWS_SENTIMENT&tickers=CRYPTO:BTC&time_from=20230926T0000&limit=1000&apikey=' + api_key'

#### 'function=NEWS_SENTIMENT':  Este é o parâmetro que especifica a função da API que está sendo chamada, neste caso, a função "NEWS_SENTIMENT" que retorna informações de sentimento de notícias.

#### 'tickers=CRYPTO:BTC': Neste parâmetro, é especificado o ticker do ativo financeiro que deseja ser analisado. No caso em questão, é "CRYPTO:BTC", indicando que análises de sentimento de notícias relacionadas ao Bitcoin estão sendo solicitadas.

#### 'time_from=20230926T0000': Este parâmetro define a data e hora a partir das quais as informações de sentimento de notícias são solicitadas. No exemplo fornecido, a data é definida como 26 de setembro de 2023 às 00:00 (meia-noite).

#### 'limit=1000': Este parâmetro define o número máximo de notícias a serem recuperadas. No exemplo mencionado, a busca está limitada a 1000 notícias.

#### 'apikey=': Aqui é preciso adicionar a chave da API adquirida via login no site da API.

#### O resultado dessa chamada à API será um conjunto de informações de sentimento de notícias relacionadas ao Bitcoin, incluindo possíveis métricas de sentimento, pontuações, resumos ou outros dados relevantes. O formato e a estrutura exatos dos dados dependem da API Alpha Vantage e das informações disponíveis em seu serviço no momento da chamada.







### Exemplo da chamada

In [1]:
api_key = "7GQ2LRQIRCP0ZXVG"

In [2]:
import requests

url = (
    "https://www.alphavantage.co/query?function=NEWS_SENTIMENT&tickers=CRYPTO:BTC&time_from=20240412T0000&limit=1000&apikey="
    + api_key
)
r = requests.get(url)
data = r.json()

print(data)



### Os resultados da primeira notícia encontrada:

In [8]:
data["feed"][3]

{'title': 'Why Many Altcoins Were Swooning This Week',
 'url': 'https://www.fool.com/investing/2024/04/12/why-many-altcoins-were-swooning-this-week/',
 'time_published': '20240412T224206',
 'authors': ['Eric Volkman'],
 'summary': 'A Friday sell-off capped a gloomy week, with many worried about the state of the macroeconomy.',
 'banner_image': 'https://g.foolcdn.com/editorial/images/772784/concerned-person-concentrating-on-a-laptop-display.jpg',
 'source': 'Motley Fool',
 'category_within_source': 'n/a',
 'source_domain': 'www.fool.com',
 'topics': [{'topic': 'Economy - Monetary', 'relevance_score': '0.769861'},
  {'topic': 'Blockchain', 'relevance_score': '0.890401'},
  {'topic': 'Financial Markets', 'relevance_score': '0.266143'}],
 'overall_sentiment_score': -0.096787,
 'overall_sentiment_label': 'Neutral',
 'ticker_sentiment': [{'ticker': 'SPGI',
   'relevance_score': '0.084722',
   'ticker_sentiment_score': '0.0',
   'ticker_sentiment_label': 'Neutral'},
  {'ticker': 'CRYPTO:BTC',

> ### 2. Efetuado a chamada, será preciso encontrar uma chave única por notícia para evitar duplicidades no pipeline e o mínimo de informações por notícia que será necessário armazenar é o título, data de publicação e o resultado da análise de sentimento para o Bitcoin, exemplo a seguir com todas essas informações necessárias da última nóticia:

In [7]:
print("Resultado para a primeira notícia encontrada:")
print("Título", data["feed"][0]["title"])
print("Data de publicação", data["feed"][0]["time_published"])
print(
    "Resultado apenas do Ticker igual ao Bitcoin ('CRYPTO:BTC')",
    data["feed"][0]["ticker_sentiment"][1],
)

Resultado para a primeira notícia encontrada:
Título BlackRock  ( BLK )  Q1 2024 Earnings Call Transcript
Data de publicação 20240412T151511
Resultado apenas do Ticker igual ao Bitcoin ('CRYPTO:BTC') {'ticker': 'ITCFY', 'relevance_score': '0.004509', 'ticker_sentiment_score': '0.148063', 'ticker_sentiment_label': 'Neutral'}


> ### 3. Preparar um pipeline capaz de extrair e armazenar essas informações em um banco de dados usando os conceitos das camadas especializadas Bronze e Silver

In [12]:
import pandas as pd
import requests

url = (
    "https://www.alphavantage.co/query?function=NEWS_SENTIMENT&tickers=CRYPTO:BTC&time_from=20240412T0000&limit=1000&apikey="
    + api_key
)
r = requests.get(url)
data = r.json()

df_raw = pd.json_normalize(data['feed'], sep='_')

In [25]:
import dlt

In [39]:
pipeline = dlt.pipeline(pipeline_name='sentiment_news', destination='duckdb', dataset_name='sent_news')

load_info = pipeline.run(data['feed'], table_name='sent_news')



In [28]:
load_info

LoadInfo(pipeline=<dlt.pipeline.pipeline.Pipeline object at 0x000001C466635390>, metrics={'1712978979.6649196': [{'started_at': DateTime(2024, 4, 13, 3, 29, 40, 592902, tzinfo=Timezone('UTC')), 'finished_at': DateTime(2024, 4, 13, 3, 29, 41, 725973, tzinfo=Timezone('UTC'))}]}, destination_type='dlt.destinations.duckdb', destination_displayable_credentials='duckdb:///c:\\Users\\levyv\\Downloads\\Analytics Engineering - Aula 2 - 12 de abr\\sentiment.duckdb', destination_name='duckdb', environment=None, staging_type=None, staging_name=None, staging_displayable_credentials=None, destination_fingerprint='', dataset_name='sentiment_news', loads_ids=['1712978979.6649196'], load_packages=[LoadPackageInfo(load_id='1712978979.6649196', package_path='C:\\Users\\levyv\\.dlt\\pipelines\\sentiment\\load\\loaded\\1712978979.6649196', state='loaded', schema=Schema sentiment at 1943046639184, schema_update={'sent_news__ticker_sentiment': {'name': 'sent_news__ticker_sentiment', 'columns': {'ticker': {'n

In [77]:
import duckdb

con = duckdb.connect('sentiment.duckdb')

print(con.sql("show all tables"))

con.close()

┌───────────┬────────────────┬──────────────────────┬──────────────────────┬───────────────────────────────┬───────────┐
│ database  │     schema     │         name         │     column_names     │         column_types          │ temporary │
│  varchar  │    varchar     │       varchar        │      varchar[]       │           varchar[]           │  boolean  │
├───────────┼────────────────┼──────────────────────┼──────────────────────┼───────────────────────────────┼───────────┤
│ sentiment │ sentiment_news │ _dlt_loads           │ [load_id, schema_n…  │ [VARCHAR, VARCHAR, BIGINT, …  │ false     │
│ sentiment │ sentiment_news │ _dlt_pipeline_state  │ [version, engine_v…  │ [BIGINT, BIGINT, VARCHAR, V…  │ false     │
│ sentiment │ sentiment_news │ _dlt_version         │ [version, engine_v…  │ [BIGINT, BIGINT, TIMESTAMP …  │ false     │
│ sentiment │ sentiment_news │ sent_news            │ [title, url, time_…  │ [VARCHAR, VARCHAR, TIMESTAM…  │ false     │
│ sentiment │ sentiment_news │ s

In [70]:
with duckdb.connect("sentiment.duckdb") as con:
    sent_news = con.sql("select * from sentiment_news.sent_news").df()
    sent_news_authors = con.sql("select * from sentiment_news.sent_news__authors").df()
    sent_news_ticker_sentiment = con.sql("select * from sentiment_news.sent_news__ticker_sentiment;").df()
    sent_news_topics = con.sql("select * from sentiment_news.sent_news__topics;").df()

You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  sent_news = con.sql("select * from sentiment_news.sent_news").df()


In [80]:
import sqlalchemy

engine = sqlalchemy.create_engine(

    "postgresql://postgres:l12345@192.168.18.87/home?client_encoding=utf8"

)

In [81]:
sent_news.to_sql("sent_news", schema='sentiment_news', if_exists='replace', index=False, con = engine)
sent_news_authors.to_sql("sent_news_authors", schema='sentiment_news', if_exists='replace', index=False, con = engine)
sent_news_ticker_sentiment.to_sql("sent_news_ticker_sentiment", schema='sentiment_news', if_exists='replace', index=False, con = engine)
sent_news_topics.to_sql("sent_news_topics", schema='sentiment_news', if_exists='replace', index=False, con = engine)


248

> ### 4. Por fim, desenvolver um pipeline de dados transformados para contabilizar a quantidade de notícias encontradas por dia, e o "sentimento médio" por dia na camada Gold