<div style="text-align: left;">

## Módulo: Analytics Engineering
    
<br>

## Aula 1 - Exercício 1

#### Desenvolver um pipeline de dados para a análise de sentimento de notícias relacionadas ao Bitcoin usando dados obtidos da API Alpha Vantage (https://www.alphavantage.co/documentation/) com os seguintes passos:

> #### 1: Fazer uma chamada à API Alpha Vantage com a função NEWS_SENTIMENT para obter dados de sentimento de notícias relacionadas ao Bitcoin. Exemplo a seguir:
> #### 'https://www.alphavantage.co/query?function=NEWS_SENTIMENT&tickers=CRYPTO:BTC&time_from=20230926T0000&limit=1000&apikey=' + api_key'

#### 'function=NEWS_SENTIMENT':  Este é o parâmetro que especifica a função da API que está sendo chamada, neste caso, a função "NEWS_SENTIMENT" que retorna informações de sentimento de notícias.

#### 'tickers=CRYPTO:BTC': Neste parâmetro, é especificado o ticker do ativo financeiro que deseja ser analisado. No caso em questão, é "CRYPTO:BTC", indicando que análises de sentimento de notícias relacionadas ao Bitcoin estão sendo solicitadas.

#### 'time_from=20230926T0000': Este parâmetro define a data e hora a partir das quais as informações de sentimento de notícias são solicitadas. No exemplo fornecido, a data é definida como 26 de setembro de 2023 às 00:00 (meia-noite).

#### 'limit=1000': Este parâmetro define o número máximo de notícias a serem recuperadas. No exemplo mencionado, a busca está limitada a 1000 notícias.

#### 'apikey=': Aqui é preciso adicionar a chave da API adquirida via login no site da API.

#### O resultado dessa chamada à API será um conjunto de informações de sentimento de notícias relacionadas ao Bitcoin, incluindo possíveis métricas de sentimento, pontuações, resumos ou outros dados relevantes. O formato e a estrutura exatos dos dados dependem da API Alpha Vantage e das informações disponíveis em seu serviço no momento da chamada.







### Exemplo da chamada

In [2]:
%run ./config.ipynb

In [None]:
import requests 

url = 'https://www.alphavantage.co/query?function=NEWS_SENTIMENT&tickers=CRYPTO:BTC&time_from=20230330T0000&limit=1000&apikey=' + api_key
r = requests.get(url)
data = r.json()

print(data)

### Os resultados da primeira notícia encontrada:

In [None]:
data['feed'][3]

> ### 2. Efetuado a chamada, será preciso encontrar uma chave única por notícia para evitar duplicidades no pipeline e o mínimo de informações por notícia que será necessário armazenar é o título, data de publicação e o resultado da análise de sentimento para o Bitcoin, exemplo a seguir com todas essas informações necessárias da última nóticia:

In [None]:
print("Resultado para a primeira notícia encontrada:")
print("Título", data['feed'][0]['title'])
print("Data de publicação", data['feed'][0]['time_published'])
print("Resultado apenas do Ticker igual ao Bitcoin ('CRYPTO:BTC')", data['feed'][0]['ticker_sentiment'][1])      

> ### 3. Preparar um pipeline capaz de extrair e armazenar essas informações em um banco de dados usando os conceitos das camadas especializadas Bronze e Silver

In [None]:
import pandas as pd
from sqlalchemy import create_engine

def extract_news_info(news_data):
    news_info_list = []
    
    if 'feed' in news_data:
        for news_item in news_data['feed']:
            title = news_item.get('title', 'N/A')
            published_at = news_item.get('time_published', 'N/A')
            sentiment_BTC = news_item.get('overall_sentiment_label', 'N/A')
            news_info_list.append((title, published_at, sentiment_BTC))
    
    return news_info_list

def create_unique_key(title, published_at):
    return "_".join([title, published_at])

try:
    if data:
        news_info = extract_news_info(data)
        if news_info:
            df_rows = []
            for title, published_at, sentiment_BTC in news_info:
                unique_key = create_unique_key(title, published_at)
                df_rows.append({'unique_key': unique_key, 'title': title, 'published_at': published_at, 'sentiment_BTC': sentiment_BTC})

            df_bronze = pd.DataFrame(df_rows)

            # Conexão com o banco de dados PostgreSQL
            engine = create_engine('postgresql://postgres:ada@localhost/ada')

            # Salvar DataFrame no PostgreSQL
            df_bronze.to_sql('bitcoin_news_bronze', engine, if_exists='replace', index=False)
            
            print("Dados salvos com sucesso no PostgreSQL.")
        else:
            print("Não foi possível extrair informações das últimas notícias relacionadas ao Bitcoin.")
    else:
        print("Falha ao buscar as últimas notícias relacionadas ao Bitcoin.")
except Exception as e:
    print(f"Erro durante a execução do pipeline: {e}")
df_bronze

> ### 4. Por fim, desenvolver um pipeline de dados transformados para contabilizar a quantidade de notícias encontradas por dia, e o "sentimento médio" por dia na camada Gold

In [None]:
import pandas as pd
from sqlalchemy import create_engine
from datetime import datetime

def preprocess_data(df):
    # Converter a coluna de data para tipo datetime
    df['published_at'] = pd.to_datetime(df['published_at'])
    
    # Mapear as categorias de sentimento para valores numéricos
    sentiment_mapping = {
        'Bullish': 1,
        'Somewhat-Bullish': 0.75,
        'Neutral': 0,
        'Somewhat-Bearish': -0.75,
        'Bearish': -1
    }
    df['sentiment_numeric'] = df['sentiment_BTC'].map(sentiment_mapping)
    return df

def process_data(df):
    # Agrupar os dados por dia e calcular a contagem de notícias e o sentimento médio
    df_grouped = df.resample('D', on='published_at').agg({
        'unique_key': 'count',
        'sentiment_numeric': 'mean'
    }).rename(columns={'unique_key': 'news_count', 'sentiment_numeric': 'average_sentiment'})
    
    return df_grouped

def save_to_silver(df_silver):
    # Salvar os resultados na camada Silver do banco de dados
    df_silver.to_sql('bitcoin_news_silver', con=engine, if_exists='replace', index=True)

def save_to_gold(df_gold):
    # Salvar os resultados na camada Gold do banco de dados
    df_gold.to_sql('gold_table_name', con=engine, if_exists='replace', index=True)

try:
    if not df_bronze.empty:
        df_bronze = pd.read_sql_query('SELECT * FROM bitcoin_news_bronze', con=engine)
    
        # Pré-processamento dos dados
        df_preprocess = preprocess_data(df_bronze)
        save_to_silver(df_preprocess)

        # Processamento dos dados
        df_silver = pd.read_sql_query('SELECT * FROM bitcoin_news_silver', con=engine)
        df_gold = process_data(df_silver)
        
        # Armazenamento na camada Gold
        save_to_gold(df_gold)
    else:
        print("Falha ao buscar as últimas notícias relacionadas ao Bitcoin.")
except Exception as e:
    print(f"Erro durante a execução do pipeline: {e}")
df_gold