# Etapa1: Web Scrapping

In [1]:
import requests
from bs4 import BeautifulSoup
import re
import datetime
import sqlite3

In [180]:
def check_symbol_existence(symbol):
    url = f"https://query1.finance.yahoo.com/v8/finance/chart/{symbol}?range=1d"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
    }
    
    try:
        response = requests.get(url, headers=headers)
        response.raise_for_status()  

        exist = 'No data found, symbol may be delisted' not in response.text
        if not exist:
            print(f"A ação '{symbol}' não existe ou não foi encontrada.")
            return False
        
        # Defina o padrão regex para capturar o valor entre aspas após "instrumentType":
        padrao = r'"instrumentType":"(.*?)"'
        # Inicializar um dicionário para armazenar as informações
        metrics = {}
        metrics['Symbol'] = re.findall(r'"symbol":"(.*?)"', response.text)[0]
        metrics['type'] = re.findall(r'"instrumentType":"(.*?)"', response.text)[0]
        return metrics

    except requests.exceptions.RequestException as e:
        print(f"Erro na request de teste, A ação '{symbol}' não existe ou não foi encontrada.")
        return False


In [139]:
def get_stock_metrics(symbol):
    symbol = symbol.upper()
    url = f"https://finance.yahoo.com/quote/{symbol}/key-statistics"
    headers = {"User-Agent": "https://query1.finance.yahoo.com/v8/finance/chart/NVDA?region=US&lang=en-US&includePrePost=false&interval=2m&useYfid=true&range=1d&corsDomain=finance.yahoo.com&.tsrc=finance"}

    try:
        print(f'Checando a existencia de {symbol}...')
        
        metrics = check_symbol_existence(symbol)
        if metrics is False:  
            return None         
        print('Encontrado! \nAguarde ...')
        response = requests.get(url, headers=headers)
        # Parse do conteúdo HTML usando BeautifulSoup
        soup = BeautifulSoup(response.text, 'html.parser')
        
        # Encontrar todas as linhas de tabela <tr> e salvar em uma lista
        table_rows = soup.find_all('tr')
        
        # Encontrar Valor da ação, que nao se encontra na tabela
        metrics['value'] = soup.find('fin-streamer', attrs={'data-field': 'regularMarketPrice'})['value']
        
        # Iterar sobre as <tr>
        for row in table_rows:
            # Encontrar os elementos <td> dentro da linha
            cells = row.find_all('td')
            # Extrair o texto do primeiro elemento <td> (métrica) e do segundo elemento <td> (valor da métrica)
            if len(cells) == 2:
                metric = cells[0].text.strip()
                value = cells[1].text.strip()
                metrics[metric] = value
        
        metrics['timestamp'] = datetime.datetime.now().isoformat()
        print('\n')
        print('Metricas Obtidas!')
        return metrics
    except requests.exceptions.HTTPError as e:
        print("Erro na request:", e)
        print("A ação foi encontrada porém, não foi possível obter as estatisticas da ação.")
        return None

In [181]:
symbol = input("Digite o símbolo da empresa (por exemplo, 'AAPL' para Apple Inc.): ")

    
metrics = get_stock_metrics(symbol)
for k, v in metrics.items():
        print(f"{k}: {v}")



Digite o símbolo da empresa (por exemplo, 'AAPL' para Apple Inc.): eur
Checando a existencia de EUR...
{"chart":{"result":[{"meta":{"currency":null,"symbol":"EUR","exchangeName":"NYS","instrumentType":"INDEX","firstTradeDate":1543501800,"regularMarketTime":0,"hasPrePostMarketData":false,"gmtoffset":-14400,"timezone":"EDT","exchangeTimezoneName":"America/New_York","regularMarketPrice":0.0,"chartPreviousClose":0.0,"previousClose":0.0,"scale":3,"priceHint":4,"currentTradingPeriod":{"pre":{"timezone":"EDT","end":1710855000,"start":1710835200,"gmtoffset":-14400},"regular":{"timezone":"EDT","end":1710878400,"start":1710855000,"gmtoffset":-14400},"post":{"timezone":"EDT","end":1710892800,"start":1710878400,"gmtoffset":-14400}},"dataGranularity":"1m","range":"1d","validRanges":["1d","5d","1mo","3mo","6mo","1y","2y","5y","10y","ytd","max"]},"indicators":{"quote":[{}]}}],"error":null}}
Encontrado! 
Aguarde ...


Metricas Obtidas!
Symbol: EUR
type: INDEX
value: 5178.51
previous close: 0.0000
open

In [105]:
backup = {}
backup.update(metrics)


# Etapa2: Criação da database

In [153]:
def adjust_metrics_keys (metrics):
    if metrics is not None:
        new_data_dict = {}
        for key, value in metrics.items():
            new_key = key.split('(')[0].strip()
            if new_key != "Symbol":
                new_key = new_key.lower()
            new_key = new_key.replace('%', 'percent')
            new_key = re.sub(r'\W+', '_', new_key)
            # Verificar se a chave não começa com um número
            if not new_key[0].isdigit():
                new_data_dict[new_key] = value
        # Atualizar o dicionário original
        metrics.clear()  # Limpar o dicionário original
        metrics.update(new_data_dict)  # Atualizar o dicionário original com as chaves atualizadas



In [157]:
def create_table(cursor, table_name, columns):
    
    # Verificar se a tabela já existe
    cursor.execute("SELECT name FROM sqlite_master WHERE type='table' AND name=?", (table_name,))
    existing_table = cursor.fetchone()
    
    if not existing_table:
        cursor.execute(f"CREATE TABLE IF NOT EXISTS {table_name} (Symbol TEXT PRIMARY KEY, {', '.join(columns)})")
    
    cursor.execute(f"PRAGMA table_info({table_name})")
    existing_columns = [column[1] for column in cursor.fetchall()]
    # Adicionar apenas as colunas ausentes
    for column in columns:
        if column not in existing_columns:
            cursor.execute(f"ALTER TABLE {table_name} ADD COLUMN {column} REAL")
    
def insert_data(cursor, table_name, data):
    # Obter as colunas da tabela
    cursor.execute(f"PRAGMA table_info({table_name})")
    table_columns = [column[1] for column in cursor.fetchall()]
    print("Inserindo: \n")

    # Verificar se todas as chaves dos dados estão presentes nas colunas da tabela
    for key in data.keys():
        if key not in table_columns and key != 'type' and key != 'Symbol':
            raise ValueError(f"A coluna '{key}' não existe na tabela '{table_name}'")

    # Inserir os dados na tabela
    columns = ', '.join([col for col in data.keys() if col != 'type'])
    
    # Remover o valor correspondente à chave 'Type'
    values = tuple(data[key] for key in data.keys() if key != 'type')

    # Criar marcadores de posição para o número correto de valores
    placeholders = ', '.join(['?' for _ in range(len(values))])

    print(values)
    cursor.execute(f"INSERT OR REPLACE INTO {table_name} ({columns}) VALUES ({placeholders})", values)


In [177]:
symbol = input("Digite o símbolo da empresa (por exemplo, 'AAPL' para Apple Inc.): ")

    
metrics = get_stock_metrics(symbol.upper())

Digite o símbolo da empresa (por exemplo, 'AAPL' para Apple Inc.): eur
Checando a existencia de EUR...
Encontrado! 
Aguarde ...


Metricas Obtidas!


In [178]:
adjust_metrics_keys(metrics)
for k, v in metrics.items():
        print(f"{k}: {v}")

        
# Criar ou conectar ao banco de dados
conn = sqlite3.connect('finance_data.db')
cursor = conn.cursor()

# Criar tabela com base no tipo de métricas
table_name = metrics['type']
create_table(cursor, table_name, [key for key in metrics.keys() if key != 'type' and key != 'Symbol'])
insert_data(cursor, table_name, metrics)

# Commit e fechar conexão
conn.commit()
conn.close()

Symbol: EUR
type: INDEX
value: 5178.51
previous_close: 0.0000
open: 0.0000
volume: 0
day_s_range: 0.0000 - 0.0000
avg_volume: 0
timestamp: 2024-03-19T19:43:16.072664


OperationalError: near "INDEX": syntax error

In [175]:
# Criar ou conectar ao banco de dados
conn = sqlite3.connect('finance_data.db')
cursor = conn.cursor()

# Criar tabela com base no tipo de métricas
table_name = metrics['type']

# Inserir dados na tabela
insert_data(cursor, table_name, metrics)

# Commit e fechar conexão
conn.commit()
conn.close()

Inserindo: 

('QQQ', '5178.51', '437.48', '435.47', '438.59 x 1300', '438.60 x 1300', '433.33 - 438.98', '42,866,907', '45,121,396', '254.43B', '437.57', '35.76', '0.58%', '6.97%', '1.18', '0.20%', '1999-03-10', '2024-03-19T19:42:28.536407')
