<div style="border: 1px solid black">
<b><center><font size="4">Ciência de Dados em Larga Escala</font></center></b>

<b><center><font size="3">Project 1</font></center></b>
</div>

**Notebook Developed by**: Rafael Antunes Lourenço<br>
**Número:** 48115 <br>
**Email:**  rafael.a.lourenco@ubi.pt<br>
<hr>

<p><a href="project1.ipynb" title="Download Notebook" download><img src="https://www.di.ubi.pt/~rcampos/assets/img_tutorials/download.jpg" align = "left" width="50" height="50" alt="Download Notebook"></a></p>
<p>&nbsp;</p>
<p>&nbsp;</p>

<hr>

### Introdução (Coleta e Indexação de Dados de Criptomoeda)

Este trabalho visa coletar e armazenar dados atualizados sobre criptomoedas, utilizando a API do CoinMarketCap e o Elasticsearch.

-Configuração Inicial:

Inicialmente, são definidas as configurações necessárias, como as credenciais de acesso à API do CoinMarketCap e os parâmetros para a solicitação dos dados. Além disso, é estabelecida a estrutura básica para a indexação dos dados no Elasticsearch, incluindo a definição de um arquivo de log para registrar as operações realizadas.

-Coleta e Atualização de Dados:

O processo de coleta é realizado periodicamente, a cada hora, durante um período de cinco dias. Para cada iteração do loop principal, são feitas solicitações à API do CoinMarketCap para obter os dados mais recentes sobre criptomoedas. Os dados obtidos são então processados e adicionados a um arquivo JSON local, juntamente com um registro de timestamp para acompanhar a evolução temporal das informações.

-Gerenciamento de Erros e Logs:

O código implementa tratamento de exceções para lidar com possíveis falhas durante a coleta e atualização dos dados. O registro de logs fornece uma visão detalhada das operações realizadas, incluindo mensagens de erro e informações sobre a execução do script.

-Objetivos Futuros:

O próximo passo após a coleta e armazenamento dos dados é a análise e visualização dos mesmos, utilizando ferramentas como o Kibana. A análise dos dados permitirá a identificação de tendências e padrões no mercado de criptomoedas, auxiliando na tomada de decisões e no desenvolvimento de estratégias de investimento.

### Importações e Configuração Inicial

In [None]:
import requests
from requests.exceptions import RequestException
import json
import time
from datetime import datetime, timedelta
import logging

Nesta parte, estamos importando os módulos necessários para fazer requisições HTTP (requests), lidar com exceções de requisição (RequestException), manipular JSON (json), trabalhar com tempo (time e datetime), e registrar logs (logging).

In [None]:
# Configurar o logger
logging.basicConfig(filename='app.log', filemode='a', format='%(asctime)s - %(levelname)s - %(message)s', level=logging.INFO)

Aqui, estamos configurando o logger para registrar eventos em um arquivo de log chamado 'app.log'.

In [None]:
# Configuração inicial
headers = {
    'Accepts': 'application/json',
    'X-CMC_PRO_API_KEY': '7e4ad96d-e64a-4a03-8c54-8d0040f42b39'
}
params = {
    'start': '1',
    'limit': '2',
    'convert': 'EUR'
}
url = 'https://pro-api.coinmarketcap.com/v1/cryptocurrency/listings/latest'

Essas linhas definem os cabeçalhos da requisição, os parâmetros da URL e a URL base para acessar a API do CoinMarketCap.

### Funções Auxiliares

In [None]:
# Função para adicionar dados ao JSON
def adicionar_dados_ao_json(novos_dados, nome_do_ficheiro):
    try:
        # Ler o ficheiro JSON existente
        with open(nome_do_ficheiro, 'r') as file:
            dados_existentes = json.load(file)
    except FileNotFoundError:
        # Se o ficheiro não existir, criar um dicionário vazio
        dados_existentes = {}

    # Adicionar a marca de tempo aos novos dados
    timestamp = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
    for symbol, data in novos_dados.items():
        # Se a chave não existir, criar uma lista para os registros
        if symbol not in dados_existentes:
            dados_existentes[symbol] = []
        # Verificar se o valor associado à chave é uma lista
        elif not isinstance(dados_existentes[symbol], list):
            # Se não for uma lista, criar uma lista com o valor existente
            dados_existentes[symbol] = [dados_existentes[symbol]]
        # Adicionar os novos dados com a marca de tempo à lista do ativo
        dados_existentes[symbol].append({'timestamp': timestamp, 'valor': data['price'], 'volume_24h': data['volume_24h'], 'volume_change_24h': data['volume_change_24h'], 'market_cap': data['market_cap']})

    # Escrever os dados atualizados no ficheiro
    with open(nome_do_ficheiro, 'w') as file:
        json.dump(dados_existentes, file, indent=4)

    # Log do processo de adição de dados
    logging.info(f"Dados adicionados ao arquivo {nome_do_ficheiro}: {novos_dados}")

Essa função adicionar_dados_ao_json recebe novos dados e um nome de arquivo. Ela lê o arquivo JSON existente, adiciona os novos dados com timestamps e escreve-os de volta no arquivo. Também registra a adição de dados no arquivo de log.

### Cálculo do Tempo Total para o Loop

In [None]:
# Calcular o tempo total para o loop (5 dias)
tempo_total = 3600 * 24 * 5
tempo_inicio = time.time()

Nesta parte, calculamos o tempo total de execução do loop em 5 dias. Convertendo 5 dias em segundos, multiplicamos o número de segundos em uma hora (3600), pelo número de horas em um dia (24), e depois multiplicamos pelo número de dias (5).
Na segunda linha, registramos o tempo atual no início do loop, usando a função time.time(). Esse valor é usado posteriormente para calcular o tempo decorrido durante a execução do loop.

### Loop Principal

In [None]:
# Loop principal
tempo_inicio = time.time()
while time.time() - tempo_inicio < tempo_total:
    try:
        # Calcular o tempo restante até a próxima hora
        tempo_atual = datetime.now()
        proxima_hora = tempo_atual + timedelta(hours=1)
        proximo_inicio = proxima_hora.replace(minute=0, second=0, microsecond=0)
        tempo_restante = (proximo_inicio - tempo_atual).total_seconds()

        # Fazer o pedido à API
        r = requests.get(url, params=params, headers=headers)
        r.raise_for_status()  # Lança uma exceção se o status da resposta não for 200 OK
        coins = r.json()['data']

        # Preparar os dados para adicionar
        dados_para_adicionar = {}
        for coin in coins:
            symbol = coin['symbol']
            quote = coin.get('quote', {}).get('EUR', {})  # Ajuste para acessar 'quote' de forma segura
            dados_para_adicionar[symbol] = {
                'price': quote.get('price', 0),
                'volume_24h': quote.get('volume_24h', 0),
                'volume_change_24h': quote.get('volume_change_24h', 0),
                'market_cap': quote.get('market_cap', 0)
            }

        # Adicionar os dados ao ficheiro JSON
        adicionar_dados_ao_json(dados_para_adicionar, 'valores_coins.json')

        # Aguardar até a próxima hora
        time.sleep(tempo_restante)

    except RequestException as e:
        # Log de erros
        logging.error(f"Erro durante a solicitação: {e.__class__.__name__} - {e}")

        # Aguardar um tempo antes de tentar novamente
        time.sleep(60)  # Aguarda 1 minuto antes de tentar novamente

    except Exception as e:
        # Log de erros inesperados
        logging.error(f"Erro inesperado: {e.__class__.__name__} - {e}")

logging.info("A execução do script foi concluída.")

 Em seguida, o loop executa enquanto o tempo atual menos o tempo de início for menor que o tempo total. Dentro do loop, estamos a fazer uma solicitação à API do CoinMarketCap, preparando os dados para adicionar ao arquivo JSON e esperando até a próxima hora. Se ocorrer uma exceção durante a solicitação, ela será tratada e registrada no log.

### Carregar o Arquivo JSON em Memória e Imprimir Registros

In [None]:
# Carregar o ficheiro JSON em memória
with open('valores_coins.json', 'r') as file:
    dados = json.load(file)

# Percorrer e imprimir os conteúdos de 5 dos registros
for symbol, registros in dados.items():
    print(f"Ativo: {symbol}")
    for registro in registros[:5]:  # Apenas os primeiros 5 registros
        timestamp = registro.get('timestamp', 'N/A')  # Obtém o timestamp ou 'N/A' se não existir
        valor = registro.get('valor', 'N/A')  # Obtém o valor ou 'N/A' se não existir
        volume_24h = registro.get('volume_24h', 'N/A')  # Obtém o volume_24h ou 'N/A' se não existir
        volume_change_24h = registro.get('volume_change_24h', 'N/A')  # Obtém o volume_change_24h ou 'N/A' se não existir
        market_cap = registro.get('market_cap', 'N/A')  # Obtém o market_cap ou 'N/A' se não existir
        
        print(f"Timestamp: {timestamp}, Valor: {valor}, Volume 24h: {volume_24h}, Volume Change 24h: {volume_change_24h}, Market Cap: {market_cap}")
    print("\n")  # Adiciona uma linha em branco entre cada ativo


Nesta parte do código, estamos a carregar o arquivo JSON 'valores_coins.json' em memória e percorremos o seu conteúdos. Para cada ativo, imprimimos os detalhes dos primeiros 5 registros, incluindo timestamp, valor, volume 24h, mudança de volume em 24h e market cap. 
Se um campo não estiver presente em um registro, é impresso "N/A". 
Após imprimir os registros de um ativo, adicionamos uma linha em branco para separar os registros de ativos diferentes.

### Indexação dos Dados no Elasticsearch

In [None]:
from elasticsearch import Elasticsearch

# Conectar ao Elasticsearch
es = Elasticsearch()

# Função para indexar dados no Elasticsearch
def indexar_dados_no_elasticsearch(dados, indice):
    for symbol, registros in dados.items():
        for registro in registros:
            # Indexar cada registro no Elasticsearch
            es.index(index=indice, body=registro)

# Carregar o ficheiro JSON em memória
def carregar_dados_do_json(nome_do_ficheiro):
    try:
        # Ler o ficheiro JSON existente
        with open(nome_do_ficheiro, 'r') as file:
            return json.load(file)
    except FileNotFoundError:
        # Se o ficheiro não existir, retornar None
        return None

# Carregar os dados coletados do arquivo JSON
dados = carregar_dados_do_json('valores_coins.json')

# Indexar os dados no Elasticsearch
if dados:
    indexar_dados_no_elasticsearch(dados, 'valores_coins')

print("Indexação concluída com sucesso!")


Nesta parte, estamos a adaptar o código para carregar os dados coletados do arquivo JSON 'valores_coins.json' em memória. Em seguida, definimos uma função 'indexar_dados_no_elasticsearch' para indexar os dados no Elasticsearch. Dentro dessa função, iteramos sobre os dados e indexamos cada registro no índice especificado.
Se tudo correr bem, no final imprime uma mensagem, "Indexação concluída com sucesso!".


### Recuperação de Informações no Elasticsearch

In [None]:
# Consultar o Elasticsearch e recuperar informações
def consultar_elasticsearch(query, indice):
    resultados = es.search(index=indice, body=query)
    return resultados['hits']['hits']

# Exemplo de queries para recuperação de informações
queries = [
    {"query": {"match": {"symbol": "BTC"}}},
    {"query": {"range": {"market_cap": {"gte": 10000000000}}}}
]

# Executar as queries e imprimir resultados
for query in queries:
    resultados = consultar_elasticsearch(query, 'valores_coins')
    print("Resultados para a query:", query)
    for hit in resultados:
        print("Score:", hit['_score'])
        print("Registro:", hit['_source'])
    print("\n")

Nesta parte, definimos ma função 'consultar_elasticsearch' para consultar o Elasticsearch com uma determinada query e índice e devolver os resultados. De seguida, definimos algumas queries de exemplo e executamos usando a função 'consultar_elasticsearch'. Por fim, imprimimos os resultados das consultas.

### Conclusão

Neste trabalho, tive a oportunidade de explorar várias áreas da ciência de dados e desenvolvimento de software. Comecei por aprender a recolher dados através de uma API externa usando a biblioteca requests em Python. Durante este processo, aprendi a lidar com erros, implementando tratamentos adequados e registando eventos em logs para facilitar a depuração futura.

Ao manipular os dados recebidos da API, explorei as nuances da manipulação de dados JSON em Python. Isso incluiu a leitura e escrita de ficheiros JSON, bem como a adição de novos dados aos registos existentes. Além disso, a familiarização com o trabalho com datas e tempo em Python permitiu-me agendar tarefas de recolha de dados de forma eficiente, garantindo que os registos fossem atualizados regularmente e marcados com timestamps precisos.

No entanto, durante o desenvolvimento, enfrentei alguns problemas. Por exemplo, o programa parava sempre perto das 18h e não me aparecia nenhum erro nos logs. Isso exigiu uma investigação mais aprofundada, na qual perdi muito tempo, onde fiz cerca de 4 versões diferentes do meu Script mas todas elas com o mesmo problema, o que me levou a pensar que fosse alguma definição da máquina virtual "PythonAnywhere".

Por fim, ao indexar os dados recolhidos no Elasticsearch, aprimorei as minhas habilidades em armazenamento e recuperação de informações em larga escala. Aprendi a realizar consultas eficientes para recuperar informações específicas com base em critérios definidos. 