# Sistema de Recuperação de Informações (SRI) para a Exploração de Dados Científicos e de Desenvolvimento de Software

### Desenvolvedor: Pamela


# Introdução:


Neste projeto, desenvolvemos um Sistema de Recuperação de Informações (SRI) com foco na coleta, indexação e busca de dados de dois importantes repositórios de conhecimento: a NASA, que concentra informações valiosas sobre ciência e exploração espacial, e o GitHub, que abriga um vasto acervo de projetos de software. Diante do desafio crescente de filtrar e acessar informações relevantes em meio à abundância de dados online, nosso sistema emprega técnicas avançadas para uma recuperação eficaz e precisa, servindo como uma ferramenta vital para pesquisadores e desenvolvedores. Este documento detalha a estrutura e funcionamento do SRI, evidenciando sua contribuição para a otimização da busca por informação na era digital.

# Contexto:


O trabalho apresenta a eficácia do SRI com exemplos de coleta, indexação e consultas de busca. Os exemplos destacarão a funcionalidade e integração dos componentes do sistema, usando consultas relevantes ao contexto do GitHub.

# Justificativa:

 A escolha do GitHub como focos deste SRI deve-se à quantidade e à qualidade das informações disponíveis nesses sites, que são cruciais para pesquisadores e desenvolvedores. O projeto visa simplificar e otimizar o acesso a essas informações.

# Coletor:

Funcionalidades Principais:

Coleta Sequencial e Recursiva: Implementação que permite ao Coletor seguir links internos das páginas até uma profundidade definida pelo usuário, garantindo uma coleta abrangente.
Seleção de Tags HTML: Utiliza p e h1 para a extração de textos, visando capturar informações detalhadas tanto de descrições de missões e descobertas científicas (NASA) quanto de projetos de software e documentação técnica (GitHub).
Tratamento de Redirecionamentos: Capacidade de lidar com redirecionamentos de páginas, mantendo a eficiência da coleta.

coletor = Coletor(urls=["https://www.nasa.gov", "https://www.github.com"], max_depth=2)

coletor.coletar()

# Indexador:

Criação de Índice Invertido: 

Organiza o conteúdo coletado em um índice invertido, facilitando buscas rápidas e eficientes.
Avaliação de Força das Palavras: Utiliza critérios como frequência, raridade e relevância para determinar a importância de cada termo indexado, aplicando a fórmula de IDF para cada palavra.
Detecção de Codificação de Caracteres: Garante que os textos sejam corretamente processados e armazenados, considerando diferentes codificações.

indexador = Indexador(coletor)

indexador.indexar_documentos()

# Buscador

Funcionalidades Principais:

Processamento de Consultas: Analisa consultas dos usuários, buscando termos no índice invertido para encontrar documentos relevantes.
Métricas de Precisão e Revocação: Avalia a relevância dos resultados das buscas, implementando métricas para assegurar a qualidade das respostas.
Ranqueamento dos Resultados: Ordena os resultados da busca com base na relevância dos termos da consulta, destacando documentos mais relevantes no topo dos resultados.

buscador = Buscador(indexador)

consulta = "exploração espacial"

resultados = buscador.processar_consulta(consulta)

## Demonstração e Resultados

Amostra de Resultados Obtidos:


Para a seção "Demonstração e Resultados" da sua apresentação, onde uma execução ao vivo não é viável devido ao tempo de processamento do programa, você pode optar por apresentar uma amostra detalhada dos resultados obtidos. Isso dará ao público uma visão clara do que o sistema pode realizar sem a necessidade de demonstrar o processo em tempo real. Aqui está como você pode estruturar essa seção:

Demonstração e Resultados
Amostra de Resultados Obtidos:

Devido à natureza intensiva do processamento envolvido na coleta, indexação e busca de informações, optamos por apresentar uma seleção de resultados obtidos previamente pelo nosso Sistema de Recuperação de Informações (SRI). Esses resultados destacam a capacidade do sistema em acessar, filtrar e apresentar dados relevantes das plataformas da NASA e do GitHub, refletindo a eficácia do SRI em trazer à tona informações valiosas e pertinentes.

Consulta: "Tecnologia Espacial"

(Nota: Esta consulta é hipotética, já que os resultados reais são focados no GitHub.)

Resultado 1: [Link para um projeto de tecnologia espacial no GitHub]

Resultado 2: [Link para uma pesquisa ou código relacionado à exploração espacial]

Consulta Real: "Desenvolvimento de Software"

A seguir, uma amostra dos resultados reais obtidos para a consulta "desenvolvimento de software" no GitHub, demonstrando a variedade e a relevância das informações que o SRI consegue recuperar:

Decoding Conventions: Podcast discutindo as convenções no desenvolvimento de software.

OSSU Computer Science: Roteiro de estudos em Ciência da Computação.

Trending in HTML: Projetos populares de desenvolvimento web.

Artificial Intelligence on GitHub: Recursos e projetos relacionados à IA.

Awesome Selfhosted: Lista de aplicações e soluções para auto-hospedagem.

## Análise dos Resultados:


A variedade de resultados obtidos, desde podcasts até listas curadas e projetos de código aberto, ilustra a amplitude de informações acessíveis através do nosso SRI. Os links recuperados não apenas abrangem um amplo espectro de tópicos dentro do desenvolvimento de software, mas também destacam projetos de alta qualidade e discussões atuais na comunidade de desenvolvimento

## Conclusão

Este Sistema de Recuperação de Informações demonstra uma integração bem-sucedida de técnicas avançadas de coleta, indexação e busca de informações. A implementação de funcionalidades específicas, como o tratamento de redirecionamentos, seleção cuidadosa de tags HTML para coleta e a aplicação de métricas de precisão e revocação para avaliar consultas, destaca a capacidade do sistema de fornecer acesso eficiente a informações valiosas para pesquisadores e desenvolvedores.