Sou Bacharel em Ciência da Computação, com pós-graduação em Ciência de Dados e especialização em Inteligência Artificial. Tenho experiência em desenvolvimento de software, ciência de dados e soluções de IA. Atualmente, trabalho no IPEA e mantenho projetos ativos no GitHub.
- Lattes: http://lattes.cnpq.br/4924247830911437
- Hugging Face: https://huggingface.co/0rakul0
- ORCID: https://orcid.org/0009-0001-6304-3513
Este projeto visa realizar um processo de ETL (Extração, Transformação e Carga) utilizando um conjunto de dados de vinhos disponível no Kaggle. O objetivo é estruturar os dados e armazená-los no Qdrant, um banco de dados vetorial, para posteriormente realizar consultas utilizando uma LLM (Language Model). O fluxo inclui:
- Extração dos Dados: Coleta de informações de um arquivo CSV contendo descrições detalhadas de vinhos.
- Transformação: Limpeza e preparação dos dados, mantendo colunas essenciais como país de origem, preço e variedade de uvas.
- Carga: Conversão dos dados em embeddings através do modelo
all-MiniLM-L6-v2
e armazenamento no Qdrant para consultas semânticas avançadas.
Este projeto implementa uma API para recuperação de documentos utilizando FastAPI e Sentence Transformers. Ele processa arquivos de texto, segmenta-os e identifica os documentos mais relevantes para responder às perguntas dos usuários. Além disso, integra-se com o Ollama para gerar respostas baseadas no conteúdo dos documentos.
O RoboDiario é uma solução automatizada que realiza o download dos Diários Oficiais de Justiça do Estado do Rio de Janeiro. Utilizando Selenium, o script interage com o site do Tribunal de Justiça do RJ para baixar os arquivos PDF conforme os parâmetros definidos em um arquivo de configuração YAML.
Este projeto envolve o desenvolvimento de um rastreador de ações em tempo real. O sistema coleta cotações minuto a minuto, permitindo monitoramento contínuo e análise de dados do mercado financeiro.
Sinta-se à vontade para explorar meus repositórios e entrar em contato para colaborações ou discussões sobre tecnologia e ciência de dados.