Linguagens e Ferramentas
Python · SQL · Power BI · Excel · Git · Docker
Bibliotecas e Frameworks
Pandas · NumPy · Scikit-learn · Matplotlib · Seaborn · LightGBM · Keras · NLTK · Gensim · Optuna · pymoo · MLflow · FastAPI · Evidently · DoWhy · EconML · SciPy · PuLP
Métodos
Análise Exploratória de Dados · Engenharia de Features · Classificação · Regressão · Processamento de Linguagem Natural · Métodos Ensemble · Otimização Bayesiana · Otimização Multiobjetivo · Análise de Pareto · ML em Produção · Rastreamento de Experimentos · Monitoramento de Deriva de Dados · Visualização de Dados · ETL · DAX / Power Query · Inferência Causal · Modelagem de DAG Causal · Propensity Score Matching · Double Machine Learning · Efeitos Heterogêneos de Tratamento · Modelagem de Atribuição · Valores de Shapley · Otimização de Budget · Programação Linear Inteira · Quimiometria · Pré-processamento Espectral · Regressão PLS · Validação Cruzada K-Fold
| Projeto | Descrição | Ferramentas |
|---|---|---|
| Qual Canal Realmente Converte? — Modelagem de Atribuição e Otimização de Budget de Mídia | Comparação de quatro modelos de atribuição em canais de mídia paga. O Last-Click supervalorizou o Google Search e ignorou o Display. Com atribuição correta e otimização de alocação, o retorno esperado aumenta 14,3% sem investimento adicional. | Python, SciPy, PuLP, Scikit-learn, Valores de Shapley |
| Hora Extra Aumenta a Rotatividade? — Análise de Inferência Causal | Análise para determinar se a hora extra causa diretamente a rotatividade de funcionários ou se outros fatores, como nível do cargo e salário, explicam a relação. Com três métodos independentes de estimação causal, o efeito direto da hora extra sobre a rotatividade foi de +21,1% — confirmado em testes de robustez. | Python, DoWhy, EconML |
| 1. Modelo Base — Regressão com LightGBM | Modelo para prever preços de venda de imóveis com base em 236 características. Inclui limpeza de dados, criação de novas variáveis (área total, idade do imóvel, histórico de reforma) e ajuste de hiperparâmetros. Resultado: RMSLE de 0,12949 no Kaggle. | Python, LightGBM, Scikit-learn, Pandas, Engenharia de Features, GridSearchCV |
| 2. Otimização do Modelo — Busca de Hiperparâmetros e Seleção de Features | Extensão do modelo base com busca inteligente de hiperparâmetros (80 tentativas) e seleção multiobjetivo de features. Redução de 65% das features com perda mínima de precisão. Melhoria de 3,96% no resultado. | Python, LightGBM, Optuna, pymoo, Scikit-learn |
| 3. Modelo em Produção — API, Versionamento e Monitoramento | Etapa final da série: modelo treinado, registrado com versionamento, servido via API REST e monitorado para deriva de dados ao longo do tempo. Toda a infraestrutura roda em contêineres Docker. RMSLE: 0,12436. | Python, LightGBM, FastAPI, MLflow, Docker, Evidently |
| Dashboard de Vendas — Análise de 8.800 Oportunidades no Power BI | Dashboard interativo construído a partir de dados reais de CRM com 8.800 oportunidades de vendas. Modelagem de 4 tabelas, criação de métricas e visualizações de receita, taxa de conversão (63%) e desempenho por vendedor, produto e região. | Power BI, DAX, Power Query |
| Identificação de Tweets sobre Desastres — Modelo de Classificação com NLP | Modelo para classificar automaticamente se um tweet relata um desastre real ou não. Inclui limpeza de texto, extração de features linguísticas e combinação de três algoritmos ensemble. Resultado: F1-Score de 0,80 no Kaggle. | Python, NLTK, Gensim, Word2Vec, Scikit-learn |
| Reconhecimento de Dígitos Manuscritos — Rede Neural com 98% de Acurácia | Rede neural treinada para identificar dígitos manuscritos (0–9) a partir de imagens. Inclui aumento de dados para melhorar a generalização e técnicas de regularização para evitar overfitting. Resultado: 98% de acurácia no Kaggle. | Python, Keras, TensorFlow |
| Modelagem Preditiva de Espectros ATR-FTIR — Predição Quantitativa de Concentração | Comparação de quatro modelos de regressão (Ridge, PLS, SVR, LightGBM) para prever a concentração de duas soluções a partir de espectros ATR-FTIR, substituindo métodos analíticos convencionais. Melhor resultado: R² de 0,85 (PROP_C) e 0,77 (PROP_G). | Python, Scikit-learn, LightGBM, SciPy, NumPy |
| Grau | Instituição | Período |
|---|---|---|
| MBA — Ciência de Dados, Inteligência Artificial e Analytics | USP/Esalq | 2026 – 2027 (em andamento) |
| Especialização — Ciência de Dados | Unicamp | 2026 – 2027 (em andamento) |
| Pós-Doutorado — Química Analítica | USP / IFSC | 2022 – 2023 |
| Doutorado — Ciências | USP / IQSC | 2018 – 2022 |
| Bacharelado — Química | USP / IQSC | 2013 – 2017 |
- Certificado Profissional em Análise de Dados do Google (2026)
- CDPO 3ª ed. Estatística e Otimização para Ciência de Dados e Pesquisa Operacional — ICMC/USP
- Engenharia de Prompt para Engenheiros de Software — MBA USP/Esalq
- Introdução ao Machine Learning com Python — MBA USP/Esalq
- Python: Do Básico ao Avançado com Estudos de Caso — ICMC/USP
- 9ª Escola Avançada de Big Data Analysis — ICMC/USP
- Análise de Dados | Primeiros passos em Python — PrograMaria
- Séries Temporais, Engenharia de Features, Introdução a Deep Learning, Machine Learning Intermediário, Introdução ao Machine Learning, Pandas, Python — Kaggle