# Overview

## 1 - Sobre mim

1. Eu sou Henrique Santos e sou **Analista de Crédito e Prevenção à Fraude** da [DESKTOP](https://www.desktop.com.br/), uma empresa do segmento de telecomunicações que atua no fornecimento de internet banda larga para as cidades do interior de São Paulo. 

2. Minha formação:
   * **Graduação**: Ciências econômicas (UFPE - Universidade Federal de Pernambuco);
   * **Mestrado**: Engenharia de produção (UFPE);
   * **Doutorado**: Biometria e estatística aplicada (UFRPE - Universidade Federal Rural de Pernambuco).

3. Atuação profissional:
    * Desde 2020, trabalho na área de ciência de dados, tanto na análise e construção de indicadores-chave de desempenho (analytics) quanto na modelagem preditiva (machine learning). Minha expertise profissional é em *credit scoring*, abrangendo todas as etapas do ciclo crédito, com foco no *prospect* (aquisição de clientes). 

### Contato
1. E-mail: santos.henrique624@gmail.com
2. Github: https://github.com/santoshenrique2021
3. Linkedin: https://www.linkedin.com/in/henriquesantos2021/

## 2 - PyCaret: Biblioteca Low-Code para Machine Learning em Python

O **PyCaret** é uma biblioteca *open-source* de *machine learning* em Python que combina **produtividade**, **automação** e **facilidade de uso** em um único ecossistema.

## Principais Características

### 2.1. Abordagem Low-Code
- Permite construir, treinar e implantar modelos com **poucas linhas de código**.
- Ideal para **análises rápidas, prototipagem e comparação de modelos**.

### 2.2. Automação do Workflow de ML
Gerencia todo o ciclo de vida de um projeto de *machine learning*:
- **Pré-processamento** (dados faltantes, codificação categórica, escalonamento).
- **Seleção e Treinamento de Modelos** (classificação, regressão, clustering).
- **Avaliação e Otimização** (comparação automática de algoritmos, *tuning* de hiperparâmetros).
- **Deploy** (exportação para produção em cloud ou APIs).

### 2.3. Integração com o Ecossistema Python
Funciona como um *wrapper* para bibliotecas populares:
- **Scikit-learn**, **XGBoost**, **LightGBM** (modelos).
- **Optuna**, **Hyperopt** (otimização).
- **Matplotlib**, **Plotly** (visualização).

### 2.4. Versatilidade em Tarefas
Módulos especializados para:
- **Classificação** (ex.: diagnóstico médico).
- **Regressão** (ex.: preços de imóveis).
- **Clustering** (ex.: segmentação de clientes).
- **Séries Temporais** (ex.: previsão de vendas).

## Quando Usar?
- **Iniciantes**: Aprender ML sem implementações complexas.
- **Cientistas de Dados**: Acelerar experimentações.
- **Equipes de Negócios**: Gerar *insights* rápidos.

## Limitações
- Menos flexível para **problemas customizados**.
- Pode ocultar detalhes técnicos importantes.

> **Nota**: Para instalação, use `pip install pycaret` (veja [documentação oficial](https://pycaret.readthedocs.io/en/stable/)).

## Perspectiva acadêmica

- Publicações acadêmicas que utilizaram esta biblioteca em problemas de *machine learning*:

1. https://www.sciencedirect.com/science/article/pii/S2405844024014373 - artigo que estima o tempo de um paciente cardiopata na UTI após a cirugia cardiaca (2024).
2. https://www.sciencedirect.com/science/article/abs/pii/S0030402623003698 - artigo que prediz o nível de radiação (2024).
3. https://www.sciencedirect.com/science/article/abs/pii/S0950061824009231 - artigo que estima a força do concreto (2024).

## 3 - O que são problemas de regressão

*  Prever uma **variável quantitativa** (chamada de **alvo**, **target** ou **resposta**) com base em **preditores** (chamado de **features**, **covariáveis**, ou **variáveis independentes**) que podem ser quantitativos ou categóricos.
*  Problemas de regressão são classificados como **aprendizado supervisionado**, ou seja, problemas cujo **dados tem rótulos** - sabe-se o valor que se deseja prever. 

### Aplicações em negócios

1. **Estimar a renda de uma pessoa** (**renda presumida**) - com base num conjunto de variáveis é possível estimar a renda de uma pessoa. Covariáveis como idade, sexo, nível educacional, patrimônio na bolsa, se declara (e/ou recebe) imposto de renda e informações de pagamento podem ajudar a prever a renda de uma pessoa. **Através desta estimativa, uma financeira pode definir um limite de crédito para um aplicante**.
 * $\rightarrow$ https://cdlpoa.com.br/noticia/renda-presumida-o-que-e-e-como-ela-pode-auxiliar-na-concessao-de-credito/.
2. **Estimar a demanda de um produto** (**previsão de demanda**)- com base num conjunto de variáveis é possível estimar a quantidade a ser vendida de um produto. Assim, variáveis como preço de venda, sazonalidade, custo das matérias-primas, preço dos concorrentes, preço do dólar (se o item apresentar componentes do exterior), inflação, nível de tributação, situação econômica do país (recessão ou expansão da economia) e outas informações podem ajudar a estimar a demanda de um produto.
 * $\rightarrow$ https://www.sciencedirect.com/science/article/pii/S0959652623044232.
 * $\rightarrow$ https://ojs.revistagesec.org.br/secretariado/article/view/1670.

### Perspectiva prática

É muito mais fácil e menos custoso obter as covariáveis do que o alvo.

## 4 - Fluxo do machine learning (perspectiva de negócios)

![Fluxo do machine learning](ML_FLUXO_V5.png)