# PyCaret aplicado a problemas de regressão

## 1 - Sobre mim

1. Eu sou Henrique Santos e trabalho como analista de crédito e prevenção à fraude de uma empresa de telecomunicações chamada [DESKTOP](https://www.desktop.com.br/). 

2. Minha formação acadêmica:
   * **Graduação**: Ciências econômicas (UFPE - Universidade Federal de Pernambuco);
   * **Mestrado**: Engenharia de produção (UFPE);
   * **Doutorado**: Biometria e estatística aplicada (UFRPE - Universidade Federal Rural de Pernambuco).

3. Atuação profissional:
    * Desde 2020, trabalho na área de ciência de dados, tanto na análise e construção de indicadores-chave de desempenho quanto na modelagem preditiva. Minha expertise profissional é a modelagem de *credit scoring*, abrangendo todas as etapas do ciclo crédito, com um foco em empresas de telecomunicações. 

### Contato
1. E-mail: santos.henrique624@gmail.com
2. Github: https://github.com/santoshenrique2021
3. Linkedin: https://www.linkedin.com/in/henriquesantos2021/

## 2 - PyCaret

O PyCaret é uma biblioteca de *machine learning* (aprendizado de máquina) em Python que apresenta uma interface amigável, utiliza poucas linhas de código (*low-code machine learning library*) e automatiza o *workflow* (é o processo sistemático de desenvolver, treinar, avaliar e colocar em produção os modelos de aprendizado de máquina).  É uma ferramenta abrangente, pois desenvolve e gerencia modelos, acelerando significativamente o ciclo de experimentação e aumentando a produtividade. Além disso, ela funciona como um invólucro para outras bibliotecas do Python (integrando com Pandas, NumPy e Scikit-Learn).

### Diretriz

Menos linhas de código e mais tempo dedicado a análise de resultados e definição de estratégias.

### Estrutura

O design do Pycaret é definido através de módulos. Cada um executa uma executa uma tarefa no ciclo de aprendizado de máquina.

### Abrangência:

1. **Regressão** (foco da apresentação);
2. Classificação;
3. Análise de cluster;
4. Séries temporais;
5. Detecção de anomalias.

### Documentação oficial

* https://pycaret.readthedocs.io/en/stable/

### Perspectiva acadêmica

Publicações acadêmicas que utilizaram esta biblioteca em problemas de *machine learning*:

1. https://www.sciencedirect.com/science/article/pii/S2405844024014373 - artigo que estima o tempo de um paciente cardiopata na UTI após a cirugia cardiaca (2024).
2. https://www.sciencedirect.com/science/article/abs/pii/S0030402623003698 - artigo que prediz o nível de radiação (2024).
3. https://www.sciencedirect.com/science/article/abs/pii/S0950061824009231 - artigo que estima a força do concreto (2024).

## 3 - O que são problemas de regressão

*  Prever uma **variável quantitativa** com base em **covariáveis que podem ser quantitativas ou categóricas**. O objetivo é encontrar uma relação entre variáveis independentes (**covariável**/**feature**/**variável explicativa**) e uma variável dependente (**alvo**/**target**/**resposta**).
*  Representa um problema de **aprendizado supervisionado**, ou seja, problemas cujo **dados tem rótulos** - sabe-se o valor ou a categoria que se deseja prever. 

### Aplicações em negócios

1. **Estimar a renda de uma pessoa** (**renda presumida**) - com base num conjunto de variáveis é possível estimar a renda de uma pessoa. Covariáveis como idade, sexo, nível educacional, patrimônio na bolsa, se declara (e/ou recebe) imposto de renda e informações de pagamento podem ajudar a prever a renda de uma pessoa. **Através desta estimativa, uma financeira pode definir um limite de crédito para um aplicante**.
 * $\rightarrow$ https://cdlpoa.com.br/noticia/renda-presumida-o-que-e-e-como-ela-pode-auxiliar-na-concessao-de-credito/.
2. **Estimar a demanda de um produto** (**previsão de demanda**)- com base num conjunto de variáveis é possível estimar a quantidade a ser vendida de um produto. Assim, variáveis como preço de venda, sazonalidade, custo das matérias-primas, preço dos concorrentes, preço do dólar (se o item apresentar componentes do exterior), no nível de inflação, nível de tributação, situação econômica do país (recessão ou expansão da economia) e outas informações podem ajudar a estimar a demanda de um produto. **Estimar a quantidade de comida vendida, a fim de evitar desperdício**.
 * $\rightarrow$ https://www.sciencedirect.com/science/article/pii/S0959652623044232.
 * $\rightarrow$ https://ojs.revistagesec.org.br/secretariado/article/view/1670.

### Perspectiva de negócios em problemas de regressão

É muito mais fácil e menos custoso obter as covariáveis do que o alvo.

## 4 - Fluxo do machine learning (perspectiva de negócios)

![Fluxo do machine learning](ML_FLUXO_V4.png)

## 5 - Exemplo

* Como funciona o Pycaret no contexto de precificação de imóveis.

### Contextualização

* Uma imobiliária deseja construir um modelo de aprendizado de máquina que estime o preço dos imóveis com base em um conjunto de características (covariáveis) que compõem uma residência. Assim, a partir de um histórico de dados referente a negociações de imóveis, vai-se construir o modelo. 
    * **Estratégia de negócio**: Utilizar a modelagem preditiva como ponto de partida para definir qual deverá ser o preço de venda do imóvel.

## Operacionalização do Pycaret

**Imports requeridos para a execução do estudo**

In [1]:
#Bibliotecas básicas
import pandas as pd     #Manipulação dos dados
import numpy as np      #Operações multidimensionais e matemáticas
import matplotlib.pyplot as plt    #Gráficos
import matplotlib.ticker as ticker #Remover a notação científica do gráfico
import seaborn as sns              #Gráficos
##Machine learning
from pycaret.regression import * 
##Eliminar os warnings
import warnings
warnings.filterwarnings("ignore")
##Ver todas as colunas do data frame
pd.set_option('display.max_columns', None)
##Extrair os valores do feature importance
import sklearn as sk
#Definir o formato de exibição tipo float para evitar notação científica
pd.options.display.float_format = '{:.2f}'.format
#MAPE (métrica de avaliação)
from sktime.performance_metrics.forecasting import mean_absolute_percentage_error
##Extrair os valores do feature importance
import sklearn as sk

**Versões do Python e Pycaret instalados**

In [2]:
#Identificar a versão do Python
import sys
print(f"Versão do Python: {sys.version}") #Versão do Python: 3.11.8

Versão do Python: 3.11.8 | packaged by Anaconda, Inc. | (main, Feb 26 2024, 21:34:05) [MSC v.1916 64 bit (AMD64)]


In [3]:
#Identificar a versão do Pycaret
import pycaret
print(f"Versão do PyCaret: {pycaret.__version__}") #Versão do PyCaret: 3.3.0


Versão do PyCaret: 3.3.0


### 5.1 - Visão geral os dados

In [4]:
#Importar a base de dados
df =  pd.read_csv('base_dados.csv', sep = ';')
#Visualizar
df.head(3) #Visualizar as três primeiras linhas da tabela

Unnamed: 0,ID_RESIDENCIA,PRECO,AREA,QUARTOS,BANHEIROS,ANDARES,FLAG_CENTRO,FLAG_QUARTO_HOSPEDE,FLAG_PORAO,FLAG_AGUA_MORNA,FLAG_AR_CONDICIONADO,VAGAS_ESTACIONAMENTO,FLAG_AREA_PREFERENCIAL,MOBILIADA
0,A1,13300000,7420,4.0,2.0,3,SIM,NAO,NAO,,SIM,2.0,SIM,SIM
1,A2,12250000,8960,4.0,4.0,4,SIM,NAO,,NAO,SIM,3.0,NAO,SIM
2,A3,12250000,9960,,2.0,2,SIM,NAO,SIM,NAO,NAO,2.0,SIM,PARCIALMENTE


* NaN - **not as number** (é um valor nulo/ *missing*).

In [5]:
#Características básicas do data frame - Parte 1
df.shape #545 observações e 14 variáveis 

(545, 14)

In [6]:
#Características básicas do data frame - Parte 2
df.info()#Nome da variável, contagem de observações não nulas e o tipo das variáveis

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 545 entries, 0 to 544
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   ID_RESIDENCIA           545 non-null    object 
 1   PRECO                   545 non-null    int64  
 2   AREA                    545 non-null    int64  
 3   QUARTOS                 481 non-null    float64
 4   BANHEIROS               465 non-null    float64
 5   ANDARES                 545 non-null    int64  
 6   FLAG_CENTRO             533 non-null    object 
 7   FLAG_QUARTO_HOSPEDE     523 non-null    object 
 8   FLAG_PORAO              510 non-null    object 
 9   FLAG_AGUA_MORNA         469 non-null    object 
 10  FLAG_AR_CONDICIONADO    532 non-null    object 
 11  VAGAS_ESTACIONAMENTO    485 non-null    float64
 12  FLAG_AREA_PREFERENCIAL  527 non-null    object 
 13  MOBILIADA               493 non-null    object 
dtypes: float64(3), int64(3), object(8)
memory 

### 5.2 - Análise exploratória dos dados

**Percentual de valores nulos para cada variável**

In [7]:
#Tabela com o percentual de missing das variáveis do modelo
percent_missing = df.isnull().mean() * 100

##Reestruturar a tabela
df_perc_missing = percent_missing.reset_index()  #Reinicializa o índice e converte o índice em uma coluna
df_perc_missing = df_perc_missing.rename(columns={'index': 'VARIAVEL', 0: 'PERCENTUAL_MISSING'})
df_perc_missing

Unnamed: 0,VARIAVEL,PERCENTUAL_MISSING
0,ID_RESIDENCIA,0.0
1,PRECO,0.0
2,AREA,0.0
3,QUARTOS,11.74
4,BANHEIROS,14.68
5,ANDARES,0.0
6,FLAG_CENTRO,2.2
7,FLAG_QUARTO_HOSPEDE,4.04
8,FLAG_PORAO,6.42
9,FLAG_AGUA_MORNA,13.94


* **Nota**: Se o percentual de *missing* de uma variável for muito elevado (superior a 70% - por exemplo), pode ser mais interessante removê-la da análise.
* **Nota**: Como lidar (e qual o impacto) com valores ausentes de uma variável na modelagem?

## 2.2 - Análise descritiva da variável resposta (PRECO)

In [None]:
#Sumário estatístico
df['PRECO'].describe(percentiles=[.1, .2, .3, .4, .5, .6, .7, .8, .9])

In [None]:
#Coeficiente de variação - variabilidade em torno da média
round(100 * df['PRECO'].std()/df['PRECO'].mean(),2) #39.24 #Variabilidade em nível mediano

### 2.2.1 - Representação gráfica

In [None]:
#Boxplot
boxplot = df.boxplot(column='PRECO', grid=False,  patch_artist=True, boxprops=dict(facecolor='lightblue'), medianprops=dict(color='red'))
boxplot.set_title('Distribuição dos preços dos imóveis', fontweight='bold',  loc='left')

#Eixo Y
plt.ylabel('Valores em US$')

#Eixo X
plt.xticks([])
plt.xlabel('Preço do Imóvel')


#Personalizar o eixo y para evitar a notação científica
boxplot.yaxis.set_major_formatter(ticker.FuncFormatter(lambda x, pos: '{:.0f}'.format(x)))

In [None]:
#Identificar as observações que são outliers
q1 = np.percentile(df.PRECO, 25) #Primeiro Quartil
q3 = np.percentile(df.PRECO, 75) #Terceiro Quartil

#Calcular a amplitude interquartil (IQR)
iqr = q3 - q1

#Definir os limites para identificação de outliers
lower_bound = q1 - 1.5 * iqr
upper_bound = q3 + 1.5 * iqr

#Identificar outliers
outliers = [x for x in df.PRECO if x < lower_bound or x > upper_bound]

#Visualização
print("Outliers:", outliers)

In [None]:
#Total de observações que são outliers
len(outliers) #15

In [None]:
#A partir de que valor a observação é um outlier
upper_bound = q3 + 1.5 * iqr
upper_bound #9.205.000

**Nota**: Como fica a previsão do PRECO para as observações que são outliers?

## 2.3 - Análise das variáveis explicativas quantitativas 

In [None]:
#Extraíndo as variáveis que são do tipo FLOAT e INT
tipos_desejados = ['int64', 'float64']
colunas_desejadas = [coluna for coluna in df.select_dtypes(include=tipos_desejados) if coluna != 'PRECO']

In [None]:
#EDA das variáveis numéricas
for coluna in colunas_desejadas:
    print(f"--- {coluna} ---")
    print(f"Média: {df[coluna].mean()}")
    print(f"Mediana: {df[coluna].median()}")
    print(f"Máximo: {df[coluna].max()}")
    print(f"Mínimo: {df[coluna].min()}")
    print(f"Desvio Padrão: {df[coluna].std()}")
    print(f"Coeficiente de variação: {df[coluna].std()/df[coluna].mean() * 100}")
    print()

**Nota**: Saber **identificar a dispersão e o seu range de valores (variabilidade e cardinalidade)**. 
* Exemplo: A variável *VAGAS_ESTACIONAMENTO*, observa-se que muitas casas tem poucas ou nenhuma vaga de estacionamento para carros e poucas residências tem muitas - **alta dispersão**.

## 2.4 - Análise descritiva das variáveis categóricas 

In [None]:
#As classes de cada variável categórica e sua frequência relativa
for coluna in df.select_dtypes(include = "object"):
    print (f"{coluna}:\n{df[coluna].value_counts(True)}")

**Nota**: Saber identificar a **frequência relativa das classes da variável categórica**, no sentido de avaliar **pontos de concentração**.
* Exemplo: A variável FLAG_AGUA_MORNA concentra que 95% das casas não tem água morna.

**Nota**: As seções 2.3 e 2.4 representaram análises univariadas. 

**Ideia**: Com as estatísticas obtidas das variáveis independentes seria possível criar uma ***PERSONA*, ou seja, o perfil médio das casas**. Poderia também pensar numa análise de agrupamento ou aplicar regras de negócio no contexto de segmentação.

## 2.5 - Análise bivariada (distribuição conjunta)

* Quantificar o efeito das covariáveis na distribuição da variável resposta. 

**ALVO vs variáveis categóricas**

In [None]:
#Lista de colunas categóricas
colunas_categoricas = df.select_dtypes(include='object').columns

In [None]:
#Iterando sobre as colunas categóricas
for coluna in colunas_categoricas:
    print(f"Análise bivariada {coluna}:")
    summary = df.groupby([coluna])['PRECO'].agg(['mean', 'median', 'std', lambda x: x.quantile(0.25), lambda x: x.quantile(0.75)])
    summary.columns = ['Média', 'Mediana', 'Desvio Padrão', 'Percentil 25', 'Percentil 75']
    print(summary)
    print('\n')

**Nota**: A distribuição do *PRECO* é muito sensível com a variável *FLAG_CENTRO*.

**ALVO vs variáveis numéricas**

1. **Correlação**
    * Correlação das variáveis explicativas com o ALVO e entre elas.

**Mapa de calor**

In [None]:
#Heatmap
#Data frame com as colunas numéricas
df_numerical = df.select_dtypes(include=['int', 'float'])
#Correlação
plt.figure(figsize = (7,7))
sns.heatmap(df_numerical.corr("spearman"), annot = True, cmap = "YlGnBu")
plt.title("Mapa de Correlação das Variáveis Numéricas\n", fontsize = 15)
plt.show()

**Tabela de correlação**

In [None]:
#Tabela de correlação
tabela_correlacao_spearman = df_numerical.corr(method='spearman') #Não preciso assumir uma relação linear entre as variáveis e não tem hipótese sobre a distribuição normal
tabela_correlacao_spearman #A variável AREA tem a maior correlação com preço.

2. **Scatter Plot** (Gráfico de Dispersão)

In [None]:
#Scatter plot
plt.scatter(df.AREA, df.PRECO)

#Adicionar rótulos aos eixos
plt.xlabel('Área do imóvel')
plt.ylabel('Preço do imóvel')

#Adicionar título ao gráfico
plt.suptitle('Reção entre Área vs Preço', fontweight='bold', x=0.1)

#Remover linhas de grade
plt.grid(False)

#Remover notação científica do eixo y
plt.ticklabel_format(style='plain', axis='y')

#Exibir o gráfico
plt.show()

#### Análise adicional (feature engineering)

* Criar uma variável a partir de uma existente. Posteriormente, compará-la com o ALVO.
* Vou criar a variável chamada **DECIL_AREA**.

In [None]:
#Variável que vai calcular os decis da variável AREA
decis_area = pd.qcut(df['AREA'], q=10)
#Adicionar a variável DECIL_AREA
df['DECIL_AREA'] = decis_area

In [None]:
#Calcular o preço médio do imóvel para cada faixa de decil da área
preco_medio_por_decil = df.groupby('DECIL_AREA')['PRECO'].mean()
preco_medio_por_decil #Transformou uma variável quantitativa numa variável qualitativa

In [None]:
#Visualização final do data frame
df.head(3) #Temos uma nova coluna

# 3 - Modelagem (PyCaret)

## 3.1 - Setup

* Esta função tem vários parâmetros e, de forma geral, ela prepara o ambiente de modelagem e carrega os dados para o treinamento do modelo.

In [None]:
exp = setup(df, target = 'PRECO', session_id = 1935, train_size = 0.65, ignore_features=['DECIL_AREA'],
            normalize = True, normalize_method = 'robust', numeric_imputation = 'median',
            categorical_imputation = 'mode', encoding_method= None, experiment_name= "EXP_REGRESSAO")

In [None]:
#Base de treino transformada
X = get_config('X_train_transformed')
X

In [None]:
#Base de teste
df_teste = get_config('test')
#Visualização
df_teste.head(3)

## 3.2 - Compare models

* Esta função treina e avalia o desempenho de todos os estimadores disponíveis através da abordagem do cross-validation.

In [None]:
compare_models()

### 3.2.1 - KPI: MAPE (Erro Médio Percentual Absoluto)

#### Explicação 

* o MAPE indica, em média, o quão distantes estão as previsões dos valores reais, em termos percentuais. Quanto menor o valor do MAPE, mais precisa é a previsão. Por exemplo, um MAPE de 5% indica que, em média, as previsões estão, em média, a 5% dos valores reais (seja para mais ou menos).

#### Estratégia

* Escolher os três modelos com o menor MAPE no cross-validação e avaliá-los na base de teste. Posteriormente, selecionar o modelo com o menor MAPE da base de teste.

#### Fórmula

**MAPE** = (1/n) * Σ(|(A - F) / A|) * 100

#### Notação

* A é o valor real;
* F é o valor previsto;
* n é o número total de observações na amostra,
* Σ representa a soma sobre todas as observações,
* | | representa o valor absoluto.



## 3.3 - Create model

* Esta função treina e avalia o desempenho de um determinado estimador utilizando a abordagem do cross-validation.

**Regressão Ridge**

In [None]:
#Resultado da base de treino
model_1 = create_model('ridge') #Na base de treino se aplica o cross validação
model_1

In [None]:
#Avaliar o modelo na base de teste
df_teste_1 = predict_model(model_1, data = df_teste)
#Visualização
df_teste_1.head(3)

In [None]:
mape_1 = mean_absolute_percentage_error(df_teste_1.PRECO, df_teste_1.prediction_label)
print("MAPE:", round(100 * mape_1,2)) #MAPE: 19.06

**Regressão Linear**

In [None]:
model_2 = create_model('lr') 
model_2

In [None]:
#Avaliar o modelo na base de teste
df_teste_2 = predict_model(model_2, data = df_teste)
#Visualização
df_teste_2.head(3)

In [None]:
mape_2 = mean_absolute_percentage_error(df_teste_2.PRECO, df_teste_2.prediction_label)
print("MAPE:", round(100 * mape_2,2)) #MAPE: 19.07

**K Neighbors Regressor**

In [None]:
model_3 = create_model('knn') 
model_3

In [None]:
#Avaliar o modelo na base de teste
df_teste_3 = predict_model(model_3, data = df_teste)
#Visualização
df_teste_3.head(3) 

In [None]:
mape_3 = mean_absolute_percentage_error(df_teste_3.PRECO, df_teste_3.prediction_label)
print("MAPE:", round(100 * mape_3,2)) #MAPE: 20.01

## 3.4 - Tune model (opcional)

* Esta função visa encontrar uma nova combinação de hiperparâmetros que possa melhorar a performance do modelo.
* O melhor modelo foi o ridge.

In [None]:
tune_model_1 = tune_model(model_1, optimize = 'MAPE', search_library = 'optuna')

In [None]:
#Avaliar o modelo tunado na base de teste
df_teste_tune = predict_model(tune_model_1, data = df_teste)
#Visualização
df_teste_tune.head(3) #MAPE: 0.1903

In [None]:
mape_final = mean_absolute_percentage_error(df_teste_tune.PRECO, df_teste_tune.prediction_label)
print("MAPE:", round(100 * mape_final,2)) #MAPE: 19.03

In [None]:
#Hiperparâmetro
print(tune_model_1) #alpha=9.971098594042168

## 3.5 - Avaliação de desempenho

In [None]:
#Panorama geral dos resultados
evaluate_model(tune_model_1)

In [None]:
#Top 10 variáveis
plot_model(tune_model_1, plot = 'feature', save=True)

In [None]:
#Ordem de importância de todas as variáveis
plot_model(tune_model_1, plot = 'feature_all', save=True)

In [None]:
#Criar um data frame do feature importance
feature_importance = tune_model_1.coef_
feature_names = X.columns
feature_importance_dict = dict(zip(feature_names, feature_importance))
sorted_feature_importance = sorted(feature_importance_dict.items(), key=lambda x: x[1], reverse=True)
df_importance = pd.DataFrame(sorted_feature_importance, columns=['Feature', 'Importance'])
df_importance.to_csv("feature_importance.csv", sep=";")
df_importance


In [None]:
#Intercepto estimado
tune_model_1.intercept_ #3823378.2973213797

In [None]:
#Salvar o erro
plot_model(tune_model_1, plot = 'error', save=True)

In [None]:
#Salvar os resíduos
plot_model(tune_model_1, plot = 'residuals', save=True)

In [None]:
#Pipeline da modelagem
plot_model(tune_model_1, plot = 'pipeline', save=True)

## 3.6 - Salvar e extrair os resultados

**Resultados da base de teste**

In [None]:
df_teste_final = predict_model(tune_model_1, data = df_teste)
#Visualização
df_teste_final.head(3) 

In [None]:
df_teste_final.rename(columns = {'prediction_label':'PRECO_ESTIMADO'}, inplace = True)

In [None]:
teste_final = df_teste_final[['PRECO','PRECO_ESTIMADO']]
#Visualização final
teste_final.head(3)

In [None]:
#Salvar a base de teste
teste_final.to_csv('base_teste_final.csv', header = True, index = False, sep = ';')

**Salvar a base full**

In [None]:
df_full_final = predict_model(tune_model_1, data = df)
#Visualização
df_full_final.head(3) 

In [None]:
df_full_final.rename(columns = {'prediction_label':'PRECO_ESTIMADO'}, inplace = True)

In [None]:
full_final = df_full_final[['PRECO','PRECO_ESTIMADO']]
#Visualização final
full_final.head(3)

In [None]:
#Salvar a base de teste
full_final.to_csv('base_full_final.csv', header = True, index = False, sep = ';')

## 3.7 - Concluir o experimento

In [None]:
save_model(tune_model_1, 'predicao_preco_imovel')

## 3.8 - Finalize model

In [None]:
final_model = finalize_model(tune_model_1)
final_model