# TÉCNICA DE REGRESSÃO

## Contextualização
Neste exercício, exploramos um conjunto de dados fornecido por uma planta industrial fictícia da empresa Amonex, responsável pela produção de cloreto de amônio (NH₄Cl). O processo ocorre por meio da reação entre amônia (NH₃) e ácido clorídrico (HCl), sendo monitorado por diversas variáveis operacionais importantes para o desempenho e controle da produção.

As variáveis disponíveis no conjunto de dados incluem:

* Temperatura do sistema (°C)

* Pressão (atm)

* Concentração inicial dos reagentes (mol/L)

* Tempo de contato dos reagentes (min)

* pH

* Agitação (rpm)

* Tempo de reações secundárias (min)

Além disso, a concentração final de NH₄Cl é medida em laboratório e servirá como variável alvo para as análises preditivas.

O foco do projeto é aplicar modelos de machine learning baseados em árvore de decisão, com o objetivo de prever a concentração final de NH₄Cl a partir das variáveis mencionadas. A performance do modelo será avaliada utilizando técnicas de validação cruzada, incluindo k-fold cross validation e leave-one-out.

Os dados utilizados estão organizados no arquivo df_NH4Cl.xlsx.

In [None]:
import pandas as pd

df_NH4CL = pd.read_excel('df_NH4CL.xlsx')

In [None]:
df_NH4CL.head()

Unnamed: 0,Temperatura [°C],Pressão [atm],Tempo de reação [min],Concentração reagente NH3 [mol/L],Concentração reagente HCL [mol/L],pH [-],Agitação [rpm],Tempo de reação secundária [min],Concentração final NH4CL [mol/L]
0,148.0,3.0,24.0,0.0,0.0,9.0,198.0,23.0,2.0
1,87.0,2.0,32.0,0.0,0.0,6.0,135.0,33.0,2.0
2,181.0,4.0,41.0,0.0,0.0,4.0,93.0,16.0,2.0
3,185.0,1.0,26.0,0.0,0.0,6.0,130.0,45.0,2.0
4,145.0,4.0,17.0,0.0,0.0,3.0,98.0,12.0,1.0


In [None]:
df_NH4CL.shape

(1000, 9)

In [None]:
df_NH4CL.describe()

Unnamed: 0,Temperatura [°C],Pressão [atm],Tempo de reação [min],Concentração reagente NH3 [mol/L],Concentração reagente HCL [mol/L],pH [-],Agitação [rpm],Tempo de reação secundária [min],Concentração final NH4CL [mol/L]
count,992.0,992.0,992.0,992.0,992.0,992.0,992.0,992.0,992.0
mean,123.667339,2.96875,54.960685,0.0,0.0,6.31754,123.050403,29.825605,1.590726
std,43.582,1.233583,25.880644,0.0,0.0,3.275906,42.882228,11.837055,0.576914
min,50.0,1.0,10.0,0.0,0.0,1.0,50.0,10.0,0.0
25%,86.0,2.0,33.0,0.0,0.0,3.0,87.0,20.0,1.0
50%,122.0,3.0,56.0,0.0,0.0,6.0,119.0,30.0,2.0
75%,161.0,4.0,78.0,0.0,0.0,9.0,160.0,40.0,2.0
max,200.0,5.0,100.0,0.0,0.0,12.0,200.0,50.0,3.0


In [None]:
df_NH4CL.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   Temperatura [°C]                   992 non-null    float64
 1   Pressão [atm]                      992 non-null    float64
 2   Tempo de reação [min]              992 non-null    float64
 3   Concentração reagente NH3 [mol/L]  992 non-null    float64
 4   Concentração reagente HCL [mol/L]  992 non-null    float64
 5   pH [-]                             992 non-null    float64
 6   Agitação [rpm]                     992 non-null    float64
 7   Tempo de reação secundária [min]   992 non-null    float64
 8   Concentração final NH4CL [mol/L]   992 non-null    float64
dtypes: float64(9)
memory usage: 70.4 KB


In [None]:
df_NH4CL.columns

Index(['Temperatura [°C]', 'Pressão [atm]', 'Tempo de reação [min]',
       'Concentração reagente NH3 [mol/L]',
       'Concentração reagente HCL [mol/L]', 'pH [-]', 'Agitação [rpm]',
       'Tempo de reação secundária [min]', 'Concentração final NH4CL [mol/L]'],
      dtype='object')

In [None]:
df_NH4CL.dropna(inplace=True)

In [None]:
# Separar as varias features (X) e target (y)
X = df_NH4CL.drop(['Concentração final NH4CL [mol/L]'], axis=1)
y = df_NH4CL[['Concentração final NH4CL [mol/L]']]

In [None]:
# Normalização dos dados de entrada (x) e saída (y)
from sklearn.preprocessing import MinMaxScaler

scaler_input_NH4CL = MinMaxScaler(feature_range=(-1,1))
scaler_input_NH4CL.fit(X)

X_norm_NH4CL = scaler_input_NH4CL.transform(X)

scaler_output_NH4CL = MinMaxScaler(feature_range=(-1,1))
scaler_output_NH4CL.fit(y)

y_norm_NH4CL = scaler_output_NH4CL.transform(y)

Conforme citado na contextualização deste exemplo, será utilizado o método de aprendizado de máquina do tipo [árvore de decisão para regressão](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html#sklearn.tree.DecisionTreeRegressor).

In [None]:
# Instanciar o tipo de modelo de predição - árvore de decisão para regressão
from sklearn.tree import DecisionTreeRegressor
model = DecisionTreeRegressor(random_state=50)

# Validação Cruzada (Cross Validation)

* O método [cross_val_score](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html) disponível na biblioteca [scikit-learn](https://scikit-learn.org/stable/index.html) será utilizado para viabilizar implementar a técnica validação cruzada (*cross validation*) em linguagem de programação *Python*. Salienta-se que é também possível desenvolver um código computacional autoral para viabilizar implementar o método de validação cruzada. Porém, vamos explorar ao máximo as ferramentas disponíveis nas bibliotecas da linguagem de programação *Python*.

* O método [cross_val_score](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html) é uma ferramenta útil, uma vez que possibilita estimar os *k* valores de métrica de desempenho atrelados ao uso da técnica *k-fold cross validation*, assim como para a técnica *leave-one-out cross validation*.

* Para utilizar o método ```cross_val_score()``` na tarefa de regressão em evidência neste exemplo, faz-se necessário definir cinco parâmetros: o tipo de modelo de regressão cujo desempenho será avaliado (```estimator```); os dados de entrada de entrada (```X```); os dados de saída (```y```); a métrica de desempenho (```scoring```); e o número de partições *k* (```cv```). A seguir encontra-se evidenciado como esses parâmetros são definidos no método ```cross_val_score()```:


```python
        cross_val_score(estimator,
                         X,
                         y=None,                
                         scoring=None,
                         cv=None)
```

## *k-fold cross validation*

* A técnica *k-fold cross validation* é usualmente empregada considerando o valor de k igual a 5 ou 10.

In [None]:
# Aplicando o k-fold cross-validation
from sklearn.model_selection import cross_val_score
import numpy as np

k = 5
scores = cross_val_score(model,
                         X_norm_NH4CL,
                         y_norm_NH4CL.ravel(),
                         scoring='neg_mean_squared_error',
                         cv=k,
                         verbose=2)

scores = np.round(scores, 4)

print(f'Cross-validation scores: {scores}')

[CV] END .................................................... total time=   0.0s
[CV] END .................................................... total time=   0.0s
[CV] END .................................................... total time=   0.0s
[CV] END .................................................... total time=   0.0s
[CV] END .................................................... total time=   0.0s
Cross-validation scores: [-0.3171 -0.2881 -0.3098 -0.2806 -0.2738]


In [None]:
scores = -scores

print(scores)

[0.3171 0.2881 0.3098 0.2806 0.2738]


In [None]:
# Obtendo o valor médio de erro e a variação
print(f'Média -> cross-validation scores: {round(scores.mean(), 2)}')
print(f'Desvio padrão -> cross-validation scores: {round(scores.std(),2)}')

Média -> cross-validation scores: 0.29
Desvio padrão -> cross-validation scores: 0.02


## *Leave-one-out cross validation*

* A técnica *Leave-one-out cross validation* corresponde ao uso do método de validação cruzada em que *k* é equivalente ao número de amostras (linhas) do banco de dados.

In [None]:
k = X.shape[0]
scores = cross_val_score(model,
                         X_norm_NH4CL,
                         y_norm_NH4CL.ravel(),
                         scoring='neg_mean_squared_error',
                         cv=k,
                         verbose=0)

scores = np.round(scores, 4)

print(f'Cross-validation scores: {scores}')

Cross-validation scores: [-0.     -0.4444 -0.4444 -0.     -0.     -0.     -0.     -1.7778 -0.
 -0.4444 -0.     -0.4444 -0.4444 -0.     -0.4444 -0.4444 -0.4444 -0.
 -0.4444 -0.4444 -0.     -0.4444 -0.     -0.4444 -0.     -0.     -1.7778
 -0.4444 -0.4444 -0.     -0.4444 -0.     -0.     -0.4444 -0.4444 -0.4444
 -0.     -0.4444 -0.     -0.4444 -0.4444 -1.7778 -0.     -0.4444 -0.
 -0.4444 -0.     -0.4444 -0.     -0.     -0.4444 -0.4444 -0.4444 -0.
 -0.4444 -0.4444 -0.4444 -0.     -0.     -0.4444 -0.     -0.4444 -0.4444
 -0.4444 -0.4444 -0.4444 -0.     -0.     -0.     -0.     -0.     -0.4444
 -0.     -0.     -0.     -0.4444 -0.4444 -0.     -1.7778 -0.     -0.
 -0.4444 -0.4444 -0.     -0.4444 -0.     -0.     -0.4444 -0.     -0.
 -0.4444 -0.4444 -0.     -0.     -0.     -0.     -0.4444 -0.     -0.4444
 -0.4444 -0.4444 -0.     -0.4444 -0.4444 -0.4444 -0.     -0.     -0.4444
 -0.     -0.     -0.     -0.4444 -0.     -1.7778 -0.     -0.     -0.
 -0.4444 -0.4444 -0.     -0.     -0.4444 -1.7778 -0.  

In [None]:
scores = -scores

print(scores)

[0.     0.4444 0.4444 0.     0.     0.     0.     1.7778 0.     0.4444
 0.     0.4444 0.4444 0.     0.4444 0.4444 0.4444 0.     0.4444 0.4444
 0.     0.4444 0.     0.4444 0.     0.     1.7778 0.4444 0.4444 0.
 0.4444 0.     0.     0.4444 0.4444 0.4444 0.     0.4444 0.     0.4444
 0.4444 1.7778 0.     0.4444 0.     0.4444 0.     0.4444 0.     0.
 0.4444 0.4444 0.4444 0.     0.4444 0.4444 0.4444 0.     0.     0.4444
 0.     0.4444 0.4444 0.4444 0.4444 0.4444 0.     0.     0.     0.
 0.     0.4444 0.     0.     0.     0.4444 0.4444 0.     1.7778 0.
 0.     0.4444 0.4444 0.     0.4444 0.     0.     0.4444 0.     0.
 0.4444 0.4444 0.     0.     0.     0.     0.4444 0.     0.4444 0.4444
 0.4444 0.     0.4444 0.4444 0.4444 0.     0.     0.4444 0.     0.
 0.     0.4444 0.     1.7778 0.     0.     0.     0.4444 0.4444 0.
 0.     0.4444 1.7778 0.     0.     0.4444 0.4444 0.4444 0.4444 1.7778
 0.     0.4444 0.     0.4444 0.     0.4444 0.4444 0.4444 0.4444 0.
 0.     0.4444 0.     0.4444 0.4444 0.

In [None]:
# Obtendo o valor médio de erro e a variação
print(f'Média -> cross-validation scores: {round(scores.mean(), 2)}')
print(f'Desvio padrão -> cross-validation scores: {round(scores.std(),2)}')

Média -> cross-validation scores: 0.31
Desvio padrão -> cross-validation scores: 0.4
