<a href="https://colab.research.google.com/github/Rogerio-mack/IMT_Ciencia_de_Dados/blob/main/IMT_estimadores_scikit_learn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<head>
  <meta name="author" content="Rogério de Oliveira">
  <meta institution="author" content="ITM">
</head>

<img src="https://maua.br/images/selo-60-anos-maua.svg" width=300, align="right">
<!-- <h1 align=left><font size = 6, style="color:rgb(200,0,0)"> optional title </font></h1> -->


# Estimadores do `Scikit-learn`

Aprenda aqui a empregar estimadores do `scikit-learn` para:

1. Modelos de regressão
2. Normalização
3. Hot encode dos dados

In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.read_excel('http://meusite.mackenzie.br/rogerio/data_load/regressao_preco_imoveis.xlsx')
df.head()

Unnamed: 0,bairro,areaM2,suites,dormitorios,banheiros,vagas,preco
0,vila-nova-conceicao,32,1,1,1,1,490000
1,vila-nova-conceicao,157,2,2,2,2,3180000
2,vila-nova-conceicao,205,2,3,3,3,1900000
3,vila-nova-conceicao,193,3,3,3,3,3565000
4,vila-nova-conceicao,116,1,3,2,2,1605000


# Regressão Linear: `Statsmodel`

In [None]:
import statsmodels.formula.api as sm

lm = sm.ols(formula='preco ~ areaM2 + suites + dormitorios + vagas', data=df)
lm = lm.fit()
print(lm.summary())

                            OLS Regression Results                            
Dep. Variable:                  preco   R-squared:                       0.685
Model:                            OLS   Adj. R-squared:                  0.684
Method:                 Least Squares   F-statistic:                     2027.
Date:                Sun, 13 Aug 2023   Prob (F-statistic):               0.00
Time:                        23:28:15   Log-Likelihood:                -55099.
No. Observations:                3741   AIC:                         1.102e+05
Df Residuals:                    3736   BIC:                         1.102e+05
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                  coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------
Intercept   -3407.3121   4.04e+04     -0.084      

In [None]:
import statsmodels.api as sm

X = df.drop(columns=['bairro','banheiros','preco'])
y = df.preco

X = sm.add_constant(X)

lm = sm.OLS(y,X)
lm = lm.fit()

print(lm.summary())

                            OLS Regression Results                            
Dep. Variable:                  preco   R-squared:                       0.685
Model:                            OLS   Adj. R-squared:                  0.684
Method:                 Least Squares   F-statistic:                     2027.
Date:                Sun, 13 Aug 2023   Prob (F-statistic):               0.00
Time:                        23:28:15   Log-Likelihood:                -55099.
No. Observations:                3741   AIC:                         1.102e+05
Df Residuals:                    3736   BIC:                         1.102e+05
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                  coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------
const       -3407.3121   4.04e+04     -0.084      

# Regressão Linear: `Scikit-learn`

## Estimadores de modelos

Para criação de modelos o scikit-learn emprega estimadores. Os estimadores são objetos Python que implementam uma interface padronizada para os modelos de aprendizado, incluindo modelos de classificação, regressão, clusterização etc. eles também são empregados para operações como normalização e encode dos dados.

<img src="https://github.com/Rogerio-mack/Machine-Learning-I/raw/main/Figures/ML/Slide4.PNG" width=800, align="center">

In [None]:
from sklearn.linear_model import LinearRegression

# Define entradas e saída do modelo supervisionado
X = df.drop(columns=['bairro','banheiros','preco'])
y = df.preco

# Define o modelo
lm = LinearRegression(fit_intercept=False)

# Ajusta o modelo
lm.fit(X, y)

# Calcula o R2
r2 = lm.score(X, y)
print(f"R2 Score: {r2:.4f}")



R2 Score: 0.6846


In [None]:
print(lm.feature_names_in_, lm.coef_, lm.intercept_)

['areaM2' 'suites' 'dormitorios' 'vagas'] [  10471.2348679   202913.06609277 -312438.48835905  296481.84034491] 0.0


Aqui um exemplo de uso de um outro estimador de regressão. Segue o mesmo modelo de uso.

In [None]:
from sklearn.neighbors import KNeighborsRegressor

# Define entradas e saída do modelo supervisionado
X = df.drop(columns=['bairro','banheiros','preco'])
y = df.preco

# Define o modelo
model = KNeighborsRegressor()

# Ajusta o modelo
model.fit(X, y)

# Calcula o R2
r2 = model.score(X, y)
print(f"R2 Score: {r2:.4f}")

R2 Score: 0.8456


## Exercício

Pesquise algum outro regressor do `scikit-learn` e substitua no código acima. Encontrou um estimador com R2 melhor?  

## Exercício

Compare os resultados da regressão linear com `scikit-learn` e o `statsmodel`. O que você conclui?


# Regressão Linear: `Statsmodels` $\times$ `Scikit-learn`

O `Statsmodels` e o `Scikit-learn` são duas bibliotecas Python populares para análise de dados e o aprendizado de máquina. O Statsmodels é uma biblioteca mais orientada para a análise e estatística dos dados, enquanto o `Scikit-learn` é uma biblioteca mais orientada para o aprendizado de máquina.

O `Statsmodels` fornece uma saída mais detalhada incluindo os p-values, intervalos de confiança e estatísticas t, que permitem uma série de análises como  verificar a adequação do modelo, normalidade dos resíduos e homocedasticidade.

Se você está mais interessado em análises estatísticas detalhadas, interpretação de p-values e diagnósticos, o `Statsmodels` será uma escolha mais adequada, enquanto se seu foco é mais no aprendizado de máquina, estando interessado somente na predição, redução de resíduos e modelagem em escala, o `Scikit-learn` será mais adequado.

Os resultados dos modelos (coeficientes) são os mesmos. Há, entretanto, uma inconsistência entre os dois modelos no cálculo do R2 quando não empregamos o intercept. Isso ser deve ao fato do `Statsmodels` usar diferentes fórmulas para calcular o R2 dependendo se o modelo inclui ou não o intercept. (ver: https://stackoverflow.com/questions/70179307/why-is-sklearn-r-squared-different-from-that-of-statsmodels-when-fit-intercept-f).







# Funções e Estimadores de normalização

A normalização é particularmente importante quando temos recursos (atributos preditores) em diferentes escalas. A regressão linear não requerer necessariamente a normalização dos dados mas, como vimos, a normalização permite a interpretabilidade dos coeficientes e é, por isso, muitas vezes empregada. Há, entretanto, muitos outros estimadores baseados em métricas de distância e métodos gradientes sensíveis à normalização. Há também diferentes métodos de normalização e veremos alguns desses métodos que são implementados pelo `scikit-learn` (ver: [Compare the effect of different scalers on data with outliers](https://scikit-learn.org/stable/auto_examples/preprocessing/plot_all_scaling.html#sphx-glr-auto-examples-preprocessing-plot-all-scaling-py))

* `MinMaxScaler` padroniza os recursos dimensionando-os para o intervalo $[0,1]$.

$$X_{std} = (X - X_{min}) / (X_{max} - X_{min})$$

$$X_{scaled} = X_{std} * (X_{max} - X_{min}) + X_{min}$$

> **Note:** é diferente de $X_{std} = X / X_{max}$ havendo somente valores positivos se o valor $0$ não está presente nos dados.

* `MaxAbsScaler` é semelhante ao `MinMaxScaler` exceto que os valores são mapeados em diferentes intervalos dependendo da presença de valores negativos OU positivos. Se há apenas valores positivos, o intervalo é $ [0, 1]$. Se há apenas valores negativos, o intervalo é $[-1, 0]$. Se há valores negativos e positivos, o intervalo é $[-1, 1]$.

* `StandardScaler` padroniza os recursos removendo a média e dimensionando para a variação da unidade. Assume em geral uma distribuição normal dos dados.

$$X_{std} = (X -  \mu(X)) / \sigma(X)$$

* `RobustScaler` Semelhante ao `StandardScaler` mas remove a mediana e dimensiona os dados de acordo com IQR (intervalo interquartil). É  robusto para outliers.



> **Atenção:** A classe `Normalizer` do `scikit-learn` normaliza as amostras, as linhas, e não os recursos. Aqui isso, em geral,  não
 será empregado.

<br>
<br>

Na prática, para o `scikit-learn` o **`StandardScaler` é o mais empregado** já que muitos estimadores são projetados com a suposição de que cada recurso assume valores próximos de zero (média) e, mais importante, que todos os recursos variam em escalas comparáveis.

Para normalização, assim como para o encode dos dados, podemos empregar funções ou estimadores do `scikit-learn`. O resultado é o mesmo, mas os estimadores permitem *salvar* os objetos da  transformação para uso futuro.

## Funções

```
minmax_scale(X)
```

In [None]:
df = df.drop(columns=['bairro','banheiros'])

In [None]:
df_scaled = ( df.drop(columns='preco') - df.drop(columns='preco').min() ) / ( df.drop(columns='preco').max() - df.drop(columns='preco').min() )
df_scaled = pd.concat([df_scaled,df[['preco']]],axis=1)

df_scaled.head()

Unnamed: 0,areaM2,suites,dormitorios,vagas,preco
0,0.043011,0.0,0.0,0.0,490000
1,0.491039,0.2,0.2,0.25,3180000
2,0.663082,0.2,0.4,0.5,1900000
3,0.620072,0.4,0.4,0.5,3565000
4,0.344086,0.0,0.4,0.25,1605000


In [None]:
df_scaled = pd.DataFrame(minmax_scale(df.drop(columns='preco')), columns=df.drop(columns='preco').columns)
df_scaled = pd.concat([df_scaled,df[['preco']]],axis=1)

df_scaled.head()

Unnamed: 0,areaM2,suites,dormitorios,vagas,preco
0,0.043011,0.0,0.0,0.0,490000
1,0.491039,0.2,0.2,0.25,3180000
2,0.663082,0.2,0.4,0.5,1900000
3,0.620072,0.4,0.4,0.5,3565000
4,0.344086,0.0,0.4,0.25,1605000


As entradas, tanto as funções como os estimadores de normalização, podem ser um array ou um dataframe, mas as saídas serão sempre array e, se quiser a saída dos dados normalizados em um dataframe precisará criar o dataframe a partir dos arrays. De qualquer modo os estimadores dos modelos de aprendizado operam tanto com dataframes como arrays e, em geral, a saída normalizada pode é empregada diretamente.

In [None]:
minmax_scale(df.drop(columns='preco'))

array([[0.04301075, 0.        , 0.        , 0.        ],
       [0.49103943, 0.2       , 0.2       , 0.25      ],
       [0.66308244, 0.2       , 0.4       , 0.5       ],
       ...,
       [0.40501792, 0.        , 0.4       , 0.25      ],
       [0.50179211, 0.4       , 0.4       , 0.5       ],
       [0.43369176, 0.4       , 0.4       , 0.25      ]])

## Estimadores

```
scaler = MinMaxScaler()

scaler.fit(X)

X_scaled = scaler.transform(X)

X = scaler.transform(X_scaled)

```

In [None]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler, MaxAbsScaler

scaler = MinMaxScaler()
scaler.fit(df.drop(columns='preco'))

df_scaled = scaler.transform(df.drop(columns='preco'))
df_scaled = pd.DataFrame(df_scaled, columns=df.drop(columns='preco').columns)

df_scaled = pd.concat([df_scaled,df[['preco']]],axis=1)

df_scaled.head()

Unnamed: 0,areaM2,suites,dormitorios,vagas,preco
0,0.043011,0.0,0.0,0.0,490000
1,0.491039,0.2,0.2,0.25,3180000
2,0.663082,0.2,0.4,0.5,1900000
3,0.620072,0.4,0.4,0.5,3565000
4,0.344086,0.0,0.4,0.25,1605000


Os estimadores tem a vantagem de possibilitarem a reversão dos valores e o objeto pode ser persistido para recuperação posterior o que facilita a implementação de muitos *pipelines* de dados.



In [None]:
df_inv_scaled = scaler.inverse_transform(df_scaled.drop(columns='preco'))
df_inv_scaled = pd.DataFrame(df_inv_scaled, columns=df.drop(columns='preco').columns)

df_inv_scaled = pd.concat([df_inv_scaled,df[['preco']]],axis=1)

df_inv_scaled.head()

Unnamed: 0,areaM2,suites,dormitorios,vagas,preco
0,32.0,1.0,1.0,1.0,490000
1,157.0,2.0,2.0,2.0,3180000
2,205.0,2.0,3.0,3.0,1900000
3,193.0,3.0,3.0,3.0,3565000
4,116.0,1.0,3.0,2.0,1605000


# Persistindo um Estimador

Você pode usar o módulo `joblib` (ou o módulo `pickle`) para salvar o estimador em um arquivo. `joblib` é preferido para salvar objetos grandes do scikit-learn, principalmente como modelos treinados, pois é mais eficiente em termos de memória.

In [None]:
lm

In [None]:
scaler

In [None]:
import joblib

# Salvando o modelo
joblib.dump(lm, 'lm_model.pkl')

# Salvando o modelo de transformação
joblib.dump(scaler, 'minmax_scaler.pkl')

['minmax_scaler.pkl']

In [None]:
!ls

lm_model.pkl  minmax_scaler.pkl  sample_data


In [None]:
del lm

In [None]:
del scaler

In [None]:
# Carregar o modelo
lm = joblib.load( 'lm_model.pkl')

# Carregando o modelo de transformação
scaler = joblib.load('minmax_scaler.pkl')

In [None]:
lm

In [None]:
scaler

> **Note:** Esses mesmos mecanismos podem ser aplicados para estimadores de encode e modelos de aprendizado!

## Exercício

Neste exercício você irá pesquisar o estimador de hot encode dos dados do `scikit-learn`. Recupere os dados dos imóveis novamente e estime o preço de um imóvel de 134 m2, uma suite, 4 dormitórios, 3 vagas de garagem na Vila Mariana. Use o `scikit-learn` para implementar o modelo de regressão linear (considere o intercept $\neq 0$ e exclua o recurso `banheiros`) e estimadores para o hot encode (exclua a multicolinariedade eliminando o primeiro valor das categorias) e a normalização (standard scale).

## Obtenção dos dados

## Preparação dos dados

### Dados ausentes

### Hot encode

### Normalização

## Treinamento do Modelo

## Preparação dos novos casos

### Hot encode

### Normalização

## Predição do Modelo

## Verificação com o `Statsmodel`

In [None]:
import statsmodels.formula.api as sm

lm = sm.ols(formula='preco ~ bairro + areaM2 + suites + dormitorios + vagas', data=df)
lm = lm.fit()
print(lm.summary())

                            OLS Regression Results                            
Dep. Variable:                  preco   R-squared:                       0.795
Model:                            OLS   Adj. R-squared:                  0.795
Method:                 Least Squares   F-statistic:                     1812.
Date:                Sun, 13 Aug 2023   Prob (F-statistic):               0.00
Time:                        23:53:47   Log-Likelihood:                -54290.
No. Observations:                3741   AIC:                         1.086e+05
Df Residuals:                    3732   BIC:                         1.087e+05
Df Model:                           8                                         
Covariance Type:            nonrobust                                         
                                    coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------------------------
Intercept     

In [None]:
print(f"Preço estimado: {lm.predict(df_case)[0]:.2f}")

Preço estimado: 1350584.80
