# Mineração de Dados
- Conteúdo: Avaliação de Modelos e Métricas
- Aluno: Pedro Alves G. Jr
- Matrícula: 383876

- A biblioteca Pandas serve para manipulação de dados
---
- A biblioteca Numpy serve para operações matemática e de álgebra
---
- A biblioteca metrics é uma implementação própria contendo funções de cálculo de erro
---
- A biblioteca model_selection do Scikit nos traz 3 métodos que iremos utilizar:
    - KFold para treinar e validar os dados com varias combinações, para determinar o número de combinações o hiperparâmetro n_split deve ser setado, como valor default temos o valor 3, entretanto é mais utilizado o valor 10.
    ---
    - cross_val_score que calcula os scores para cada uma das divisões feitas, esse método recebe como parâmetro o estimador que o nosso algoritmo de aprendizado de máquina, os nossos dados, a quantidade de divisões de treinamento e o scoring que pode ser accuracy, precision, recall. Obs: o scoring só deve ser setado em algoritmos de classificação.
    ---
    - train_test_split, esse método divide nossos dados em conjuntos de treino e teste, passamos para ele os nossos dados, a quantidade que queremos deixar para teste, a nossa semente de treino e se os dados forem de classificação, podemos setar o parâmetro stratify igual ao target dos dados.
        - estratificar os dados significa dividir as classe dos target de maneira proporcional para os dados de treino e teste. Ex.: Se nosso target tem 3 classes diferente, então na estratificação deixa proporcional a quantidade de cada classe para treino e para teste, para que assim não fique muitos dados de uma classe no treino e poucos no teste e que outra classe não fique poucos dados no treino e muitos teste.
---
- A biblioteca tree do scikit que possui o algoritmo de aprendizado de máquino DecisionTreeRegressor, que será utilizado para o problema de regressão. 

In [1]:
# Importação das Bibliotecas
import pandas as pd
import numpy as np
import metrics

from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor

In [2]:
cols = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',  'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
data = pd.read_csv('housing.data', names=cols, header=None, sep='\s+')

In [3]:
data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


In [4]:
data.isna().sum()

CRIM       0
ZN         0
INDUS      0
CHAS       0
NOX        0
RM         0
AGE        0
DIS        0
RAD        0
TAX        0
PTRATIO    0
B          0
LSTAT      0
MEDV       0
dtype: int64

In [5]:
X = data.iloc[:, :-1]
y = data.iloc[:, -1]

In [6]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [7]:
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((404, 13), (102, 13), (404,), (102,))

In [8]:
model = DecisionTreeRegressor(random_state=42)

In [9]:
kfold = KFold(n_splits=10, shuffle=True, random_state=42)

In [10]:
scores = cross_val_score(model, X_train, y_train, cv=kfold)
scores

array([0.17226692, 0.45603191, 0.87052312, 0.83374273, 0.84668749,
       0.57029354, 0.76559362, 0.71711931, 0.88833384, 0.09628087])

In [11]:
np.mean(scores)

0.6216873357580328

In [12]:
model = DecisionTreeRegressor(random_state=42)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

In [13]:
print("MAE:   ", metrics.mae(y_test, y_pred))
print("MSE:   ", metrics.mse(y_test, y_pred))
print("RMSE:  ", metrics.rmse(y_test, y_pred))
print("MSLE:  ", metrics.msle(y_test, y_pred))
print("RMSLE: ", metrics.rmsle(y_test, y_pred))
print("R2:    ", metrics.r2(y_test, y_pred))

MAE:    2.537254901960784
MSE:    16.5021568627451
RMSE:   4.062284685093488
MSLE:   0.036779161210349916
RMSLE:  0.19177893839092425
R2:     0.7749719685582299


# Métrica MAE - Mean Absolute Error
$$ MAE = \frac{1}{n} \sum_{i=1}^{n}{\vert y_i - \hat{y}_i \vert} $$

# Métrica MSE - Mean Squared Error
$$ MSE = \frac{1}{n} \sum_{i=1}^{n}{(y_i - \hat{y}_i)^2} $$

# Métrica RMSE - Root Mean Squared Error
$$ RMSE = \sqrt{MSE} $$

# Métrica MSLE - Mean Squared Logarithmic Error
$$ MSLE = \frac{1}{n} \sum_{i=1}^{n}{(\log{(y_i + 1) - \log{(\hat{y}_i + 1)}})^2} $$

# Métrica RMSLE - Root Squared Logarithmic Error
$$ RMSLE = \sqrt{MSLE} $$

### $ SS_{res} $ é a soma dos quadrados residuais:
$$ SS_{res} = \sum_{i}{(y_i - \hat{y}_i)^2} $$

### $ SS_{tot} $ é a soma total dos quadrados da diferença em relação à média dos valores observados:
$$ SS_{tot} = \sum_{i}{(y_i - \bar{y})^2} $$

# Métrica $R^{2}$ - Coeficiente de Determinação
$$ R^2 = 1 - \frac{SS_{res}}{SS_{tot}} $$