## Orientações - Prof. Louzada

1. Uma questão terá como foco as disciplinas “Introdução a Ciências de Dados” e “Aprendizado de Máquina”. Essa questão é dissertativa e dividida em itens. O objetivo consiste em avaliar se o significado dos termos overfitting e underfitting foram compreendidos. Não será necessário descrever esses termos em detalhes. Espera-se uma descriçãointuitiva sobre o que esses conceitos querem dizer e quando eles ocorrem. Também se espera que sejam apresentadosalguns exemplos. No último item da questão, deve ser descrito ao menos um método para tratar o problema de desbalanceamento nos dados.

## Verificar Aula 02 - INTRODUCAO CIENCIA DE DADOS

<img src="img/slide-overfit.JPG" alt="title"> 
<img src="img/slide-overfit-2.JPG" alt="title"> 

#### Overfitting:

É um termo usado em estatística para descrever quando um modelo estatístico se ajusta muito bem ao conjunto de dados anteriormente observado, mas se mostra ineficaz para prever novos resultados. 
É comum que a amostra apresente desvios causados por erros de medição ou fatores aleatórios. Ocorre o overfitting (sobre-ajuste) quando o modelo se ajusta a estes. Um modelo sobre-ajustado apresenta alta precisão quando testado com seu conjunto de dados, porém tal modelo não é uma boa representação da realidade e por isso deve ser evitado.
Uma ferramenta para contornar o problema do sobre-ajuste é a regularização, que adiciona à função custo o valor dos parâmetros. Tal adição resulta na eliminação de parâmetros de pouca importância e, portanto, em um modelo mais convexo, do qual que se espera que seja mais representativo da realidade.

<img src="img/Overfitting.gif" alt="title" width="300" height="200">
   
   Sistema de predição em que a linha verde representa um modelo sobreajustado e a linha preta um modelo regularizado.
   

#### Regularização:
Nos modelos de regressão pode ocorrer o problema de overfitting. 

<img src="img/overfitting.gif" width="500" height="300">

A regularização é uma maneira de evitar isso. E uma das mais conhecidas é o método de ridge regression ou Tikhonov regularization e outro método bastante conhecido é o LASSO.

##### Ridge Regression (Tikhonov regularization):
A regressão de Ridge é uma técnica para analisar vários dados de regressão que sofrem de multicolinearidade. Quando ocorre multicolinearidade, as estimativas de mínimos quadrados são imparciais, mas suas variações são grandes e podem estar longe deo verdadeiro valor. Ao adicionar um grau de viés às estimativas de regressão, a regressão de crista reduz os erros padrão.

<img src="img/ridge-regression.gif" width="600" height="500">

In [1]:
#bibliotecas
from sklearn.linear_model import Ridge, RidgeCV
from sklearn.metrics import mean_squared_error

#criando modelo ridge regression
ridge2 = Ridge(alpha = 0, normalize = True)
#ajustando
ridge2.fit(x_train, y_train)
#predizendo
y_pred = ridge2.predict(x_test)
#avaliando com RSME
RSME = mean_squared_error(y_test, y_pred)
print("RSME:", RSME)          # Calculate the test MSE

#DICA:
#lendo dados:
data = pd.read_csv('data/Advertising.csv', header=(0))
#converter o dataframe para numpy para melhor manipular os dados
data = data.to_numpy()
nrow,ncol = data.shape
X = data[:,0:ncol-1]
y = data[:,-1]

#OBS: Maiores detalhes Aula 05 - ICD

##### LASSO (Least Absolute Shrinkage and Selection Operator):
Em estatística e aprendizado de máquina , o lasso ( operador de contração e seleção menos absoluto ; também Lasso ou LASSO) é um método de análise de regressão que executa a seleção de variáveis e a regularização , a fim de aprimorar a precisão das previsões e a interpretabilidade do modelo estatístico que produz. 

Enquanto ridge regression mantém os valores dos parâmetros pequenos, LASSO tende a selecionar alguns valores para serem diferentes de zero, enquanto que outros são exatamente iguais a zero. Assim, LASSO pode ser usado para selecionar atributos.

<img src="img/ridge-vs-lasso.gif" width="500" height="300"> 

In [None]:
#bibliotecas
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

#criando modelo LASSO
lasso = Lasso(alpha=0.1,normalize=True, max_iter=1e5)
#ajustando
lasso.fit(x_train, y_train)
#predizendo
y_pred = lasso.predict(x_test)
#avaliando com RSME
RSME = mean_squared_error(y_test, y_pred)
print('RSME:', RSME)
#avaliando com R2 (MSE)
R2 = r2_score(y_test, y_pred)
print("R2:", R2)

#DICA:

#PLOT:
import matplotlib.pyplot as plt

fig = plt.figure()
l = plt.plot(y_pred, y_test, 'bo')
plt.setp(l, markersize=10)
plt.setp(l, markerfacecolor='C0')
plt.ylabel("Y", fontsize=15)
plt.xlabel("Prediction", fontsize=15)
xl = np.arange(min(y_test), 1.2*max(y_test),(max(y_test)-min(y_test))/10)
yl = xl
plt.plot(xl, yl, 'r--')
plt.show(True)

In [None]:
#material para consultar:
-> Aula 02 - ICD

## Verificar Aula 02 - Técnicas Avançadas de Ciencia de Dados

#### SMOTE(Synthetic Minority Oversampling Technique)

 Existem vários métodos disponíveis para superamostrar um conjunto de dados usado em um problema de classificação típico desbalanceado. A técnica mais comum é conhecida como SMOTE: Synthetic Minority Over-sampling Technique. 
 Para ilustrar como essa técnica funciona, considere alguns dados de treinamento que possuem s amostras e f recursos no espaço de recursos dos dados. Observe que esses recursos, para simplificar, são contínuos. Como exemplo, considere um conjunto de dados de pássaros para classificação. O espaço de recursos para a classe minoritária para a qual queremos sobreamostrar pode ser o comprimento do bico, a envergadura e o peso (todos contínuos). Para então sobreamostrar, pegue uma amostra do conjunto de dados e considere seus k vizinhos mais próximos (no espaço de recursos). Para criar um ponto de dados sintético, pegue o vetor entre um desses k vizinhos e o ponto de dados atual. Multiplique esse vetor por um número aleatório x que fica entre 0 e 1. Adicione isso ao ponto de dados atual para criar o novo ponto de dados sintético.

In [None]:
#bibliotecas para uso do SMOTE (técnica para tratar o balanceamento de dados):
from imblearn import over_sampling 
from imblearn import under_sampling

#aplicando técnicas de SMOTE para verificar uma estratégia melhor de balanceamento para validar os modelos

#Over Sampling
oversamp = over_sampling.SMOTE() # sampling_strategy pode ser usado para casos binários
Xo, Yo = oversamp.fit_resample(x_train_map, y_train_map)

plt.figure(figsize=(16,5))
h = plt.hist(Yo)

#Under Sampling
undersamp = under_sampling.RandomUnderSampler()
Xu, Yu = undersamp.fit_resample(x_train_map, y_train_map)

plt.figure(figsize=(16,5))
h = plt.hist(Yu)

#Over Under Sampling (estratégia mista - combinado)
overunder = combine.SMOTEENN(sampling_strategy='all')
Xc, Yc = overunder.fit_resample(x_train_map, y_train_map)

plt.figure(figsize=(16,5))
h = plt.hist(Yc)

#Dica:
#avaliando qual a melhor estratégia de SMOTE
clf_ov = SVC(gamma='auto')
clf_ov.fit(Xo,Yo)
ZYov_ = clf_ov.predict(x_test_map)

clf_un = SVC(gamma='auto')
clf_un.fit(Xu,Yu)
ZYun_ = clf_un.predict(x_test_map)

clf_co = SVC(gamma='auto')
clf_co.fit(Xc,Yc)
ZYco_ = clf_co.predict(x_test_map)
#Plotar matriz confusão para verificar de cada modelo após aplicação do SMOTE:
disp = plot_confusion_matrix(clf_ov, x_test_map, y_test_map,
                                 cmap=plt.cm.Blues,
                                 normalize='true')

disp = plot_confusion_matrix(clf_un, x_test_map, y_test_map,
                                 cmap=plt.cm.Blues,
                                 normalize='true')

disp = plot_confusion_matrix(clf_co, x_test_map, y_test_map,
                                 cmap=plt.cm.Blues,
                                 normalize='true')

In [None]:
#material para consultar:
-> Aula 02 - TACTD
-> TACTD 02-4 - Tratamento dados desbalanceados

## Verificar Aula 02 - Aprendizado de Máquina

In [None]:
#material para consultar:
-> Prova de AM
-> Aula 02 - AM
-> under_oversampling