# **Regressão Linear**
1.  Selecionar dataset.
2.	Obter informações sobre números de features e instâncias dos datasets. 
3.	Identificar a existência de dados faltantes nos datasets.
4.	Separar os conjuntos de treino e teste, usando a função train_test_slipt, com test_size = 0.35.
5.	Importar o sklearn para:
6.	Aplicar à base de regressão o modelo de regressão linear.
7.	Avaliar as métricas R2, MAE e MSE


In [None]:
# Link da base de dados https://scikit-learn.org/stable/datasets/toy_dataset.html#boston-dataset  
from sklearn.datasets import load_boston 
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression 
from sklearn import metrics
import numpy as np
import pandas as pd

In [None]:
# carrega os dados 
boston = load_boston()
dfx = pd.DataFrame(boston.data, columns = boston.feature_names)
dfy = pd.DataFrame(boston.target, columns = ['target'])
dfcombine = dfx.join(dfy)
dfcombine.describe()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,target
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677083,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


In [None]:
print('Amostras e Features:', dfcombine.shape, '. Conforme documentação, não há dados faltantes.')

Amostras e Features: (506, 14) . Conforme documentação, não há dados faltantes.


In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.35, random_state=42)
X = house_data['data']
y = house_data['target']

regression = LinearRegression()
regression.fit(X_train, y_train)
prediction = regression.predict(X_test)

p = pd.DataFrame({'Real': y_test, 'Previsto': prediction})  
p.head(10)

Unnamed: 0,Real,Previsto
0,23.6,28.609523
1,32.4,36.856268
2,13.6,15.388769
3,22.8,25.644527
4,16.1,18.724063
5,20.0,23.026495
6,17.8,17.22869
7,14.0,14.039718
8,19.6,22.906703
9,16.8,20.690419


In [None]:
print('R2:', metrics.r2_score(y_test, prediction)) 
print('MSE:', metrics.mean_squared_error(y_test, prediction))  
print('RMSE:', np.sqrt(metrics.mean_squared_error(y_test, prediction))) 
print('MAE:', metrics.mean_absolute_error(y_test, prediction))

R2: 0.7204251482114891
MSE: 20.746063208165175
RMSE: 4.5547846500317855
MAE: 3.1896138503096023


### **Observações**
O R-quadrado está sempre entre 0 e 100%:

0% indica que o modelo não explica nada da variabilidade dos dados de resposta ao redor de sua média.
100% indica que o modelo explica toda a variabilidade dos dados de resposta ao redor de sua média.
Em geral, quanto maior o R-quadrado, melhor o modelo se ajusta aos seus dados. Neste caso 72% ficou um valor aceitável, mas longe do ideal. Já o MSE, dá um maior peso aos maiores erros, já que, ao ser calculado, cada erro é elevado ao quadrado individualmente e, após isso, a média desses erros quadráticos é calculada. Como ficou perto de 20%, ficou também um valor aceitavél mas poderia ficar mais próximo de 0.
Por fim o MAE, ficou 3,18 e considero um valor para métrica, sendo que o ideal seria o mais próximo e 0 possível.


# **Classificação**
1.	Aplicar à base classificação o modelo SVC, com kernel = rbf.
2.	Avaliar as métricas Acurácia, Precision, Recall, F1 e AUROC.


In [None]:
from sklearn import datasets
from sklearn import svm
from sklearn import metrics
from sklearn.preprocessing import label_binarize

X, y = datasets.load_iris(return_X_y=True)
X.shape, y.shape

((150, 4), (150,))

In [None]:
X_train_iris, X_test_iris, y_train_iris, y_test_iris = train_test_split(X, y, test_size=0.35, random_state=0)

# instanciacao e determinacao dos hiperparâmetros do SVM: tipo de kernel
classifier = SVC(kernel='rbf')

# treinando o SVM
classifier.fit(X_train_iris,y_train_iris)

SVC(C=1.0, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='scale', kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

In [None]:
predictions_svc = classifier.predict(X_test_iris)

# Exibindo dataframe com valores 10 reais e suas respectivas previsões
p = pd.DataFrame({'Real': y_test_iris, 'Previsto': predictions_svc})
p.head(10)

Unnamed: 0,Real,Previsto
0,2,2
1,1,1
2,0,0
3,2,2
4,0,0
5,2,2
6,0,0
7,1,1
8,1,1
9,1,1


In [None]:
print('Matriz de Confusão\n', metrics.confusion_matrix(y_test_iris, predictions_svc)) 
print('\nAcurácia\n', metrics.accuracy_score(y_test_iris, predictions_svc)) 
print('\nAcurácia Balanceada por classe\n', metrics.balanced_accuracy_score(y_test_iris, predictions_svc)) 
print('\nPrecision\n', metrics.precision_score(y_test_iris, predictions_svc, average='micro')) 
print('\nRecall\n', metrics.recall_score(y_test_iris, predictions_svc, average='micro')) 
print('\nF1\n', metrics.f1_score(y_test_iris, predictions_svc, average='micro')) 
#print('\nAUCROC\n', metrics.roc_auc_score(y_test_iris, predictions_svc, average='micro', multi_class='ovo'))

Matriz de Confusão
 [[16  0  0]
 [ 0 20  1]
 [ 0  0 16]]

Acurácia
 0.9811320754716981

Acurácia Balanceada por classe
 0.9841269841269842

Precision
 0.9811320754716981

Recall
 0.9811320754716981

F1
 0.9811320754716981


AxisError: ignored

### **Observações**
Como um todo, as métricas obtidas foram consideras ótimas, mas alguns pontos tem que ser levados em consideração: A amostra é pequena(apenas 150 instancias) e ela possui apenas 3 classes. Esse dataset, é perfeitamente balaceado, já que há 50 instancias para cada uma das classes. 
OBS: Não foi possível executar o AUCROC. Foi realizado algumas tentativas de contorno, mas sem sucesso.


# **Clusterização**
1.	Identificar o número de clusters mais adequado de acordo com o dataset.
2.	 Avaliar as métricas Coeficiente de Silhueta, Davies-Bouldin Score e Mutual Information. 


In [None]:
from sklearn.cluster import KMeans

clustering = KMeans(n_clusters = 3, random_state = 42)
clustering.fit(X_train_iris);
predictions_kmeans = clustering.predict(X_test_iris)

In [None]:
#train_data, test_data, train_labels, test_labels = train_test_split(data, labels, test_size = 0.25, random_state = 42)
#X_train,    X_test,    y_train,      y_test = train_test_split(X, y, test_size=0.35, random_state=42)

print('Coeficiente de Silhueta\n', metrics.silhouette_score(X_test_iris, predictions_kmeans)) 
print('\nDavies-Bouldin Score\n', metrics.davies_bouldin_score(X_test_iris, predictions_kmeans)) 

print('\nMatriz de Contingência\n', metrics.cluster.contingency_matrix(y_test_iris, predictions_kmeans)) 
print('\nMutual information\n', metrics.mutual_info_score(y_test_iris, predictions_kmeans)) 

Coeficiente de Silhueta
 0.5242009305875888

Davies-Bouldin Score
 0.6697035172939954

Matriz de Contingência
 [[16  0  0]
 [ 0  0 21]
 [ 0 11  5]]

Mutual information
 0.8497983373622913


### **Observações**

O Coeficiente de Silhueta quanto mais perto de 1 melhor, já que varia de -1 a 1. O valor obtido 0.52 pode ser considerado bom. Já o indice Davies-Bouldin Score que indica que zero é a pontuação mais baixa possível e valores próximos de zero indicam uma partição melhor, não foi considerado um valor aceitável pois não ficou tão próximo de 0.