# Desafio Data Science Intelivix

In [185]:
# Dataset
from sklearn.datasets import load_iris

# Classificadores
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression

# Pré-processamento
# from sklearn.preprocessing import StandardScaler

# Treinamento
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV

# Métricas
from sklearn.metrics import accuracy_score, confusion_matrix

# Outros
from itertools import count

# Dataset

In [41]:
iris = load_iris()
X, y = iris.data, iris.target

# Classificadores

In [4]:
classifiers = [
    KNeighborsClassifier(),
    SVC(),
    LogisticRegression()
]

## Otimizando os parâmetros dos classificadores

In [167]:
# Definindo os valores possíveis dos hiperparâmetros
c_range = list(pow(10,n) for n in range(-4,4))
params = [
    { 'n_neighbors': list(range(1,20)), 'weights': ['uniform', 'distance'] },
    { 'kernel':('linear', 'rbf'), 'C': c_range },
    {'C': c_range }
]

# Aqui, cada classificador é testado em cross-validation pelo GridSearch.
# Os dados são divididos em 3, por padrão, e cada parâmetro é testado 3 vezes.
grids = [GridSearchCV(c, p, scoring='accuracy').fit(X, y) 
         for c, p in zip(classifiers, params)]

# Poderíamos aqui usar a propriedade 'best_estimator_' para recuperar
# os melhores classificadores em GridSearch, e ainda compará-los com a média de acertos,
# em 'best_score_'. Mas treinaremos novas instâncias para analisar as matrizes de confusão.
knn = KNeighborsClassifier(**grids[0].best_params_)
svc = SVC(**grids[1].best_params_)
lgr = LogisticRegression(**grids[2].best_params_)

classifiers = [knn, svc, lgr]
classifiers_names = ['KNN', 'SVC', 'L. Regression']

## Treinando os classificadores

In [203]:
# Dividindo as amostras em 66% treino e 34% testes
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.66, random_state=3)

predicted = []
for c, n in zip(classifiers, classifiers_names):
    c.fit(X_train, y_train)
    
    # Percentual de acertos no conjunto de testes
    predict = c.predict(X_test)
    predicted.append(predict)
    print("{0}: {1:.2%}".
          format(n, accuracy_score(y_test, predict)))

KNN: 94.12%
SVC: 96.08%
L. Regression: 92.16%


## Matrizes de confusão

In [204]:
for c, n, p, i in zip(classifiers, classifiers_names, predicted, count(1)):
    print('{0}. {1}'.format(i, n))
    print(y_test[0:15])
    print(p[0:15])
    print("Matriz de Confusão:")
    print(confusion_matrix(y_test, p))
    print()

1. KNN
[0 0 0 0 0 2 1 0 2 1 1 0 1 1 2]
[0 0 0 0 0 2 1 0 2 1 1 0 1 1 2]
Matriz de Confusão:
[[19  0  0]
 [ 0 14  3]
 [ 0  0 15]]

2. SVC
[0 0 0 0 0 2 1 0 2 1 1 0 1 1 2]
[0 0 0 0 0 2 1 0 2 1 1 0 1 1 2]
Matriz de Confusão:
[[19  0  0]
 [ 0 15  2]
 [ 0  0 15]]

3. L. Regression
[0 0 0 0 0 2 1 0 2 1 1 0 1 1 2]
[0 0 0 0 0 2 1 0 2 1 1 0 1 1 2]
Matriz de Confusão:
[[19  0  0]
 [ 0 13  4]
 [ 0  0 15]]

