<a href="https://colab.research.google.com/github/diogoferraz/ai-mba/blob/main/classification_algorithms.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Install dependency

In [None]:
!pip3 install -U ucimlrepo

Import libs

In [None]:
# Vamos começar, importando a função filterwarnings da biblioteca
# warnings. Vamos desabilitar os warnigs

import warnings
warnings.filterwarnings("ignore")

# Em seguida, vamos importar as funções necessárias para rodarmos
# os algoritmos de machine learning para os problemas de classificação.

import pandas as pd   # importando a biblioteca Pandas
import numpy as np    # importando a biblioteca NumPy
import matplotlib.pyplot as plt  # importando a biblioteca Matplotlib
from matplotlib import cm
from sklearn.model_selection import train_test_split # função que executa o split em bases de treino e teste (holdout)
from sklearn.model_selection import KFold # função que faz as divisões dos subgrupos para a validação cruzada
from sklearn.model_selection import cross_val_score # função que executa a validação cruzada
from sklearn.metrics import accuracy_score # função que faz a exibição da acurácia do modelo
from sklearn.neighbors import KNeighborsClassifier # implementa algoritmo KNN para a classificação
from sklearn.tree import DecisionTreeClassifier # implementa o algoritmo Árvore de Classificação
from sklearn.naive_bayes import GaussianNB # implementa o algoritmo Naive Bayes
from sklearn.svm import SVC # implementa o algoritmo SVM
from sklearn.linear_model import LogisticRegression # implementa o algoritmo de Regressão logística
from ucimlrepo import fetch_ucirepo # import Iris dataset



Carga do dataset (classificação)

In [None]:
# Carga do dataset
#iris = load_iris()
#dataset = pd.DataFrame(iris.data, columns=iris.feature_names) # conversão para dataframe
#dataset['target'] = iris.class # adição da coluna target

#dataset.head()

# buscando o  dataset
iris_ = fetch_ucirepo(id=53)

# dados (como dataframes do Pandas)
X = iris_.data.features
y = iris_.data.targets

# Com o dataset importado, temos acesso às informações sobre o dataset que vamos trabalhar.
# Para exemplificar, vamos utilizar um dataset simples que encontramos no site da UCI
url_dados = iris_.metadata.data_url   # contém o endereço da URL dos dados que vamos trabalhar

# Mudança dos labels dos atributos do dataset
labels_atributos = ['comprimento_sepala', 'largura_sepala', 'comprimento_petala', 'largura_petala', 'classe']

# carga do dataset através do csv retirando a linha de labels e colocando os labels definidos por nós (header = 0)
iris = pd.read_csv(url_dados, names=labels_atributos, header = 0)

#vamos verificar os tipos de cada coluna

iris.dtypes
iris.head()


Preparação dos dados

In [None]:
# Preparação dos dados

# Para executarmos os algoritmos para problemas de classificação, precisamos
# fazer a separação das bases em treino e teste (holdout)
array = iris.values

x_atr = array[:,0:4] # atributos
y_cls = array[:,4] # classe (target)

x_train, x_test, y_train, y_test = train_test_split(x_atr, y_cls, test_size=0.20, random_state=7) # fazemos a divisão 20% para teste
# e 80% para treino

In [None]:
kfold = KFold(n_splits=3, shuffle=True, random_state=7) # faz o particionamento em 3

In [None]:
# Modelagem

# Vamos definir uma raíz aleatória que vamos usar nos algoritmos.
np.random.seed(7)

# Listas para armazenar os modelos, os resultados e os nomes dos modelos
modelos = []
resultados = []
nomes = []

# Vamos popular a lista dos modelos
modelos.append(('KNN', KNeighborsClassifier()))   # algoritmo KNN
modelos.append(('CART', DecisionTreeClassifier())) # algoritmo árvore de decisão
modelos.append(('NB', GaussianNB()))               # algoritmo Naive Bayes
modelos.append(('SVM', SVC()))             # algoritmo Support Vector Machine
modelos.append(('RLOG', LogisticRegression())) # algoritmo de Regressão Logística

Execução dos modelos (classificação)

In [None]:
for nome, modelo in modelos:
  resultados_cv = cross_val_score(modelo, x_train, y_train, cv=kfold, scoring='accuracy') # estamos buscando a acurácia

  resultados.append(resultados_cv)
  nomes.append(nome)
  msg = "%s: %f (%f)" % (nome, resultados_cv.mean(), resultados_cv.std()) # média e desvio padrão dos 3 resultados da validação cruzada

  print(msg)

KNN: 0.975000 (0.020412)
CART: 0.966667 (0.011785)
NB: 0.975000 (0.020412)
SVM: 0.991667 (0.011785)
RLOG: 0.975000 (0.020412)


Dentro dos parâmetros utilizados, o SVM foi o que apresentou o melhor resultado, como será que o SVM performa se o treinarmos com a base completa de treino?

In [None]:
# Criando um modelo com todo o conjunto de treino
modelo = SVC()
modelo.fit(x_train, y_train)
# Fazendo as predições com o conjunto de teste
predic = modelo.predict(x_test)
# Estimando a acurácia no conjunto de teste
print(accuracy_score(y_test, predic))

0.8666666666666667
