## Engenharia de Sistemas de Software Inteligentes - Profs. Marcos Kalinowski e Tatiana Escovedo

## Aula 03: Modelo de classificação simples usando POO

In [None]:
# Imports necessários
import pandas as pd
from sklearn.datasets import load_iris # para importar o dataset iris
from sklearn.model_selection import train_test_split # para particionar em bases de treino e teste
from sklearn.metrics import confusion_matrix # para a exibição da matriz de confusão do modelo
from sklearn.metrics import accuracy_score # para a exibição da acurácia do modelo
from sklearn.svm import SVC # para utilizar o algoritmo SVM


## Sem POO

In [None]:
# Versão estruturada

# Carga do dataset
iris = load_iris()
# conversão para dataframe
dataset = pd.DataFrame(iris.data, columns=iris.feature_names)
dataset['target'] = iris.target  # adição da coluna target

# Separação em bases de treino e teste
array = dataset.values
X = array[:, 0:4]
Y = array[:, 4]
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.20,
                                                    random_state=7)

# Criação do modelo e predições
model = SVC()  # cria o modelo
model.fit(X_train, Y_train)  # treina o modelo com o dataset de treino
predictions = model.predict(X_test)  # faz as predições com o dataset de teste

# Avaliação das predições
print(accuracy_score(Y_test, predictions))  # acurácia

0.8666666666666667


## Com POO

In [None]:
# Em programas mais robustos, teríamos um arquivo .py para cada classe e
# importaríamos as classes para executar o programa:
# from <nome-do-arquivo> import <nome-da-classe>

class Carregador:

    def carregar_dados(self, url: str, atributos: list):
        """ Carrega e retorna um DataFrame. Há diversos parâmetros
        no read_csv que poderiam ser utilizados para dar opções
        adicionais.
        """
        return pd.read_csv(url, names=atributos)


class PreProcessador:

    def pre_processar(self, dataset, percentual_teste, seed=7):
        """ Cuida de todo o pré-processamento. """
        # limpeza dos dados e eliminação de outliers

        # feature selection

        # divisão em treino e teste
        X_train, X_test, Y_train, Y_test = self.__preparar_holdout(dataset,
                                                                  percentual_teste,
                                                                  seed)
        # normalização/padronização

        return (X_train, X_test, Y_train, Y_test)

    def __preparar_holdout(self, dataset, percentual_teste, seed):
        """ Divide os dados em treino e teste usando o método holdout.
        Assume que a variável target está na última coluna.
        O parâmetro test_size é o percentual de dados de teste.
        """
        dados = dataset.values
        X = dados[:, 0:-1]
        Y = dados[:, -1]
        return train_test_split(X, Y, test_size=percentual_teste, random_state=seed)


class Modelo:

    def treinar_SVM(self, X_train, Y_train):
        """ Cria e treina um modelo SVM. Poderia ter um Grid Search
        com cross_validation para escolher os melhores hiperparâmetros, etc.
        """
        modelo = SVC()
        modelo.fit(X_train, Y_train)
        return modelo


class Avaliador:

    def avaliar_acuracia(self, modelo, X_test, Y_test):
        """ Faz uma predição e avalia o modelo. Poderia parametrizar o tipo de
        avaliação, entre outros.
        """
        predicoes = modelo.predict(X_test)
        return accuracy_score(Y_test, predicoes)


# Este código começaria daqui, logo após os imports
# from loader import Loader
# from preprocessor import PreProcessor
# from ml_model import MLModel
# from ml_evaluator import MlEvaluator

# Instanciação das Classes
carregador = Carregador()
pre_processador = PreProcessador()
modelo = Modelo()
avaliador = Avaliador()

# Parâmetros
url_dados = ('https://archive.ics.uci.edu/'
             'ml/machine-learning-databases/iris/iris.data')
atributos = ['comprimento_sepala', 'largura_sepala',
             'comprimento_petala', 'largura_petala',
             'especie']
percentual_teste = 0.2

# Código

# Carga
dataset = carregador.carregar_dados(url_dados, atributos)
# Pré-processamento
X_train, X_test, Y_train, Y_test = pre_processador.pre_processar(dataset,
                                                               percentual_teste)
# Treinamento do modelo
model = modelo.treinar_SVM(X_train, Y_train)
# Impressão do resultado da avaliação
print(avaliador.avaliar_acuracia(model, X_test, Y_test))

0.8666666666666667
