<a href="https://colab.research.google.com/github/profkalinowski/se4ds/blob/main/12_ml_classificacao_poo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Engenharia de Software para Ciência de Dados - PUC-Rio

### Modelo de classificação simples usando POO

Marcos Kalinowski e Tatiana Escovedo

In [11]:
# Imports necessários
import pandas as pd
from sklearn.datasets import load_iris # para importar o dataset iris
from sklearn.model_selection import train_test_split # para particionar em bases de treino e teste
from sklearn.metrics import confusion_matrix # para a exibição da matriz de confusão do modelo
from sklearn.metrics import accuracy_score # para a exibição da acurácia do modelo
from sklearn.svm import SVC # para utilizar o algoritmo SVM

## Sem POO

In [14]:
## Versão estruturada

# Carga do dataset
iris = load_iris()
dataset = pd.DataFrame(iris.data, columns=iris.feature_names) # conversão para dataframe
dataset['target'] = iris.target # adição da coluna target

# Separação em bases de treino e teste
array = dataset.values
X = array[:,0:4]
Y = array[:,4]
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.20, random_state=7)

# Criação do modelo e predições
model = SVC() # cria o modelo
model.fit(X_train, Y_train) # treina o modelo com o dataset de treino
predictions = model.predict(X_test) # faz as predições com o dataset de teste

# Avaliação das predições
print(accuracy_score(Y_test, predictions)) # acurácia

0.8666666666666667


## Com POO

In [15]:
!pip install pycodestyle pycodestyle_magic
!pip install flake8
%load_ext pycodestyle_magic





In [16]:
%%pycodestyle

# Em programas mais robustos, teríamos um arquivo .py para cada classe e
# importaríamos as classes para executar o programa:
# from <nome-do-arquivo> import <nome-da-classe>

class Loader:

    def load_data(self, dataset_url: str, attributes: list):
        """ Carrega e retorna um dataset.
        Há diversos parâmetros no read_csv para dar opções adicionais.
        """
        return pd.read_csv(dataset_url, names=attributes)


class PreProcessor:

    def preprocess(self, dataset, test_size, seed=7):
        """ Cuida de todo o pré-processamento. """
        # limpeza dos dados
        # divisão em treino e teste
        X_train, X_test, Y_train, Y_test =
        self.__prepare_holdout(dataset, test_size, seed)
        # normalização/padronização
        return (X_train, X_test, Y_train, Y_test)

    def __prepare_holdout(self, dataset, test_size, seed):
        """ Divide os dados em treino e teste usando o método holdout.
        Assume que a variável target está na última coluna.
        O parâmetro test_size é o percentual de dados de teste.
        """
        array = dataset.values
        X = array[:, 0:-1]
        Y = array[:, -1]
        return train_test_split(X, Y, test_size=test_size, random_state=seed)


class MLModel:

    def trainSVM(self, X_train, Y_train):
        """ Cria e treina um modelo SVM. Poderia ter um Grid Search
        com cross_validation para escolher os melhores hiperparâmetros, etc.
        """
        model = SVC()
        model.fit(X_train, Y_train)
        return model


class MlEvaluator:

    def evaluate_accuracy(self, model, X_test, Y_test):
        """ Faz uma predição e avalia o modelo. Poderia parametrizar o tipo de
        avaliação, entre outros.
        """
        predictions = model.predict(X_test)
        return accuracy_score(Y_test, predictions)


# Este código começaria daqui, logo após os imports
# from loader import Loader
# from preprocessor import PreProcessor
# from ml_model import MLModel
# from ml_evaluator import MlEvaluator

# Instanciação das Classes
loader = Loader()
preprocessor = PreProcessor()
ml_model = MLModel()
ml_evaluator = MlEvaluator()

# Parâmetros
url_dados = ('https://archive.ics.uci.edu/'
             'ml/machine-learning-databases/iris/iris.data')
atributos = ['comprimento_sepala', 'largura_sepala',
             'comprimento_petala', 'largura_petala',
             'especie']
test_size = 0.2

# Código

# carga
dataset = loader.load_data(url_dados, atributos)
# pré-processamento
X_train, X_test, Y_train, Y_test = preprocessor.preprocess(dataset, test_size)
# treinamento do modelo
model = ml_model.trainSVM(X_train, Y_train)
# impressão do resultado da avaliação
print(ml_evaluator.evaluate_accuracy(model, X_test, Y_test))

## PyTest

In [13]:
!pip -q install pytest pytest-sugar

In [14]:
# cleanup all files
%rm *.py

In [15]:
%%file loader.py

# Imports necessários
import pandas as pd
from sklearn.datasets import load_iris # para importar o dataset iris

class Loader:

    def load_data(self, dataset_url: str, attributes: list):
        """ Carrega e retorna um dataset.
        Há diversos parâmetros no read_csv para dar opções adicionais.
        """
        return pd.read_csv(dataset_url, names=attributes)


Writing loader.py


In [16]:
%%file test_load.py

from loader import Loader
def test_load_data():
    url_dados = ('https://archive.ics.uci.edu/'
                 'ml/machine-learning-databases/iris/iris.data')
    atributos = ['comprimento_sepala', 'largura_sepala',
                 'comprimento_petala', 'largura_petala',
                 'especie']

    loader = Loader()
    dataset = loader.load_data(url_dados, atributos)
    
    assert len(dataset) == 150


Writing test_load.py


In [21]:
!python -m pytest test_load.py

[1mTest session starts (platform: linux, Python 3.7.12, pytest 3.6.4, pytest-sugar 0.9.4)[0m
rootdir: /content, inifile:
plugins: typeguard-2.7.1, sugar-0.9.4

 [36m[0mtest_load.py[0m [32m✓[0m                                                  [32m100% [0m[40m[32m█[0m[40m[32m█████████[0m

Results (1.42s):
[32m       1 passed[0m
