<a href="https://colab.research.google.com/github/alMayrink/PUC-Engenharia-Software/blob/main/C%C3%B3pia_de_13_ml_classificacao_poo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Engenharia de Software para Ciência de Dados - PUC-Rio

### Modelo de classificação simples usando POO

Marcos Kalinowski e Tatiana Escovedo

In [None]:
# Imports necessários
import pandas as pd
from sklearn.datasets import load_iris # para importar o dataset iris
from sklearn.model_selection import train_test_split # para particionar em bases de treino e teste
from sklearn.metrics import confusion_matrix # para a exibição da matriz de confusão do modelo
from sklearn.metrics import accuracy_score # para a exibição da acurácia do modelo
from sklearn.svm import SVC # para utilizar o algoritmo SVM
from abc import ABC
from abc import abstractmethod



## Sem POO

In [None]:
# Versão estruturada

# Carga do dataset
iris = load_iris()
# conversão para dataframe
dataset = pd.DataFrame(iris.data, columns=iris.feature_names)
dataset['target'] = iris.target  # adição da coluna target

# Separação em bases de treino e teste
array = dataset.values
X = array[:, 0:4]
Y = array[:, 4]
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.20,
                                                    random_state=7)

# Criação do modelo e predições
model = SVC()  # cria o modelo
model.fit(X_train, Y_train)  # treina o modelo com o dataset de treino
predictions = model.predict(X_test)  # faz as predições com o dataset de teste

# Avaliação das predições
print(accuracy_score(Y_test, predictions))  # acurácia

0.8666666666666667


## Com POO

In [None]:
!pip install pycodestyle pycodestyle_magic #não tem nada haver com SOLID.É para analisar o código
!pip install flake8
%load_ext pycodestyle_magic

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pycodestyle
  Downloading pycodestyle-2.9.1-py2.py3-none-any.whl (41 kB)
[K     |████████████████████████████████| 41 kB 341 kB/s 
[?25hCollecting pycodestyle_magic
  Downloading pycodestyle_magic-0.5-py2.py3-none-any.whl (9.5 kB)
Installing collected packages: pycodestyle-magic, pycodestyle
Successfully installed pycodestyle-2.9.1 pycodestyle-magic-0.5
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting flake8
  Downloading flake8-5.0.4-py2.py3-none-any.whl (61 kB)
[K     |████████████████████████████████| 61 kB 425 kB/s 
[?25hCollecting mccabe<0.8.0,>=0.7.0
  Downloading mccabe-0.7.0-py2.py3-none-any.whl (7.3 kB)
Collecting importlib-metadata<4.3,>=1.1.0
  Downloading importlib_metadata-4.2.0-py3-none-any.whl (16 kB)
Collecting pyflakes<2.6.0,>=2.5.0
  Downloading pyflakes-2.5.0-py2.py3-none-any.whl (66 kB)
[K    

In [None]:
%%pycodestyle #para analisar a qualidade do código

# Em programas mais robustos, teríamos um arquivo .py para cada classe e
# importaríamos as classes para executar o programa:
# from <nome-do-arquivo> import <nome-da-classe>

class Carregador:

    def carregar_dados(self, url: str, atributos: list):
        """ Carrega e retorna um DataFrame. Há diversos parâmetros 
        no read_csv que poderiam ser utilizados para dar opções 
        adicionais.
        """
        return pd.read_csv(url, names=atributos)


class PreProcessador:

    def pre_processar(self, dataset, percentual_teste, seed=7):
        """ Cuida de todo o pré-processamento. """
        # limpeza dos dados e eliminação de outliers

        # feature selection

        # divisão em treino e teste
        X_train, X_test, Y_train, Y_test = self.__preparar_holdout(dataset,
                                                                  percentual_teste,
                                                                  seed)
        # normalização/padronização
        
        return (X_train, X_test, Y_train, Y_test)

    def __preparar_holdout(self, dataset, percentual_teste, seed):
        """ Divide os dados em treino e teste usando o método holdout.
        Assume que a variável target está na última coluna.
        O parâmetro test_size é o percentual de dados de teste.
        """
        dados = dataset.values
        X = dados[:, 0:-1]
        Y = dados[:, -1]
        return train_test_split(X, Y, test_size=percentual_teste, random_state=seed)


class Modelo:

    def treinar_SVM(self, X_train, Y_train):
        """ Cria e treina um modelo SVM. Poderia ter um Grid Search
        com cross_validation para escolher os melhores hiperparâmetros, etc.
        """
        modelo = SVC()
        modelo.fit(X_train, Y_train)
        return modelo


class Avaliador:

    def avaliar_acuracia(self, modelo, X_test, Y_test):
        """ Faz uma predição e avalia o modelo. Poderia parametrizar o tipo de
        avaliação, entre outros.
        """
        predicoes = modelo.predict(X_test)
        return accuracy_score(Y_test, predicoes)


# Este código começaria daqui, logo após os imports
# from loader import Loader #Se tivesse criado arquivos .py com o código
# from preprocessor import PreProcessor
# from ml_model import MLModel
# from ml_evaluator import MlEvaluator # Nesse caso as classes estão escritas
                                       # acima"""

# Instanciação das Classes
carregador = Carregador()
pre_processador = PreProcessador()
modelo = Modelo()
avaliador = Avaliador()

# Parâmetros
url_dados = ('https://archive.ics.uci.edu/'
             'ml/machine-learning-databases/iris/iris.data')
atributos = ['comprimento_sepala', 'largura_sepala',
             'comprimento_petala', 'largura_petala',
             'especie']
percentual_teste = 0.2

# Código

# Carga
dataset = carregador.carregar_dados(url_dados, atributos)
# Pré-processamento
X_train, X_test, Y_train, Y_test = pre_processador.pre_processar(dataset, 
                                                               percentual_teste)
# Treinamento do modelo
model = modelo.treinar_SVM(X_train, Y_train)
# Impressão do resultado da avaliação
print(avaliador.avaliar_acuracia(model, X_test, Y_test))

0.8666666666666667


## PyTest

In [None]:
!pip -q install pytest pytest-sugar

In [None]:
# cleanup all files
%rm *.py

rm: cannot remove '*.py': No such file or directory


In [None]:
%%file loader.py #cria um arquivo com o codigo da classe Loader e grava no notebook

# Imports necessários
import pandas as pd
from sklearn.datasets import load_iris # para importar o dataset iris

class Loader:

    def load_data(self, dataset_url: str, attributes: list):
        """ Carrega e retorna um dataset.
        Há diversos parâmetros no read_csv para dar opções adicionais.
        """
        return pd.read_csv(dataset_url, names=attributes)


Writing loader.py


In [None]:
%%file test_load.py

from loader import Loader

def test_load_data():
    url_dados = ('https://archive.ics.uci.edu/'
                 'ml/machine-learning-databases/iris/iris.data')
    atributos = ['comprimento_sepala', 'largura_sepala',
                 'comprimento_petala', 'largura_petala',
                 'especie']

    loader = Loader()
    dataset = loader.load_data(url_dados, atributos)
    
    assert len(dataset) == 150


Writing test_load.py


In [None]:
!python -m pytest test_load.py

[1mTest session starts (platform: linux, Python 3.7.15, pytest 3.6.4, pytest-sugar 0.9.6)[0m
rootdir: /content, inifile:
plugins: typeguard-2.7.1, sugar-0.9.6

 [36m[0mtest_load.py[0m [32m✓[0m                                                  [32m100% [0m[40m[32m█[0m[40m[32m█████████[0m

Results (0.98s):
[32m       1 passed[0m
