<a href="https://colab.research.google.com/github/alMayrink/PUC-Engenharia-Software/blob/main/%C3%A1lvaro_mayrink_trabalho_final_engenharia_de_software_para_ci%C3%AAncia_de_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Trabalho Final - Engenharia de Software para Ciência de Dados - PUC-Rio

### Comparação de Modelos de Machine Learning de Classificação (ou Regressão) Utilizando Boas Práticas de Engenharia de Software

Álvaro Mayrink

# **1 - Definição do Problema**


O problema é prever o método contraceptivo escolhido por uma mulher (nenhum método, método de longo prazo ou método de curto prazo), baseado na suas características demográficas e sócio-econômicas.

O Data Set a ser usado para esse trabalho será o 
Contraceptive Method Choice Data Set, disponível em 
https://archive.ics.uci.edu/ml/datasets/Contraceptive+Method+Choice. 

Este data set é um subset da pesquisa Nacional da Indonésia, de 1987, para mapeamento da prevalência de método contraceptivo adotado. As amostras são de mulheres casadas as quais estavam ou não grávidas, ou não sabiam se estavam, no momento em que foram entrevistadas. 

Informações dos Atributos:

1. Idade (numerico)
2. Nível de educação (categorica) 1=baixa, 2, 3, 4=alta
3. Níve de educação do marido (categorica) 1=baixa, 2, 3, 4=alta
4. Quantidade de filhos nascidos (numerico)
5. Religião da mulher (binário) 0=Não muçulmana, 1=Muçulmana
6. Está trabalhando ? (binário) 0=Sim, 1=Não
7. Ocupação do marido (categorica) 1=baixa, 2, 3, 4=alta
8. Nível do padrão de vida (categorica) 1=baixo, 2, 3, 4=alto
9. Acesso à informação (binary) 0=Bom, 1=Não bom
10. Metódo contraceptivo usado (atributo classe) 1=Não usa, 2=Longa duração, 3=Curta duração

Obs: Não existem missing values na base de dados



# **2 - Importar Bibliotecas e Classes Necessárias**

In [None]:
# Imports necessários

import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as ms # para tratamento de missings
from matplotlib import cm
from pandas import set_option
from pandas.plotting import scatter_matrix
from sklearn.preprocessing import StandardScaler # para padronização
from sklearn.preprocessing import MinMaxScaler # para normalização
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import ExtraTreesClassifier
from abc import abstractmethod
from abc import ABC

In [None]:
!pip install pycodestyle pycodestyle_magic #não tem nada haver com SOLID.É para analisar o código
!pip install flake8
%load_ext pycodestyle_magic

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pycodestyle
  Downloading pycodestyle-2.9.1-py2.py3-none-any.whl (41 kB)
[K     |████████████████████████████████| 41 kB 388 kB/s 
[?25hCollecting pycodestyle_magic
  Downloading pycodestyle_magic-0.5-py2.py3-none-any.whl (9.5 kB)
Installing collected packages: pycodestyle-magic, pycodestyle
Successfully installed pycodestyle-2.9.1 pycodestyle-magic-0.5
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting flake8
  Downloading flake8-5.0.4-py2.py3-none-any.whl (61 kB)
[K     |████████████████████████████████| 61 kB 454 kB/s 
[?25hCollecting pyflakes<2.6.0,>=2.5.0
  Downloading pyflakes-2.5.0-py2.py3-none-any.whl (66 kB)
[K     |████████████████████████████████| 66 kB 4.1 MB/s 
[?25hCollecting mccabe<0.8.0,>=0.7.0
  Downloading mccabe-0.7.0-py2.py3-none-any.whl (7.3 kB)
Collecting importlib-metadata<4.3,>=1.1.0
  Down

# **3 - Definir Classes**

In [None]:
# %%pycodestyle #caso queira analisar a qualidade do código


class Carregador:

    def carregar_dados(self, url: str, atributos: list):
        """ Carrega e retorna um DataFrame. Há diversos parâmetros 
        no read_csv que poderiam ser utilizados para dar opções 
        adicionais.
        """
        return pd.read_csv(url, names=atributos)


class PreProcessador:

    def pre_processar(self, dataset, percentual_teste, seed=7):
        """ Cuida de todo o pré-processamento. """
        # limpeza dos dados e eliminação de outliers

        # feature selection

        # divisão em treino e teste
        X_train, X_test, Y_train, Y_test = self.__preparar_holdout(dataset,
                                           percentual_teste, seed)
        # normalização/padronização
        
        return (X_train, X_test, Y_train, Y_test)

    def __preparar_holdout(self, dataset, percentual_teste, seed):
        """ Divide os dados em treino e teste usando o método holdout.
        Assume que a variável target está na última coluna.
        O parâmetro test_size é o percentual de dados de teste.
        """
        dados = dataset.values
        X = dados[:, 0:9]
        Y = dados[:, 9]
        return train_test_split(X, Y, test_size=percentual_teste, 
                                random_state=seed)


class Modelo:

    def treinar_SVM(self, X_train, Y_train):
        """ Cria e treina um modelo SVM. Poderia ter um Grid Search
        com cross_validation para escolher os melhores hiperparâmetros, etc.
        """
        modelo = SVC()
        modelo.fit(X_train, Y_train)
        return modelo


class Avaliador:

    def avaliar_acuracia(self, modelo, X_test, Y_test):
        """ Faz uma predição e avalia o modelo. Poderia parametrizar o tipo de
        avaliação, entre outros.
        """
        predicoes = modelo.predict(X_test)
        return accuracy_score(Y_test, predicoes)





# **4 - Instanciar as Classes**

In [None]:
carregador = Carregador()
pre_processador = PreProcessador()
modelo = Modelo()
avaliador = Avaliador()

# **5 - Carga dos Dados**

In [19]:
import warnings
warnings.filterwarnings("ignore")
url_dados = ('https://archive.ics.uci.edu/ml/machine-learning-databases/cmc/cmc.data')
atributos = ['Idade', 'Nivel_Educação', 'Nível Educação_Marido', 'Filhos',
             'Indica_Muçulmana?', 'Trabalhando?', 'Ocupação_Marido',
             'Padrão_de_Vida', 'Acesso_à_Informação', 'Método_Contraceptivo']
percentual_teste = 0.2
dataset = carregador.carregar_dados(url_dados, atributos)

## **5.1 Análise dos dados**

### **5.1.1 Estatísticas Descritivas**



In [None]:
# mostrar dimensões do dataset
print(dataset.shape)

In [None]:
# mostrar as 20 primeiras tuplas
dataset.head(20)

In [None]:
# mostrar as 20 últimas tuplas
dataset.tail(20)

In [None]:
# mostrar as informações do dataset
print(dataset.info())

In [None]:
# mostrar resumo estatístico
dataset.describe()

In [24]:
# mostrar distribuição das classes
print(dataset.groupby('Método_Contraceptivo').size())

Método_Contraceptivo
1    629
2    333
3    511
dtype: int64


### **5.1.2 - Visualizações Unimodais e Multimodais**

In [None]:
# Histograma
dataset.hist(figsize = (10,15))
plt.show()

In [None]:
# Boxplot
dataset.plot(kind = 'box', subplots = True, layout = (3,4), sharex = False, sharey = False, figsize = (15,10))
plt.show()

In [None]:
# Matriz de Correlação com Matplotlib Seaborn
sns.heatmap(dataset.corr(), annot=True, cmap='RdBu');

# **6 - Pré-Processamento de Dados**

In [None]:
# Separar em conjuntos de treino e teste
array = dataset.values
X = array[:,0:9].astype(float)
Y = array[:,9]
test_size = 0.30
seed = 7
X_train, X_test, Y_train, Y_test = train_test_split(X, Y,
    test_size=test_size, random_state=seed)

In [None]:
# Treinamento do modelo
#model = modelo.treinar_SVM(X_train, Y_train)
# Impressão do resultado da avaliação
#print(avaliador.avaliar_acuracia(model, X_test, Y_test))

## PyTest

In [None]:
!pip -q install pytest pytest-sugar

In [None]:
# cleanup all files
%rm *.py

rm: cannot remove '*.py': No such file or directory


In [None]:
%%file loader.py #cria um arquivo com o codigo da classe Loader e grava no notebook

# Imports necessários
import pandas as pd
from sklearn.datasets import load_iris # para importar o dataset iris

class Loader:

    def load_data(self, dataset_url: str, attributes: list):
        """ Carrega e retorna um dataset.
        Há diversos parâmetros no read_csv para dar opções adicionais.
        """
        return pd.read_csv(dataset_url, names=attributes)


Writing loader.py


In [None]:
%%file test_load.py

from loader import Loader

def test_load_data():
    url_dados = ('https://archive.ics.uci.edu/'
                 'ml/machine-learning-databases/iris/iris.data')
    atributos = ['comprimento_sepala', 'largura_sepala',
                 'comprimento_petala', 'largura_petala',
                 'especie']

    loader = Loader()
    dataset = loader.load_data(url_dados, atributos)
    
    assert len(dataset) == 150


Writing test_load.py


In [None]:
!python -m pytest test_load.py

[1mTest session starts (platform: linux, Python 3.7.15, pytest 3.6.4, pytest-sugar 0.9.6)[0m
rootdir: /content, inifile:
plugins: typeguard-2.7.1, sugar-0.9.6

 [36m[0mtest_load.py[0m [32m✓[0m                                                  [32m100% [0m[40m[32m█[0m[40m[32m█████████[0m

Results (0.98s):
[32m       1 passed[0m
