
## Exemplo 1: Análise preditiva para problemas de classificação

Descrição da base de dados:

**Variável alvo** - Tipo de medicamento

**Variáveis explicativas** (características)
* Idade​
* Sexo​
* Níveis de pressão arterial (PA)​
* Níveis de colesterol​
* Razão potássio​

Objetivo: Fazer a predição do medicamento adequado para  o paciente a partir dos seus dados clínicos.

In [3]:
# bilbiotecas para realizar operações sobre os dados
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt #Bibliotecas para visualização de dados
import seaborn as sns

# bibliotecas de Aprendizagem de máquina
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.model_selection import GridSearchCV #técnica para configurar parâmetros do modelo

#Importando as técnicas de aprendizagem (Classificadores)
from sklearn.neural_network import MLPClassifier #técnica rede neural
from sklearn.tree import DecisionTreeClassifier, plot_tree

ModuleNotFoundError: No module named 'matplotlib'

In [None]:
dados = pd.read_csv("medicamentos.csv", sep=';', encoding='latin1')
dados.head(15)

Unnamed: 0,Idade,Sexo,Pressão,Colesterol,Potassio,Medicamento
0,23,F,Alto,Alto,25.355,Y
1,47,M,Baixo,Alto,13.093,C
2,47,M,Baixo,Alto,10.114,C
3,28,F,Normal,Alto,7.798,X
4,61,F,Baixo,Alto,18.043,Y
5,22,F,Normal,Alto,8.607,X
6,49,F,Normal,Alto,16.275,Y
7,41,M,Baixo,Alto,11.037,C
8,60,M,Normal,Alto,15.171,Y
9,43,M,Baixo,Normal,19.368,Y


## **Resumo dos Dados:**

In [None]:
#Retorna a frequencia de valores de uma variável
print(dados['Medicamento'].value_counts())

## **Visualização de dados**

In [None]:
sns.countplot(data = dados, x = 'Medicamento', hue = 'Sexo')
plt.show()

## **Pré-processamento: Transformar as classes das variáveis em representação numérica**

In [None]:
#label_encoder()

dados['Pressão'] = dados['Pressão'].map({'Baixo' : 0, 'Normal' : 1, 'Alto': 2})
dados['Colesterol'] = dados['Colesterol'].map({'Normal' : 1, 'Alto' : 2})
dados['Sexo'] = dados['Sexo'].map({'M' : 0, 'F' : 1})
dados['Medicamento'] = dados['Medicamento'].map({'Y' : 0, 'X' : 1, 'A' : 2, 'B' : 3, 'C' : 4})
print(dados.head())

   Idade  Sexo  Pressão  Colesterol  Potassio  Medicamento
0     23     1        2           2    25.355            0
1     47     0        0           2    13.093            4
2     47     0        0           2    10.114            4
3     28     1        1           2     7.798            1
4     61     1        0           2    18.043            0


## **Início da configuração de treino**

In [None]:
X = dados.drop('Medicamento', axis = 1)   # X é o conjunto de variaveis explicativas (caracteristicas)
Y = dados['Medicamento']  # Y é o rótulo ou a variável resposta

#### **Criando modelo de Rede Neural**

In [None]:
#Treinando classificadores
#Preparação do modelo 1 =  Rede Neural
model1 = MLPClassifier()
model1.fit(X, Y)



Parâmetros de uma Rede Neural MLP:

- hidden_layer_sizes : Especificar o número de camadas e o número de neurônios que queremos ter no classificador de rede neural.

- max_iter: Indica o número de ciclos/épocas.

- activation: A função de ativação para as camadas ocultas.

- learning_rate: Este parâmetro especifica a taxa de aprendizagem.

**1. Número de neurônios e camadas ocultas (hidden_layer_sizes)**

- Teste redes pequenas devido ao tamanho da base.

- Exemplo: [(8,), (16,), (32,), (16, 8)]

**2. Função de ativação (activation)**

- relu: Mais usada e eficiente.

- tanh: Pode ser útil para bases pequenas.

- Teste: ['relu', 'tanh']

**3. Algoritmo de otimização (solver)**

- adam: Funciona bem para a maioria dos problemas.

- lbfgs: Pode ser eficiente para bases pequenas.

- Teste: ['adam', 'lbfgs']


**4. Taxa de aprendizado (learning_rate_init)**

- Valores comuns: [0.001, 0.01]


**5. Número de épocas (max_iter):**

- Como os dados são poucos, 200 a 500 épocas podem ser suficientes.

- Teste: [200, 500]

**Qual a melhor configuração para construir a rede neural?**

In [None]:
# Definição dos hiperparâmetros para o Grid Search
param_grid = {
    'hidden_layer_sizes': [(8,), (16,), (32,), (16, 8)],
    'activation': ['relu', 'tanh'],
    'solver': ['adam', 'lbfgs'],
    'learning_rate_init': [0.001, 0.01],
    'max_iter': [200, 500]
}

# Executando o GridSearch
grid = GridSearchCV(estimator=model1, param_grid=param_grid, cv=3)
grid_result = grid.fit(X, Y)

print(grid.best_params_)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("

{'activation': 'relu', 'hidden_layer_sizes': (16,), 'learning_rate_init': 0.01, 'max_iter': 500, 'solver': 'lbfgs'}


**Com essa configuração, irei fazer a avaliação comparando o algoritmo MLPClassifier com a Árvore de decisão:**

In [None]:
n_iter = 30  # Número de iterações para o Train-Test Split
test_size = 0.2  # Proporção do conjunto de teste
np.random.seed(19)  # Semente aleatória para garantir reprodutibilidade

# Inicializando o classificador
DT = DecisionTreeClassifier(max_depth=3)
RNA = MLPClassifier(hidden_layer_sizes=(100,), activation='tanh', solver='adam', learning_rate_init=0.01, max_iter=500)

#Lista para salvar resultado
acuracia_arvore = []
acuracia_rna = []

# Iterando com um loop for
for i in range(n_iter+1):

    # Divisão entre treino e teste
    X_train, X_test, y_train, y_test = train_test_split(X, Y, stratify=Y, test_size=test_size)

    # Treinando o modelo com os dados de treino
    DT.fit(X_train, y_train)
    RNA.fit(X_train, y_train)

    # Realizando a predição com o conjunto de teste
    DT_pred = DT.predict(X_test)
    RNA_pred = RNA.predict(X_test)

    # Avaliação do modelo
    acuracia_arvore.append(accuracy_score(y_test, DT_pred))
    acuracia_rna.append(accuracy_score(y_test, RNA_pred))

In [None]:
# Calculando a média e o desvio padrão
media_acuracia_arvore = np.mean(acuracia_arvore)
media_acuracia_rna = np.mean(acuracia_rna)

dp_acuracia_arvore = np.std(acuracia_arvore)
dp_acuracia_rna = np.std(acuracia_rna)

# Exibindo os resultados
print(f"Média da acurácia Árvore: {media_acuracia_arvore:.2f}")
print(f"Média da acurácia RNA: {media_acuracia_rna:.2f}")
print('-----------------------------------')
print(f"Desvio padrão da acurácia Árvore: {dp_acuracia_arvore:.2f}")
print(f"Desvio padrão da acurácia RNA: {dp_acuracia_rna:.2f}")

Média da acurácia Árvore: 0.91
Média da acurácia RNA: 0.97
-----------------------------------
Desvio padrão da acurácia Árvore: 0.03
Desvio padrão da acurácia RNA: 0.02


**Salvando o melhor modelo**

Existem 2 bibliotecas do Python que viabilizam isso: **Pickle** e **Joblib**.

A diferença entre elas está basicamente no desempenho: a Joblib tem um desempenho melhor com grande volume de dados (big data).

As extensões comuns para o arquivo são .h5, .pkl ou .sav

* pickle





In [None]:
#biblioteca para salvar modelos em STRING
import pickle

In [None]:
# salvar o modelo no arquivo
with open('RNA_from_pickle1.pkl', 'wb') as file:
    pickle.dump(RNA, file)

In [None]:
# abrir arquivo com o modelo salvo
with open('RNA_from_pickle1.pkl', 'rb') as f:
    model_RNA = pickle.load(f)

model_RNA.predict(X_test)

array([0, 1, 1, 1, 1, 0, 3, 4, 0, 1, 2, 0, 3, 2, 1, 3, 1, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 2, 0, 2, 0, 2, 0, 4, 1, 1, 0, 0, 1, 0, 4])