In [1]:
import pandas as pd #biblioteca para manipulação de dados
import numpy as np #biblioteca para ajudar no cálculo numérico

In [2]:
# Leitura da base de dados tratada/limpa
df = pd.read_csv('../dados/dados_transformados.csv')

In [3]:
df.head()

Unnamed: 0,acidez_fixa,acucar_residual,alcool,densidade,rotulo_qualidade
0,9.3,6.4,13.6,1.0005,0
1,11.2,2.0,14.0,0.9912,2
2,11.6,0.9,8.2,0.9935,1
3,12.9,6.6,12.7,1.0002,1
4,13.9,13.8,10.4,0.9942,2


Definando as variáveis explicativas (X = característica) e a variável resposta (y = rótulo)

In [34]:
X = df.drop('rotulo_qualidade', axis=1) # X é a base de dados sem a coluna rotulo_qualidade
y = df['rotulo_qualidade'] # y é a coluna rotulo_qualidade

Separando a base em DADOS DE TREINO e DADOS DE TESTE

In [5]:
# Importando Método para Separar os dados em treino e teste
from sklearn.model_selection import train_test_split

In [20]:
# Nesse momento estamos definindo 20% dos dados para teste e 80% para treino
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [21]:
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

(800, 4)
(200, 4)
(800,)
(200,)


Construindo Modelo de Classificação:

In [22]:
from sklearn.ensemble import RandomForestClassifier # Técnica de aprendizado de máquina 1
from sklearn.svm import SVC # Técnica de aprendizado de máquina 2

modelo_1 = RandomForestClassifier(n_estimators=500, random_state=42) # Criando o modelo 1
modelo_2 = SVC() # Criando o modelo 2

In [23]:
modelo_1.fit(X_train, y_train) # Treinando o modelo 1

modelo_2.fit(X_train, y_train) # Treinando o modelo 2

In [24]:
# Fazendo as predições na base de teste

y_pred1 = modelo_1.predict(X_test)
y_pred2 = modelo_2.predict(X_test)

In [25]:
y_pred1

array([2, 1, 0, 0, 0, 2, 2, 1, 0, 0, 1, 1, 0, 1, 0, 2, 2, 0, 2, 2, 0, 2,
       1, 2, 2, 1, 0, 2, 2, 2, 0, 1, 2, 0, 0, 2, 0, 0, 0, 1, 0, 2, 1, 0,
       2, 0, 1, 0, 1, 2, 1, 2, 2, 0, 0, 1, 2, 2, 0, 1, 2, 2, 2, 0, 2, 2,
       1, 0, 0, 2, 0, 2, 0, 0, 1, 0, 0, 2, 0, 0, 0, 1, 2, 2, 0, 0, 1, 2,
       1, 0, 2, 2, 2, 1, 0, 1, 0, 1, 0, 1, 1, 2, 0, 0, 1, 0, 2, 2, 2, 0,
       2, 2, 1, 0, 2, 1, 0, 0, 1, 1, 2, 2, 0, 0, 0, 0, 2, 1, 2, 0, 0, 2,
       2, 0, 1, 1, 1, 0, 2, 0, 2, 1, 2, 1, 1, 2, 0, 2, 2, 1, 1, 0, 1, 1,
       2, 0, 1, 2, 0, 1, 2, 1, 1, 0, 2, 2, 1, 2, 1, 0, 0, 1, 2, 0, 1, 2,
       0, 0, 2, 2, 2, 1, 2, 2, 0, 1, 2, 0, 0, 2, 2, 1, 2, 2, 0, 2, 0, 2,
       0, 0])

Avaliação dos modelos:

In [26]:
# Importando o método da Acurácia (Taxa de acerto)
from sklearn.metrics import accuracy_score

In [29]:
aucracia1 = accuracy_score(y_test, y_pred1)
aucracia2 = accuracy_score(y_test, y_pred2)

print(f"Acurácia do modelo 1: {aucracia1 * 100:.2f}%")
print(f"Acurácia do modelo 2: {aucracia2 * 100:.2f}%")

Acurácia do modelo 1: 36.00%
Acurácia do modelo 2: 33.00%


Com base nos resultados, vamos pegar o modelo que teve o melhor desempenho? (Maior acurácia)

Depois que pegarmos o medelo com o maior desempenho faremos uma análise de desempenho a partir de várias execuções dos modelos, para verificar estabilidade:

In [30]:
acuracia_modelo1 = []
acuracia_modelo2 = []

for i in range(30):
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

    modelo_1 = RandomForestClassifier(n_estimators=500, random_state=42)
    modelo_2 = SVC(kernel='linear', random_state=42)

    modelo_1.fit(X_train, y_train)
    modelo_2.fit(X_train, y_train)

    y_pred1 = modelo_1.predict(X_test)
    y_pred2 = modelo_2.predict(X_test)

    acuracia1 = accuracy_score(y_test, y_pred1)
    acuracia2 = accuracy_score(y_test, y_pred2)

    acuracia_modelo1.append(acuracia1)
    acuracia_modelo2.append(acuracia2)


In [31]:
acuracia_modelo2

[0.4,
 0.385,
 0.315,
 0.345,
 0.34,
 0.36,
 0.375,
 0.36,
 0.365,
 0.36,
 0.32,
 0.4,
 0.325,
 0.38,
 0.415,
 0.37,
 0.4,
 0.415,
 0.395,
 0.41,
 0.38,
 0.355,
 0.425,
 0.39,
 0.29,
 0.335,
 0.38,
 0.38,
 0.39,
 0.345]

In [32]:
print(np.mean(acuracia_modelo1))
print(np.mean(acuracia_modelo2))

0.3141666666666667
0.37016666666666675


Após as 30 execuções, observamos que o modelo 2 apresentou a maior média de acurácia, indicando melhor desempenho em relação ao modelo 1. Por isso, iremos exportar (salvar) esse modelo para utilizá-lo em nosso sistema preditivo.

In [33]:
import pickle

# Salvando o modelo em um arquivo .pkl
with open('../modelo/modelo_treinado.pkl', 'wb') as arquivo:
    pickle.dump(modelo_2, arquivo)

print("Modelo salvo com sucesso!")

Modelo salvo com sucesso!
