In [20]:
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Carregar os dados do CSV
dados = pd.read_csv('./dataSetFishBook.csv')

# Codificar a variável alvo (Histórico de Manutenção)
dados['Histórico de Manutenção'] = dados['Histórico de Manutenção'].map({'Bom': 0, 'Regular': 1, 'Excelente': 0})

# Verificar a codificação
print(dados['Histórico de Manutenção'].value_counts())

# Verificar se há valores nulos na variável alvo
print(dados['Histórico de Manutenção'].isna().sum())

# Remover linhas com valores nulos na variável alvo
dados = dados.dropna(subset=['Histórico de Manutenção'])

# Codificar variáveis categóricas
dados_encoded = pd.get_dummies(dados, drop_first=True)

# Definir as características (X) e a variável alvo (y)
X = dados_encoded.drop('Histórico de Manutenção', axis=1)  # Características
y = dados_encoded['Histórico de Manutenção']  # Variável alvo

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Escalonar os dados
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Inicializar o modelo de Regressão Logística com o solucionador 'liblinear'
modelo = LogisticRegression(max_iter=1000, solver='liblinear')

# Treinar o modelo usando os dados de treinamento escalonados
modelo.fit(X_train_scaled, y_train)

# Fazer previsões nos dados de teste
y_pred = modelo.predict(X_test_scaled)

# Avaliar o modelo
acuracia = accuracy_score(y_test, y_pred)
relatorio_classificacao = classification_report(y_test, y_pred)
matriz_confusao = confusion_matrix(y_test, y_pred)

print("Acurácia:", acuracia)
print("Relatório de Classificação:\n", relatorio_classificacao)
print("Matriz de Confusão:\n", matriz_confusao)





Histórico de Manutenção
0.0    97
1.0    78
Name: count, dtype: int64
2
Acurácia: 0.9714285714285714
Relatório de Classificação:
               precision    recall  f1-score   support

         0.0       0.96      1.00      0.98        23
         1.0       1.00      0.92      0.96        12

    accuracy                           0.97        35
   macro avg       0.98      0.96      0.97        35
weighted avg       0.97      0.97      0.97        35

Matriz de Confusão:
 [[23  0]
 [ 1 11]]
