In [15]:
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

from sklearn.metrics import confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

from sklearn import tree
import graphviz 

import statsmodels.api as sm

In [16]:
# Leitura do Dataset
df = pd.read_csv('data/heart.csv')

# Definir X como todas as colunas, exceto a coluna 'target'
X = df.drop(columns=['target'])
features = X.columns

# Se você também precisar de y, que é a coluna 'target', você pode fazer:
y = df['target']

In [17]:
# Rescale the data
scaler = MinMaxScaler(feature_range=(0,1))
X = scaler.fit_transform(X)

In [18]:
y.value_counts()

target
1    526
0    499
Name: count, dtype: int64

In [19]:
# Dividir os dados em conjuntos de treinamento e teste (por exemplo, 80% para treinamento e 20% para teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [20]:
# Transformar y_train e y_test em vetores unidimensionais
y = y.values.ravel()
y_train = y_train.values.ravel()
y_test = y_test.values.ravel()

In [21]:
# Defina os modelos que você deseja testar
models = {
    'Decision Tree': DecisionTreeClassifier(),
    'Random Forest': RandomForestClassifier(),
    'SVM': SVC(),
    'Logistic Regression': LogisticRegression()
}

# Defina os parâmetros que você deseja ajustar para cada modelo
parameters = {
    'Decision Tree': {'max_depth': [None, 2, 3, 4]},
    'Random Forest': {'n_estimators': [50, 100, 200]},
    'SVM': {'C': [0.1, 1, 10], 'gamma': [0.1, 0.01, 0.001]},
    'Logistic Regression': {'C': [0.1, 1, 10]}
}

In [22]:
best_model = None
best_score = 0

# Iterar sobre os modelos e parâmetros para encontrar o melhor modelo
for model_name, model in models.items():
    clf = GridSearchCV(model, parameters[model_name], cv=5)
    clf.fit(X_train, y_train)
    score = clf.best_score_
    print(f"{model_name}: {score}")

    if score > best_score:
        best_model = clf.best_estimator_
        best_score = score

# O melhor modelo e seus parâmetros
print("Melhor modelo:", best_model)

Decision Tree: 0.978048780487805
Random Forest: 0.9817073170731707
SVM: 0.8780487804878048
Logistic Regression: 0.85
Melhor modelo: RandomForestClassifier(n_estimators=50)
