In [1]:
import numpy as np 
import pandas as pd 
import matplotlib.pylab as plt 

#dataframe
df = pd.read_csv("treino_sinais_vitais_com_label1.csv")
df.head(5)

Unnamed: 0,i,si1,si2,si3,si4,si5,g1,y1
0,1,13.592433,12.220855,8.416754,75.921057,21.635259,40.0,2
1,2,15.775386,13.586879,8.72589,63.813564,19.718734,41.530427,2
2,3,3.649369,1.904802,0.0,197.210213,19.045471,52.730745,3
3,4,17.264362,13.700638,8.733333,143.636181,17.621141,34.679911,2
4,5,12.705183,9.485389,1.747626,82.636672,12.209535,69.375882,3


In [2]:
# ID3

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, mean_squared_error, precision_score, recall_score, f1_score

# 1. Carregar os Dados
data = df

# 2. Pré-processar os Dados
#X = data.iloc[:, 1:-2].values
#y = data.iloc[:, -1].values
X = data.iloc[:, 1:-2]
y = data.iloc[:, -1]

# 3. Dividir os Dados
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=17)

# 4. Criar e Treinar o Modelo
model = DecisionTreeClassifier(criterion='entropy', random_state=42, ccp_alpha=0.01)
#podemos usar o ccp se tiver um overfitting
model.fit(X_train, y_train)

# Fazer Previsões
y_pred = model.predict(X_test)

# 5. Avaliar o Modelo

#Matriz de confusão 
from sklearn.metrics import confusion_matrix
confmatrix = confusion_matrix(y_test, y_pred)
print('matrix de confusão')
print(confmatrix)

# Avaliar a precisão do modelo 
accuracy = accuracy_score(y_test, y_pred) 

# Erro Quadrático Médio (RMSE)
rmse = np.sqrt(mean_squared_error(y_test, y_pred)) 

# Precisão (Precision) 
# true positives / (true positives + false positives) 
precision = precision_score(y_test, y_pred, average='weighted') # Use 'weighted' para multiclasses 

# Recall 
recall = recall_score(y_test, y_pred, average='weighted') 

# F-measure 
f_measure = f1_score(y_test, y_pred, average='weighted') 

# Exibir as Métricas 
print(f'Precisão (Accuracy): {accuracy:.2f}') 
print(f'Erro Quadrático Médio (RMSE): {rmse:.2f}') 
print(f'Precisão (Precision): {precision:.2f}') 
print(f'Recall: {recall:.2f}') 
print(f'F-measure: {f_measure:.2f}')


# Relatório de Classificação 
report = classification_report(y_test, y_pred) 
print('Relatório de Classificação:')
print(report)

matrix de confusão
[[ 66   9   0   0]
 [  3 230  17   0]
 [  0  30  84   2]
 [  0   0   2   7]]
Precisão (Accuracy): 0.86
Erro Quadrático Médio (RMSE): 0.37
Precisão (Precision): 0.86
Recall: 0.86
F-measure: 0.86
Relatório de Classificação:
              precision    recall  f1-score   support

           1       0.96      0.88      0.92        75
           2       0.86      0.92      0.89       250
           3       0.82      0.72      0.77       116
           4       0.78      0.78      0.78         9

    accuracy                           0.86       450
   macro avg       0.85      0.83      0.84       450
weighted avg       0.86      0.86      0.86       450



In [3]:
#importancia de cada dado
#model.feature_importances_

#O que tiver maior valor foi o que teve mais importancia 
features = pd.DataFrame(model.feature_importances_, index = X.columns)
features.head()

Unnamed: 0,0
si1,0.032216
si2,0.008802
si3,0.26447
si4,0.415257
si5,0.279255


In [4]:
#Imprimindo novamente pra nós vermos o formato dos dados novamente, que utilizaremos no random florest

df.head(5)


Unnamed: 0,i,si1,si2,si3,si4,si5,g1,y1
0,1,13.592433,12.220855,8.416754,75.921057,21.635259,40.0,2
1,2,15.775386,13.586879,8.72589,63.813564,19.718734,41.530427,2
2,3,3.649369,1.904802,0.0,197.210213,19.045471,52.730745,3
3,4,17.264362,13.700638,8.733333,143.636181,17.621141,34.679911,2
4,5,12.705183,9.485389,1.747626,82.636672,12.209535,69.375882,3


In [5]:
#Random Florest

from sklearn.ensemble import RandomForestClassifier 
from sklearn.model_selection import train_test_split 
from sklearn.metrics import accuracy_score, classification_report, precision_score, recall_score, f1_score, mean_squared_error

data = df

#pegando a sgunda coluna ate a penultima
X = data.iloc[:, 1:-2]
y = data.iloc[:, -1]

# 3. Split the Data 
#test size eh o quanto dos dados eu vou dar, 0.3 equivale a 70% dos dados, quanto menor, mais preciso as previsões
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=17) 

# 4. Create and Train the Model 
model = RandomForestClassifier(n_estimators=100, random_state=42) 
model.fit(X_train, y_train) 

# Fazer previsões 
y_pred = model.predict(X_test) 

# Avaliar a precisão do modelo 
accuracy = accuracy_score(y_test, y_pred) 

# Erro Quadrático Médio (RMSE)
rmse = np.sqrt(mean_squared_error(y_test, y_pred)) 

# Precisão (Precision) 
precision = precision_score(y_test, y_pred, average='weighted') # Use 'weighted' para multiclasses 

# Recall 
recall = recall_score(y_test, y_pred, average='weighted') 

# F-measure 
f_measure = f1_score(y_test, y_pred, average='weighted') 

# Exibir as Métricas 
print(f'Precisão (Accuracy): {accuracy:.2f}') 
print(f'Erro Quadrático Médio (RMSE): {rmse:.2f}') 
print(f'Precisão (Precision): {precision:.2f}') 
print(f'Recall: {recall:.2f}') 
print(f'F-measure: {f_measure:.2f}')


# Relatório de Classificação 
report = classification_report(y_test, y_pred) 
print('Relatório de Classificação:')
print(report)


Precisão (Accuracy): 0.89
Erro Quadrático Médio (RMSE): 0.33
Precisão (Precision): 0.90
Recall: 0.89
F-measure: 0.89
Relatório de Classificação:
              precision    recall  f1-score   support

           1       1.00      0.85      0.92        75
           2       0.88      0.96      0.92       250
           3       0.85      0.82      0.83       116
           4       1.00      0.33      0.50         9

    accuracy                           0.89       450
   macro avg       0.93      0.74      0.79       450
weighted avg       0.90      0.89      0.89       450



In [6]:
#importancia de cada dado
#model.feature_importances_

#O que tiver maior valor foi o que teve mais importancia 
features = pd.DataFrame(model.feature_importances_, index = X.columns)
features.head()

Unnamed: 0,0
si1,0.110849
si2,0.118741
si3,0.184875
si4,0.311786
si5,0.273749


In [7]:
#Random Florest

from sklearn.ensemble import RandomForestClassifier 
from sklearn.model_selection import train_test_split 
from sklearn.metrics import accuracy_score, classification_report, precision_score, recall_score, f1_score, mean_squared_error

data = df

#pegando a sgunda coluna ate a penultima
X = data.iloc[:, 1:-2].values 
y = data.iloc[:, -1].values

# 3. Split the Data 
#test size eh o quanto dos dados eu vou dar, 0.3 equivale a 70% dos dados, quanto menor, mais preciso as previsões
#Eu nunca vou dar todos os dados pra o modelo treinar, 30% eu vou rezervar pra testes, dados que o modelo ainda não viu 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=17) 


# 4. Create and Train the Model 
model = RandomForestClassifier(n_estimators=1000, random_state=17, criterion='entropy', min_samples_split=10, max_depth=14) 
model.fit(X_train, y_train) 

# Fazer previsões 
y_pred = model.predict(X_test) 

# Avaliar a precisão do modelo 
accuracy = accuracy_score(y_test, y_pred) 

# Erro Quadrático Médio (RMSE)
rmse = np.sqrt(mean_squared_error(y_test, y_pred)) 

# Precisão (Precision) 
precision = precision_score(y_test, y_pred, average='weighted') # Use 'weighted' para multiclasses 

# Recall 
recall = recall_score(y_test, y_pred, average='weighted') 

# F-measure 
f_measure = f1_score(y_test, y_pred, average='weighted') 

# Exibir as Métricas 
print(f'Precisão (Accuracy): {accuracy:.2f}') 
print(f'Erro Quadrático Médio (RMSE): {rmse:.2f}') 
print(f'Precisão (Precision): {precision:.2f}') 
print(f'Recall: {recall:.2f}') 
print(f'F-measure: {f_measure:.2f}')


# Relatório de Classificação 
report = classification_report(y_test, y_pred) 
print('Relatório de Classificação:')
print(report)


Precisão (Accuracy): 0.88
Erro Quadrático Médio (RMSE): 0.34
Precisão (Precision): 0.89
Recall: 0.88
F-measure: 0.88
Relatório de Classificação:
              precision    recall  f1-score   support

           1       1.00      0.87      0.93        75
           2       0.88      0.95      0.91       250
           3       0.83      0.80      0.82       116
           4       1.00      0.33      0.50         9

    accuracy                           0.88       450
   macro avg       0.93      0.74      0.79       450
weighted avg       0.89      0.88      0.88       450

