In [397]:
import pandas as pd

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score

In [398]:
# Lê o dataset de 4000 vítimas, X(qPa, pulso e frequencia respiratória), y(gravidade)

file_path = 'datasets/4000.txt'
X = []
y = []
# Ler e processar cada linhawithopen(file_path, 'r') as file:
with open(file_path, 'r') as file:
     for line in file:
         # Separar os valores por vírgula
         values = line.strip().split(',')
        
         # Extrair as características (colunas 1 a 6) e o rótulo (última coluna)
         features = list(map(float, values[3:6]))  # Converta as características para float
         label = int(values[7])  # Converta o rótulo para inteiro# Adicionar as características e rótulo às listas
         label = label - 1  # Ajustar o rótulo para começar em 0
         X.append(features)
         y.append(label)


In [399]:
# Lê o dataset de 4000 vítimas, X2(qPa, pulso e frequencia respiratória), y2(gravidade)

file_path2 = 'datasets/800.txt'
X2 = []
y2 = []
# Ler e processar cada linhawithopen(file_path, 'r') as file:
with open(file_path2, 'r') as file:
     for line in file:
         # Separar os valores por vírgula
         values = line.strip().split(',')
        
         # Extrair as características (colunas 1 a 6) e o rótulo (última coluna)
         features = list(map(float, values[3:6]))  # Converta as características para float
         label = int(values[7])  # Converta o rótulo para inteiro# Adicionar as características e rótulo às listas
         label = label - 1  # Ajustar o rótulo para começar em 0
         X2.append(features)
         y2.append(label)

In [400]:
# Cria o dataframe de 4000 vitimas SEM a gravidade
df = pd.DataFrame(X, columns = ['qPa','pulse','respiratory_freq'])
print("Amostras iniciais do dataframe")
print(df.head(3)) # imprime 3 amostras do dataframe

Amostras iniciais do dataframe
        qPa       pulse  respiratory_freq
0  8.652291  122.324349          5.623564
1  8.733333  135.824333         12.787053
2  8.733333   97.100546          1.553286


In [401]:
# Cria o dataframe de 800 vitimas SEM a gravidade
df2 = pd.DataFrame(X2, columns = ['qPa','pulse','respiratory_freq'])
print("Amostras iniciais do dataframe 800")
print(df2.head(3)) # imprime 3 amostras do dataframe

Amostras iniciais do dataframe 800
        qPa       pulse  respiratory_freq
0  8.721732  160.904175         20.926336
1  8.733333  134.454047         17.972046
2  8.614814   86.302237          4.168373


In [402]:
## Dividir o dataset em treinamento/validação e teste
## É usual designar a entrada por X e a saída por y
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, shuffle=True, random_state=42)#utilizado random state 42 para manter constante
print(f"Tamanho total do dataset: {len(X)}\n")
print(f"Dados de treinamento X ({len(X_train)}):\n{X_train[:3]} ...")
print(f"Dados de treinamento y:({len(y_train)})\n {y_train[:3]} ...")
print("---")
print(f"Dados de teste   X ({len(X_test)}):\n{X_test[:3]} ...")
print(f"Dados de teste   y:({len(y_test)})\n {y_test[:3]} ...")

Tamanho total do dataset: 4000

Dados de treinamento X (3000):
[[4.358461, 145.99551, 15.178772], [-4.385294, 155.005138, 15.287787], [-8.709306, 16.292285, 17.436375]] ...
Dados de treinamento y:(3000)
 [2, 2, 1] ...
---
Dados de teste   X (1000):
[[4.685739, 24.375112, 18.209474], [-4.399409, 82.247291, 7.246955], [8.733333, 113.558415, 17.34836]] ...
Dados de teste   y:(1000)
 [1, 1, 1] ...


In [403]:
# Parameters' definition
parameters = {
    'criterion': ['entropy'],
    'max_depth': [2, 4, 8, 16],
    'min_samples_leaf': [8, 16, 32, 64]
}

# instantiate model
# random_state = 42 to be deterministic
model = DecisionTreeClassifier(random_state=42)

# grid search using cross-validation
# cv = 3 is the number of folds
# scoring = 'accuracy' the metric for chosing the best model
clf = GridSearchCV(model, parameters, cv=3, scoring='accuracy', verbose=4)
clf.fit(X_train, y_train)

# the best tree according to the accuracy score
best = clf.best_estimator_
print("\n* Melhor classificador *")
print(clf.best_estimator_)

Fitting 3 folds for each of 16 candidates, totalling 48 fits
[CV 1/3] END criterion=entropy, max_depth=2, min_samples_leaf=8;, score=0.617 total time=   0.0s
[CV 2/3] END criterion=entropy, max_depth=2, min_samples_leaf=8;, score=0.620 total time=   0.0s
[CV 3/3] END criterion=entropy, max_depth=2, min_samples_leaf=8;, score=0.625 total time=   0.0s
[CV 1/3] END criterion=entropy, max_depth=2, min_samples_leaf=16;, score=0.617 total time=   0.0s
[CV 2/3] END criterion=entropy, max_depth=2, min_samples_leaf=16;, score=0.620 total time=   0.0s
[CV 3/3] END criterion=entropy, max_depth=2, min_samples_leaf=16;, score=0.625 total time=   0.0s
[CV 1/3] END criterion=entropy, max_depth=2, min_samples_leaf=32;, score=0.617 total time=   0.0s
[CV 2/3] END criterion=entropy, max_depth=2, min_samples_leaf=32;, score=0.620 total time=   0.0s
[CV 3/3] END criterion=entropy, max_depth=2, min_samples_leaf=32;, score=0.625 total time=   0.0s
[CV 1/3] END criterion=entropy, max_depth=2, min_samples_lea

In [404]:
# Predicoes
# com dados do treinamento
y_pred_train = best.predict(X_train)
acc_train = accuracy_score(y_train, y_pred_train) * 100
print(f"Acuracia com dados de treino: {acc_train:.2f}%")

# com dados de teste (nao utilizados no treinamento/validacao)
y_pred_test = best.predict(X_test)
acc_test = accuracy_score(y_test, y_pred_test) * 100
print(f"Acuracia com dados de teste: {acc_test:.2f}%")

# com dados do dataset de 800 vitimas
y_pred_test = best.predict(X2)
acc_test2 = accuracy_score(y2, y_pred_test) * 100
print(f"Acuracia com dados 800: {acc_test2:.2f}%")

Acuracia com dados de treino: 95.90%
Acuracia com dados de teste: 92.00%
Acuracia com dados 800: 91.62%


## O melhor classificador encontrado com score = accuracy:
DecisionTreeClassifier(criterion='entropy', max_depth=16, min_samples_leaf=8, random_state=42)
### Com uma acuracia de:
91.62% 