# Sobre o modelo

O processo abaixo demonstra como um modelo simples de classificador de texto pode executar uma função básica de triagem clínica.

In [1]:
import os
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

### 1. Funções que irão auxiliar na execução do processo.

Função responsável pelo carregamento de arquivos do tipo csv contendo diagnósticos médicos rotulados com níveis de risco.

In [2]:
def load_file_symptoms(str_file_path: str = '') -> dict:
    dict_return = []

    try:
        if str_file_path.strip() == '':
            raise Exception('Não foi possível concluir o processo pois não foi definido o nome do arquivo.')

        dict_return = pd.read_csv(str_file_path)

    except Exception as error:
        print(f"Ocorreu o seguinte erro: {error}")

    return dict_return

Função responsável por executar uma classificação simples utilizando diagnósticos médicos rotulados com níveis de risco.

In [3]:
def simple_classification_tf_idf(dict_symptoms: dict = {}, list_symptoms_validate: list = []) -> None:

    try:

        if len(dict_symptoms) == 0:
            raise Exception('Não foi possível concluir o processo pois não foi informada uma lista de diagnósticos.')
        if len(list_symptoms_validate) == 0:
            raise Exception('Não foi possível concluir o processo pois não foi informada uma lista de sintomas.')

        # Definição de labels
        X = dict_symptoms['frase']
        y = dict_symptoms['situacao']

        # Conversão dos texto para vetores TF-IDF
        object_tfidf_vectorizer = TfidfVectorizer()
        X_tfidf = object_tfidf_vectorizer.fit_transform(X)

        # Definições para execução de treino
        X_train, X_test, y_train, y_test = train_test_split(X_tfidf, y, test_size=0.3, random_state=42, stratify=y)
        object_logistic_regression = LogisticRegression()
        object_logistic_regression.fit(X_train, y_train)

        # Processo de execução do treino
        y_pred = object_logistic_regression.predict(X_test)

        # Processo de avaliação
        print("Acurácia:", accuracy_score(y_test, y_pred))
        print("\nRelatório de Classificação:\n", classification_report(y_test, y_pred))

        # Processo de teste com a lista de sintomas
        list_symptoms_validate_tfidf = object_tfidf_vectorizer.transform(list_symptoms_validate)
        print("\nSintoma(s):", list_symptoms_validate)
        print("Classificação:", object_logistic_regression.predict(list_symptoms_validate_tfidf)[0])

    except Exception as error:
        print(f"Ocorreu o seguinte erro: {error}")

### 2. Lista com diagnósticos

Importação do arquivo contendo uma lista com diagnósticos.

**Nota**: Caso necessário, basta adicionar outros arquivos no formato txt contendo listas de sintomas de pacientes e alterar a variável `str_file_path_symptoms`.

In [4]:
str_file_path_symptoms = "symptoms_example1.csv"

Execução da importação da lista com diagnósticos.

In [5]:
dict_symptoms = load_file_symptoms(f"symptoms{os.sep}{str_file_path_symptoms}")

### 3. Classificação simples

Execução da classificação simples utilizando como parâmetros a lista com diagnósticos e uma  lista contendo diagnósticos.

**Nota**: Caso necessário, basta definir outras frases a partir da variável `list_symptoms_validate`.

In [6]:
list_symptoms_validate = ["dor nas costas", "dor no peito", "cansaço"]

Execução da classificação simples.

In [7]:
simple_classification_tf_idf(dict_symptoms, list_symptoms_validate)

Acurácia: 0.43854166666666666

Relatório de Classificação:
               precision    recall  f1-score   support

  alto risco       0.44      0.47      0.45       480
 baixo risco       0.43      0.41      0.42       480

    accuracy                           0.44       960
   macro avg       0.44      0.44      0.44       960
weighted avg       0.44      0.44      0.44       960


Sintoma(s): ['dor nas costas', 'dor no peito', 'cansaço']
Classificação: alto risco


Fim do processo de classificação.