# Introdução

O presente relatório descreve a aplicação do método _Linear Programming Discriminant Analysis (LPDA)_ conforme proposto no artigo intitulado **"LPDA: A new classification method based on linear programming"**. O objetivo principal deste trabalho é desenvolver um modelo de classificação binária utilizando o LPDA em um conjunto de dados previamente selecionado, disponível na pasta "data".

O artigo também apresenta uma biblioteca em R que oferece métodos para a implementação do LPDA. A documentação completa dessa biblioteca pode ser encontrada no CRAN, no seguinte endereço: [pacote lpda](https://cran.r-project.org/web/packages/lpda/index.html).

No entanto, devido às complexidades associadas à conversão do código R para Python e às particularidades das estruturas de dados utilizadas pela biblioteca, optou-se por empregar a biblioteca [Pulp](https://coin-or.github.io/pulp/). Essa biblioteca possibilita a descrição iterativa do problema de programação linear a ser resolvido, oferecendo a opção de utilizar o solver de preferência do usuário. Outras ferramentas, como [AMPL](https://ampl.com/), seguem uma abordagem semelhante.

O método em questão foi empregado no contexto do diagnóstico de doença cardíaca, utilizando um dataset proveniente do Heart Disease Database, disponibilizado no Kaggle.

Este conjunto de dados compreende um total de 76 atributos, embora investigações prévias tenham se centrado em um subconjunto específico contendo 14 deles. Notadamente, até o momento presente, a preferência dos pesquisadores em aprendizado de máquina recai exclusivamente sobre o banco de dados originário de Cleveland.

A coluna "target" assume o papel de nossa variável de interesse, associada à presença de doença cardíaca no paciente, expressa por valores booleanos: 1 indicando a presença da doença e 0, a sua ausência.

O conjunto de dados em análise apresenta uma série de variáveis relevantes para o diagnóstico de doença cardíaca, cada uma caracterizando aspectos específicos relacionados à condição cardíaca dos indivíduos estudados. Abaixo, são detalhadas as informações de algumas dessas variáveis:

1. **Idade (AGE):** Esta variável, expressa em anos, varia no intervalo de 29 a 77 anos, fornecendo uma visão da distribuição etária dos pacientes sob investigação.

2. **Sexo (SEX):** Representada de maneira binária, onde o valor 1 indica o sexo masculino e o valor 0, o feminino, esta variável possibilita a análise de possíveis disparidades entre os gêneros na ocorrência de doença cardíaca.

3. **Tipo de Dor no Peito (CP):** Com quatro categorias distintas, este atributo fornece informações sobre a natureza da dor torácica relatada pelos pacientes:
    - Valor 1: Angina típica.
    - Valor 2: Angina atípica.
    - Valor 3: Sem dor anginal.
    - Valor 4: Assintomático.

4. **Pressão Arterial em Repouso (TRESTBPS):** Expressa em milímetros de mercúrio (mm Hg), esta medida oferece insights sobre a pressão arterial dos indivíduos em estado de repouso.

5. **Colesterol no Soro Sanguíneo (CHOL):** Medido em miligramas por decilitro (mg/dl), este atributo fornece informações sobre os níveis de colesterol no sangue dos pacientes.

6. **Concentração de Açúcar no Sangue em Jejum (FBS):** Representado como um valor booleano, onde 1 indica uma concentração de açúcar no sangue superior a 120 mg/dl e 0, inferior, este atributo avalia a presença de glicose elevada.

7. **Resultado da Eletrocardiografia em Repouso (RESTECG):** Classificado em três categorias distintas, este atributo proporciona uma avaliação do estado do coração em repouso:
    - Valor 0: Normal.
    - Valor 1: Com onda ST-T anormal.
    - Valor 2: Mostrando provável (ou definida) hipertrofia do ventrículo esquerdo.

8. **Máxima Taxa de Batimento Cardíaco Atiginda (THALACH):** Este atributo indica a taxa máxima de batimento cardíaco atingida durante o exercício.

9. **Angina Induzida por Exercício (EXANG):** Representado como um valor booleano, onde 1 indica a presença de angina induzida por exercício e 0, a sua ausência.

10. **Depressão ST Induzida por Exercício Relativamente Sossegado (OLDPEAK):** Este atributo mede a depressão do segmento ST induzida por exercício em relação ao repouso.

11. **Inclinação da Extremidade do Segmento ST no Exercício (SLOPE):** Classificado em três categorias, este atributo indica a inclinação da extremidade do segmento ST durante o exercício:
    - Valor 1: Inclinado para cima.
    - Valor 2: Plano.
    - Valor 3: Inclinado para baixo.

12. **Número de Vasos Coloridos pela Fluoroscopia (CA):** Este atributo representa o número de vasos sanguíneos coloridos pela fluoroscopia, variando de 0 a 3.

13. **Talassemias (THAL):** Classificado em três categorias, este atributo indica a condição talassêmica:
    - Valor 3: Normal.
    - Valor 6: Defeito fixo (irreparável).
    - Valor 7: Defeito reversível (reparável).

# Metodologia

A implementação do LPDA utilizando a biblioteca Pulp permitiu resolver o problema de programação linear, encontrando a solução ótima. Os coeficientes do plano H descritos no artigo, bem como a constante 'b', foram obtidos como resultado. Adicionalmente, foram desenvolvidos métodos para armazenar esses valores em disco, possibilitando sua reutilização posterior.

Com o arquivo do modelo armazenado, foi possível criar um servidor de aplicação que oferece duas rotas principais:

1. **Treinamento:** A rota `POST /heart/train` realiza o treinamento do modelo. Exemplo de chamada:
   ```bash
   !curl --request POST --url http://localhost:8080/heart/train
2. **Predição:** A rota `POST /heart/predict` permite realizar previsões com base no modelo treinado. Exemplo de chamada:

   ```bash
   !curl --request POST \
   --url http://localhost:8080/heart/predict \
   --header 'Content-Type: application/json' \
   --data '{
    "age": 19,
    "sex": 0,
    "cp": 1,
    "trestbps": 120,
    "chol": 204,
    "fbs": 0,
    "restecg": 0,
    "thalach": 172,
    "exang": 0,
    "oldpeak": 1.4,
    "slope": 2,
    "ca": 0,
    "thal": 2
   }'

### Como Rodar

1. Instalar Python >= 3.9 ([Download Python](https://www.python.org/))
2. Instalar Poetry ([Download Poetry](https://python-poetry.org/))
3. `cd code`
4. `poetry install`
5. `poetry shell`

### Rodar como servidor de aplicação:

- `python .\src\main.py`

### Rodar como aplicação standalone para validação do modelo:

- `python .\src\test.py`


In [1]:
import pandas as pd 
import numpy as np
from train.lpda import lpda, simple_predict, predict
from model import model

In [3]:
file = '..\data\heart_disease\heart.csv'
df = pd.read_csv(file)
df.head()

  file = '..\data\heart_disease\heart.csv'


Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 14 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       303 non-null    int64  
 1   sex       303 non-null    int64  
 2   cp        303 non-null    int64  
 3   trestbps  303 non-null    int64  
 4   chol      303 non-null    int64  
 5   fbs       303 non-null    int64  
 6   restecg   303 non-null    int64  
 7   thalach   303 non-null    int64  
 8   exang     303 non-null    int64  
 9   oldpeak   303 non-null    float64
 10  slope     303 non-null    int64  
 11  ca        303 non-null    int64  
 12  thal      303 non-null    int64  
 13  target    303 non-null    int64  
dtypes: float64(1), int64(13)
memory usage: 33.3 KB


In [8]:
df_y = df[df['target'] == 1]
print(df_y.shape)
df_n = df[df['target'] == 0]
print(df_n.shape)

(165, 14)
(138, 14)


In [10]:
result = model(df, 'target')
print(result)

Solution: 
	a = [0.013748104, 1.1251695, 0.0, 0.0, 0.0039203577, 0.0, 0.0, 0.0, 1.3843964, 0.46359572, 0.0, 0.70430837, 0.45532538]
	b = 4.9093753


Test set: 
	X_test = [[5.90e+01 1.00e+00 3.00e+00 1.60e+02 2.73e+02 0.00e+00 0.00e+00 1.25e+02 0.00e+00 0.00e+00 2.00e+00 0.00e+00 2.00e+00]
 [4.60e+01 1.00e+00 0.00e+00 1.20e+02 2.49e+02 0.00e+00 0.00e+00 1.44e+02 0.00e+00 8.00e-01 2.00e+00 0.00e+00 3.00e+00]
 [6.40e+01 1.00e+00 2.00e+00 1.40e+02 3.35e+02 0.00e+00 1.00e+00 1.58e+02 0.00e+00 0.00e+00 2.00e+00 0.00e+00 2.00e+00]
 [5.80e+01 1.00e+00 0.00e+00 1.28e+02 2.16e+02 0.00e+00 0.00e+00 1.31e+02 1.00e+00 2.20e+00 1.00e+00 3.00e+00 3.00e+00]
 [6.40e+01 1.00e+00 2.00e+00 1.25e+02 3.09e+02 0.00e+00 1.00e+00 1.31e+02 1.00e+00 1.80e+00 1.00e+00 0.00e+00 3.00e+00]
 [5.50e+01 1.00e+00 0.00e+00 1.60e+02 2.89e+02 0.00e+00 0.00e+00 1.45e+02 1.00e+00 8.00e-01 1.00e+00 1.00e+00 3.00e+00]
 [4.70e+01 1.00e+00 2.00e+00 1.08e+02 2.43e+02 0.00e+00 1.00e+00 1.52e+02 0.00e+00 0.00e+00 2.00e+00 0.00e+00 

In [11]:
solution = result.solution
test = result.test
scores = result.scores

In [12]:
a = solution['a']
b = solution['b']

X_test = test['X_test']
y_test = test['y_test']

precision = scores['precision']
accuracy = scores['accuracy']
f1 = scores['f1']

In [13]:
print(f'')

[0.013748104, 1.1251695, 0.0, 0.0, 0.0039203577, 0.0, 0.0, 0.0, 1.3843964, 0.46359572, 0.0, 0.70430837, 0.45532538]


In [14]:
print(b)

4.9093753


In [24]:
print(f'Precision: {(precision * 100):.2f}%\nAccuracy: {(accuracy * 100):.2f}%\nF1 Score: {(f1 * 100):.2f}% ')

Precision: 82.76%
Accuracy: 77.05%
F1 Score: 77.42% 


# Resultados

# Conclusão