## Projeto nº3: Aprendizagem Automática

### Introdução à Inteligência Artificial 2021/2022

#### Entrega: 20 de Dezembro às 23h59

<img src="heartdisease.jpg" width="300">

## Introdução

As doenças cardiovasculares são a causa número um de morte em todo o mundo, cerca de 17,9 milhões de pessoas morrem a cada ano, o que representa 31% de todas as mortes em todo o mundo. Quatro em cada cinco mortes por doença cardiovascular são devidos a ataques cardíacos e derrames, e um terço dessas mortes ocorrem prematuramente em pessoas com menos de 70 anos de idade. A insuficiência cardíaca é um evento comum causado por doenças cardiovasculares e este conjunto de dados contém 11 características que podem ser usados para prever uma possível doença cardíaca. 

Pessoas com doenças cardiovasculares ou que apresentam risco cardiovascular elevado, devido à presença de um ou mais fatores de risco, como hipertensão, diabetes, hiperlipidemia ou doença já estabelecida, precisam de deteção precoce. O desenvolvimento de algoritmos de aprendizagem automática que ajudem na deteção precoce é uma mais valia para a área da saúde, sendo necessário a ajuda de um especialista de IA para desenvolver um modelo capaz de prever a existência de doença cardíaca a partir de alguns fatores de risco. 


#### Objetivo

Pretende-se que a sua start-up (grupo de IIA) foi contactado para criarem um modelo que preveja se um dado paciente tem ou não doença cardíaca, usando os conhecimentos adquiridos na disciplina.

## Descrição do conjunto de dados

O conjunto de dados `heart.csv` é composto por 623 pacientes seguidos numa clínica especializada em doenças cardiovasculares. Este conjunto de dados tem 13 colunas, sendo a última coluna (*HeartDisease*) a classe de cada um dos pacientes. No contexto deste problema definem-se apenas duas classes: *Normal* e *Heart disease*.

Para garantir a qualidade do modelo, a clínica decidiu manter alguns pacientes sem classe, **para avaliar qual o melhor modelo desenvolvido pela start-up**. Assim, é ainda fornecido um conjunto de teste `test.csv` para o qual devem fazer previsões das classes de cada um dos pacientes. Este  conjunto é composto por 208 pacientes, com os mesmos atributos que o conjunto `heart.csv`, mas sem a coluna correspondente à classe (a qual se mantém na posse da clínica). A qualidade dos modelos desenvolvidos será assim avaliada com base no desempenho (*accuracy*) neste conjunto de teste.

#### Informação sobre os atributos
1. ID: identificação do paciente
2. Age: idade do paciente [anos]
3. Sex: género do paciente [M: male; F: female]
4. ChestPainType: tipo de dor no peito [TA: typical angina; ATA: atypical angina; NAP: non-anginal pain; ASY: asymptomatic]
5. RestingBP: pressão sanguínea em repouso [mm Hg]
6. Cholesterol: colesterol [mm/dl]
7. FastingBS: açúcar no sangue em jejum [1: se FastingBS > 120 mg/dl; 0: caso contrário]
8. RestingECG: resultados de electrocardiograma em repouso [Normal: normal; ST: ter anormalidade da onda ST-T (inversões da onda T e/ou elevação ou depressão de ST > 0.05mV; HVE: mostrar hipertrofia ventricular esquerda provável ou definitiva pelos critérios de Estes]
9. MaxHR: frequência cardíaca máxima atingida [valor numérico entre 60 e 202]
10. ExerciseAngina: angina induzida por exercício [Y: yes; N: no]
11. Oldpeak: ST [valor numérico medido na depressão]
12. ST_slope: inclinação do pico do segmento ST durante exercício [Up: inclinação ascendente; Flat: plano; Down: inclinação descendente]
13. HeartDisease: classe [Heart disease: doença cardíaca; Normal: normal]

## Etapas do trabalho a executar

Para organizar o seu trabalho e encontrar o melhor modelo de forma organizada, sugere-se a seguinte série de etapas:

**Etapa 1: carregar o conjunto de dados**  
Faça load dos dados com a função `load_data` do módulo `utilsAA` fornecido com este guião.
```python
def load_data(fname, testdata=False):
    """Load CSV file with any number of consecutive features, 
       starting in column 0, where last column is the class
       
       Arguments:
           fname is a string with the filename 
           testdata is False if the csv file has the last column 
                    with class labels; and True if the csv file 
                    does not have that column (i.e., read a test 
                    file without class)
       Returns:
           table_X matrix with data
           table_y array with classes (if testdata=False)
           features array with features names
           target array with target name (if testdata=False)
    """
```

**Etapa 2: processar os dados**  
Verifique se os seus dados estão prontos a serem usados pelos algoritmos. Se precisar de identificar quais os valores possiveis num atributo utilize a função `unique` do módulo `numpy`.

**Etapa 3: procura do melhor modelo**  
Experimente os algoritmos árvores de decisão e k vizinhos mais próximos, variando os respetivos parâmetros. Escolha, justificando, um único modelo de entre todos os modelos treinados para aplicar no conjunto de teste fornecido.

**Etapa 4: gravar as previsões para o conjunto de teste fornecido**  
Após a escolha do melhor modelo, faça load dos dados de teste com a mesma função `load_data`, mas usando o argumento `testdata=True`, para ler os dados sem a coluna das classes (que não irá existir neste conjunto de dados). 
```python
data, features_names = load_data(fname,testdata=True)
```
Atenção: o processamento que fizer na etapa 2 relativo aos seus dados (`heart.csv`) deverá ser também aplicado ao conjunto de teste (`test.csv`) antes de aplicar o modelo. Depois de fazer as previsões com o modelo escolhido, use a função `save_data` para gravar as suas previsões para o conjunto de teste. Deverá submeter este ficheiro `.csv` para validação do modelo seleccionado. 
```python
def save_data(fname,prev):
    """Save a CSV file with the content of prev
    
       Arguments:
           fname is a string corresponding to the filename
           prev array to save in the CSV file
    """
```

### Extra: 
Para além das árvores de decisão e do k vizinhos mais próximo, podem treinar redes neuronais para classificar os pacientes. A escolha do melhor modelo da etapa 3 pode incluir as redes neuronais, para além das árvores de decisão e do k vizinhos mais próximos. Os projetos que tenham redes neuronais bem treinadas terão um bonificação de 10% da nota.

## Entrega

Cada grupo deverá entregar um zip com dois ficheiros: o relatório e o ficheiro com as previsões do seu modelo para o conjunto de teste.

O relatório é **obrigatório** e deverá ser escrito no Jupyter Notebook com o nome **IIA2021-proj3-XX.ipynb**, substituindo **XX** pelo número do grupo. O relatório deverá descrever as etapas no desenvolvimento do trabalho e ainda incluir:
* Identificação do número do grupo e dos respetivos membros
* Explicação e justificações (sempre que necessário) para cada uma das etapas do trabalho
* Código que executa cada uma das etapas e respetivos resultados (accuracy)

O ficheiro de previsões para o conjunto de teste fornecido deverá ser gravado seguindo as indicações da etapa 4 e deverá chamar-se **IIA2021-proj3-XX.csv**, novamente substituindo **XX** pelo número do grupo. Não deve alterar o conteúdo deste ficheiro gravado na etapa 4 com a função `save_data`. **Quem não cumprir esta especificação não será avaliado e terá 0 de nota.** Para validar que o ficheiro `.csv` cumpre as regras, poderá abri-lo num editor de texto, e verificar que contém uma única coluna com 208 linhas (previsões).

### Prazo

O prazo de entrega é **20 de Dezembro às 23h59** no moodle.

## Avaliação
A nota do projecto depende das 3 componentes seguintes (70%+20%+10%):

**Metodologia adotada (70%)**: Descrição e apresentação de código e resultados referentes à metodologia adotada, isto é, pré-processamento dos dados efetuado (etapa 2), e classificadores treinados e comparação entre eles para seleção do melhor (etapa 3).

**Avaliação do desempenho (20%)**: Classificação das amostras do conjunto de teste fornecido usando o melhor modelo escolhido e comparação com as classes verdadeiras não fornecidas.
   
**Relatório (10%)**: Estrutura, apresentação e qualidade do relatório.

### Penalizações
    - Entregue nas 3hs seguintes: sem penalização
    - A partir das 3h e até às 12h do dia seguinte: 20% de penalização
    - Não é aceite a partir das 12h do dia seguinte.