Este Projeto I tem como objetivo explorar diferentes técnicas de aprendizado supervisionado e não supervisionado, aplicadas a um conjunto de dados real.

Serão utilizados algoritmos como:

- **Decision Tree**: modelo interpretável e estruturado em forma de árvore de decisão, adequado para classificação e regressão.  
- **K-Nearest Neighbors (KNN)**: algoritmo baseado em instâncias, que realiza previsões considerando a proximidade entre amostras.  
- **K-Means**: técnica de aprendizado não supervisionado voltada para agrupar dados em clusters de acordo com sua similaridade.  

A partir da aplicação desses métodos, o projeto busca compreender os pontos fortes e limitações de cada abordagem, bem como analisar seu desempenho em diferentes cenários.

**Imports:**

In [2]:
import pandas as pd

**Leitura da base:**

In [3]:
df = pd.read_csv('covid_data.csv', low_memory=False)

## Exploração de dados

A **análise inicial** do conjunto de dados inclui a **descrição da natureza das variáveis, estatísticas descritivas e visualizações** para compreender a distribuição e relevância das informações.

### Contexto da Base de Dados

O dataset utilizado neste projeto contém um **grande volume de informações anonimizadas de pacientes**, abrangendo tanto características gerais quanto condições pré-existentes.  

No total, são disponibilizadas **21 variáveis (colunas)** que representam atributos clínicos e demográficos, e **1.048.575 registros (linhas)**, correspondentes a pacientes únicos.  

As variáveis são mistas, incluindo **atributos numéricos e categóricos**, além de um conjunto expressivo de **features Booleanas**, nas quais:  
- O valor **1 indica "sim"**  
- O valor **2 indica "não"**  
- Valores como **97** e **99** representam **dados ausentes ou não informados**  

Para os experimentos com **modelos supervisionados**, a variável **target** será **`classification`**, representando o resultado do teste de COVID-19 dos pacientes.  

### Descrição e Estatísticas Descritivas das colunas

| Variável                  | Descrição                                                                                             | Estatísticas Descritivas (%)                                                                     |
| ------------------------- | ----------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------ |
| **USMER**                 | Indica se o paciente foi tratado em unidades médicas de primeiro, segundo ou terceiro nível.          | 1º nível: 36,8%<br>2º nível: 63,2%                                                               |
| **MEDICAL\_UNIT**         | Tipo de instituição do Sistema Nacional de Saúde que prestou o atendimento.                           | Unidade 12: 57,5%<br>Unidade 4: 30,0%<br>Demais unidades: 12,5%                                  |
| **SEX**                   | 1 para feminino e 2 para masculino.                                                                   | Feminino: 50,1%<br>Masculino: 49,9%                                                              |
| **PATIENT\_TYPE**         | Tipo de atendimento recebido na unidade. 1 para alta domiciliar e 2 para hospitalização.              | Alta domiciliar: 80,9%<br>Hospitalização: 19,1%                                                  |
| **DATE\_DIED**            | Se o paciente faleceu, indica a data da morte; caso contrário, 9999-99-99.                            | Vivos: 92,7%<br>Óbitos registrados: 7,3%                                                         |
| **INTUBED**               | Se o paciente foi conectado ao ventilador.                                                            | Desconhecido (97): 80,9%<br>Não intubado (2): 15,2%<br>Intubado (1): 3,2%<br>Ignorado (99): 0,7% |
| **PNEUMONIA**             | Se o paciente já apresentava inflamação nos alvéolos pulmonares.                                      | Não: 85,1%<br>Sim: 13,4%<br>Ignorado: 1,5%                                                       |
| **AGE**                   | Idade do paciente.                                                                                    | Moda: 30 anos (2,6%)<br>Faixa 28–34: \~7,3%                                                      |
| **PREGNANT**              | Se o paciente está grávida.                                                                           | Não aplicável: 50,0%<br>Não grávida: 48,9%<br>Grávida: 0,8%<br>Ignorado: 0,3%  |
| **DIABETES**              | Se o paciente tem diabetes.                                                                           | Não: 87,7%<br>Sim: 11,9%<br>Ignorado: 0,3%                                                       |
| **COPD**                  | Se o paciente tem DPOC.                                                                               | Não: 98,3%<br>Sim: 1,4%<br>Ignorado: 0,3%                                                        |
| **ASTHMA**                | Se o paciente tem asma.                                                                               | Não: 96,7%<br>Sim: 3,0%<br>Ignorado: 0,3%                                                        |
| **INMSUPR**               | Se o paciente é imunossuprimido.                                                                      | Não: 98,3%<br>Sim: 1,4%<br>Ignorado: 0,3%                                                        |
| **HIPERTENSION**          | Se o paciente tem hipertensão.                                                                        | Não: 84,1%<br>Sim: 15,5%<br>Ignorado: 0,3%                                                       |
| **OTHER\_DISEASE**        | Se o paciente tem outra doença.                                                                       | Não: 96,8%<br>Sim: 2,7%<br>Ignorado: 0,5%                                                        |
| **CARDIOVASCULAR**        | Se o paciente tem doença cardíaca ou vascular.                                                        | Não: 97,7%<br>Sim: 2,0%<br>Ignorado: 0,3%                                                        |
| **OBESITY**               | Se o paciente é obeso.                                                                                | Não: 84,4%<br>Sim: 15,2%<br>Ignorado: 0,3%                                                       |
| **RENAL\_CHRONIC**        | Se o paciente tem doença renal crônica.                                                               | Não: 97,9%<br>Sim: 1,8%<br>Ignorado: 0,3%                                                        |
| **TOBACCO**               | Se o paciente faz uso de tabaco.                                                                      | Não: 91,7%<br>Sim: 8,0%<br>Ignorado: 0,3%                                                        |
| **CLASIFFICATION\_FINAL** | Resultados do teste de covid. Valores 1-3 = positivo em diferentes graus; ≥4 = negativo/inconclusivo. | Positivo (1–3): 37,4%<br>Negativo/Inconclusivo (≥4): 62,6%                                       |
| **ICU**                   | Indica se o paciente foi internado em UTI.                                                            | Desconhecido: 80,9%<br>Não: 16,8%<br>Sim: 1,6%<br>Ignorado: 0,7%               |


In [36]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1048575 entries, 0 to 1048574
Data columns (total 21 columns):
 #   Column                Non-Null Count    Dtype 
---  ------                --------------    ----- 
 0   USMER                 1048575 non-null  int64 
 1   MEDICAL_UNIT          1048575 non-null  int64 
 2   SEX                   1048575 non-null  int64 
 3   PATIENT_TYPE          1048575 non-null  int64 
 4   DATE_DIED             76942 non-null    object
 5   INTUBED               1048575 non-null  int64 
 6   PNEUMONIA             1048575 non-null  int64 
 7   AGE                   1048575 non-null  int64 
 8   PREGNANT              1048575 non-null  int64 
 9   DIABETES              1048575 non-null  int64 
 10  COPD                  1048575 non-null  int64 
 11  ASTHMA                1048575 non-null  int64 
 12  INMSUPR               1048575 non-null  int64 
 13  HIPERTENSION          1048575 non-null  int64 
 14  OTHER_DISEASE         1048575 non-null  int64 
 15

In [9]:
df['USMER'].value_counts()

USMER
2    662903
1    385672
Name: count, dtype: int64

In [11]:
df['MEDICAL_UNIT'].value_counts()

MEDICAL_UNIT
12    602995
4     314405
6      40584
9      38116
3      19175
8      10399
10      7873
5       7244
11      5577
13       996
7        891
2        169
1        151
Name: count, dtype: int64

In [14]:
df['SEX'].value_counts()

SEX
1    525064
2    523511
Name: count, dtype: int64

In [15]:
df['PATIENT_TYPE'].value_counts()

PATIENT_TYPE
1    848544
2    200031
Name: count, dtype: int64

In [16]:
df['DATE_DIED'].value_counts()

DATE_DIED
9999-99-99    971633
06/07/2020      1000
07/07/2020       996
13/07/2020       990
16/06/2020       979
               ...  
25/12/2020         1
01/01/2021         1
02/01/2021         1
07/01/2021         1
22/04/2021         1
Name: count, Length: 401, dtype: int64

In [17]:
df['INTUBED'].value_counts()

INTUBED
97    848544
2     159050
1      33656
99      7325
Name: count, dtype: int64

In [18]:
df['PNEUMONIA'].value_counts()

PNEUMONIA
2     892534
1     140038
99     16003
Name: count, dtype: int64

In [20]:
df['AGE'].value_counts()

AGE
30     27010
31     25927
28     25313
29     25134
34     24872
       ...  
114        2
115        2
111        1
121        1
113        1
Name: count, Length: 121, dtype: int64

In [21]:
df['PREGNANT'].value_counts()

PREGNANT
97    523511
2     513179
1       8131
98      3754
Name: count, dtype: int64

In [22]:
df['DIABETES'].value_counts()

DIABETES
2     920248
1     124989
98      3338
Name: count, dtype: int64

In [23]:
df['COPD'].value_counts()

COPD
2     1030510
1       15062
98       3003
Name: count, dtype: int64

In [24]:
df['ASTHMA'].value_counts()

ASTHMA
2     1014024
1       31572
98       2979
Name: count, dtype: int64

In [25]:
df['INMSUPR'].value_counts()

INMSUPR
2     1031001
1       14170
98       3404
Name: count, dtype: int64

In [26]:
df['HIPERTENSION'].value_counts()

HIPERTENSION
2     882742
1     162729
98      3104
Name: count, dtype: int64

In [27]:
df['OTHER_DISEASE'].value_counts()

OTHER_DISEASE
2     1015490
1       28040
98       5045
Name: count, dtype: int64

In [28]:
df['CARDIOVASCULAR'].value_counts()

CARDIOVASCULAR
2     1024730
1       20769
98       3076
Name: count, dtype: int64

In [29]:
df['OBESITY'].value_counts()

OBESITY
2     885727
1     159816
98      3032
Name: count, dtype: int64

In [30]:
df['RENAL_CHRONIC'].value_counts()

RENAL_CHRONIC
2     1026665
1       18904
98       3006
Name: count, dtype: int64

In [31]:
df['TOBACCO'].value_counts()

TOBACCO
2     960979
1      84376
98      3220
Name: count, dtype: int64

In [32]:
df['CLASIFFICATION_FINAL'].value_counts()

CLASIFFICATION_FINAL
7    499250
3    381527
6    128133
5     26091
1      8601
4      3122
2      1851
Name: count, dtype: int64

In [33]:
df['ICU'].value_counts()

ICU
97    848544
2     175685
1      16858
99      7488
Name: count, dtype: int64

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1048575 entries, 0 to 1048574
Data columns (total 21 columns):
 #   Column                Non-Null Count    Dtype 
---  ------                --------------    ----- 
 0   USMER                 1048575 non-null  int64 
 1   MEDICAL_UNIT          1048575 non-null  int64 
 2   SEX                   1048575 non-null  int64 
 3   PATIENT_TYPE          1048575 non-null  int64 
 4   DATE_DIED             1048575 non-null  object
 5   INTUBED               1048575 non-null  int64 
 6   PNEUMONIA             1048575 non-null  int64 
 7   AGE                   1048575 non-null  int64 
 8   PREGNANT              1048575 non-null  int64 
 9   DIABETES              1048575 non-null  int64 
 10  COPD                  1048575 non-null  int64 
 11  ASTHMA                1048575 non-null  int64 
 12  INMSUPR               1048575 non-null  int64 
 13  HIPERTENSION          1048575 non-null  int64 
 14  OTHER_DISEASE         1048575 non-null  int64 
 15