## Sobre os dados

Fonte: [UCI Machine Learning Repository](https://archive.ics.uci.edu/dataset/45/heart+disease)

Esses dados foram doados em 1988 e provêm dos resultados clínicos e de testes não invasivos realizados em pacientes submetidos a exames na Cleveland Clinic em Cleveland (Ohio), no Instituto Húngaro de Cardiologia em Budapeste, em um Centro Médico em Long Beach (Califórnia), e também em pacientes de Hospitais universitários em Zurique e Basel (Suíça).
Inicialmente, o conjunto de dados continha 76 variáveis, mas todas as análises realizadas concentram-se no uso de um subconjunto de 14 delas. Vale destacar que, até o momento, o banco de dados da Cleveland Clinic é o único utilizado por pesquisadores de aprendizado de máquina. As análises realizadas com esse banco de dados tem como objetivo distinguir a presença da doença cardíaca (valores 1, 2, 3, 4) da sua ausência (valor 0).

No caso do conjunto de dados que estamos utilizando no curso, os valores 1, 2, 3 e 4 estão substituídos pela palavra "Presença" e o valor 0 por "Ausência".

A seguir temos uma explicação detalhada sobre as variáveis presentes no dataset:

- Idade: Idade em anos;
- Sexo: Sexo biológico (0 = feminino, 1 = masculino);
- Tipo dor: Tipo de dor no peito relatada pelo paciente (1= angina típica, 2 = angina atípica, 3 = não angina, 4 = angina assintomática).
> Angina é uma condição médica caracterizada por dor ou desconforto no peito.

- Pressao arterial: Pressão arterial medida em repouso.
- Pressão arterial é a força que o sangue exerce contra as paredes das artérias à medida que é bombeado pelo coração para o resto do corpo. Essa pressão é vital para garantir que o sangue flua pelos vasos sanguíneos e entregue oxigênio e nutrientes essenciais a todos os órgãos e tecidos do corpo.
- Colesterol: Nível de colesterol no sangue em miligramas por decilitro (mg/dl);
- Glicemia jejum >120: Nível de glicose no sangue em jejum, indicando se está abaixo de 120 mg/dl ou acima de 120 mg/dl (0 = abaixo, 1 = acima);
- Resultados ECG: Resultados do eletrocardiograma em repouso (0 = normal, 1 = anormalidade de onda ST-T, 2 = hipertrofia ventricular esquerda).
> O eletrocardiograma, frequentemente abreviado como ECG, é um exame médico que registra a atividade elétrica do coração ao longo do tempo. Quando os resultados da eletrocardiografia (ECG) em repouso são considerados "normais", isso significa que a atividade elétrica do coração está dentro dos padrões regulares. Já quando existe anormalidade da onda ST-T pode ser um indicativo de algum tipo de irregularidade na função cardíaca. Por fim, na hipertrofia ventricular esquerda temos um aumento do tamanho do músculo cardíaco no lado esquerdo do coração. Isso geralmente ocorre em resposta à pressão aumentada no sistema circulatório, como quando o coração tem que trabalhar mais para bombear sangue.

- Frequencia cardiaca max: Frequência cardíaca máxima alcançada durante um teste de esforço físico;
- Dor exercicio: Indica se houve angina (dor no peito) induzida por exercício ou não (0 = sim, 1 = não);
- Depressao ST: Medida da depressão do segmento ST induzida pelo exercício em relação ao repouso.
> Vamos imaginar o coração como uma bomba, e o eletrocardiograma (ECG) como um gráfico que mostra como essa bomba está funcionando. O segmento ST é como um intervalo na leitura desse gráfico que nos diz quando o coração está relaxando depois de bater. Agora, se durante esse relaxamento, o gráfico mostra uma parte chamada "segmento ST" mais baixa do que o normal, é como se o coração dissesse "Ei, não estou recebendo sangue suficiente aqui!" Essa baixa no gráfico é chamada de depressão do segmento ST.

- Inclinacao ST: Inclinação do segmento ST no pico do exercício (1 = inclinado para cima, 2 = plano, 3 = inclinado para baixo).
> Esses resultados estão basicamente descrevendo como o coração responde ao esforço físico, olhando para um gráfico do batimento cardíaco e vendo se ele sobe, fica nivelado ou desce nesse momento específico do exercício. Essa informação pode ajudar a entender como o coração está funcionando, especialmente durante atividades físicas.

- Numero vasos fluro: Número de vasos sanguíneos principais coloridos durante o procedimento de fluoroscopia.
> A fluoroscopia dos vasos sanguíneos é um exame de imagem para visualizar em tempo real o fluxo de sangue nos vasos sanguíneos.

- Teste cintilografia: Resultado do teste de estresse com tálio (3 = normal, 6 = defeito fixo, 7 = defeito reversível).
> A cintilografia é um exame que ajuda a avaliar a saúde do coração. Durante o procedimento, um material chamado tálio, que emite radiação, é injetado no corpo. Durante o procedimento, imagens do coração são capturadas enquanto o paciente é submetido a um estresse físico. O tálio viaja pelo sangue até o músculo cardíaco, e áreas com possível falta de sangue podem indicar obstruções nos vasos. O exame é útil para avaliar a viabilidade do músculo cardíaco, ajudando os médicos a determinar se as áreas afetadas podem se recuperar com tratamento ou se estão permanentemente danificadas.

## Carregando os dados

In [1]:
import pandas as pd

url = 'https://raw.githubusercontent.com/alura-cursos/classificacao_xgboost/main/Dados/doenca_cardiaca.csv'
df = pd.read_csv(url)
df.head()

Unnamed: 0,Idade,Sexo,Tipo dor,Pressao arterial,Colesterol,Glicemia jejum >120,Resultados ECG,Frequencia cardiaca max,Dor exercicio,Depressao ST,Inclinacao ST,Numero vasos fluro,Teste cintilografia,Doenca cardiaca
0,70,1,4,130,322,0,2,109,0,2.4,2,3,3,Presenca
1,67,0,3,115,564,0,2,160,0,1.6,2,0,7,Ausencia
2,57,1,2,124,261,0,0,141,0,0.3,1,0,7,Presenca
3,64,1,4,128,263,0,0,105,1,0.2,2,1,7,Ausencia
4,74,0,2,120,269,0,2,121,1,0.2,1,1,3,Ausencia


In [None]:
``