# Aprendizagem supervisionada: classificação

Este projeto tem como objetivo desenvolver um aplicativo de machine learning para prever a tendência de uma pessoa desenvolver algum tipo de 
doença cardíaca com base em alguns fatores clínicos e laboratoriais.

Os dados foram extraídos do Kaggle: https://www.kaggle.com/fedesoriano/heart-failure-prediction/version/1

## Pré-processamento

In [1]:
import numpy as np
import pandas as pd

In [2]:
# apesar de ter sido salvo como utf-8, neste caso (não é recomendável), poderia usar iso-8859-1 que também funciona
# df = pd.read_csv('../datasets/heart_tratado.csv', sep=';', encoding='iso-8859-1')
df = pd.read_csv('../datasets/heart_tratado.csv', sep=';', encoding='utf-8')

In [3]:
df.head()

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
0,40,M,ATA,140,289.0,0,Normal,172,N,0.0,Up,0
1,49,F,NAP,160,180.0,0,Normal,156,N,1.0,Flat,1
2,37,M,ATA,130,283.0,0,ST,98,N,0.0,Up,0
3,48,F,ASY,138,214.0,0,Normal,108,Y,1.5,Flat,1
4,54,M,NAP,150,195.0,0,Normal,122,N,0.0,Up,0


## Transformando variáveis categóricas nominais em variáveis categóricas ordinais

Onde a categoria for um nome, está será transformada em número, por exemplo: Sex, M ou F, para 0 e 1, ou 1 e 2...

In [7]:
df2 = pd.DataFrame.copy(df)

In [8]:
df2['Sex'].replace({'M': 0, 'F': 1}, inplace=True)
df2['ChestPainType'].replace({'TA': 0, 'ATA': 1, 'NAP': 2, 'ASY': 3}, inplace=True)
df2['RestingBP'].replace({'Normal': 0, 'ST': 1, 'LVH': 2}, inplace=True)
df2['ExerciseAngina'].replace({'N': 0, 'Y': 1}, inplace=True)
df2['ST_Slope'].replace({'Up': 0, 'Flat': 1, 'Down': 2}, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df2['Sex'].replace({'M': 0, 'F': 1}, inplace=True)
  df2['Sex'].replace({'M': 0, 'F': 1}, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df2['ChestPainType'].replace({'TA': 0, 'ATA': 1, 'NAP': 2, 'ASY': 3}, inplace=True)
  df2['ChestPainType'].replace({'TA': 0, 'AT

In [9]:
df2.head()

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
0,40,0,1,140,289.0,0,Normal,172,0,0.0,0,0
1,49,1,2,160,180.0,0,Normal,156,0,1.0,1,1
2,37,0,1,130,283.0,0,ST,98,0,0.0,0,0
3,48,1,3,138,214.0,0,Normal,108,1,1.5,1,1
4,54,0,2,150,195.0,0,Normal,122,0,0.0,0,0


## Legenda

- Age = idade
- Sex = sexo
- Chest Pain Type = tipo de dor no peito (TA = angina típica, ATA = angina atípica, NAP = dor não anginosa, ASY = assintomático)
- Resting BP = pressão sanguínea em repouso (mmHg)
- Cholesterol = colesterol sérico (mg/dl)
- Fasting BS = açúcar no sangue em jejum (mg/dl), < 120 = não-diabético, >= 120 = diabético
- Resting ECG = eletrocardiograma em repouso (Normal, ST = Anormalidade da onda ST-T, LVH = Hipertrofia ventricular esquerda)
- Max HR = frequência cardíaca máxima
- Exercise Angina = Angina induzida por exercício
- Old Peak = depressão de ST induzida por exercício em relação ao repouso
- ST_Slope = inclinação do segmento ST (Up, Flat, Down)
- Heart Disease = Doença cardíaca (possui / não possui)

## Atributos previsores e alvo

In [10]:
# a função iloc(), busca considerando um índice
# Neste caso, será criado uma matrix com os valores, até a 10a coluna
previsores = df2.iloc[:, 0:11].values
# warning
# We recommend using DataFrame.to_numpy instead.
# Only the values in the DataFrame will be returned, the axes labels will be removed.


In [11]:
previsores.shape

(917, 11)

In [None]:
# só irá pegar a coluna 11, gerando um array com seus valores
alvo = df2.iloc[:, 11].values

In [14]:
alvo.shape

(917,)