# Projeto: predição de risco de acidente vascular cerebral (AVC)

O acidente vascular cerebral (AVC) é uma condição médica grave que ocorre quando há interrupção ou redução do fluxo sanguíneo para uma parte do cérebro, resultando em danos às células cerebrais. Representa uma das principais causas de morte no mundo e pode ter consequências graves, tanto físicas quanto cognitivas. Diante de sua alta incidência e impacto, a previsão do risco de desenvolvimento de AVC torna-se essencial para a adoção de medidas preventivas eficazes. Identificar precocemente indivíduos em maior risco permite intervenções clínicas e mudanças no estilo de vida que podem reduzir a ocorrência de novos casos e melhorar a qualidade de vida da população.

O conjunto de dados utilizado neste projeto foi construído com base em literatura médica, consultas a especialistas e modelagem estatística. As distribuições e relações de características foram inspiradas em observações clínicas do mundo real, garantindo validade médica. Nele há 70.000 registros e 18 características relacionadas a fatores de risco para desfecho de acidente vascular cerebral.

Fonte dos dados: [Kaggle](https://www.kaggle.com/datasets/mahatiratusher/stroke-risk-prediction-dataset)

## Dicionário de dados


`Chest Pain`: dor no peito -> 0 = Não, 1 = Sim;

`Shortness of Breath`: dificuldade para respirar -> 0 = Não, 1 = Sim;

`Irregular Heartbeat`: batimento cardíaco irregular -> 0 = Não, 1 = Sim;

`Fatigue & Weakness`: fadiga persistente e fraqueza muscular -> 0 = Não, 1 = Sim;

`Dizziness`: tonturas frequentes -> 0 = Não, 1 = Sim;

`Swelling (Edema)`: inchaço nas extremidades devido à retenção de líquidos -> 0 = Não, 1 = Sim;

`Pain in Neck/Jaw/Shoulder/Back`: dor no pescoço, mandíbula, ombro e costas -> 0 = Não, 1 = Sim;

`Excessive Sweating`: suor excessivo -> 0 = Não, 1 = Sim;

`Persistent Cough`: tosse crônica -> 0 = Não, 1 = Sim;

`Nausea/Vomiting`: náuseas ou vômitos frequentes -> 0 = Não, 1 = Sim;

`High Blood Pressure`: pressão alta -> 0 = Não, 1 = Sim;

`Chest Discomfort (Activity)`: desconforto no peito durante atividade física -> 0 = Não, 1 = Sim;

`Cold Hands/Feet`: frequentemente está com extremidades (mãos e pés) frias -> 0 = Não, 1 = Sim;

`Snoring/Sleep Apnea`: apneia do sono -> 0 = Não, 1 = Sim;

`Anxiety/Feeling of Doom`: ansiedade frequente ou sensação de desgraça iminente -> 0 = Não, 1 = Sim;

`Stroke Risk (%)`: risco percentual estimado de ter um acidente vascular cerebral -> valor contínuo de porcentagem (0-100%);

`At Risk (Binary)`: classificada como risco de acidente vascular cerebral -> 0 = Não, 1 = Sim;

`Age`: idade do indivíduo -> valor contínuo;

## Importações e ajustes iniciais

In [1]:
# Frameworks
import pandas as pd

# Configurações
from src.config import DADOS_ORIGINAIS
from src.config import DADOS_LIMPOS

# Avisos
import warnings

In [2]:
# Ajustes
warnings.filterwarnings("ignore")
pd.options.display.float_format = "{:,.2f}".format

## Limpeza e tratamento

### Verificação inicial dos dados

In [3]:
df = pd.read_csv(DADOS_ORIGINAIS)

In [4]:
df.head()

Unnamed: 0,Chest Pain,Shortness of Breath,Irregular Heartbeat,Fatigue & Weakness,Dizziness,Swelling (Edema),Pain in Neck/Jaw/Shoulder/Back,Excessive Sweating,Persistent Cough,Nausea/Vomiting,High Blood Pressure,Chest Discomfort (Activity),Cold Hands/Feet,Snoring/Sleep Apnea,Anxiety/Feeling of Doom,Age,Stroke Risk (%),At Risk (Binary)
0,0,1,1,1,0,0,0,1,1,1,0,1,1,0,0,54,58.0,1
1,0,0,1,0,0,1,0,0,0,0,1,0,1,1,0,49,40.5,0
2,1,0,0,1,1,1,0,0,1,0,0,0,0,1,0,62,52.0,1
3,1,0,1,1,0,1,1,1,1,1,1,0,0,0,0,48,60.0,1
4,0,0,1,0,0,1,0,1,0,1,1,0,0,1,1,61,56.5,1


In [5]:
df.tail()

Unnamed: 0,Chest Pain,Shortness of Breath,Irregular Heartbeat,Fatigue & Weakness,Dizziness,Swelling (Edema),Pain in Neck/Jaw/Shoulder/Back,Excessive Sweating,Persistent Cough,Nausea/Vomiting,High Blood Pressure,Chest Discomfort (Activity),Cold Hands/Feet,Snoring/Sleep Apnea,Anxiety/Feeling of Doom,Age,Stroke Risk (%),At Risk (Binary)
69995,1,0,0,0,0,0,0,1,0,1,1,1,0,0,1,18,30.0,0
69996,0,0,0,1,0,1,0,1,0,0,0,1,1,1,0,24,33.0,0
69997,1,1,0,1,1,1,0,0,0,0,1,0,0,0,0,49,45.5,0
69998,0,1,1,1,1,0,0,0,0,0,0,1,1,1,0,45,48.5,0
69999,0,1,0,0,0,0,0,1,1,1,1,1,0,1,0,74,63.0,1


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70000 entries, 0 to 69999
Data columns (total 18 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Chest Pain                      70000 non-null  int64  
 1   Shortness of Breath             70000 non-null  int64  
 2   Irregular Heartbeat             70000 non-null  int64  
 3   Fatigue & Weakness              70000 non-null  int64  
 4   Dizziness                       70000 non-null  int64  
 5   Swelling (Edema)                70000 non-null  int64  
 6   Pain in Neck/Jaw/Shoulder/Back  70000 non-null  int64  
 7   Excessive Sweating              70000 non-null  int64  
 8   Persistent Cough                70000 non-null  int64  
 9   Nausea/Vomiting                 70000 non-null  int64  
 10  High Blood Pressure             70000 non-null  int64  
 11  Chest Discomfort (Activity)     70000 non-null  int64  
 12  Cold Hands/Feet                 

In [7]:
df.duplicated().sum()

np.int64(1021)

Há um valor considerável de duplicatas, mas sua retirada ainda mantém o dataset com um grande valor de registros, portanto eles serão exluídos. Se fossem dados reais, poderia-se verificar na fonte dos dados se há algum identificador único a ser incluído na base apenas para certificar que não se tratam de duplicatas, para evitar a exclusão de dados válidos.

In [8]:
for column_name in df.columns:
  print(column_name + ":", df[column_name].unique())

Chest Pain: [0 1]
Shortness of Breath: [1 0]
Irregular Heartbeat: [1 0]
Fatigue & Weakness: [1 0]
Dizziness: [0 1]
Swelling (Edema): [0 1]
Pain in Neck/Jaw/Shoulder/Back: [0 1]
Excessive Sweating: [1 0]
Persistent Cough: [1 0]
Nausea/Vomiting: [1 0]
High Blood Pressure: [0 1]
Chest Discomfort (Activity): [1 0]
Cold Hands/Feet: [1 0]
Snoring/Sleep Apnea: [0 1]
Anxiety/Feeling of Doom: [0 1]
Age: [54 49 62 48 61 34 74 47 20 79 87 83 23 64 81 43 40 26 45 63 78 19 77 66
 41 76 27 29 31 50 86 38 69 89 67 24 56 35 55 25 46 82 36 32 84 51 60 37
 68 30 80 21 57 44 70 18 39 90 88 53 28 22 71 33 75 85 52 42 73 59 58 72
 65]
Stroke Risk (%): [ 58.   40.5  52.   60.   56.5  43.   68.   54.5  31.   60.5  74.5  67.5
  47.5  63.   76.5  52.5  66.   94.5  34.   58.5  62.5  45.   50.5  48.
  69.   51.5  44.5  64.   77.5  69.5  79.   49.5  65.5  37.5  19.5  31.5
  41.   59.   55.   20.5  70.5  55.5  46.5  62.   63.5  45.5  36.5  48.5
  29.   35.5  33.5  71.5  32.5  44.   61.   56.   82.   28.5  46.   73

Fora o acima mencionado a respeito das duplicatas, em uma visualização básica aparentemente está tudo certo com os dados. Na seção de ajustes, farei algumas transformações nos nomes das colunas e transformarei as colunas numéricas categóricas em categóricas com os textos preenchidos, para facilitar a visualização e entendimento das análises gráficas. Posteriormente, para etapas de machine learning, elas podem voltar a ser numéricas de modo simples.

### Ajustes

Removendo duplicatas:

In [9]:
df.drop_duplicates(inplace=True)

Escrevedo o nome das colunas de uma maneira mais simples:

In [10]:
df.columns = [column_name.lower().replace(" ", "_").replace("(", "").replace(")", "").replace("/", "_").replace("_&", "") for column_name in df.columns]
df.columns

Index(['chest_pain', 'shortness_of_breath', 'irregular_heartbeat',
       'fatigue_weakness', 'dizziness', 'swelling_edema',
       'pain_in_neck_jaw_shoulder_back', 'excessive_sweating',
       'persistent_cough', 'nausea_vomiting', 'high_blood_pressure',
       'chest_discomfort_activity', 'cold_hands_feet', 'snoring_sleep_apnea',
       'anxiety_feeling_of_doom', 'age', 'stroke_risk_%', 'at_risk_binary'],
      dtype='object')

In [11]:
df.rename(columns={"stroke_risk_%": "stroke_risk", "at_risk_binary": "at_risk"}, inplace=True)

Ordenando as colunas para ordem alfabética apenas para facilitar encontrá-las nos gráficos durante a análise exploratória:

In [12]:
df = df.reindex(sorted(df.columns), axis=1)
df.columns

Index(['age', 'anxiety_feeling_of_doom', 'at_risk',
       'chest_discomfort_activity', 'chest_pain', 'cold_hands_feet',
       'dizziness', 'excessive_sweating', 'fatigue_weakness',
       'high_blood_pressure', 'irregular_heartbeat', 'nausea_vomiting',
       'pain_in_neck_jaw_shoulder_back', 'persistent_cough',
       'shortness_of_breath', 'snoring_sleep_apnea', 'stroke_risk',
       'swelling_edema'],
      dtype='object')

Transformando valores numéricos das colunas categóricas binárias em "Sim" e "Não":

In [13]:
binary_columns = [column for column in df.columns if column not in (["age", "stroke_risk"])]

for column in binary_columns:
  df[column] = df[column].replace({1: "Yes", 0: "No"})

Alterando o tipo das colunas categóricas para "category" e diminuindo o espaço de armazenamento de inteiros da coluna "age":

In [14]:
for column in binary_columns:
  df[column] = df[column].astype("category")

In [15]:
df["age"] = pd.to_numeric(df["age"], downcast="integer")

In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 68979 entries, 0 to 69999
Data columns (total 18 columns):
 #   Column                          Non-Null Count  Dtype   
---  ------                          --------------  -----   
 0   age                             68979 non-null  int8    
 1   anxiety_feeling_of_doom         68979 non-null  category
 2   at_risk                         68979 non-null  category
 3   chest_discomfort_activity       68979 non-null  category
 4   chest_pain                      68979 non-null  category
 5   cold_hands_feet                 68979 non-null  category
 6   dizziness                       68979 non-null  category
 7   excessive_sweating              68979 non-null  category
 8   fatigue_weakness                68979 non-null  category
 9   high_blood_pressure             68979 non-null  category
 10  irregular_heartbeat             68979 non-null  category
 11  nausea_vomiting                 68979 non-null  category
 12  pain_in_neck_jaw_should

Salvando os dados tratados para utilização posterior:

In [17]:
df.to_parquet(DADOS_LIMPOS, index=False)