## Projeto de Disciplina - Redes neurais com TensorFlow [25E3_2]
 - Aluna: Rosana Ribeiro Lima


### 1. Origem dos dados e motivo para a escolha - **COMPREENSÃO DO NEGÓCIO**
 - Para a realização do trabalho, foi solicitada a escolha de uma base multivariada e com uma variável objetivo. A fim de atender a esses critérios, o dataset escolhido foi o 
 "Asthma Risk & Severity Dataset", disponibilizado por Sumedh Gamit no Kaggle: https://www.kaggle.com/datasets/sumedh1507/asthma-dataset. Foi realizado o download dos dados diretamente dessa página.
 - Motivos para a escolha: esse dataset cumpre os requisitos solicitados para o trabalho, e demonstra ter uma variedade de dados e possibilidades interessante para se trabalhar. A variável objetivo com que trabalharemos é a presença de asma e seu grau de controle, e as demais variáveis contêm features que permitem a análise para prever quão controlada ela está. Assim, será possível treinar um modelo supervisionado de redes neurais utilizando esses dados, e tal modelo poderá auxiliar na análise das principais variáveis que impactam no controle da asma, bem como na predição de se uma pessoa tem a asma controlada ou não, com base nessas variáveis. Além disso, o dataset é interessante para a exploração por conter variáveis de diversos tipos: categóricas binárias (como gênero); categórica nominal (como o status de fumante, o nível de atividade física); numéricas contínuas (como o nível de poluição do ar); e numéricas discretas (como o número de visitas ao pronto socorro relacionadas a problemas respiratórios).


In [7]:
import os
import pandas as pd

path = "../data/"
df = pd.read_csv(os.path.join(path, "synthetic_asthma_dataset.csv"))
df.head(20)

Unnamed: 0,Patient_ID,Age,Gender,BMI,Smoking_Status,Family_History,Allergies,Air_Pollution_Level,Physical_Activity_Level,Occupation_Type,Comorbidities,Medication_Adherence,Number_of_ER_Visits,Peak_Expiratory_Flow,FeNO_Level,Has_Asthma,Asthma_Control_Level
0,ASTH100000,52,Female,27.6,Former,1,,Moderate,Sedentary,Outdoor,Diabetes,0.38,0,421.0,46.0,0,
1,ASTH100001,15,Male,24.6,Former,0,Dust,Low,Moderate,Indoor,Both,0.6,2,297.6,22.9,0,
2,ASTH100002,72,Female,17.6,Never,0,,Moderate,Moderate,Indoor,,0.38,0,303.3,15.3,0,
3,ASTH100003,61,Male,16.8,Never,0,Multiple,High,Sedentary,Outdoor,Both,0.6,1,438.0,40.1,1,Poorly Controlled
4,ASTH100004,21,Male,30.2,Never,0,,Moderate,Active,Indoor,,0.82,3,535.0,27.7,0,
5,ASTH100005,83,Other,27.8,Never,1,Pollen,Moderate,Moderate,Outdoor,,0.18,2,232.9,45.1,0,
6,ASTH100006,87,Female,32.3,Former,0,Pollen,Moderate,Sedentary,Outdoor,,0.18,0,370.7,14.1,0,
7,ASTH100007,75,Male,29.7,Never,0,Pets,High,Sedentary,Indoor,,0.53,0,302.2,17.6,1,Poorly Controlled
8,ASTH100008,75,Male,23.1,Never,0,Pollen,Moderate,Moderate,Indoor,,0.83,2,523.4,27.6,0,
9,ASTH100009,88,Male,15.0,Current,1,,Low,Active,Indoor,,0.36,3,377.0,14.9,0,


### 2. Descrição e análise das variáveis - **COMPREENSÃO DOS DADOS**


#### 2.1 Descrevendo as variáveis e os tipos

Vamos primeiro fazer algumas análises dos dados:

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 17 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Patient_ID               10000 non-null  object 
 1   Age                      10000 non-null  int64  
 2   Gender                   10000 non-null  object 
 3   BMI                      10000 non-null  float64
 4   Smoking_Status           10000 non-null  object 
 5   Family_History           10000 non-null  int64  
 6   Allergies                7064 non-null   object 
 7   Air_Pollution_Level      10000 non-null  object 
 8   Physical_Activity_Level  10000 non-null  object 
 9   Occupation_Type          10000 non-null  object 
 10  Comorbidities            5033 non-null   object 
 11  Medication_Adherence     10000 non-null  float64
 12  Number_of_ER_Visits      10000 non-null  int64  
 13  Peak_Expiratory_Flow     10000 non-null  float64
 14  FeNO_Level             

In [24]:
df['Has_Asthma'].value_counts()

Has_Asthma
0    7567
1    2433
Name: count, dtype: int64

In [25]:
df['Asthma_Control_Level'].value_counts()

Asthma_Control_Level
Not Controlled       1229
Poorly Controlled    1120
Well Controlled        84
Name: count, dtype: int64

In [27]:
# verificando que o Asthma_Control_Level apenas é preenchido quando Has_Asthma for 1:
df[df['Has_Asthma'] == 0]['Asthma_Control_Level'].value_counts()

Series([], Name: count, dtype: int64)

Desses dados, de imediato é possível perceber que o PatientID não será necessário para nossa análise, e então podemos remover essa coluna. 
Além disso, nossa coluna objetivo será uma junção de duas colunas do dataset original: Has_Asthma e Asthma_Control_Level. Podemos ver que o nível de controle não é preenchido quando Has_Asthma tem valor 0, ou seja, quando a pessoa não tem asma. Então, na nova coluna preencheremos como "Non Existent" quando a pessoa não tiver asma; e preencheremos com o Ashtma_Control_Level quando tiver (Has_Asthma com valor 1). 

In [20]:
def compute_asthma_status(row):
    if row['Has_Asthma'] == 0:
        return 'Non Existent'
    
    return row['Asthma_Control_Level']

df['Asthma_Status'] = df.apply(compute_asthma_status, axis=1)



df_filtered =df.drop(columns=['Patient_ID','Asthma_Control_Level','Has_Asthma'])

df_filtered.head()

Unnamed: 0,Age,Gender,BMI,Smoking_Status,Family_History,Allergies,Air_Pollution_Level,Physical_Activity_Level,Occupation_Type,Comorbidities,Medication_Adherence,Number_of_ER_Visits,Peak_Expiratory_Flow,FeNO_Level,Asthma_Status
0,52,Female,27.6,Former,1,,Moderate,Sedentary,Outdoor,Diabetes,0.38,0,421.0,46.0,Non Existent
1,15,Male,24.6,Former,0,Dust,Low,Moderate,Indoor,Both,0.6,2,297.6,22.9,Non Existent
2,72,Female,17.6,Never,0,,Moderate,Moderate,Indoor,,0.38,0,303.3,15.3,Non Existent
3,61,Male,16.8,Never,0,Multiple,High,Sedentary,Outdoor,Both,0.6,1,438.0,40.1,Poorly Controlled
4,21,Male,30.2,Never,0,,Moderate,Active,Indoor,,0.82,3,535.0,27.7,Non Existent


Agora teremos nossa variável objetivo:

In [23]:
df_filtered['Asthma_Status'].value_counts()

Asthma_Status
Non Existent         7567
Not Controlled       1229
Poorly Controlled    1120
Well Controlled        84
Name: count, dtype: int64

## Referências

- EL KHAROUA, Rabie. *Alzheimer's Disease Dataset*. 2024. Disponível em: https://www.kaggle.com/dsv/8668279. Acesso em: 29 jul. 2025.