# Projeto Câncer de Pulmão

O câncer de pulmão é responsável por um número significativo de mortes anuais. Esta doença caracteriza-se pelo crescimento descontrolado de células no pulmão, que pode se espalhar para outras partes do corpo. Fatores de risco como tabagismo, exposição a poluentes ambientais e substâncias tóxicas, além de predisposição genética, estão fortemente associados ao desenvolvimento da doença. O diagnóstico precoce e o tratamento adequado são fundamentais para aumentar as chances de sobrevivência, mas muitas vezes a doença é descoberta em estágios avançados, o que dificulta o sucesso terapêutico.

Este conjunto de dados consiste em 5.000 registros com 18 características relacionadas a fatores de risco e previsão de câncer de pulmão. Inclui informações demográficas, hábitos de vida, histórico médico e sintomas associados à doença pulmonar. O objetivo do projeto é realizar tratamento dos dados, análise exploratória e criação de modelo de machine learning com foco em previsão de risco de desenvolvimento de câncer de pulmão.

Fonte dos dados: [Kaggle](https://www.kaggle.com/datasets/shantanugarg274/lung-cancer-prediction-dataset)

## Dicionário de dados:


`AGE` (idade): idade dos pacientes;

`GENDER`: sexo dos pacientes -> não há informação sobre qual é o 0 e qual é o 1

`SMOKING`: fumante -> 0 = Não, 1 = Sim;

`FINGER_DISCOLORATION`: descoloração dos dedos -> 0 = Não, 1 = Sim;

`MENTAL_STRESS`: estresse mental -> 0 = Não, 1 = Sim;

`EXPOSURE_TO_POLLUTION`: exposição à poluição -> 0 = Não, 1 = Sim;

`LONG_TERM_ILLNESS`: doença prolongada -> 0 = Não, 1 = Sim;

`ENERGY_LEVEL`: nível de energia dos pacientes;

`IMMUNE_WEAKNESS`: imunidade comprometida x -> 0 = Não, 1 = Sim;

`BREATHING_ISSUE`: problemas respiratórios -> 0 = Não, 1 = Sim;

`ALCOHOL_CONSUMPTION`: consumo de álcool -> 0 = Não, 1 = Sim;

`THROAT_DISCOMFORT`: desconforto na garganta -> 0 = Não, 1 = Sim;

`OXYGEN_SATURATION`: saturação de oxigênio no sangue;

`CHEST_TIGHTNESS`: dor no peito -> 0 = Não, 1 = Sim;

`FAMILY_HISTORY`: histórico familiar de câncer de pulmão -> 0 = Não, 1 = Sim;

`SMOKING_FAMILY_HISTORY`: fumantes na família -> 0 = Não, 1 = Sim;

`STRESS_IMMUNE`: estresse imune -> 0 = Não, 1 = Sim;

`PULMONARY_DISEASE`: paciente está com câncer de pulmão -> 0 = Não, 1 = Sim;

Observação: não há informações detalhadas sobre as features, como por exemplo, quanto de exposição à poluição é considerado para categorizar como "Sim" (pois atualmente pelo menos um pouco de poluição todos estão sujeitos), dentre outros detalhes.

## Importações e ajustes iniciais

In [3]:
# Frameworks
import pandas as pd

# Configurações
from src.config import DADOS_ORIGINAIS
from src.config import DADOS_LIMPOS

# Avisos
import warnings

In [4]:
# Ajustes
warnings.filterwarnings("ignore")
pd.options.display.float_format = "{:,.2f}".format

## Limpeza e tratamento

### Verificação inicial dos dados

In [5]:
df = pd.read_csv(DADOS_ORIGINAIS)

In [6]:
df.head()

Unnamed: 0,AGE,GENDER,SMOKING,FINGER_DISCOLORATION,MENTAL_STRESS,EXPOSURE_TO_POLLUTION,LONG_TERM_ILLNESS,ENERGY_LEVEL,IMMUNE_WEAKNESS,BREATHING_ISSUE,ALCOHOL_CONSUMPTION,THROAT_DISCOMFORT,OXYGEN_SATURATION,CHEST_TIGHTNESS,FAMILY_HISTORY,SMOKING_FAMILY_HISTORY,STRESS_IMMUNE,PULMONARY_DISEASE
0,68,1,1,1,1,1,0,57.83,0,0,1,1,95.98,1,0,0,0,NO
1,81,1,1,0,0,1,1,47.69,1,1,0,1,97.18,0,0,0,0,YES
2,58,1,1,0,0,0,0,59.58,0,1,1,0,94.97,0,0,0,0,NO
3,44,0,1,0,1,1,0,59.79,0,1,0,1,95.19,0,0,0,0,YES
4,72,0,1,1,1,1,1,59.73,0,1,0,1,93.5,0,0,0,0,YES


In [7]:
df.tail()

Unnamed: 0,AGE,GENDER,SMOKING,FINGER_DISCOLORATION,MENTAL_STRESS,EXPOSURE_TO_POLLUTION,LONG_TERM_ILLNESS,ENERGY_LEVEL,IMMUNE_WEAKNESS,BREATHING_ISSUE,ALCOHOL_CONSUMPTION,THROAT_DISCOMFORT,OXYGEN_SATURATION,CHEST_TIGHTNESS,FAMILY_HISTORY,SMOKING_FAMILY_HISTORY,STRESS_IMMUNE,PULMONARY_DISEASE
4995,32,0,1,1,0,0,1,60.7,1,1,1,1,94.01,0,1,1,0,YES
4996,80,0,1,1,1,1,1,50.75,0,1,1,1,94.39,0,0,0,0,YES
4997,51,1,0,0,1,0,0,61.06,1,0,0,0,98.11,0,0,0,1,NO
4998,76,1,0,1,0,0,0,48.66,0,1,0,1,95.58,1,0,0,0,NO
4999,33,0,1,0,0,1,1,58.25,0,1,1,1,94.21,1,0,0,0,NO


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 18 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   AGE                     5000 non-null   int64  
 1   GENDER                  5000 non-null   int64  
 2   SMOKING                 5000 non-null   int64  
 3   FINGER_DISCOLORATION    5000 non-null   int64  
 4   MENTAL_STRESS           5000 non-null   int64  
 5   EXPOSURE_TO_POLLUTION   5000 non-null   int64  
 6   LONG_TERM_ILLNESS       5000 non-null   int64  
 7   ENERGY_LEVEL            5000 non-null   float64
 8   IMMUNE_WEAKNESS         5000 non-null   int64  
 9   BREATHING_ISSUE         5000 non-null   int64  
 10  ALCOHOL_CONSUMPTION     5000 non-null   int64  
 11  THROAT_DISCOMFORT       5000 non-null   int64  
 12  OXYGEN_SATURATION       5000 non-null   float64
 13  CHEST_TIGHTNESS         5000 non-null   int64  
 14  FAMILY_HISTORY          5000 non-null   

In [9]:
df.duplicated().sum()

np.int64(0)

In [10]:
for column_name in df.columns:
  print(column_name + ":", df[column_name].unique())

AGE: [68 81 58 44 72 37 50 48 52 40 53 82 65 69 32 51 31 73 59 67 62 41 54 78
 56 71 57 45 76 80 84 66 36 38 47 33 43 79 55 49 64 46 35 83 63 39 60 77
 74 70 30 34 42 61 75]
GENDER: [1 0]
SMOKING: [1 0]
FINGER_DISCOLORATION: [1 0]
MENTAL_STRESS: [1 0]
EXPOSURE_TO_POLLUTION: [1 0]
LONG_TERM_ILLNESS: [0 1]
ENERGY_LEVEL: [57.83117781 47.69483542 59.57743507 ... 61.06349616 48.66287201
 58.2451881 ]
IMMUNE_WEAKNESS: [0 1]
BREATHING_ISSUE: [0 1]
ALCOHOL_CONSUMPTION: [1 0]
THROAT_DISCOMFORT: [1 0]
OXYGEN_SATURATION: [95.97728696 97.18448348 94.97493934 ... 98.10890144 95.5777729
 94.20693416]
CHEST_TIGHTNESS: [1 0]
FAMILY_HISTORY: [0 1]
SMOKING_FAMILY_HISTORY: [0 1]
STRESS_IMMUNE: [0 1]
PULMONARY_DISEASE: ['NO' 'YES']


Aparentemente, em uma visualização básica, está tudo certo com os dados. Na seção de ajustes, irei retirar a caixa alta dos nomes das colunas e transformar as colunas numéricas categóricas em categóricas com os textos preenchidos, para facilitar a visualização e entendimento das análises gráficas. Posteriormente, para etapas de machine learning, elas podem voltar a ser numéricas de modo simples.

### Ajustes

In [11]:
df.columns = [column_name.lower() for column_name in df.columns]
df.columns

Index(['age', 'gender', 'smoking', 'finger_discoloration', 'mental_stress',
       'exposure_to_pollution', 'long_term_illness', 'energy_level',
       'immune_weakness', 'breathing_issue', 'alcohol_consumption',
       'throat_discomfort', 'oxygen_saturation', 'chest_tightness',
       'family_history', 'smoking_family_history', 'stress_immune',
       'pulmonary_disease'],
      dtype='object')

In [12]:
numeric_columns = ["age", "energy_level", "oxygen_saturation"]
target_column = "pulmonary_disease"
binary_columns = [column for column in df.columns if column not in (numeric_columns + [target_column])]

In [13]:
columns_rename_number_values = binary_columns.copy()
columns_rename_number_values.remove("gender")

In [14]:
for column in columns_rename_number_values:
  df[column] = df[column].replace({1: "Yes", 0: "No"})

df["pulmonary_disease"] = df["pulmonary_disease"].replace({"YES": "Yes", "NO": "No"})

In [15]:
for column in binary_columns + [target_column]:
  df[column] = df[column].astype("category")

In [16]:
df["age"] = pd.to_numeric(df["age"], downcast="integer")

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 18 columns):
 #   Column                  Non-Null Count  Dtype   
---  ------                  --------------  -----   
 0   age                     5000 non-null   int8    
 1   gender                  5000 non-null   category
 2   smoking                 5000 non-null   category
 3   finger_discoloration    5000 non-null   category
 4   mental_stress           5000 non-null   category
 5   exposure_to_pollution   5000 non-null   category
 6   long_term_illness       5000 non-null   category
 7   energy_level            5000 non-null   float64 
 8   immune_weakness         5000 non-null   category
 9   breathing_issue         5000 non-null   category
 10  alcohol_consumption     5000 non-null   category
 11  throat_discomfort       5000 non-null   category
 12  oxygen_saturation       5000 non-null   float64 
 13  chest_tightness         5000 non-null   category
 14  family_history          

In [18]:
df.to_parquet(DADOS_LIMPOS, index=False)