<a href="https://colab.research.google.com/github/ftamaki/postech/blob/main/TechChalenge_v1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
import os
import kagglehub

# Baixar o dataset
path = kagglehub.dataset_download("khwaishsaxena/lung-cancer-dataset")
print("Path to dataset files:", path)

# Verificar os arquivos
files = os.listdir(path)
print("Arquivos encontrados:", files)

# Carregar o dataset
file_path = os.path.join(path, 'Lung Cancer.csv')
df = pd.read_csv(file_path)
df.head()
df_pdata = df.copy()      # será usado para o pré-processamento

ModuleNotFoundError: No module named 'kagglehub'

In [None]:
df_pdata.columns = df_pdata.columns.str.replace(' ', '', regex=True).str.upper()

In [None]:
df_pdata.describe(include='all')  # Traz também colunas categóricas
df_pdata.head()

In [None]:
# Verifica valores ausentes
df_pdata.isnull().sum()

In [None]:
stage_mapping = {
    'Male': 1,
    'Female': 2
}

df_pdata['GENDER'] = df_pdata['GENDER'].map(stage_mapping)
df_pdata.head()

In [None]:
stage_mapping = {
    'Stage I': 1,
    'Stage II': 2,
    'Stage III': 3
}

df_pdata['CANCER_STAGE'] = df_pdata['CANCER_STAGE'].map(stage_mapping)
df_pdata.head()

In [None]:
df_pdata['TREATMENT_TYPE'].unique()

In [None]:
df_pdata = pd.get_dummies(df_pdata, columns=['TREATMENT_TYPE'], prefix='TREATMENT')
df_pdata.head()

In [None]:
# Normatizando Family History
df_pdata['FAMILY_HISTORY'].unique()
df_pdata['FAMILY_HISTORY'] = df_pdata['FAMILY_HISTORY'].map({'No': 0, 'Yes': 1})

In [None]:
df_pdata.head()

In [None]:
# Selecionar colunas não numéricas (object, category ou string)
non_numeric_cols = df_pdata.select_dtypes(exclude=['number']).columns

# Mostrar os valores únicos de cada coluna não numérica
for col in non_numeric_cols:
    print(f"Coluna: {col}")
    print(df_pdata[col].unique())
    print("-" * 50)


In [None]:
df_pdata = pd.get_dummies(df_pdata, columns=['SMOKING_STATUS'], prefix='SMOKING')
df_pdata.head()

In [None]:
df_pdata['DIAGNOSIS_DATE'] = pd.to_datetime(df_pdata['DIAGNOSIS_DATE'])
df_pdata['END_TREATMENT_DATE'] = pd.to_datetime(df_pdata['END_TREATMENT_DATE'])
df_pdata.head()

In [None]:
df_pdata['TREATMENT_DURATION'] = (df_pdata['END_TREATMENT_DATE'] - df_pdata['DIAGNOSIS_DATE']).dt.days
df_pdata.head()

In [None]:
# Verificar a distribuição de sobreviventes
survived_counts = df_pdata['SURVIVED'].value_counts()

# Plotar a distribuição de sobreviventes
import seaborn as sns
import matplotlib.pyplot as plt

sns.countplot(x='SURVIVED', data=df_pdata)
plt.title("Distribuição de Sobreviventes")
plt.xlabel("Sobreviveu (1) / Não Sobreviveu (0)")
plt.ylabel("Contagem")
plt.show()

# Mostrar a contagem
print(survived_counts)


In [None]:
# Filtrar apenas colunas numéricas
numeric_df = df_pdata.select_dtypes(include='number')

# Calcular a correlação apenas entre colunas numéricas
correlation = numeric_df.corr()

# Mostrar correlações com 'SURVIVED'
print(correlation['SURVIVED'].sort_values(ascending=False))


In [None]:
# Visualizar a correlação com um heatmap
plt.figure(figsize=(12, 8))
sns.heatmap(correlation, annot=True, cmap='coolwarm', fmt='.2f', linewidths=0.5)
plt.title("Mapa de Correlação")
plt.show()


In [None]:
#usando tabela original
sns.countplot(x='treatment_type', hue='survived', data=df)

In [None]:
sns.boxplot(x='SURVIVED', y='AGE', data=df_pdata)
plt.title("Distribuição da Idade por Sobrevivência")


In [None]:
sns.boxplot(x='SURVIVED', y='TREATMENT_DURATION', data=df_pdata)
plt.title("Duração do Tratamento por Sobrevivência")


In [None]:
sns.countplot(x='treatment_type', hue='survived', data=df)
plt.title("Tipo de Tratamento por Sobrevivência")
df.head()

In [None]:
sns.countplot(x='smoking_status', hue='survived', data=df)
plt.title("Status de Fumo por Sobrevivência")


In [None]:
sns.countplot(x='FAMILY_HISTORY', hue='SURVIVED', data=df_pdata)
plt.title("Histórico Familiar por Sobrevivência")


In [None]:
plt.figure(figsize=(14, 6))
sns.countplot(x='COUNTRY', hue='SURVIVED', data=df_pdata)
plt.title("Sobrevivência por País")
plt.xticks(rotation=45)


In [None]:
numeric_df = df_pdata.select_dtypes(include='number')
plt.figure(figsize=(12, 8))
sns.heatmap(numeric_df.corr(), annot=True, fmt='.2f', cmap='coolwarm')
plt.title("Mapa de Correlação")


In [None]:
sns.kdeplot(data=df_pdata, x='TREATMENT_DURATION', hue='SURVIVED', fill=True)
plt.title("Distribuição da Duração do Tratamento por Sobrevivência")


In [None]:
sns.catplot(data=df, x='treatment_type', hue='smoking_status', col='survived', kind='count', height=5)


In [None]:
sns.boxplot(data=df, x='smoking_status', y='treatment_type', hue='survived')
