In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import (accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report)
from sklearn.preprocessing import StandardScaler

sns.set_theme(style="whitegrid")
pd.set_option('display.max_columns', None)

df = pd.read_csv('./original/train.csv')
df.head() # preview do dataset

# linhas e colunas
print(f"Dataset shape: {df.shape}")
df.info() 
df.describe()

# Verificar se há valores em falta
missing_total = df.isnull().sum().sum()
print(f"Valores em falta no dataset de treino: {missing_total}")

# Preencher valores em falta se existirem, testamos 
if missing_total > 0:
    print("Preencher valores em falta com a mediana.")
    df = df.fillna(df.median(numeric_only=True))
else:
    print("Nenhum valor em falta encontrado.")

# distribuição de fumadores
sns.countplot(x='smoking', data=df)
plt.title("Smoker Status Distribution")
plt.xlabel("Smoker")
plt.ylabel("Count")
plt.show()

# valores numéricos das classes
df['smoking'].value_counts()
# matriz de correlação
correlation_matrix = df.corr()

plt.figure(figsize=(16, 12))
sns.heatmap(correlation_matrix, annot=False, cmap='coolwarm')
plt.title("Correlation Heatmap")
plt.show()

features = ['age', 'height(cm)', 'weight(kg)', 'waist(cm)','eyesight(left)', 'eyesight(right)','hearing(left)', 'hearing(right)','systolic', 'relaxation', 
    'fasting blood sugar','Cholesterol', 'triglyceride', 'HDL', 'LDL','hemoglobin', 'Urine protein', 'serum creatinine','AST', 'ALT', 'Gtp', 'dental caries']

for feature in features:
    plt.figure(figsize=(8, 5))
    sns.boxplot(x='smoking', y=feature, data=df)
    plt.title(f"{feature} por by Smoking Status")
    plt.xlabel("Smoker")
    plt.ylabel(feature)
    plt.tight_layout()
    plt.show()


df = df.drop(columns=['id']) # remover cenas que nao sejam úteis para a análise tipo id, depois podemos pesquisar mais sobre o que é influenciado por fumar
# separar dados da variável alvo (smoking)
X = df.drop(columns=['smoking'])
y = df['smoking']

# Normalizar dados (standardização: média 0, desvio padrão 1)
scaler = StandardScaler() 
X_scaled = scaler.fit_transform(X)

# Dividir o dataset em treino e teste (80/20)
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42, stratify=y)