In [3]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

#Dataset
df = pd.read_csv("diabetes.csv")

#Função para tratar dados
def tratardataset(df: pd.DataFrame, cols_zero_invalid: list, save_path: str = None) -> pd.DataFrame:
    #Substituir zeros por NaN
    df[cols_zero_invalid] = df[cols_zero_invalid].replace(0, np.nan)

    #Preencher NaN com a mediana
    df = df.fillna(df.median(numeric_only=True))

    #Salvar dataset tratado
    if save_path:
        df.to_csv(save_path, index=False)
        print(f"Dataset tratado salvo em: {save_path}")

    return df

#Análise exploratória
print("Informações do dataset:")
print(df.info())
print("\nEstatísticas descritivas:")
print(df.describe())

#Valores nulos
print("\nValores nulos por coluna:")
print(df.isnull().sum())

#Valores iguais a zero
cols_zero_invalid = ["Glucose", "BloodPressure", "SkinThickness", "Insulin", "BMI"]
print("\nZeros encontrados:")
print((df[cols_zero_invalid] == 0).sum())

#Tratar dataset
df_novabase = tratardataset(df, cols_zero_invalid, save_path="diabetesnovo.csv")

#Variáveis
X = df_novabase.drop("Outcome", axis=1)
y = df_novabase["Outcome"]

#Normalização
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

#Teste
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42, stratify=y
)

print("\nFormato dos conjuntos:")
print("Treino:", X_train.shape, y_train.shape)
print("Teste :", X_test.shape, y_test.shape)


Informações do dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB
None

Estatísticas descritivas:
       Pregnancies     Glucose  BloodPressure  SkinThickness     Insulin  \
count   768.000000  768.000000     768.000000     768.000000  768.000000   
mean      3.845052  120.894531  