In [2]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
import joblib

# Cargar tus datos de entrenamiento
df = pd.read_csv('partial_dataset.csv')

# Separar las características numéricas que quieres escalar
numeric_features = ['age', 'avg_glucose_level', 'bmi']
X_train = df[numeric_features]

# Crear y entrenar el scaler
scaler = StandardScaler()
scaler.fit(X_train)  # Entrenar el scaler con los datos de entrenamiento

# Guardar el scaler a un archivo .pkl
joblib.dump(scaler, 'scaler.pkl')


['scaler.pkl']

In [20]:
# Cargar el modelo y otros archivos de preprocesamiento
# model = joblib.load('path/to/your_model.pkl')
scaler = joblib.load('scaler.pkl')
encoder = joblib.load('encoder.pkl')

def preprocess_data(df):
    print("Datos antes del preprocesamiento:", df.head())  # Para depurar
    # Escalar las características numéricas
    numeric_features = ['age', 'avg_glucose_level', 'bmi']
    df[numeric_features] = scaler.transform(df[numeric_features])
    
    # Codificar las características categóricas
    categorical_features = ['gender', 'ever_married', 'work_type', 'Residence_type', 'smoking_status']
    encoded_categorical = encoder.transform(df[categorical_features])

    # Combinar los datos codificados
    df_encoded = pd.DataFrame(encoded_categorical, columns=encoder.get_feature_names_out(categorical_features))
    df_preprocessed = pd.concat([df[numeric_features], df_encoded], axis=1)
    print("Datos después del preprocesamiento:", df_preprocessed.head()) 
    
    return df_preprocessed

# Probar la función
df = pd.read_csv('partial_dataset.csv')
X_test = preprocess_data(df)
print(X_test.head())


Datos antes del preprocesamiento:    gender   age  hypertension  heart_disease ever_married      work_type  \
0  Female  49.0             0              0          Yes        Private   
1  Female  79.0             1              0          Yes  Self-employed   
2    Male  81.0             0              0          Yes        Private   
3    Male  74.0             1              1          Yes        Private   
4  Female  69.0             0              0           No        Private   

  Residence_type  avg_glucose_level   bmi   smoking_status  stroke  
0          Urban             171.23  34.4           smokes       1  
1          Rural             174.12  24.0     never smoked       1  
2          Urban             186.21  29.0  formerly smoked       1  
3          Rural              70.09  27.4     never smoked       1  
4          Urban              94.39  22.8     never smoked       1  
Datos después del preprocesamiento:         age  avg_glucose_level       bmi  gender_Female  ge

In [19]:
print("Columnas esperadas por el encoder:", encoder.get_feature_names_out())

Columnas esperadas por el encoder: ['gender_Female' 'gender_Male' 'ever_married_No' 'ever_married_Yes'
 'work_type_Govt_job' 'work_type_Private' 'work_type_Self-employed'
 'Residence_type_Rural' 'Residence_type_Urban' 'smoking_status_Unknown'
 'smoking_status_formerly smoked' 'smoking_status_never smoked'
 'smoking_status_smokes']


In [12]:
print("Columnas en el DataFrame:", df.columns)

Columnas en el DataFrame: Index(['gender', 'age', 'hypertension', 'heart_disease', 'ever_married',
       'work_type', 'Residence_type', 'avg_glucose_level', 'bmi',
       'smoking_status', 'stroke'],
      dtype='object')


In [11]:
print("DataFrame preprocesado para predicción:", X_test.columns)

DataFrame preprocesado para predicción: Index(['age', 'avg_glucose_level', 'bmi', 'gender_Female', 'gender_Male',
       'ever_married_No', 'ever_married_Yes', 'work_type_Govt_job',
       'work_type_Private', 'work_type_Self-employed', 'Residence_type_Rural',
       'Residence_type_Urban', 'smoking_status_Unknown',
       'smoking_status_formerly smoked', 'smoking_status_never smoked',
       'smoking_status_smokes'],
      dtype='object')


In [17]:
required_columns = ['gender', 'age', 'hypertension', 'heart_disease', 'ever_married', 'work_type', 'Residence_type', 'avg_glucose_level', 'bmi', 'smoking_status']
print("Columnas faltantes:", set(required_columns) - set(df.columns))

Columnas faltantes: set()


In [5]:
from sklearn.preprocessing import OneHotEncoder
import joblib

# Cargar tus datos de entrenamiento
df = pd.read_csv('partial_dataset.csv')

# Separar las características categóricas que quieres codificar
categorical_features = ['gender', 'ever_married', 'work_type', 'Residence_type', 'smoking_status']
X_train_categorical = df[categorical_features]

# Crear y entrenar el encoder
encoder = OneHotEncoder(sparse_output=False)  # sparse=False para obtener una matriz densa
encoder.fit(X_train_categorical)  # Entrenar el encoder con los datos de entrenamiento

# Guardar el encoder a un archivo .pkl
joblib.dump(encoder, 'encoder.pkl')


['encoder.pkl']