In [92]:
from joblib import dump, load

In [93]:
import os
if not os.path.exists('Codigo'):
    os.makedirs('Codigo')

In [94]:
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer

# Definir transformaciones para variables numéricas y categóricas
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# Definir las columnas numéricas y categóricas de tu dataset
numeric_features = X.select_dtypes(include=['float64', 'int64']).columns
categorical_features = X.select_dtypes(include=['object']).columns

# Crear el preprocessor combinando las transformaciones
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

In [95]:
# Importar librerías necesarias
import pandas as pd
from joblib import load, dump
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report


In [96]:
# Cargar los datos
# Cargar los datos
data = pd.read_csv('C:/Users/JONANNA/Documents/MINE/codigo_cirrosis/Codigo/cirrhosis.csv')
data.columns = data.columns.str.strip()  # Asegurar que no haya espacios en los nombres de columnas

# Definir X e y
X = data.drop(columns=['Stage'])  # Cambia 'Stage' si tu variable objetivo tiene otro nombre
y = data['Stage']

# Dividir los datos en entrenamiento y prueba como DataFrames
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [97]:
# Definir las transformaciones para las variables numéricas y categóricas
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),  # Manejo de nulos en numéricas
    ('scaler', StandardScaler())  # Estandarización
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Manejo de nulos en categóricas
    ('onehot', OneHotEncoder(handle_unknown='ignore'))  # Codificación categórica
])

# Definir las columnas numéricas y categóricas
numeric_features = X.select_dtypes(include=['float64', 'int64']).columns
categorical_features = X.select_dtypes(include=['object']).columns

# Crear el ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Integrar el preprocesador y el modelo en un pipeline
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(random_state=42))  # Modelo de clasificación
])



In [98]:
# Verificar si hay valores nulos en y_train y y_test
print("Valores nulos en y_train:", y_train.isnull().sum())
print("Valores nulos en y_test:", y_test.isnull().sum())


Valores nulos en y_train: 4
Valores nulos en y_test: 2


In [99]:
# Reemplazar valores nulos en y_train y y_test por el valor más frecuente
moda_y_train = y_train.mode()[0]  # Obtener la moda
moda_y_test = y_test.mode()[0]    # Obtener la moda

y_train.fillna(moda_y_train, inplace=True)
y_test.fillna(moda_y_test, inplace=True)


In [100]:
# Entrenar el pipeline completo
pipeline.fit(X_train, y_train)
print("Pipeline completo entrenado exitosamente.")


Pipeline completo entrenado exitosamente.


In [101]:
# Integrar el preprocesador y el modelo en un único pipeline
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(random_state=42))  # Modelo de clasificación
])


In [102]:
# Entrenar el pipeline completo
pipeline.fit(X_train, y_train)
print("Pipeline completo entrenado exitosamente.")


Pipeline completo entrenado exitosamente.


In [103]:
# Guardar el pipeline entrenado
dump(pipeline, 'C:/Users/JONANNA/Documents/MINE/codigo_cirrosis/Codigo/modelo_completo_pipeline.joblib')
print("Pipeline completo guardado exitosamente.")


Pipeline completo guardado exitosamente.


In [104]:
# Hacer predicciones en el conjunto de prueba
y_pred = pipeline.predict(X_test)


In [106]:
# Imprimir métricas de evaluación
from sklearn.metrics import accuracy_score, classification_report

print("Accuracy:", accuracy_score(y_test, y_pred))
print("Reporte de clasificación:\n", classification_report(y_test, y_pred, zero_division=0))


Accuracy: 0.5476190476190477
Reporte de clasificación:
               precision    recall  f1-score   support

         1.0       0.00      0.00      0.00         3
         2.0       0.27      0.19      0.22        16
         3.0       0.55      0.76      0.64        34
         4.0       0.65      0.55      0.60        31

    accuracy                           0.55        84
   macro avg       0.37      0.38      0.37        84
weighted avg       0.52      0.55      0.52        84



In [90]:
# Importar librerías para guardar en joblib
from joblib import load
from sklearn.metrics import accuracy_score, classification_report


In [91]:
# Guardar el pipeline de preprocesamiento
dump(preprocessor, 'Codigo/preprocesamiento_pipeline.joblib')
print("Pipeline de preprocesamiento guardado exitosamente.")


Pipeline de preprocesamiento guardado exitosamente.
