## 🩺Healthcare Dataset 🧪

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.graph_objects as go
import plotly.offline as pyo 
import plotly.io as pio
import sklearn
import plotly.express as ex
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import math

import warnings
warnings.filterwarnings('ignore')

# Loading sintetic data 🧑‍💻

In [5]:
df = pd.read_csv("data/healthcare_dataset_sintetico.csv")
df.head().T

Unnamed: 0,0,1,2,3,4
Name,María García López,Javier Fernández Fernández,Carlos Sánchez García,Antonio Martínez García,Carlos García Fernández
Age,81,35,61,49,51
Gender,Female,Male,Male,Male,Male
Blood Type,O-,O+,B-,B-,O-
Medical Condition,Diabetes,Asthma,Obesity,Asthma,Arthritis
Date of Admission,2022-11-17,2023-06-01,2019-01-09,2020-05-02,2021-07-09
Doctor,Dra. Marta Dominguez,Dra. Marta Dominguez,Dra. Elena Suárez,Dr. José Navarro,Dr. José Navarro
Hospital,Clínica Santa Isabel,Clínica Santa Isabel,Hospital Virgen del Rocío,Hospital Universitario de Madrid,Hospital Virgen del Rocío
Insurance Provider,Sanitas,Seguros Mapfre,AXA,AXA,Asisa
Billing Amount,37490.983364,47304.064845,36874.896997,23303.322092,18086.344184


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 15 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Name                10000 non-null  object 
 1   Age                 10000 non-null  int64  
 2   Gender              10000 non-null  object 
 3   Blood Type          10000 non-null  object 
 4   Medical Condition   10000 non-null  object 
 5   Date of Admission   10000 non-null  object 
 6   Doctor              10000 non-null  object 
 7   Hospital            10000 non-null  object 
 8   Insurance Provider  10000 non-null  object 
 9   Billing Amount      10000 non-null  float64
 10  Room Number         10000 non-null  int64  
 11  Admission Type      10000 non-null  object 
 12  Discharge Date      10000 non-null  object 
 13  Medication          10000 non-null  object 
 14  Test Results        10000 non-null  object 
dtypes: float64(1), int64(2), object(12)
memory usage: 1.1+

Name (object): 📋 - This column contains the names of individuals, likely patients, and is stored as textual data. Each entry is unique to a person.
Age (int64): 👴👵 - The age of the patients, represented as whole numbers (integers). This indicates the age at the time of admission or registration.
Gender (object): ♂️♀️ - The gender of the patients. Typically, this data is categorical and might include labels such as Male, Female, or other gender identities depending on the dataset's inclusivity.
Blood Type (object): 🩸 - This column specifies the blood type of each patient. Common blood type categories include A+, A-, B+, B-, AB+, AB-, O+, and O-.
Medical Condition (object): ⚕️ - A textual description of the patient's medical condition(s) at the time of admission. This could range from simple conditions to complex diagnoses.
Date of Admission (object): 🏥📅 - The date when the patient was admitted to the facility. Although listed as an object type, this likely represents dates and might need to be converted to a datetime format for analysis.
Doctor (object): 👨‍⚕️👩‍⚕️ - The name of the doctor or the primary physician responsible for the patient. This is textual data.
Hospital (object): 🏥 - The name of the hospital where the patient was admitted. This indicates the facility's location or identification.
Insurance Provider (object): 💼 - The name of the insurance provider for the patient. This column indicates which company is responsible for covering the medical expenses.
Billing Amount (float64): 💵 - The amount billed for the medical services provided to the patient. This is a numerical column that likely varies widely depending on the treatments, length of stay, and insurance coverage.
Room Number (int64): 🛏️ - The number of the room where the patient was placed. This is an integer value and might be used for logistical or administrative purposes.
Admission Type (object): 🚑 - The type of admission for the patient, such as emergency, routine, or referral. This is a categorical column that provides context for the nature of the hospital visit.
Discharge Date (object): 🏥🚪📅 - The date when the patient was discharged from the facility. Like the Date of Admission, this is listed as an object type but should represent dates.
Medication (object): 💊 - A list or description of the medication prescribed to the patient during their stay. This column provides insight into the treatment regimen.
Test Results (object): 📝🩺 - Descriptions or outcomes of any medical tests the patient underwent. This could include a wide range of data, depending on the tests performed.

In [7]:
df.describe()

Unnamed: 0,Age,Billing Amount,Room Number
count,10000.0,10000.0,10000.0
mean,51.4522,25516.806778,300.082
std,19.588974,14067.292709,115.806027
min,18.0,1000.180837,101.0
25%,35.0,13506.523967,199.0
50%,52.0,25258.112566,299.0
75%,68.0,37733.913727,400.0
max,85.0,49995.902283,500.0


In [8]:
df.isnull().sum()

Name                  0
Age                   0
Gender                0
Blood Type            0
Medical Condition     0
Date of Admission     0
Doctor                0
Hospital              0
Insurance Provider    0
Billing Amount        0
Room Number           0
Admission Type        0
Discharge Date        0
Medication            0
Test Results          0
dtype: int64

In [9]:
df.shape

(10000, 15)

## EDA 📊

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 15 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Name                10000 non-null  object 
 1   Age                 10000 non-null  int64  
 2   Gender              10000 non-null  object 
 3   Blood Type          10000 non-null  object 
 4   Medical Condition   10000 non-null  object 
 5   Date of Admission   10000 non-null  object 
 6   Doctor              10000 non-null  object 
 7   Hospital            10000 non-null  object 
 8   Insurance Provider  10000 non-null  object 
 9   Billing Amount      10000 non-null  float64
 10  Room Number         10000 non-null  int64  
 11  Admission Type      10000 non-null  object 
 12  Discharge Date      10000 non-null  object 
 13  Medication          10000 non-null  object 
 14  Test Results        10000 non-null  object 
dtypes: float64(1), int64(2), object(12)
memory usage: 1.1+

In [11]:
# Numerical
df.describe(exclude=['O'])

Unnamed: 0,Age,Billing Amount,Room Number
count,10000.0,10000.0,10000.0
mean,51.4522,25516.806778,300.082
std,19.588974,14067.292709,115.806027
min,18.0,1000.180837,101.0
25%,35.0,13506.523967,199.0
50%,52.0,25258.112566,299.0
75%,68.0,37733.913727,400.0
max,85.0,49995.902283,500.0


In [12]:
# Contando el número de columnas numéricas para definir el layout de subplots
num_cols = len(df.select_dtypes(include='number').columns)
rows = int(num_cols**0.5) + 1
cols = (num_cols // rows) + (num_cols % rows > 0)

# Creando una figura con subplots
fig = make_subplots(rows=rows, cols=cols, subplot_titles=df.select_dtypes(include='number').columns)

# Inicializando un contador para los subplots
plot_count = 1

for column in df.select_dtypes(include='number').columns:
    row = (plot_count - 1) // cols + 1
    col = (plot_count - 1) % cols + 1
    try:
        fig.add_trace(
            go.Histogram(x=df[column], nbinsx=50), 
            row=row, 
            col=col
        )
    except ValueError as e:
        print(f"Error plotting {column}: {e}")
    plot_count += 1

# Actualizando el layout de la figura para hacerla más estética
fig.update_layout(title_text="Análisis de Columnas Numéricas", showlegend=False)
fig.update_layout(height=600, width=1000)  # Ajusta estas dimensiones según tus necesidades

fig.show()

In [13]:
# categorical features
df.describe(include=['O'])

Unnamed: 0,Name,Gender,Blood Type,Medical Condition,Date of Admission,Doctor,Hospital,Insurance Provider,Admission Type,Discharge Date,Medication,Test Results
count,10000,10000,10000,10000,10000,10000,10000,10000,10000,10000,10000,10000
unique,250,2,8,6,1815,5,5,5,3,1834,5,3
top,Laura Martínez Martínez,Female,AB-,Asthma,2019-04-12,Dra. Marta Dominguez,Clínica San Francisco,DKV Seguros,Urgent,2021-11-28,Penicillin,Abnormal
freq,61,5075,1275,1708,15,2054,2117,2022,3391,14,2079,3456


In [14]:
import plotly.express as px

# Seleccionando solo las columnas categóricas
categorical_columns = df.select_dtypes(include=['O'])

# Calculando el número de categorías únicas por columna
unique_counts = {column: df[column].nunique() for column in categorical_columns.columns}

# Ordenando las columnas de menos a más categorías únicas
sorted_columns = sorted(unique_counts, key=unique_counts.get)[:100]

# Determinando el número óptimo de filas y columnas para los primeros 100
num_cols_to_show = len(sorted_columns)
cols = 3  # Asumimos un número deseado de columnas para el layout
rows = math.ceil(num_cols_to_show / cols)

# Ajustando el tamaño de la figura basado en el número de filas y columnas
fig_height = max(200 * rows, 400)  # Altura mínima de 400
fig_width = 1000  # Ancho fijo que puedes ajustar según necesites

# Creando una figura con subplots para las columnas ordenadas
fig = make_subplots(rows=rows, cols=cols, subplot_titles=sorted_columns)

plot_count = 1
for column in sorted_columns:
    row = (plot_count - 1) // cols + 1
    col = (plot_count - 1) % cols + 1
    
    # Contando las ocurrencias de cada categoría
    category_counts = df[column].value_counts()
    category_names = category_counts.index
    
    # Generando colores distintos para cada gráfico
    colors = px.colors.qualitative.Plotly

    fig.add_trace(
        go.Bar(x=category_names, y=category_counts, marker_color=colors[plot_count % len(colors)]), 
        row=row, 
        col=col
    )
    
    plot_count += 1

# Actualizando el layout de la figura
fig.update_layout(
    title_text="Distribución de las Primeras 100 Columnas Categóricas con Menos Categorías",
    showlegend=False,
    height=fig_height, 
    width=fig_width,
    margin=dict(t=100, b=100)  # Ajustando márgenes para evitar solapamientos
)

fig.show()

In [15]:
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Definir las columnas categóricas para visualizar
cols = ['Gender', 'Blood Type', 'Medical Condition', 'Insurance Provider', 'Admission Type', 'Medication', 'Test Results']

# Cargar el conjunto de datos (asegúrate de reemplazar 'df' con el nombre de tu DataFrame)
# df = pd.read_csv('tu_archivo.csv')

for i in cols:
    # Contar los valores únicos para cada columna
    counts = df[i].value_counts()
    
    # Crear una figura con subplots: uno para el gráfico de barras y otro para el gráfico de pastel
    fig = make_subplots(rows=1, cols=2, specs=[[{"type": "bar"}, {"type": "pie"}]])
    
    # Gráfico de barras
    fig.add_trace(
        go.Bar(x=counts.index, y=counts.values, marker_color='lightskyblue'),
        row=1, col=1
    )
    
    # Gráfico de pastel
    fig.add_trace(
        go.Pie(labels=counts.index, values=counts.values),
        row=1, col=2
    )
    
    # Actualizar títulos y layout
    fig.update_layout(title_text=f'Análisis de {i}', title_x=0.5)
    
    # Mostrar figura
    fig.show()


In [16]:

df['Date of Admission'] = pd.to_datetime(df['Date of Admission'])
admisiones_por_mes = df.resample('M', on='Date of Admission').size()
fig_tendencias_admisiones = px.line(x=admisiones_por_mes.index, y=admisiones_por_mes.values, labels={'x': 'Mes', 'y': 'Número de Admisiones'})
fig_tendencias_admisiones.update_layout(title='Tendencias Temporales en Admisiones por Mes')
fig_tendencias_admisiones.show()

fig_distribucion_edades = go.Figure(data=[go.Histogram(x=df['Age'], marker_color='lightblue')])
fig_distribucion_edades.update_layout(title='Distribución de Edades de los Pacientes', xaxis_title='Edad', yaxis_title='Cantidad de Pacientes')
fig_distribucion_edades.show()

fig_facturas_admision = go.Figure()
for tipo in df['Admission Type'].unique():
    fig_facturas_admision.add_trace(go.Box(y=df[df['Admission Type'] == tipo]['Billing Amount'], name=tipo))
fig_facturas_admision.update_layout(title='Comparación de Facturas por Tipo de Admisión', yaxis_title='Cantidad Facturada ($)')
fig_facturas_admision.show()

average_billing_medical_condition = df.groupby('Medical Condition')['Billing Amount'].mean().sort_values(ascending=False)
fig_factura_promedio_condicion = go.Figure(go.Bar(
    x=average_billing_medical_condition.values,
    y=average_billing_medical_condition.index,
    orientation='h',
    marker_color='skyblue'
))
fig_factura_promedio_condicion.update_layout(
    title='Factura promedio por Condición Médica',
    xaxis_title='Factura promedio ($)',
    yaxis_title='Condición Médica',
    template='plotly_white',
    autosize=False,
    width=800,
    height=600
)
fig_factura_promedio_condicion.show()


In [17]:
# Creating column with the number of days hospitalized

# Assuming df is your DataFrame
df['Date of Admission'] = pd.to_datetime(df['Date of Admission'])
df['Discharge Date'] = pd.to_datetime(df['Discharge Date'])

# Calculating the timedelta and converting it to number of days
df['Days hospitalized'] = (df['Discharge Date'] - df['Date of Admission']).dt.days

# No need to divide by 86400000000000, as we're already getting the number of days directly


df.head()

Unnamed: 0,Name,Age,Gender,Blood Type,Medical Condition,Date of Admission,Doctor,Hospital,Insurance Provider,Billing Amount,Room Number,Admission Type,Discharge Date,Medication,Test Results,Days hospitalized
0,María García López,81,Female,O-,Diabetes,2022-11-17,Dra. Marta Dominguez,Clínica Santa Isabel,Sanitas,37490.983364,146,Elective,2022-12-01,Aspirin,Inconclusive,14
1,Javier Fernández Fernández,35,Male,O+,Asthma,2023-06-01,Dra. Marta Dominguez,Clínica Santa Isabel,Seguros Mapfre,47304.064845,404,Emergency,2023-06-15,Lipitor,Normal,14
2,Carlos Sánchez García,61,Male,B-,Obesity,2019-01-09,Dra. Elena Suárez,Hospital Virgen del Rocío,AXA,36874.896997,292,Emergency,2019-02-08,Lipitor,Normal,30
3,Antonio Martínez García,49,Male,B-,Asthma,2020-05-02,Dr. José Navarro,Hospital Universitario de Madrid,AXA,23303.322092,480,Urgent,2020-05-03,Penicillin,Abnormal,1
4,Carlos García Fernández,51,Male,O-,Arthritis,2021-07-09,Dr. José Navarro,Hospital Virgen del Rocío,Asisa,18086.344184,477,Urgent,2021-08-02,Paracetamol,Normal,24


In [18]:
import pandas as pd
import plotly.graph_objects as go
from plotly.offline import init_notebook_mode, iplot

# Initialize Plotly for notebook use
init_notebook_mode(connected=True)

# Example columns to analyze - choose relevant columns for your analysis
cols = ['Gender', 'Blood Type', 'Medical Condition', 'Doctor', 'Hospital', 'Insurance Provider', 'Admission Type', 'Medication', 'Test Results']

# Function to create and display the bar chart
def create_bar_chart(df, column_name):
    chart_data = df.groupby([column_name])[['Days hospitalized']].mean().reset_index()
    chart_data = chart_data.sort_values(by="Days hospitalized", ascending=False).head(10)
    
    fig = go.Figure()
    fig.add_trace(go.Bar(x=chart_data[column_name], y=chart_data["Days hospitalized"]))
    
    fig.update_layout(
        title=f'Highest {column_name} according to average number of days hospitalized',
        xaxis_title=column_name,
        yaxis_title="Days hospitalized",
        plot_bgcolor='black', 
        paper_bgcolor='gray',  
        font=dict(color='white')
    )
    
    iplot(fig)

# Loop through each specified column and create a chart
for col in cols:
    create_bar_chart(df, col)


## Prediccion de días hospitalizado

# Preparación de los datos

In [19]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler

# Separar las características y la variable objetivo
X = df.drop('Days hospitalized', axis=1)
y = df['Days hospitalized']

# Identificar columnas numéricas y categóricas
numeric_columns = X.select_dtypes(include=['int64', 'float64']).columns
categorical_columns = X.select_dtypes(include=['object']).columns

# Crear transformadores para preprocesamiento
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),  # Trata valores faltantes
    ('scaler', StandardScaler())])  # Estandariza las características numéricas

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Trata valores faltantes
    ('onehot', OneHotEncoder(handle_unknown='ignore'))])  # Codifica variables categóricas

# Combinar transformadores en un ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_columns),
        ('cat', categorical_transformer, categorical_columns)])

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


# Construcción del modelo de regression lineal

In [20]:
from sklearn.linear_model import LinearRegression

# Definir el modelo
model = Pipeline(steps=[('preprocessor', preprocessor),
                        ('regressor', LinearRegression())])


# Entrenamiento y evaluación

In [21]:
# Entrenar el modelo
model.fit(X_train, y_train)

# Predecir en el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluar el modelo
from sklearn.metrics import mean_absolute_error, mean_squared_error
import numpy as np

print("RMSE:", np.sqrt(mean_squared_error(y_test, y_pred)))
print("MAE:", mean_absolute_error(y_test, y_pred))


RMSE: 8.810440611266651
MAE: 7.61673281872231


# Ajuste de hiperparámetros

In [22]:
from sklearn.model_selection import GridSearchCV

# Definir el espacio de búsqueda de hiperparámetros
param_grid = {
    'regressor__fit_intercept': [True, False],
}

# Configurar la búsqueda
search = GridSearchCV(model, param_grid, cv=5, scoring='neg_mean_squared_error')

# Ejecutar la búsqueda
search.fit(X_train, y_train)

# Mostrar los mejores parámetros
print("Mejores parámetros:", search.best_params_)


Mejores parámetros: {'regressor__fit_intercept': True}


In [23]:
# Utilizar los mejores parámetros para predecir
y_pred_final = search.best_estimator_.predict(X_test)

# Evaluar el modelo ajustado
print("RMSE ajustado:", np.sqrt(mean_squared_error(y_test, y_pred_final)))
print("MAE ajustado:", mean_absolute_error(y_test, y_pred_final))


RMSE ajustado: 8.810440611266651
MAE ajustado: 7.61673281872231


# Ridge y Lasso

In [24]:
from sklearn.linear_model import Ridge, Lasso

# Reemplaza 'model' por un nuevo Pipeline si es necesario
model = Pipeline(steps=[('preprocessor', preprocessor),
                        ('regressor', Ridge())])  # Comienza con Ridge como ejemplo

# Definir un nuevo espacio de búsqueda de hiperparámetros
param_grid = {
    'regressor__alpha': [0.1, 1.0, 10.0, 100.0],  # Valores de alpha para probar
    'regressor': [Ridge(), Lasso()],  # Incluye diferentes tipos de regresores
    'regressor__fit_intercept': [True, False]  # Probar con y sin intercepción
}

# Configurar la búsqueda con el nuevo espacio de parámetros
search = GridSearchCV(model, param_grid, cv=5, scoring='neg_mean_squared_error')

# Ejecutar la búsqueda
search.fit(X_train, y_train)

# Mostrar los mejores parámetros encontrados
print("Mejores parámetros:", search.best_params_)


Mejores parámetros: {'regressor': Lasso(), 'regressor__alpha': 1.0, 'regressor__fit_intercept': True}


# Entrenamiento y evaluación

In [25]:
from sklearn.linear_model import Lasso

# Configura el modelo con los mejores parámetros
optimized_model = Pipeline(steps=[('preprocessor', preprocessor),
                                  ('regressor', Lasso(alpha=1.0, fit_intercept=True))])

# Entrenar el modelo optimizado
optimized_model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred_optimized = optimized_model.predict(X_test)

# Evaluar el modelo optimizado
print("RMSE optimizado:", np.sqrt(mean_squared_error(y_test, y_pred_optimized)))
print("MAE optimizado:", mean_absolute_error(y_test, y_pred_optimized))


RMSE optimizado: 8.640284428188693
MAE optimizado: 7.50495


In [26]:
import joblib

# Guardar el modelo optimizado a disco
model_filename = 'optimized_lasso_model.joblib'
joblib.dump(optimized_model, model_filename)

print(f"Modelo guardado como {model_filename}.")


Modelo guardado como optimized_lasso_model.joblib.


# Creación de datos sinteticos para prueba de modelo

In [28]:
import numpy as np

# Definir el número de muestras
n_samples = 10000

# Ampliando las listas de nombres y apellidos para generar nombres más variados y realistas
first_names = ['Maria', 'Jose', 'Antonio', 'Ana', 'Juan', 'Isabel', 'Javier', 'Teresa', 'Carlos', 'Laura',
               'Carmen', 'Francisco', 'Dolores', 'David', 'Manuel', 'Rosa', 'Daniel', 'Lucia', 'Miguel', 'Sofia',
               'Paula', 'Pablo', 'Marta', 'Fernando', 'Raquel', 'Sergio', 'Patricia', 'Jorge', 'Silvia', 'Rafael']

last_names = ['García', 'Martínez', 'López', 'Sánchez', 'Pérez', 'Gómez', 'Fernández', 'González', 'Rodríguez', 'Ruiz',
              'Moreno', 'Jiménez', 'Muñoz', 'Alonso', 'Gutiérrez', 'Navarro', 'Torres', 'Domínguez', 'Vázquez', 'Ramos',
              'Gil', 'Ramírez', 'Serrano', 'Blanco', 'Molina', 'Morales', 'Suárez', 'Ortega', 'Delgado', 'Castro']

# Generar nombres completos combinando aleatoriamente nombres y apellidos
full_names = [np.random.choice(first_names) + ' ' + np.random.choice(last_names) + ' ' + np.random.choice(last_names) for _ in range(n_samples)]

# Mostrar las primeras filas del DataFrame generado
print(full_names[:5])

# Actualización de la generación de fechas de admisión y alta para evitar posibles errores
# Asegurando que las fechas de alta son siempre después de las fechas de admisión
admission_dates = pd.to_datetime('2022-01-01') + pd.to_timedelta(np.random.randint(0, 365, size=n_samples), unit='D')
discharge_dates = admission_dates + pd.to_timedelta(np.random.randint(1, 60, size=n_samples), unit='D')  # hasta 60 días después

# Generar datos sintéticos con los nuevos nombres
data_sinteticos = {
    'Name': full_names,
    'Age': np.random.randint(18, 90, size=n_samples),
    'Gender': np.random.choice(['Male', 'Female'], size=n_samples),
    'Blood Type': np.random.choice(['A+', 'A-', 'B+', 'B-', 'AB+', 'AB-', 'O+', 'O-'], size=n_samples),
    'Medical Condition': np.random.choice(['Diabetes', 'Hypertension', 'Asthma', 'None'], size=n_samples),
    'Date of Admission': admission_dates,
    'Doctor': np.random.choice(['Dra. Marta Dominguez', 'Dr. Luis Perez', 'Dra. Ana Ruiz', 'Dr. Carlos Jimenez'], size=n_samples),
    'Hospital': np.random.choice(['Clínica Santa Isabel', 'Hospital General', 'Clínica San Pedro', 'Hospital Universitario'], size=n_samples),
    'Insurance Provider': np.random.choice(['Sanitas', 'Adeslas', 'ASISA', 'Mapfre'], size=n_samples),
    'Billing Amount': np.random.uniform(2000, 40000, size=n_samples),
    'Room Number': np.random.randint(100, 200, size=n_samples),
    'Admission Type': np.random.choice(['Elective', 'Emergency', 'Urgent', 'Observation'], size=n_samples),
    'Discharge Date': discharge_dates,
    'Medication': np.random.choice(['Aspirin', 'Metformin', 'None', 'Ibuprofen'], size=n_samples),
    'Test Results': np.random.choice(['Positive', 'Negative', 'Inconclusive', 'Pending'], size=n_samples),
}

# Crear DataFrame con los datos sintéticos
X_new = pd.DataFrame(data_sinteticos)

X_new.head()  # Mostrar las primeras filas del DataFrame generado

['Javier Navarro Gómez', 'Laura Suárez Vázquez', 'Jose Ramírez Suárez', 'Maria Martínez Sánchez', 'Daniel Ruiz Suárez']


Unnamed: 0,Name,Age,Gender,Blood Type,Medical Condition,Date of Admission,Doctor,Hospital,Insurance Provider,Billing Amount,Room Number,Admission Type,Discharge Date,Medication,Test Results
0,Javier Navarro Gómez,37,Male,B-,Hypertension,2022-01-02,Dr. Carlos Jimenez,Hospital Universitario,Adeslas,3997.519103,107,Observation,2022-02-12,Aspirin,Pending
1,Laura Suárez Vázquez,26,Male,O+,Asthma,2022-02-09,Dra. Ana Ruiz,Hospital Universitario,ASISA,9681.067928,122,Urgent,2022-02-12,Ibuprofen,Inconclusive
2,Jose Ramírez Suárez,23,Male,A+,Diabetes,2022-08-11,Dra. Marta Dominguez,Clínica San Pedro,ASISA,38020.171121,114,Elective,2022-09-08,Metformin,Inconclusive
3,Maria Martínez Sánchez,60,Female,AB-,,2022-08-16,Dra. Marta Dominguez,Clínica San Pedro,Sanitas,26356.651249,189,Urgent,2022-08-23,Aspirin,Inconclusive
4,Daniel Ruiz Suárez,49,Female,B-,,2022-11-09,Dra. Ana Ruiz,Clínica San Pedro,Sanitas,9519.756886,192,Elective,2023-01-06,,Pending


In [30]:
import joblib

# Asegúrate de que el nombre del archivo coincida con el que guardaste
model_filename = 'optimized_lasso_model.joblib'
loaded_model = joblib.load(model_filename)


# Preparar los nuevos datos

In [31]:
X_new.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 15 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Name                10000 non-null  object        
 1   Age                 10000 non-null  int32         
 2   Gender              10000 non-null  object        
 3   Blood Type          10000 non-null  object        
 4   Medical Condition   10000 non-null  object        
 5   Date of Admission   10000 non-null  datetime64[ns]
 6   Doctor              10000 non-null  object        
 7   Hospital            10000 non-null  object        
 8   Insurance Provider  10000 non-null  object        
 9   Billing Amount      10000 non-null  float64       
 10  Room Number         10000 non-null  int32         
 11  Admission Type      10000 non-null  object        
 12  Discharge Date      10000 non-null  datetime64[ns]
 13  Medication          10000 non-null  object     

In [33]:
# Estas son las columnas que no se usaron en el entrenamiento
columns_to_exclude = ['Name', 'Date of Admission', 'Discharge Date']

# Crear una nueva versión de X_new sin esas columnas
X_new_prepared = X_new.drop(columns=columns_to_exclude)


In [37]:
X_new.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 15 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Name                10000 non-null  object        
 1   Age                 10000 non-null  int32         
 2   Gender              10000 non-null  object        
 3   Blood Type          10000 non-null  object        
 4   Medical Condition   10000 non-null  object        
 5   Date of Admission   10000 non-null  datetime64[ns]
 6   Doctor              10000 non-null  object        
 7   Hospital            10000 non-null  object        
 8   Insurance Provider  10000 non-null  object        
 9   Billing Amount      10000 non-null  float64       
 10  Room Number         10000 non-null  int32         
 11  Admission Type      10000 non-null  object        
 12  Discharge Date      10000 non-null  datetime64[ns]
 13  Medication          10000 non-null  object     

In [40]:
import pandas as pd
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer

# Supongamos que tienes un DataFrame llamado 'data' con tus datos
# Aquí se crea un DataFrame de ejemplo para ilustrar el proceso
data = pd.DataFrame({
    'Name': ['María García López', 'Javier Fernández Fernández', 'Carlos Sánchez García', 'Antonio Martínez García', 'Carlos García Fernández'] * 2000,
    'Age': [81, 35, 61, 49, 51] * 2000,
    'Gender': ['Female', 'Male', 'Male', 'Male', 'Male'] * 2000,
    'Blood Type': ['O-', 'O+', 'B-', 'B-', 'O-'] * 2000,
    'Medical Condition': ['Diabetes', 'Asthma', 'Obesity', 'Asthma', 'Arthritis'] * 2000,
    # Agrega más columnas según sea necesario
})

# Define las columnas numéricas y categóricas
numeric_features = ['Age']  # Agrega más columnas numéricas según sea necesario
categorical_features = ['Gender', 'Blood Type', 'Medical Condition']  # Agrega más columnas categóricas según sea necesario

# Supongamos que también tienes un DataFrame X_new que quieres transformar
# Aquí se usa el mismo DataFrame 'data' como ejemplo
X_new = data.copy()

# Crea el preprocesador utilizando ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(), categorical_features)
    ])

# Ajusta y transforma X_new con el preprocesador
X_new_prepared = preprocessor.fit_transform(X_new)

# Puedes usar X_new_prepared en tu modelo de aprendizaje automático



## División de datos

In [41]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_new_prepared, y, test_size=0.2, random_state=42)


##  Entrenamiento del modelo

In [42]:
from sklearn.ensemble import RandomForestRegressor

# Inicializar el modelo
model = RandomForestRegressor(n_estimators=100, random_state=42)

# Entrenar el modelo
model.fit(X_train, y_train)

## Evaluación del modelo

In [43]:
from sklearn.metrics import mean_squared_error

# Predecir sobre el conjunto de prueba
y_pred = model.predict(X_test)

# Calcular el error cuadrático medio (MSE) o cualquier otra métrica relevante
mse = mean_squared_error(y_test, y_pred)
print(f"El error cuadrático medio (MSE) en el conjunto de prueba es: {mse}")


El error cuadrático medio (MSE) en el conjunto de prueba es: 74.60387016545135


## Ajuste de hiperparamretros

# Busqueda de mejores hiperparámetros

In [44]:
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestRegressor

# Define el modelo a utilizar
model = RandomForestRegressor()

# Define los hiperparámetros que deseas ajustar y los rangos de valores a explorar
param_grid = {
    'n_estimators': [100, 200, 300],  # Número de árboles en el bosque
    'max_depth': [None, 10, 20],        # Profundidad máxima del árbol
    'min_samples_split': [2, 5, 10],    # Número mínimo de muestras requeridas para dividir un nodo interno
    'min_samples_leaf': [1, 2, 4]       # Número mínimo de muestras requeridas para ser un nodo hoja
}

# Realiza la búsqueda grid utilizando validación cruzada
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)

# Muestra los mejores hiperparámetros encontrados
print("Mejores hiperparámetros:", grid_search.best_params_)

# Evalúa el modelo con los mejores hiperparámetros en el conjunto de prueba
best_model = grid_search.best_estimator_
mse = mean_squared_error(y_test, best_model.predict(X_test))
print("Error cuadrático medio (MSE) en el conjunto de prueba:", mse)


Mejores hiperparámetros: {'max_depth': 20, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 200}
Error cuadrático medio (MSE) en el conjunto de prueba: 74.60248472209744


# Optimización de hiperparámetros + Validación cruzada (opcional)

In [46]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, OneHotEncoder

# Carga los datos
data = pd.read_csv("data/healthcare_dataset_sintetico.csv")

# Define las características numéricas y categóricas
numeric_features = ['Age', 'Billing Amount', 'Room Number']  # Selecciona las columnas numéricas
categorical_features = ['Gender', 'Blood Type', 'Medical Condition', 'Insurance Provider']  # Selecciona las columnas categóricas

# Define el preprocesador utilizando ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(), categorical_features)
    ])

# Define el modelo a utilizar
model = RandomForestRegressor(random_state=42)

# Define el pipeline con el preprocesador y el modelo
pipeline = Pipeline(steps=[('preprocessor', preprocessor),
                           ('regressor', model)])

# Divide los datos en conjuntos de entrenamiento y prueba
X = data.drop(columns=['Date of Admission', 'Doctor', 'Hospital', 'Admission Type', 'Discharge Date', 'Medication', 'Test Results'])
y = data['Billing Amount']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Define los hiperparámetros que deseas ajustar y los rangos de valores a explorar
param_grid = {
    'regressor__n_estimators': [100, 200, 300],  # Número de árboles en el bosque
    'regressor__max_depth': [None, 10, 20],        # Profundidad máxima del árbol
    'regressor__min_samples_split': [2, 5, 10],    # Número mínimo de muestras requeridas para dividir un nodo interno
    'regressor__min_samples_leaf': [1, 2, 4]       # Número mínimo de muestras requeridas para ser un nodo hoja
}

# Realiza la búsqueda grid utilizando validación cruzada
grid_search = GridSearchCV(estimator=pipeline, param_grid=param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)

# Muestra los mejores hiperparámetros encontrados
print("Mejores hiperparámetros:", grid_search.best_params_)

# Evalúa el modelo con los mejores hiperparámetros en el conjunto de prueba
best_model = grid_search.best_estimator_
mse = mean_squared_error(y_test, best_model.predict(X_test))
print("Error cuadrático medio (MSE) en el conjunto de prueba:", mse)


Mejores hiperparámetros: {'regressor__max_depth': None, 'regressor__min_samples_leaf': 2, 'regressor__min_samples_split': 2, 'regressor__n_estimators': 300}
Error cuadrático medio (MSE) en el conjunto de prueba: 21.15706149147843


In [47]:
import pickle

# Guardar el modelo en un archivo
with open('best_random_forest_model.pkl', 'wb') as file:
    pickle.dump(best_model, file)


Próximos pasos: https://chat.openai.com/c/fce37794-9709-4dc7-9454-d75353e7e11b