# Exploración de Datos (EDA)

Este notebook realiza un análisis exploratorio del dataset de readmisión hospitalaria. Puedes correrlo en Google Colab o localmente.

In [None]:
# 📌 Montar Google Drive si estás en Colab
import os
IN_COLAB = 'google.colab' in str(get_ipython())
if IN_COLAB:
    from google.colab import drive
    drive.mount('/content/drive')
    BASE_PATH = '/content/drive/MyDrive/Hospital_Readmission'
else:
    BASE_PATH = '.'

In [None]:
# Define BASE_PATH como el directorio actual
os.chdir(BASE_PATH)
print(f"Directorio actual: {os.getcwd()}")

In [None]:
# 📊 Cargar datos
import pandas as pd
#data_path = os.path.join(BASE_PATH, '../data/hospital_readmission_light.csv')
data_path = os.path.join(BASE_PATH, '../data/diabetic_data.csv')
df = pd.read_csv(data_path)
df.head()

## Estadísticas generales

In [None]:
df.info()
df.describe(include='all')

## Distribución de la variable objetivo (`readmitted`)

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

sns.countplot(x='readmitted', data=df)
plt.title('Distribución de la variable objetivo')
plt.show()

## Variables categóricas y numéricas (histogramas)

In [None]:
# Renombrar las columnas para que sean más descriptivas y en castellano
df.rename(columns={
    'race': 'Raza',
    'gender': 'Sexo',
    'age': 'Edad',
    'time_in_hospital': 'Tiempo_en_hospital',
    'num_lab_procedures': 'Num_procedimientos_lab',
    'num_procedures': 'Num_procedimientos',
    'num_medications': 'Num_medicamentos',
    'number_outpatient': 'Num_visitas_ambulatorias',
    'number_emergency': 'Num_visitas_urgencias',
    'number_inpatient': 'Num_hospitalizaciones',
    'diag_1': 'Diagnostico_1',
    'diag_2': 'Diagnostico_2',
    'diag_3': 'Diagnostico_3',
    'number_diagnoses': 'Num_diagnosticos',
    'readmitted': 'Readmitido'
}, inplace=True)
# Verificar los cambios
df.head()

In [None]:
# Podrias graficar nuevamente las variables con los nuevos nombres? Podrias ademas indicar que 1 significa que el paciente fue readmitido y 0 que no?
for col in df.select_dtypes(include=['float64', 'int64']).columns:
    plt.figure(figsize=(10, 6))
    sns.boxplot(x='Readmitido', y=col, data=df)
    plt.xticks([0, 1], ['No', 'Si'])
    plt.title(f'{col} por Readmisión')
    plt.show()
# Visualización de la relación entre variables categóricas y la variable objetivo
for col in df.select_dtypes(include=['object']).columns:
    if col != 'Readmitido':
        plt.figure(figsize=(10, 6))
        sns.countplot(x='Readmitido', hue=col, data=df)
        plt.title(f'Readmisión por {col}')
        plt.xticks(rotation=45)
        plt.xticks([0, 1], ['No', 'Si'])
        plt.show()