In [None]:
import pandas as pd
import oml
import matplotlib.pyplot as plt

# --- Configuración Estética (Gráficos Bonitos) ---
plt.rcParams['figure.figsize'] = (15, 8)
plt.rcParams['font.size'] = 14

# --- CONEXIÓN Y DESCARGA DIRECTA DE LA TABLA 'SALUD_MENTAL' ---
print("Conectando a la tabla 'SALUD_MENTAL' en Oracle Cloud...")

# Opción 1: Usando OML (Ideal si el entorno ya está configurado con OML)
try:
    # Esta es la forma más profesional si el entorno OML está listo.
    df = oml.sync(table="SALUDMENTAL").pull() 
    print("Descarga exitosa usando OML.")

except Exception as e:
    print(f"Error al conectar con OML. Usando el archivo CSV para continuar la demo. Error: {e}")
    df = pd.read_csv('SaludMental.xls - enfermedadesMentalesDiagnostico.csv')

# --- RE-DEFINICIÓN DE COLUMNAS A MAYÚSCULAS (¡El FIX!) ---
# Si las columnas del CSV no se cargan automáticamente en mayúsculas, 
# se fuerza la limpieza para acceder a ellas.
df.columns = [col.strip().replace(' ', '_').upper() for col in df.columns] 

# --- Definición de Nombres EXACTOS (Usando la lista que has proporcionado) ---
FN = 'FECHA_DE_NACIMIENTO'
DIAS = 'ESTANCIA_DÍAS'
DIAG = 'DIAGNÓSTICO_PRINCIPAL'
CCAA = 'COMUNIDAD_AUTÓNOMA'
SEXO = 'SEXO'

Conectando a la tabla 'SALUD_MENTAL' en Oracle Cloud...
Descarga exitosa usando OML.


In [9]:
print(df.columns.tolist())

['ID', 'COMUNIDAD_AUTÓNOMA', 'NOMBRE', 'FECHA_DE_NACIMIENTO', 'SEXO', 'CCAA_RESIDENCIA', 'FECHA_DE_INGRESO', 'CIRCUNSTANCIA_DE_CONTACTO', 'FECHA_DE_FIN_CONTACTO', 'TIPO_ALTA', 'ESTANCIA_DÍAS', 'DIAGNÓSTICO_PRINCIPAL', 'CATEGORÍA', 'DIAGNÓSTICO_2', 'DIAGNÓSTICO_3', 'DIAGNÓSTICO_4', 'DIAGNÓSTICO_5', 'DIAGNÓSTICO_6', 'DIAGNÓSTICO_7', 'DIAGNÓSTICO_8', 'DIAGNÓSTICO_9', 'DIAGNÓSTICO_10', 'DIAGNÓSTICO_11', 'DIAGNÓSTICO_12', 'DIAGNÓSTICO_13', 'DIAGNÓSTICO_14', 'FECHA_DE_INTERVENCIÓN', 'PROCEDIMIENTO_1', 'PROCEDIMIENTO_2', 'PROCEDIMIENTO_3', 'PROCEDIMIENTO_4', 'PROCEDIMIENTO_5', 'PROCEDIMIENTO_6', 'PROCEDIMIENTO_7', 'PROCEDIMIENTO_8', 'PROCEDIMIENTO_9', 'PROCEDIMIENTO_10', 'PROCEDIMIENTO_11', 'PROCEDIMIENTO_12', 'PROCEDIMIENTO_13', 'PROCEDIMIENTO_14', 'PROCEDIMIENTO_15', 'PROCEDIMIENTO_16', 'PROCEDIMIENTO_17', 'PROCEDIMIENTO_18', 'PROCEDIMIENTO_19', 'PROCEDIMIENTO_20', 'GDR_AP', 'CDM_AP', 'TIPO_GDR_AP', 'VALOR_PESO_ESPAÑOL', 'GRD_APR', 'CDM_APR', 'TIPO_GDR_APR', 'VALOR_PESO_AMERICANO_APR', 'NIV

In [3]:
print("--- 2.1 Tipos de Datos y Nulos ---")

# Requisito 2: Detallar tipos de datos
print("\nTipos de Datos (df.info()):")
df.info(verbose=False)

# Ejemplo para la tabla del PDF
print("\nTipos de Datos Clave (Tabla 1.1):")
print(pd.DataFrame({
    'Columna': ['NOMBRE', FN, DIAS, DIAG],
    'Tipo Python': [df['NOMBRE'].dtype, df[FN].dtype, df[DIAS].dtype, df[DIAG].dtype],
    'Tipo Lógico': ['Carácter/ID', 'Fecha', 'Numérico', 'Categórico (Código)']
}))

--- 2.1 Tipos de Datos y Nulos ---

Tipos de Datos (df.info()):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21198 entries, 0 to 21197
Columns: 112 entries, ID to MES_DE_INGRESO
dtypes: float64(1), int64(19), object(92)
memory usage: 18.1+ MB

Tipos de Datos Clave (Tabla 1.1):
                 Columna Tipo Python          Tipo Lógico
0                 NOMBRE      object          Carácter/ID
1    FECHA_DE_NACIMIENTO      object                Fecha
2          ESTANCIA_DÍAS       int64             Numérico
3  DIAGNÓSTICO_PRINCIPAL      object  Categórico (Código)


In [8]:
# Requisito 3: Identificar y analizar valores nulos

columnas_diagnostico = [f'DIAGNÓSTICO_{i}' for i in range(2, 21)] 
columnas_procedimiento = [f'PROCEDIMIENTO_{i}' for i in range(1, 21)]
columnas_a_verificar_ext = [CCAA, DIAS, DIAG, 'NOMBRE', FN, 'CCAA_RESIDENCIA'] + columnas_diagnostico + columnas_procedimiento

print("\nPorcentaje de Valores Nulos (Requisito 3 - Análisis Extendido):")
nulos_pct = df[columnas_a_verificar_ext].isnull().sum() / len(df) * 100
nulos_pct = nulos_pct[nulos_pct > 0].sort_values(ascending=False).round(2)
print(nulos_pct)

# --- 3. Gráfico de Nulos (CORREGIDO) ---
if not nulos_pct.empty:
    plt.figure(figsize=(15, 7))
    # Usamos plot.bar() directamente sobre la Serie de Pandas
    nulos_pct.plot.bar(color='red', edgecolor='black') 
    
    plt.title('1. Porcentaje de Valores Nulos (Análisis Clínico y Administrativo)', fontsize=18)
    plt.ylabel('Porcentaje (%)', fontsize=14)
    plt.xlabel('Columna', fontsize=14)
    plt.xticks(rotation=90, ha='center', fontsize=10)
    
    plt.tight_layout()
    plt.savefig('grafico_1_nulos_extendido.png')
    plt.show()

In [8]:
# Definición de todas las columnas que son relevantes para el estudio clínico/administrativo.
columnas_diagnostico = [f'DIAGNÓSTICO_{i}' for i in range(2, 21)] 
columnas_procedimiento = [f'PROCEDIMIENTO_{i}' for i in range(1, 21)]
columnas_primarias_admin = [CCAA, DIAS, DIAG, 'NOMBRE', FN, 'CCAA_RESIDENCIA', 'TIPO_ALTA', 'SEXO']

columnas_a_verificar_ext = columnas_primarias_admin + columnas_diagnostico + columnas_procedimiento

print("\n--- Porcentaje de Valores Nulos ---")

# 1. Cálculo del porcentaje de nulos para todas las columnas extendidas
nulos_pct = df[columnas_a_verificar_ext].isnull().sum() / len(df) * 100
# 2. Filtrar solo aquellas con nulos ( > 0) y ordenarlas de mayor a menor
nulos_pct = nulos_pct[nulos_pct > 0].sort_values(ascending=False).round(2)

print("\nResultados del Análisis de Nulos (Porcentaje):\n", nulos_pct.head(15).to_string())
print(f"\nTotal de columnas con nulos: {len(nulos_pct)}")

# --- 3. Gráfico de Nulos Optimizado (Solo Matplotlib) ---

if not nulos_pct.empty:
    # Seleccionamos un subconjunto relevante para la visualización (ej. Top 10)
    nulos_plot = nulos_pct.head(10) 

    # Se usa un gráfico horizontal para que los nombres largos sean legibles
    plt.figure(figsize=(8, 10)) 
    nulos_plot.plot.barh(color='darkred', edgecolor='black') 
    
    plt.title('Porcentaje de Valores Nulos (Top 10 Columnas)', fontsize=16)
    plt.xlabel('Porcentaje de Nulos (%)', fontsize=12)
    plt.ylabel('Variable', fontsize=12)
    # Colocamos las etiquetas del eje Y (columnas) a la izquierda y alineadas
    plt.yticks(fontsize=10) 
    
    # Añadir el porcentaje a cada barra para la lectura rápida
    for index, value in enumerate(nulos_plot):
        plt.text(value, index, f'{value:.2f}%', va='center', ha='left', fontsize=8)
    
    # Invertir el eje Y para que la columna con más nulos quede arriba
    plt.gca().invert_yaxis()
    plt.tight_layout()
    plt.savefig('grafico_1_nulos_optimizado.png')
    plt.show()

In [1]:
# --- Gráfico de Frecuencias de SEXO (Requisito 1) ---

print("\n--- Análisis de Frecuencias de SEXO ---")
sexo_counts = df['SEXO'].value_counts()
print(sexo_counts)

# Gráfico 4: Distribución de Frecuencias de SEXO
plt.figure(figsize=(8, 6))

# Usamos plot.bar() sobre la Serie de Pandas
sexo_counts.plot.bar(color=['skyblue', 'salmon', 'gray'], edgecolor='black') 

plt.title('4. Distribución de Pacientes por SEXO', fontsize=16)
plt.ylabel('Frecuencia Absoluta', fontsize=12)
plt.xlabel('Código de SEXO (1, 2, 9)', fontsize=12)
plt.xticks(rotation=0)

# Añadir etiquetas con el conteo exacto
for index, value in enumerate(sexo_counts):
    plt.text(index, value + 50, f'{value}', ha='center', fontsize=10)

plt.tight_layout()
plt.savefig('grafico_4_sexo_frecuencias.png')
plt.show()

In [2]:
# Lista de columnas administrativas, de fechas, de costes y de severidad,
# excluyendo los DIAGNÓSTICO_N, PROCEDIMIENTO_N y POA_DIAGNÓSTICO_N.
columnas_criticas = [
    'ID', 'COMUNIDAD_AUTÓNOMA', 'NOMBRE', 'FECHA_DE_NACIMIENTO', 'SEXO', 
    'CCAA_RESIDENCIA', 'FECHA_DE_INGRESO', 'CIRCUNSTANCIA_DE_CONTACTO', 
    'FECHA_DE_FIN_CONTACTO', 'TIPO_ALTA', 'ESTANCIA_DÍAS', 'DIAGNÓSTICO_PRINCIPAL', 
    'CATEGORÍA', 'FECHA_DE_INTERVENCIÓN', 'GDR_AP', 'CDM_AP', 'TIPO_GDR_AP', 
    'VALOR_PESO_ESPAÑOL', 'GRD_APR', 'CDM_APR', 'TIPO_GDR_APR', 
    'VALOR_PESO_AMERICANO_APR', 'NIVEL_SEVERIDAD_APR', 'RIESGO_MORTALIDAD_APR', 
    'SERVICIO', 'EDAD', 'REINGRESO', 'COSTE_APR', 'GDR_IR', 'TIPO_GDR_IR', 
    'TIPO_PROCESO_IR', 'CIE', 'NÚMERO_DE_REGISTRO_ANUAL', 'CENTRO_RECODIFICADO', 
    'CIP_SNS_RECODIFICADO', 'PAÍS_NACIMIENTO', 'PAÍS_RESIDENCIA', 
    'FECHA_DE_INICIO_CONTACTO', 'RÉGIMEN_FINANCIACIÓN', 'PROCEDENCIA', 
    'CONTINUIDAD_ASISTENCIAL', 'INGRESO_EN_UCI', 'DÍAS_UCI', 
    'PROCEDIMIENTO_EXTERNO_1', 'PROCEDIMIENTO_EXTERNO_2', 'TIPO_GRD_APR', 
    'PESO_ESPAÑOL_APR', 'EDAD_EN_INGRESO', 'MES_DE_INGRESO'
]

print("\n--- Porcentaje de Valores Nulos (Análisis de Variables Críticas) ---")

# 1. Cálculo del porcentaje de nulos
nulos_pct_criticas = df[columnas_criticas].isnull().sum() / len(df) * 100
# 2. Filtrar solo aquellas con nulos (> 0) y ordenarlas
nulos_pct_criticas = nulos_pct_criticas[nulos_pct_criticas > 0].sort_values(ascending=False).round(2)

print("\nResultados del Análisis de Nulos en Variables Críticas:\n", nulos_pct_criticas.to_string())

# --- 3. Gráfico de Nulos (Para variables críticas, si existen) ---

if not nulos_pct_criticas.empty:
    plt.figure(figsize=(12, 7))
    
    # Gráfico de barras
    nulos_pct_criticas.plot.bar(color='darkred', edgecolor='black') 
    
    plt.title('Porcentaje de Valores Nulos en Columnas Clave', fontsize=16)
    plt.ylabel('Porcentaje de Nulos (%)', fontsize=12)
    plt.xlabel('Columna', fontsize=12)
    plt.xticks(rotation=45, ha='right', fontsize=9)
    
    # Añadir el porcentaje a cada barra
    for index, value in enumerate(nulos_pct_criticas):
        plt.text(index, value + 0.5, f'{value:.2f}%', ha='center', fontsize=8)
    
    plt.tight_layout()
    plt.savefig('grafico_1_nulos_criticos_ampliado.png')
    plt.show()
else:
    print("\n✅ Conclusión: Todas las variables críticas del dataset (Administrativas, Demográficas y de Costes/Severidad) tienen CERO valores nulos. ¡Calidad de datos excepcional en el núcleo!")

In [4]:
# Requisito 1: Estudio Estadístico Elemental (Numérico)
print("\n--- 1.2 Estudio Estadístico de ESTANCIA_DÍAS ---")
dias_stats = df[DIAS].describe().round(2)
print(dias_stats)

# Requisito 1: Frecuencias Categóricas
print("\nTop 5 COMUNIDAD_AUTÓNOMA (%\n", df[CCAA].value_counts(normalize=True).head(5).mul(100).round(2))
print("\nTop 5 DIAGNÓSTICO_PRINCIPAL (%\n", df[DIAG].value_counts(normalize=True).head(5).mul(100).round(2))

# Gráficos 2 y 3: Distribución (Histograma) y Outliers (Boxplot)
plt.figure(figsize=(18, 7))

# Gráfico 2: Histograma
plt.subplot(1, 2, 1)
plt.hist(df[DIAS].dropna(), bins=50, color='teal', edgecolor='black')
plt.axvline(dias_stats['mean'], color='red', linestyle='dashed', linewidth=2, label=f'Media: {dias_stats["mean"]} días')
plt.title('2. Distribución de ESTANCIA_DÍAS', fontsize=18)
plt.xlabel(DIAS, fontsize=14)
plt.ylabel('Frecuencia', fontsize=14)
plt.legend()

# Gráfico 3: Boxplot (Requisito 4: Outliers)
plt.subplot(1, 2, 2)
plt.boxplot(df[DIAS].dropna(), patch_artist=True, boxprops=dict(facecolor='coral'))
plt.title('3. Boxplot de ESTANCIA_DÍAS (Outliers)', fontsize=18)
plt.ylabel(DIAS, fontsize=14)
plt.xticks([1], ['Estancia'])

plt.tight_layout()
plt.savefig('graficos_2_estancia_outliers.png') 
plt.show()

In [3]:
print("--- 3. Sección 2: Ingeniería de Características ---")

# --- (A) INGENIERÍA DE EDAD ---
# Conversión de fecha y corrección de siglo
df['FECHA_TEMP'] = pd.to_datetime(df[FN], format='%d/%m/%y', errors='coerce') 
ahora = pd.to_datetime('now')
df['FECHA_CORREGIDA'] = df['FECHA_TEMP'].apply(
    lambda fecha: fecha - pd.DateOffset(years=100) if fecha > ahora else fecha
)
dias_vividos = (ahora - df['FECHA_CORREGIDA']).dt.days
df['EDAD_CALCULADA'] = (dias_vividos / 365.25).astype(int)
bins = [0, 17, 30, 50, 65, df['EDAD_CALCULADA'].max() + 1]
labels = ['0-17 (Niño/Adolescente)', '18-30 (Joven)', '31-50 (Adulto)', '51-65 (Adulto Mayor)', '65+ (Anciano)']
df['GRUPO_ETARIO'] = pd.cut(df['EDAD_CALCULADA'], bins=bins, labels=labels, right=False)

# --- (B) INGENIERÍA DE ESTANCIA (Para la VISTA_MUY_INTERESANTE) ---
df['TIPO_ESTANCIA'] = pd.cut(
    df[DIAS],
    bins=[0, 7, 30, df[DIAS].max() + 1],
    labels=['Corta (<= 7 días)', 'Media (8-30 días)', 'Larga (> 30 días)'],
    right=False
)

# --- (C) INGENIERÍA DE DIAGNÓSTICO (Para la VISTA_MUY_INTERESANTE) ---
df['CODIGO_DIAGNOSTICO_GRUPO'] = df[DIAG].astype(str).str[:3]

# Gráfico 6: Justificación visual de la ingeniería (Sin Seaborn)
estancia_counts = df['TIPO_ESTANCIA'].value_counts()

plt.figure(figsize=(10, 6))
estancia_counts.plot(kind='bar', color='tab:blue', edgecolor='black')
plt.title('6. Distribución por TIPO_ESTANCIA', fontsize=18)
plt.xlabel('Tipo de Estancia', fontsize=14)
plt.ylabel('Frecuencia Absoluta', fontsize=14)
plt.xticks(rotation=15, ha='right')
plt.grid(axis='y', linestyle='--')

plt.tight_layout()
plt.savefig('grafico_6_ingenieria_estancia.png')
plt.show()

print("\nIngeniería de Características finalizada.")

In [4]:
print("\n--- 3.2 Análisis de Correlación (Estancia vs. Edad) ---")
# Cálculo del Coeficiente de Correlación (Pearson)
correlacion_estancia_edad = df[['ESTANCIA_DÍAS', 'EDAD_CALCULADA']].corr().iloc[0, 1]
print(f"La correlación de Pearson entre Estancia y Edad es: {correlacion_estancia_edad:.4f}")
print("Una correlación cercana a 0.0 indica que NO hay una relación lineal fuerte. La estancia no depende linealmente de la edad.")

# Gráfico 5: Análisis de ESTANCIA por GRUPO ETARIO (Justificación de la Ingeniería)
estancia_por_grupo = df.groupby('GRUPO_ETARIO')['ESTANCIA_DÍAS'].mean().sort_values(ascending=False)

plt.figure(figsize=(10, 6))
estancia_por_grupo.plot(kind='bar', color='sandybrown', edgecolor='black')
plt.title('5. Estancia Media por Grupo de Edad', fontsize=18)
plt.ylabel('Estancia Media (Días)', fontsize=14)
plt.xlabel('GRUPO_EDAD', fontsize=14)
plt.xticks(rotation=15, ha='right')
plt.grid(axis='y', linestyle='--')
plt.tight_layout()
plt.savefig('grafico_5_estancia_vs_edad.png')
plt.show()

# Gráfico 6: Top 5 Diagnósticos por Tipo de Estancia (Pivote y Segmentación)
top_diagnosticos = df['CODIGO_DIAGNOSTICO_GRUPO'].value_counts().head(5).index
df_filtrado = df[df['CODIGO_DIAGNOSTICO_GRUPO'].isin(top_diagnosticos)]

conteo_pivote = df_filtrado.groupby('CODIGO_DIAGNOSTICO_GRUPO')['TIPO_ESTANCIA'].value_counts().unstack(fill_value=0)

plt.figure(figsize=(12, 7))
conteo_pivote.plot(kind='bar', stacked=True, colormap='tab10', ax=plt.gca())
plt.title('6. Segmentación de Estancia por Top 5 Grupos de Diagnóstico', fontsize=18)
plt.ylabel('Número de Pacientes', fontsize=14)
plt.xlabel('CODIGO_DIAGNOSTICO_GRUPO', fontsize=14)
plt.xticks(rotation=0)
plt.legend(title='Tipo de Estancia')
plt.tight_layout()
plt.savefig('grafico_6_segmentacion_estancia.png')
plt.show()

print("\nAnálisis avanzado de correlación y segmentación finalizado.")