<!--Header-->
<div style="background: #555">
    <div style="background-color: #fff; color: black; padding-bottom: 20px; display: flex; justify-content: space-between; align-items: flex-start;">
        <div style="width: 60%;">
            <h1 style="margin: 16px">TFG - Inteligencia Artificial</h1>
            <p style="margin: 16px; padding-bottom: 0">Junio de 2025</p>
        </div>
        <div style="width: 40%; text-align: right">
            <img src="https://www.uoc.edu/portal/_resources/common/imatges/marca_UOC/UOC_Masterbrand.jpg" alt="Logo UOC">
        </div>
    </div>
    <h2 style="color: #fff; text-align: justify; padding: 0 16px">Aplicación de técnicas de IA fiable en la predicción del índice de calidad de vida en personas con tratamiento oncológico mediante aprendizaje automático.</h2>
    <div style="padding: 20px; color: #fff">
        <h4 style="margin: 0 0; padding: 0 0">Pablo Pimàs Verge</h4>
        <h5 style="margin: 0 0; padding: 0 0">Grado en Ingeniería Informática</h5>
        <h5 style="margin: 0 0 4px; padding: 0 0">Inteligencia Artificial</h5>
        <h4 style="margin: 8px 0 4px; padding: 0 0">Dra. María Moreno de Castro</h4>
        <h4 style="margin: 0 0; padding: 0 0">Dr. Friman Sanchéz</h4>
    </div>
</div>

<!--/Header-->

# Fase 2

# Análisis exploratorio y preparación de los datos
En el presente cuaderno se realizarán las tareas de exploración y preparación de los datos que serán utilizados durante todo el trabajo. Este proceso corresponde a la fase 2 del marco CRISP-DM y la planificación del proyecto.

Los datos han sido compartidos por Gebert Pimrapat en el repositorio Mendeley Data [1] y corresponden a la encuesta realizada por la Charité – Universitätsmedizin Berlin, a mujeres en el inicio del tratamiento de cáncer de mama, entre 2016 y 2021. 

La encuesta consta de tres partes: datos basales socio-demográficos, formulario genérico para cáncer EORTC QLQ-C30 y módulo específico para cáncer de mama EORTC QLQ-C23. Para el trabajo se utilizarán los datos referentes a los índices calculados del formulario QLQ-C30. Por lo tanto, los objetivos del análisis y la preparación son los siguientes:

- Separar el conjunto en los 3 dominios: basales, C30 y C23
- Para el conjunto C30 y C23:
    - Analizar y explorar la calidad de los datos
    - Separar los valores faltantes en otro subconjunto para su posterior utilización
    - Preparar las variables para la utilización de los algoritmos basados en árboles de decisión
    - Convertir la variable objetivo en 3 clases para la clasificación
    - Separar los datos en los conjuntos de: entrenamiento, prueba, validación y calibración

### Librerías y Configuración
- Importación del software necesario para la manipulación, visualización y transformación de los datos. 
- Configuración del cuaderno y opciones de visualización

In [1]:
# Importaciones
import pandas as pd
import math
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
from sklearn.preprocessing import KBinsDiscretizer

In [None]:
# Configuraciones
%matplotlib inline
warnings.filterwarnings("ignore")
pd.options.display.float_format = '{:.2f}'.format
plt.rc('font', size=10)

### Carga de los datos

In [None]:

file_path = "../data/Data_PROM_Baseline.xlsx"
df = pd.read_excel(file_path, sheet_name="Sheet1")

## 1 Análisis Exploratorio

### 1.1 Funciones auxiliares
Definición de funciones para el análisis y la exploración de los datos

In [None]:
# Inspeccionar una columna de un dataframe
def inspect_column(df: pd.DataFrame, column_name: str, max_unique: int = 50) -> pd.DataFrame:
    """
    Returns a DataFrame with two columns ("Property" and "Value"). Each row contains 
    a piece of information about the specified column, such as data type, null counts, 
    duplicates, descriptive statistics, and a limited set of unique values.
    """
    col_data = df[column_name]
    data_type = col_data.dtype
    null_count = col_data.isnull().sum()
    desc_series = col_data.describe(include='all')

    if not isinstance(desc_series, pd.Series):
        desc_series = desc_series.iloc[0]

    desc_dict = {}
    
    for key, val in desc_series.items():
        desc_dict[f"{key}"] = val

    unique_vals = col_data.dropna().unique().round(2)

    if np.issubdtype(col_data.dtype, np.number):
        unique_vals = np.sort(unique_vals)
        
    unique_vals_limited = unique_vals[:max_unique].tolist()

    info_dict = {
        "column_name": column_name,
        "dtype": str(data_type),
        "null_count": null_count,
        "unique_values": unique_vals_limited,
        "total_unique_values": len(unique_vals),
        "skew": df[column_name].skew(),
    }
    info_dict.update(desc_dict)

    df_result = pd.DataFrame(
        list(info_dict.items()),
        columns=["Property", "Value"]
    )

    return df_result

In [None]:
# Inspeccionar todas las columnas de un dataframe
def inspect_all_columns(df: pd.DataFrame, max_unique: int = 50) -> pd.DataFrame:
    """
    Creates a single DataFrame where each row corresponds to one column of 'df'
    and each column of this resulting DataFrame is a property (dtype, null_count,
    descriptive stats, etc.).
    """
    rows = []

    for col in df.columns:
        col_data = df[col]
        data_type = col_data.dtype
        null_count = col_data.isnull().sum()

        desc_series = col_data.describe(include='all')
        if not isinstance(desc_series, pd.Series):
            desc_series = desc_series.iloc[0]
        desc_dict = dict(desc_series)

        unique_vals = col_data.dropna().unique()

        if np.issubdtype(data_type, np.number):
            unique_vals = np.sort(unique_vals)
            unique_vals = np.round(unique_vals, 2)

        unique_vals_limited = unique_vals[:max_unique].tolist()

        row_dict = {
            "dtype": str(data_type),
            "null_count": null_count,
            "unique_values": unique_vals_limited,
            "total_unique_values": len(unique_vals),
            "skew": col_data.skew() if np.issubdtype(data_type, np.number) else None,
        }
        row_dict.update(desc_dict)

        rows.append(row_dict)
    df_result = pd.DataFrame(rows, index=df.columns)
    df_result.index.name = "column_name"

    return df_result

In [None]:
# Graficar la distribución de todas las variables del dataframe
def columns_distribution(df: pd.DataFrame):

    """
    Visualizes the distribution of columns present in a DataFrame.
    :param df: dataframe containing columns of interest
    """
    cols = df.columns

    n_cols = 3
    n_rows = math.ceil(len(cols) / n_cols)
    fig, axes = plt.subplots(n_rows, n_cols, figsize=(n_cols * 5, n_rows * 3))
    axes = axes.flatten()

    for i, col in enumerate(cols):
        sns.histplot(data=df, x=col, kde=True, ax=axes[i])
        axes[i].set_title(col, fontsize=16)
        axes[i].set_xlabel('')

    for j in range(len(cols), len(axes)):
        fig.delaxes(axes[j])

    plt.tight_layout()
    plt.subplots_adjust(hspace=0.5)
    plt.show()

In [None]:
# Verificar columnas con las mismas filas nulas
def check_rows_same_nulls(df: pd.DataFrame):
    """
    Checks for columns with the same null rows to be deleted.
    :param df: dataframe containing columns of interest
    """
    missing_groups = {}
    for col in df.columns:
        missing_indices = frozenset(df.index[df[col].isnull()])
        missing_groups.setdefault(missing_indices, []).append(col)

    for missing_set, columns in missing_groups.items():
        if len(columns) > 1:
            print("Total rows with missing values:", len(missing_set))
            print("Variables with identical missing rows:", columns)

### 1.2 Diccionario



#### Atributos Basales
Información sobre aspectos socio-demográficos y la historia clínica de las pacientes en el momento del registro.

- Age: edad, en años
- weight: peso, en kg
- height: altura, en cm
- bmi: índice de masa corporal, en kg/cm$^2$
- marital_status: estado civil, 0: soltera | 1: en pareja | 2: separada | 3: viuda
- education: nivel de educación, 0: bajo | 1: medio | 2: alto
- alcohol: frecuencia del consumo de alcohol, 0: nunca | 1: ocasional | 2: semanal | 3: diaria
- smokingstatus: fumadora, 0: no | 1: si | 2: ex fumadora
- bust: dimensión del busto, de 1 a 13 hace referencia a los centímetros desde 65 hasta 125 con saltos de 5
- cupsize: medida del busto con relación al contorno del dorso, de 1 a 9 hace referencia a las tallas desde AA hasta H
- menstruation_firsttime_age: edad de la primera menstruación, en años
- menopause_yn: estado de menopausia, 0: no | 1: si
- birth_number: cantidad de partos, de 0 a 7 indica el número, 8 indica más de 7
- pregnancy_number: cantidad de embarazos, de 0 a 7 indica el número, 8 indica más de 7
- comorb_none: tiene comorbidades, 0: no | 1: si
- comorb_heart: enfermedades coronarias, 0: no | 1: si
- comorb_hypertension: hipertensión, 0: no | 1: si
- comorb_paod: oclusión periférica arterial, 0: no | 1: si
- comorb_diabetes: diabetes, 0: no | 1: si
- comorb_kidney: enfermedades renales, 0: no | 1: si
- comorb_liver: enfermedades hepáticas, 0: no | 1: si
- comorb_stroke: ACV o derrames, 0: no | 1: si
- comorb_neuological: enfermedades neurológicas, 0: no | 1: si
- comorb_cancerlast5years: cancer en los últimos 5 años, 0: no | 1: si
- comorb_depression: depresión, 0: no | 1: si
- comorb_gastrointestinal: enfermedades gastrointestinales, 0: no | 1: si
- comorb_endometriosis: endometriosis, 0: no | 1: si
- comorb_arthritis: artritis, 0: no | 1: si
- comorb_incontinence: incontinencia, 0: no | 1: si
- comorb_uti: infecciones urinarias, 0: no | 1: si
- cancer_breast: cancer de mama en los últimos 5 años, 0: no | 1: si
- contraceptive_kind: uso de anticonceptivos, 0: ninguno | 1: oral | 2: inyección | 3: diafragma | 4: Hormonal | 5: implante | 6: Cobre DIU
- pre_op: cirugía de cancer previa, 0: no | 1: si
- cancer_kind_family_1: anttecedentes familiares de cancer de útero o mama, 0: no | 1: si
- breastcancer_first: primer cancer de mama, 0: no | 1: si
- diagnosis: diagnóstico, 1: cancer de mama | 2: DCIS | 3: fibroadenoma | 4: otros tipos
- lateral: lado afectado, 0: izquierdo | 2: derecho | 3: ambos
- histotype: tipo histológico de cancer, 0: tumor primario | 1: invasivo ductal | 2: invasivo lobular | 888: otro | 999: desconocido
- gradeinv: grado, 0: grado 1 | 1: grado 2 | 2: grado 3 | 3: no especificado
- erstatus: estado del receptor de estrógeno, 0: negativo | 1: positivo | 2: sin medición | 999: desconocido
- prstatus: estado del receptor de progesterona, 0: negativo | 1: positivo | 2: sin medición | 999: desconocido
- her2status: estado del receptor de HER2, 0: negativo | 1: positivo | 2: sin medición | 999: desconocido

#### EORTC QLQ-C30
Índices calculados del formulario genérico para cáncer (CORE), son de tipo decimal (float) continuo.

- **ql: índice de calidad de vida (QoL), variable objetivo**
- pf: funcionamiento físico
- rf: funcionamiento de rol (actividades habituales y responsabilidades cotidianas laborales y domésticas)
- ef: funcionamiento emocional
- cf: funcionamiento cognitivo
- sf: funcionamiento social
- fa: fatiga
- nv: náuseas y vómitos
- pa: dolor
- dy: disnea (dificultad para respirar)
- sl: insomnio
- ap: pérdida de apetito
- co: constipado
- di: diarrea
- fi: dificultades financieras

#### EORTC QLQ-C23
Índices calculados del formulario específico para cancer de mama, son de tipo decimal (float) continuo.

- brbi: imagen del propio cuerpo
- brsef: funcionamiento sexual
- brsee: disfrute sexual
- brfu: perspectiva de futuro
- brst: síntomas en el brazo
- brbs: síntomas en la mama
- bras: efectos secundarios de la terápia sistémica
- brhl: afectación por la caída del cabello


In [None]:
null_counts = df.isnull().sum()

plt.figure(figsize=(12, 3))
sns.barplot(x=null_counts.index, y=null_counts.values)
plt.xticks(rotation=90)
plt.ylabel('Number of Null Values')
plt.title('Null Values per Variable')
plt.show()

### 1.2 Dominio EORTC QLQ-C30

En primer lugar, se creará un dataframe con los atributos del dominio C30 y se realizará el análisis multivariable del conjunto.

In [None]:
# Creación del dataframe C30
columns_C30 = ['id', 'ql', 'pf', 'rf', 'ef', 'cf', 'sf', 'fa', 'nv', 'pa', 'dy', 'sl', 'ap', 'co', 'di', 'fi']
df_qlq_C30 = df[columns_C30]
# Asignación de nombres semánticos a las columnas
df_qlq_C30 = df_qlq_C30.rename(columns= {
    'ql': 'QoL',
    'pf': 'Physical functioning',
    'rf': 'Role functioning',
    'ef': 'Emotional functioning',
    'cf': 'Cognitive functioning',
    'sf': 'Social functioning',
    'fa': 'Fatigue',
    'nv': 'Nausea and vomiting',
    'pa': 'Pain',
    'dy': 'Dyspnea',
    'sl': 'Insomnia',
    'ap': 'Appetite loss',
    'co': 'Constipation',
    'di': 'Diarrhea',
    'fi': 'Financial difficulties',
})

In [None]:
inspect_all_columns(df_qlq_C30, max_unique=50)

In [None]:
columns_distribution(df_qlq_C30.drop('id', axis=1))

In [None]:
check_rows_same_nulls(df_qlq_C30)

#### QoL - variable objetivo 

#### TODO 

### 1.3 Dominio EORTC QLQ-C23

In [None]:
# Creación del dataframe C30
columns_C23 = ['brst', 'brbi', 'brbs', 'brfu', 'brsee', 'brsef', 'bras', 'brhl']
df_qlq_C23 = df[columns_C23]
# Asignación de nombres semánticos a las columnas
df_qlq_C23 = df_qlq_C23.rename(columns= {
    'brst': 'Arm symptoms',
    'brbi': 'Body image',
    'brbs': 'Breast symptoms',
    'brfu': 'Future perspective',
    'brsee': 'Sexual enjoyment',
    'brsef': 'Sexual functioning',
    'bras': 'Systemic therapy side effects',
    'brhl': 'Upset by hair loss',
})

In [None]:
inspect_all_columns(df_qlq_C23)

In [None]:
columns_distribution(df_qlq_C23)

In [None]:
check_rows_same_nulls(df_qlq_C23)

### 1.4 Dominio EORTC QLQ-C30 U EORTC QLQ-C23

In [None]:
df_QLQ = pd.concat([df_qlq_C30, df_qlq_C23], axis=1)
df_QLQ.drop(['Upset by hair loss', 'Sexual enjoyment'], axis=1, inplace=True)
df_QLQ.dropna(inplace=True)

In [None]:
inspect_all_columns(df_QLQ)

In [None]:
columns_distribution(df_QLQ.drop('id', axis=1))

In [None]:
corr_matrix = df_QLQ.drop('id', axis=1).corr()

plt.figure(figsize=(12, 10))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title("Correlation Matrix")
plt.show()

### 2 Preaparación de los datos

In [None]:
discretizer = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
df_qlq_C30_null = df_qlq_C30[df_qlq_C30.isnull().any(axis=1)].copy()
df_qlq_C30.dropna(axis=0, inplace=True)
df_qlq_C30['QoL_bins'] = discretizer.fit_transform(df_qlq_C30[['QoL']])
df_qlq_C30['QoL_bins'].value_counts()

In [None]:
# Gráfica de la distribución
sns.histplot(data=df_qlq_C30, x='QoL_bins', kde=True)