<a href="https://colab.research.google.com/github/mindjobs/Ecerlab/blob/main/clase2_tutorial_ej.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tutorial: Análisis y Preparación de Datos con Python en Jupyter Notebook

En este tutorial de 1 hora, cubriremos las técnicas esenciales para la preparación de datos, desde la exploración inicial hasta la transformación avanzada de variables. Aprenderás a limpiar, imputar y hacer engineering de datos para preparar un conjunto de datos para el análisis o el modelado.

## Introducción y Configuración del Entorno

In [None]:
# Importamos las librerías principales de Python para ciencia de datos
!pip install upsetplot
!pip install matplotlib-venn
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from upsetplot import from_indicators, UpSet
from matplotlib_venn import venn2, venn3

# Configuramos el estilo de los gráficos para una visualización más profesional
sns.set_style("whitegrid")
plt.style.use("fivethirtyeight")
plt.rcParams['figure.figsize'] = [12, 8]  # Aumentamos el tamaño por defecto
plt.rcParams['figure.dpi'] = 120          # Aumentamos la resolución
pd.options.display.float_format = '{:,.2f}'.format # Formato de decimales

print("Librerías importadas y configuraciones aplicadas. ¡Estamos listos para empezar!")


Librerías importadas y configuraciones aplicadas. ¡Estamos listos para empezar!


## Carga de Datos (Fase ETL: Extracción)
En este paso, cargaremos nuestro conjunto de datos. En un caso real, esto sería a través de un archivo CSV o de una base de datos. Para este tutorial, crearemos un DataFrame de ejemplo para que puedas seguir el proceso sin necesidad de un archivo externo.

## Exploración Inicial de Datos (Fase ETL: Transformación)
Esta es la fase de diagnóstico. El objetivo es obtener una visión general de la calidad y la estructura de nuestros datos antes de realizar cualquier limpieza.

## Detección y Tratamiento de Valores Atípicos (Outliers)
Un valor atípico es una observación que está muy distante de otras. Pueden ser errores de entrada o valores reales pero extremos. Un boxplot es la herramienta visual más efectiva para detectarlos.

## Estrategias de Imputación de Datos Faltantes
La imputación es el proceso de reemplazar los valores faltantes. La estrategia que elijamos dependerá del tipo de datos y de la cantidad de valores faltantes.

## Transformación y Feature Engineering
El Feature Engineering es el proceso de crear nuevas variables a partir de las existentes. Es una parte crucial del proceso y a menudo la que más valor añade a un modelo.

### Creación de Variables Categóricas a partir de Fechas y Números
El feature engineering no se limita a crear ratios. Podemos extraer información de cualquier tipo de dato, como fechas, para generar nuevas variables que pueden ser muy útiles para los modelos.

## Visualización de los Resultados y Relaciones
Finalmente, utilizaremos visualizaciones para entender la relación entre las variables y confirmar que nuestros pasos de limpieza y transformación fueron efectivos.

#### Histograma
Un histograma muestra la distribución de una variable numérica agrupando valores en bins (intervalos). Permite detectar asimetrías, colas largas, modas múltiples y posibles outliers.
Cuándo usar:

#### Gráfico de pastel (Pie chart)
Muestra la proporción de cada categoría como segmentos de un círculo que suman 100%.

#### Gráfico de Barras
Muestran valores discretos por categoría. Útiles para conteos (value_counts) o medias/medianas por grupo (groupby).


### Tipos de Visualizaciones Avanzadas e Interpretación
Más allá de los gráficos de barras y de dispersión, existen otras visualizaciones que nos permiten entender la distribución y las relaciones de los datos de manera más profunda.

#### Gráfico de Violín (Violin Plot)
El gráfico de violín combina un boxplot con una estimación de la densidad de probabilidad (KDE). Es ideal para visualizar la distribución de una variable numérica a través de diferentes categorías.

Interpretación:

El ancho del "violín" en cada punto de la curva indica la densidad de los datos en ese valor. Un "violín" más ancho significa que hay más observaciones en ese rango de valores.

La caja en el centro representa el rango intercuartílico (IQR) y la línea blanca es la mediana.

#### Gráfico de Pares (Pair Plot)

Un pairplot de Seaborn es una matriz de gráficos de dispersión que muestra la relación entre cada par de variables en el DataFrame. Es una excelente herramienta para una exploración rápida.

Interpretación:

En la diagonal: Se muestran histogramas o gráficos de densidad para cada variable individual. Esto nos ayuda a entender su distribución.

Fuera de la diagonal: Se muestran diagramas de dispersión entre cada par de variables. Esto nos permite detectar visualmente correlaciones, patrones y clusters (agrupaciones).

#### Diagrama de venn
Un diagrama de Venn visualiza las intersecciones entre 2 o 3 conjuntos. Cada círculo representa un conjunto. Las zonas superpuestas muestran cuántas filas pertenecen a varios conjuntos a la vez (intersecciones)

Interpretación

- Zonas exclusivas (solo un círculo): número de filas que cumplen solo esa condición
- Zonas de solapamiento (A ∩ B, A ∩ C, B ∩ C): filas que cumplen exactamente esas dos condiciones simultáneamente.
- Zona central (A ∩ B ∩ C): filas que cumplen las tres condiciones a la vez.
- Suma de regiones: corresponde a las filas que pertenecen a al menos uno de los conjuntos elegidos (las que no cumplen ninguna de las tres condiciones no aparecen en el diagrama).

#### Upset

Es una alternativa a los diagramas de Venn para analizar intersecciones entre conjuntos (categorías). Escala bien cuando hay muchas categorías y muestra con barras cuántas filas cumplen una combinación específica.

Interpretación:
- Barras superiores (Intersection size): altura = número de filas que pertenecen simultáneamente a todas las categorías marcadas en esa columna
- Matriz de puntos (abajo): los puntos conectados indican qué categorías participan en esa intersección.
- Barras laterales (Set size): tamaño total de cada categoría por separado (cuántas filas son Senior en total, cuántas son Ciudad B, etc.)


### cBioPortal
cBioPortal es una plataforma abierta (MSKCC) para explorar, visualizar y descargar datos de oncogenómica clínica de cientos de estudios (TCGA, ICGC, pediátricos, ensayos, etc.).
Este permite:
- Explorar mutaciones, CNAs, expresión, fusiones y datos clínicos (edad, sexo, estadio, subtipos, supervivencia).
- Visualizar rápidamente con OncoPrint, gráficos de mutua exclusión/co-ocurrencia y supervivencia (KM).
- Descargar tablas listas para análisis (MAF, clínicos de paciente y muestra).


In [None]:
# Si falta:
# %pip install requests pandas

import requests

# Para descargar datos de cBioPortal
BASE = "https://www.cbioportal.org/api"
HEADERS = {"accept": "application/json"}

def api_get(path, **params):
    r = requests.get(f"{BASE}{path}", params=params, headers=HEADERS)
    r.raise_for_status()
    return r.json()

def api_post(path, payload, **params):
    h = {**HEADERS, "Content-Type": "application/json"}
    r = requests.post(f"{BASE}{path}", params=params, json=payload, headers=h)
    r.raise_for_status()
    return r.json()

# catastro de estudios (resumen)
studies = pd.DataFrame(api_get("/studies", projection="SUMMARY"))

# filtra por palabra clave en 'name' o por 'cancerTypeId'
def buscar_estudios(texto, df=studies):
    m = df[
        df["name"].str.contains(texto, case=False, na=False) |
        df["studyId"].str.contains(texto, case=False, na=False) |
        df["cancerTypeId"].str.contains(texto, case=False, na=False)
    ][["studyId","name","cancerTypeId"]].sort_values("studyId")
    return m

# ejemplos de búsqueda: con cancér de mama
display(buscar_estudios("TCGA").head(20))
display(buscar_estudios("breast|brca|mama"))

Unnamed: 0,studyId,name,cancerTypeId
197,acc_tcga,"Adrenocortical Carcinoma (TCGA, Firehose Legacy)",acc
496,acc_tcga_gdc,"Adrenocortical Carcinoma (TCGA GDC, 2025)",acc
187,acc_tcga_pan_can_atlas_2018,"Adrenocortical Carcinoma (TCGA, PanCancer Atlas)",acc
495,aml_tcga_gdc,"Acute Myeloid Leukemia (TCGA GDC, 2025)",aml
93,blca_msk_tcga_2020,"Bladder Cancer (MSK/TCGA, 2020)",blca
198,blca_tcga,"Bladder Urothelial Carcinoma (TCGA, Firehose L...",blca
447,blca_tcga_gdc,"Bladder Urothelial Carcinoma (TCGA, GDC)",blca
91,blca_tcga_pan_can_atlas_2018,"Bladder Urothelial Carcinoma (TCGA, PanCancer ...",blca
89,blca_tcga_pub,"Bladder Urothelial Carcinoma (TCGA, Nature 2014)",blca
226,blca_tcga_pub_2017,"Bladder Cancer (TCGA, Cell 2017)",blca


Unnamed: 0,studyId,name,cancerTypeId
90,acbc_mskcc_2015,"Adenoid Cystic Carcinoma of the Breast (MSK, J...",acbc
213,bfn_duke_nus_2015,"Breast Fibroepithelial Tumors (Duke-NUS, Nat G...",bfn
440,brca_aurora_2023,"Metastatic Breast Cancer (AURORA US Network, N...",brca
223,brca_bccrc,"Breast Invasive Carcinoma (British Columbia, N...",brca
221,brca_bccrc_xenograft_2014,"Breast Cancer Xenografts (British Columbia, Na...",brca
222,brca_broad,"Breast Invasive Carcinoma (Broad, Nature 2012)",brca
230,brca_cptac_2020,Proteogenomic landscape of breast cancer (CPTA...,brca
232,brca_dfci_2020,"Metastatic Breast Cancer (DFCI, Cancer Discov ...",brca
194,brca_fuscc_2020,"Triple-Negative Breast Cancer (FUSCC, Cell Res...",brca
231,brca_hta9_htan_2022,"Breast Cancer (HTAN, 2022)",brca


In [None]:
# Elegir estudio de interes por el ID
study_id = "prostate_msk_2024"
print("Elegido:", study_id)

Elegido: prostate_msk_2024


In [None]:
# Primero listamos los atributos clínicos definidos a nivel paciente (también puedes usar entityType="SAMPLE" para nivel muestra):
attrs_pat = pd.DataFrame(
    api_get(f"/studies/{study_id}/clinical-attributes", entityType="PATIENT")
)
display(attrs_pat.head(15))

# mira sólo los IDs de atributo:
attrs_pat_ids = set(attrs_pat["clinicalAttributeId"])
print(list(sorted(attrs_pat_ids))[:25])


Unnamed: 0,displayName,description,datatype,patientAttribute,priority,clinicalAttributeId,studyId
0,Cancer Type,The main cancer type as defined by the Oncotre...,STRING,False,1,CANCER_TYPE,prostate_msk_2024
1,Cancer Type Detailed,Cancer Type Detailed,STRING,False,1,CANCER_TYPE_DETAILED,prostate_msk_2024
2,Current Age,Current age,NUMBER,True,1,CURRENT_AGE,prostate_msk_2024
3,Ethnicity,Ethnicity,STRING,True,1,ETHNICITY,prostate_msk_2024
4,Fraction Genome Altered,Fraction Genome Altered,NUMBER,False,20,FRACTION_GENOME_ALTERED,prostate_msk_2024
5,Gene Panel,The gene panel or assay used used to perform t...,STRING,False,1,GENE_PANEL,prostate_msk_2024
6,"Gleason Score, 1st Reported",Patient level summary of the 1st reported Glea...,STRING,True,1,GLEASON_FIRST_REPORTED,prostate_msk_2024
7,"Gleason Score, Highest Reported",Patient level summary of the highest reported ...,STRING,True,1,GLEASON_HIGHEST_REPORTED,prostate_msk_2024
8,MSI Score,Microsatellite Instability (MSI) score,NUMBER,False,1,MSI_SCORE,prostate_msk_2024
9,MSI Type,Directly related to MSI Score; Possible values...,STRING,False,1,MSI_TYPE,prostate_msk_2024


['CANCER_TYPE', 'CANCER_TYPE_DETAILED', 'CURRENT_AGE', 'ETHNICITY', 'FRACTION_GENOME_ALTERED', 'GENE_PANEL', 'GLEASON_FIRST_REPORTED', 'GLEASON_HIGHEST_REPORTED', 'MSI_SCORE', 'MSI_TYPE', 'MUTATION_COUNT', 'ONCOTREE_CODE', 'OS_MONTHS', 'OS_STATUS', 'PFS_MONTHS', 'PFS_STATUS', 'RACE', 'SAMPLE_COUNT', 'SAMPLE_COVERAGE', 'SAMPLE_TYPE', 'SOMATIC_STATUS', 'STAGE_HIGHEST_RECORDED', 'TMB_NONSYNONYMOUS', 'TUMOR_PURITY']


In [None]:
# Lista de pacientes
patients = pd.DataFrame(api_get(f"/studies/{study_id}/patients", projection="SUMMARY"))
patient_ids = patients["patientId"].tolist()
print(f"Pacientes: {len(patient_ids)}")

Pacientes: 2257


In [122]:
# === Auditoría cBioPortal (archivo en /content) ===
import pandas as pd, numpy as np, re, os
from datetime import datetime, timezone

PATH = "/content/prostate_msk_2024_clinical_data.tsv"  # <<--- tu archivo

# ------------------ Carga robusta ------------------
def load_cbio_tsv(path: str) -> pd.DataFrame:
    df = pd.read_csv(path, sep="\t", dtype=str, low_memory=False)
    df = df.loc[:, ~df.columns.astype(str).str.startswith("Unnamed")]
    df.columns = [c.strip() for c in df.columns]
    return df

df_raw = load_cbio_tsv(PATH)

# ------------------ Detectar formato y construir patients_wide ------------------
def to_wide(df: pd.DataFrame) -> pd.DataFrame:
    cols_lower = set(df.columns.str.lower())
    # Formato long del API: entityId, clinicalAttributeId, value
    if {"entityid","clinicalattributeid","value"}.issubset(cols_lower):
        tmp = df.copy()
        tmp.columns = [c.strip() for c in tmp.columns]
        wide = (tmp.pivot_table(index="entityId", columns="clinicalAttributeId",
                                values="value", aggfunc="first")
                  .rename_axis(index="patientId").reset_index())
        return wide
    # Formato wide (clinical_data.tsv): PATIENT_ID / patientId / SAMPLE_ID ...
    cl = {c.lower(): c for c in df.columns}
    pid_col = cl.get("patient_id") or cl.get("patientid") or cl.get("sample_id") or cl.get("sampleid")
    wide = df.copy()
    if pid_col:
        wide = wide.rename(columns={pid_col: "patientId"})
    return wide

patients_wide = to_wide(df_raw)

# ------------------ Normalizar faltantes ------------------
MISSING_TOKENS = {"", "na","n/a","nan","null","none","unknown",
                  "[not available]","[unknown]","not available","missing","-","?"}
def norm_missing(x):
    if pd.isna(x): return np.nan
    s = str(x).strip()
    return np.nan if s.lower() in MISSING_TOKENS else s

for c in patients_wide.columns:
    patients_wide[c] = patients_wide[c].map(norm_missing)

# ------------------ Tipificación heurística ------------------
def coerce_numeric(df: pd.DataFrame) -> None:
    regex_num = re.compile(r"(?:^age$|edad|_months$|month$|psa|gleason|bmi|height|weight|score|tmb|mutation_count|copies|count|cn|value$)", re.I)
    for c in df.columns:
        if regex_num.search(c):
            df[c] = pd.to_numeric(df[c], errors="coerce")

def coerce_dates(df: pd.DataFrame) -> None:
    regex_date = re.compile(r"(date|fecha|diagnosis|dx_|_dt$|time|datetime|death|birth)", re.I)
    for c in df.columns:
        if regex_date.search(c):
            ser = pd.to_datetime(df[c], errors="coerce", utc=True)
            if ser.notna().mean() >= 0.2:  # sólo si hay suficientes parseables
                df[c] = ser

coerce_numeric(patients_wide)
coerce_dates(patients_wide)

# ------------------ Auditoría general ------------------
def auditar(df: pd.DataFrame, id_hint="patientId"):
    n = len(df)
    resumen = pd.DataFrame({
        "tipo": df.dtypes.astype(str),
        "no_nulos": df.notna().sum(),
        "%_no_nulos": (df.notna().sum()/max(n,1)*100).round(2),
        "cardinalidad": df.nunique(dropna=True)
    }).sort_values("%_no_nulos")

    # faltantes
    obj_cols = df.select_dtypes(include=["object","string"]).columns
    vacios = pd.Series(0, index=df.columns, dtype="int64")
    for c in obj_cols:
        s = df[c].astype("string")
        vacios[c] = s.fillna("").str.strip().eq("").sum()
    nulos = df.isna().sum().sort_values(ascending=False)
    faltantes = pd.DataFrame({
        "nulos": nulos,
        "%_nulos": (nulos/max(n,1)*100).round(2),
        "vacios/blancos": vacios,
        "%_vacios/blancos": (vacios/max(n,1)*100).round(2)
    }).sort_values(["%_nulos","%_vacios/blancos"], ascending=False)

    # duplicados
    dup_total = int(df.duplicated().sum())
    dup_por_id = int(df.duplicated(subset=[id_hint]).sum()) if id_hint in df.columns else None

    # tipos mixtos
    def tipos_mixtos(s: pd.Series) -> bool:
        t = s.dropna().map(lambda x: type(x).__name__)
        return t.nunique() > 1
    cols_mixtas = df.apply(tipos_mixtos).rename("tipos_mixtos").to_frame()

    # fechas sospechosas
    now = pd.Timestamp.now(tz="UTC")
    fecha_rows = []
    for c in df.columns:
        if pd.api.types.is_datetime64_any_dtype(df[c]):
            ser = df[c]
            fecha_rows.append({
                "columna": c,
                "no_nulos_fecha": int(ser.notna().sum()),
                "min": ser.min(),
                "max": ser.max(),
                "en_futuro": int((ser > now + pd.Timedelta(days=1)).sum()),
                "antes_1900": int((ser < pd.Timestamp("1900-01-01", tz="UTC")).sum())
            })
    fechas = pd.DataFrame(fecha_rows)

    # categóricas (cardinalidad y top values)
    cat_cols = [c for c in df.columns if df[c].dtype == "object" or df[c].dtype.name == "category"]
    categorias = []
    for c in cat_cols:
        vc = df[c].astype("string").str.strip().str.lower()
        categorias.append({"columna": c,
                           "cardinalidad": int(vc.nunique(dropna=True)),
                           "top_5": vc.value_counts(dropna=True).head(5).to_dict()})
    categorias = pd.DataFrame(categorias).sort_values("cardinalidad", ascending=True) if categorias else pd.DataFrame(columns=["columna","cardinalidad","top_5"])

    # numéricos sospechosos
    num_cols = df.select_dtypes(include=[np.number]).columns
    numericos = []
    for c in num_cols:
        s = df[c]
        numericos.append({"columna": c, "negativos": int((s < 0).sum()),
                          "infinitos": int(np.isinf(s).sum()), "nulos": int(s.isna().sum())})
    numericos = pd.DataFrame(numericos) if len(numericos) else pd.DataFrame(columns=["columna","negativos","infinitos","nulos"])

    # outliers IQR (muestras)
    outliers_muestras = {}
    for c in num_cols:
        s = df[c].astype(float)
        q1, q3 = s.quantile(0.25), s.quantile(0.75)
        iqr = q3 - q1
        if pd.notna(iqr) and iqr > 0:
            low, high = q1 - 1.5*iqr, q3 + 1.5*iqr
            mask = s.notna() & ((s < low) | (s > high))
            if mask.any():
                use_cols = [id_hint, c] if id_hint in df.columns else [c]
                outliers_muestras[c] = df.loc[mask, use_cols].head(50)

    # espacios extremos
    espacios = []
    for c in obj_cols:
        s = df[c].astype("string")
        mask = s.notna() & (s != s.str.strip())
        if mask.any():
            espacios.append({"columna": c, "filas_con_espacios_extremos": int(mask.sum())})
    espacios = pd.DataFrame(espacios)

    return {
        "resumen": resumen,
        "faltantes": faltantes,
        "duplicados_totales": dup_total,
        "duplicados_por_id": dup_por_id,
        "columnas_con_tipos_mixtos": cols_mixtas,
        "fechas": fechas,
        "categorias": categorias,
        "numericos": numericos,
        "outliers_muestras": outliers_muestras,
        "espacios_extremos": espacios
    }

audit = auditar(patients_wide, id_hint="patientId")

# ------------------ Chequeos clínicos (OS/PFS/DFS/PSA/Gleason/edad) ------------------
def col_ci(df, name):
    n = name.lower()
    m = [c for c in df.columns if c.lower() == n]
    return m[0] if m else None

def any_ci(df, names):
    for n in names:
        c = col_ci(df, n)
        if c: return c
    return None

cbio_flags = []
def add_flag(nombre, mask, cols=None, max_rows=20):
    cnt = int(mask.fillna(False).sum())
    if cnt > 0:
        use_cols = (["patientId"] if "patientId" in patients_wide.columns else []) + (cols or [])
        muestra = patients_wide.loc[mask, [c for c in use_cols if c in patients_wide.columns]].head(max_rows)
        cbio_flags.append({"regla": nombre, "conteo": cnt, "muestra": muestra})

OS_MONTHS = any_ci(patients_wide, ["OS_MONTHS"])
OS_STATUS = any_ci(patients_wide, ["OS_STATUS"])
if OS_STATUS:
    s = patients_wide[OS_STATUS].astype("string").str.strip().str.lower()
    s = s.str.replace(r"^\s*\d+\s*:\s*", "", regex=True)
    repl = {"deceased":"DECEASED","dead":"DECEASED","event":"DECEASED","yes":"DECEASED",
            "living":"LIVING","alive":"LIVING","no":"LIVING","censored":"LIVING"}
    patients_wide[OS_STATUS] = s.map(lambda x: repl.get(x, x.upper() if isinstance(x,str) else x))
if OS_MONTHS:
    patients_wide[OS_MONTHS] = pd.to_numeric(patients_wide[OS_MONTHS], errors="coerce")

if OS_MONTHS:
    osm = patients_wide[OS_MONTHS]
    add_flag("OS_MONTHS < 0", osm < 0, cols=[OS_MONTHS] + ([OS_STATUS] if OS_STATUS else []))
    if OS_STATUS:
        add_flag("DECEASED pero OS_MONTHS es NaN/0", (patients_wide[OS_STATUS]=="DECEASED") & (osm.fillna(0)<=0),
                 cols=[OS_MONTHS, OS_STATUS])
        add_flag("LIVING con OS_MONTHS > 600", (patients_wide[OS_STATUS]=="LIVING") & (osm>600),
                 cols=[OS_MONTHS, OS_STATUS])

for pcol in ["PFS_MONTHS","DFS_MONTHS","DSS_MONTHS"]:
    real = any_ci(patients_wide, [pcol])
    if real and OS_MONTHS and OS_STATUS:
        patients_wide[real] = pd.to_numeric(patients_wide[real], errors="coerce")
        add_flag(f"{pcol} > OS_MONTHS + 3 (DECEASED)",
                 (patients_wide[real] > patients_wide[OS_MONTHS] + 3) & (patients_wide[OS_STATUS]=="DECEASED"),
                 cols=[real, OS_MONTHS, OS_STATUS])

for c in [col for col in patients_wide.columns if re.search(r"(edad|^age$|age_at_diagnosis)", col, re.I)]:
    s = pd.to_numeric(patients_wide[c], errors="coerce")
    add_flag(f"{c} <0 o >120", (s<0) | (s>120), cols=[c])

for c in [col for col in patients_wide.columns if re.search(r"psa", c, re.I)]:
    s = pd.to_numeric(patients_wide[c], errors="coerce")
    add_flag(f"{c} negativo", s<0, cols=[c])
    add_flag(f"{c} extremadamente alto (>5000)", s>5000, cols=[c])

for c in [col for col in patients_wide.columns if re.search(r"gleason", c, re.I)]:
    s = pd.to_numeric(patients_wide[c], errors="coerce")
    add_flag(f"{c} fuera de 2–10", (s<2) | (s>10), cols=[c])

# ------------------ Salidas rápidas en consola ------------------
print("\n✅ Archivo leído desde:", PATH)
print("Filas x Columnas:", patients_wide.shape)
print("\n=== RESUMEN ===");            print(audit["resumen"].head(20))
print("\n=== FALTANTES (Top 20) ==="); print(audit["faltantes"].head(20))
print("\nDuplicados totales:", audit["duplicados_totales"], "| por patientId:", audit["duplicados_por_id"])
print("\n=== COLUMNAS CON TIPOS MIXTOS ==="); print(audit["columnas_con_tipos_mixtos"])
print("\n=== FECHAS SOSPECHOSAS ==="); print(audit["fechas"])
print("\n=== NUMÉRICOS SOSPECHOSOS ==="); print(audit["numericos"].head(20))
if cbio_flags:
    print("\n=== CHEQUEOS CLÍNICOS (resumen) ===")
    for f in cbio_flags:
        print(f"- {f['regla']}: {f['conteo']}")
else:
    print("\n=== CHEQUEOS CLÍNICOS === Sin banderas específicas")

# ------------------ Export a Excel en /content ------------------
def make_naive_df(df: pd.DataFrame) -> pd.DataFrame:
    df2 = df.copy()
    for c in df2.columns:
        if pd.api.types.is_datetime64_any_dtype(df2[c]):
            df2[c] = df2[c].dt.tz_localize(None)  # Excel no soporta tz
    return df2

def safe_sheet_name(prefix: str) -> str:
    import re
    s = re.sub(r"[^A-Za-z0-9_]+", "_", prefix)
    return s[:28]  # límite Excel 31, dejamos margen

out_xlsx = "/content/clinical_audit_report.xlsx"
with pd.ExcelWriter(out_xlsx, engine="xlsxwriter") as xw:
    make_naive_df(patients_wide).to_excel(xw, sheet_name="00_datos", index=False)
    audit["resumen"].to_excel(xw, sheet_name="01_resumen")
    audit["faltantes"].to_excel(xw, sheet_name="02_faltantes")
    audit["columnas_con_tipos_mixtos"].to_excel(xw, sheet_name="03_tipos_mixtos")
    fechas = audit["fechas"].copy()
    if not fechas.empty:
        for col in ["min","max"]:
            if col in fechas.columns:
                fechas[col] = fechas[col].astype(str)
    fechas.to_excel(xw, sheet_name="04_fechas", index=False)
    audit["categorias"].to_excel(xw, sheet_name="05_categorias", index=False)
    audit["numericos"].to_excel(xw, sheet_name="06_numericos", index=False)
    if not audit["espacios_extremos"].empty:
        audit["espacios_extremos"].to_excel(xw, sheet_name="07_espacios", index=False)
    # outliers (máx. 8 hojas)
    k = 8
    for c, dfm in audit["outliers_muestras"].items():
        k += 1
        make_naive_df(dfm).to_excel(xw, sheet_name=f"{k:02d}_{safe_sheet_name('out_'+str(c))}", index=False)
    # flags clínicas
    if cbio_flags:
        pd.DataFrame([{"regla": f["regla"], "conteo": f["conteo"]} for f in cbio_flags]).to_excel(xw, sheet_name="20_flags_cbio", index=False)
        for j, f in enumerate(cbio_flags, start=1):
            make_naive_df(f["muestra"]).to_excel(xw, sheet_name=f"20_{j:02d}_{safe_sheet_name(f['regla'])}", index=False)

print("\n💾 Excel generado en:", out_xlsx)



✅ Archivo leído desde: /content/prostate_msk_2024_clinical_data.tsv
Filas x Columnas: (2260, 27)

=== RESUMEN ===
                                              tipo  no_nulos  %_no_nulos  \
Progression Free Survival Status            object        36        1.59   
Progression Free Survival Status (months)   object        36        1.59   
TMB (nonsynonymous)                        float64       559       24.73   
Stage                                       object      1970       87.17   
Gleason Score, Highest Reported            float64      2042       90.35   
Gleason Score, 1st Reported                float64      2042       90.35   
Mutation Count                             float64      2124       93.98   
Overall Survival (Months)                   object      2204       97.52   
Tumor Purity                                object      2244       99.29   
Ethnicity                                   object      2249       99.51   
MSI Score                                  float6

In [None]:
# Pedimos clínica básica a nivel PACIENTE
attrs = ["OS_MONTHS", "OS_STATUS", "ETHNICITY", "CURRENT_AGE", "RACE"]

raw = pd.DataFrame(api_post(
    f"/studies/{study_id}/clinical-data/fetch",
    {"ids": patient_ids, "attributeIds": attrs},
    clinicalDataType="PATIENT",
    projection="DETAILED"
))

# ID puede llamarse patientId o entityId según el endpoint
id_col = "patientId" if "patientId" in raw.columns else "entityId"

# Una fila por paciente
wide = (raw[raw["clinicalAttributeId"].isin(attrs)]
          [[id_col, "clinicalAttributeId", "value"]]
          .pivot_table(index=id_col, columns="clinicalAttributeId", values="value", aggfunc="first"))

# Limpiar tipos y crear evento
wide["OS_MONTHS"] = pd.to_numeric(wide.get("OS_MONTHS"), errors="coerce")
wide["OS_EVENT"]  = wide.get("OS_STATUS").astype(str).str.contains("DECEASED", case=False, na=False)

# Vista rápida
wide[["OS_MONTHS","OS_STATUS","OS_EVENT","ETHNICITY", "CURRENT_AGE","RACE"]].head()


In [None]:
# Resumen de los datos
n_total      = len(patient_ids)
n_con_os     = int(wide["OS_MONTHS"].notna().sum())
mediana_os   = float(wide["OS_MONTHS"].median()) if n_con_os > 0 else None
tasa_evento  = float(wide["OS_EVENT"].mean()) if "OS_EVENT" in wide else None

resumen = {
    "n_pacientes": n_total,
    "con_OS": n_con_os,
    "mediana_OS_meses": mediana_os,
    "tasa_evento": tasa_evento
}
resumen

In [None]:
# Estadísticos básicos de OS (count, mean, std, min, Q1, mediana, Q3, max)
wide["CURRENT_AGE"] = pd.to_numeric(
    wide["CURRENT_AGE"].astype(str).str.replace(",", ".", regex=False),
    errors="coerce"
)
wide[["OS_MONTHS","CURRENT_AGE","RACE"]].describe()


In [None]:
# Frecuencia de sexo
wide["OS_STATUS"].value_counts(dropna=False)
(wide["OS_STATUS"].value_counts(normalize=True, dropna=False) * 100).round(1)

# Estadísticos de Raza por Estatus de deceso
wide.dropna(subset=["RACE"]).groupby("OS_STATUS")["RACE"].describe()


In [None]:
# Frecuencia de sexo
wide["OS_STATUS"].value_counts(dropna=False)
(wide["OS_STATUS"].value_counts(normalize=True, dropna=False) * 100).round(1)

# Estadísticos de OS por Estatus de deceso
wide.dropna(subset=["OS_MONTHS"]).groupby("OS_STATUS")["OS_MONTHS"].describe()

In [None]:
# Histograma de OS: supervivencia global

wide["OS_MONTHS"].dropna().plot(kind="hist", bins=30)
plt.title("Distribución de Overall Survival (meses)")
plt.xlabel("Meses"); plt.ylabel("Frecuencia")
plt.show()

# Boxplot de OS por sexo
ok = wide.dropna(subset=["OS_MONTHS","OS_STATUS"])
ok.boxplot(column="OS_MONTHS", by="OS_STATUS", grid=False)
plt.title("OS (meses) por sexo"); plt.suptitle("")
plt.xlabel("Sexo"); plt.ylabel("OS (meses)")
plt.show()


In [None]:
# Barras de ETHNICITY
if "ETHNICITY" in wide:
    wide["ETHNICITY"].dropna().value_counts().head(10).plot(kind="bar")
    plt.title("Distribución de Ethnicity (Top 10)")
    plt.xlabel("Ethnicity")
    plt.ylabel("N pacientes")
    plt.show()


In [None]:
## Mensaje final del tutorial
print("¡Felicidades! Has completado el tutorial de preparación de datos.")
print("Ahora tienes un conjunto de datos limpio y transformado, listo para ser utilizado en el modelado de Machine Learning o para un análisis más profundo.")

In [121]:
!pip install xlsxwriter

