# Sesión 1: Construyendo un pipeline reproducible en Python

Esta notebook integra los conceptos de variables, estructuras de datos, control de flujo y funciones para construir un pequeño **pipeline** de análisis. El objetivo es practicar la creación de funciones modulares y su combinación en un flujo que lea datos, los procese y genere un resultado. Este ejercicio es la base para construir en el futuro un *data profiler* parecido a **ydata‑profiling**, donde se automatiza el cálculo de estadísticas y el resumen de características de un conjunto de datos.

En esta sesión trabajaremos con un conjunto de datos simulado de pacientes que incluye la edad, dos biomarcadores y el sexo.


In [None]:
# Importar bibliotecas
import pandas as pd

# Crear un dataset simulado
data = {
    'patient_id': [1, 2, 3, 4, 5, 6],
    'age': [45, 60, 30, 55, 70, 42],
    'biomarker1': [0.5, 0.7, 0.2, 0.6, 0.9, 0.4],
    'biomarker2': [1.2, 1.5, 0.8, 1.0, 1.7, 0.9],
    'sex': ['M', 'F', 'M', 'F', 'M', 'F']
}
df = pd.DataFrame(data)

# Mostrar las primeras filas del dataset
df


## Paso 1: Inspección inicial del conjunto de datos

Es importante conocer la estructura de los datos antes de analizarlos. Puedes utilizar métodos como `df.head()`, `df.info()` y `df.describe()` para obtener un resumen rápido.


In [None]:
# Información básica
df.info()

# Estadísticas descriptivas para columnas numéricas
df.describe()


## Paso 2: Limpieza y preparación de datos

Para garantizar resultados correctos, es necesario limpiar los datos. En este ejemplo, verificamos si hay valores faltantes y los eliminamos. En datasets reales se pueden aplicar imputaciones u otras técnicas.


In [None]:
# Verificar valores faltantes
df.isna().sum()

# Eliminar filas con valores faltantes (si existieran)
df_limpio = df.dropna().copy()

# Comprobar que no haya valores faltantes
df_limpio.isna().sum()


## Paso 3: Definir funciones de análisis

Vamos a definir funciones que calculen:

1. El promedio de un biomarcador dado el nombre de la columna.
2. La proporción de pacientes mayores de cierta edad.

Estas funciones son modulares y pueden reutilizarse con distintos parámetros.


In [None]:
# Función para calcular el promedio de un biomarcador
def promedio_biomarcador(df, columna):
    # Devuelve el promedio de la columna especificada en el DataFrame
    return df[columna].mean()

# Función para calcular la proporción de pacientes mayores de una edad dada
def proporcion_mayores(df, umbral):
    # Calcula la proporción de filas en las que la columna 'age' es mayor que el umbral
    total = len(df)
    mayores = len(df[df['age'] > umbral])
    return mayores / total


## Paso 4: Aplicar las funciones al dataset

Utilizamos las funciones anteriores para obtener estadísticas de nuestros datos.


In [None]:
# Calcular el promedio de biomarker1 y biomarker2
media_b1 = promedio_biomarcador(df_limpio, 'biomarker1')
media_b2 = promedio_biomarcador(df_limpio, 'biomarker2')
print('Promedio biomarker1:', media_b1)
print('Promedio biomarker2:', media_b2)

# Calcular la proporción de pacientes mayores de 50 años
prop_mayores_50 = proporcion_mayores(df_limpio, 50)
print('Proporción de pacientes > 50 años:', prop_mayores_50)


## Paso 5: Construir un pipeline simple

Integraremos los pasos anteriores en una única función `analizar_dataset()` que reciba un DataFrame y devuelva un diccionario con los resultados del análisis. Esto permite encapsular la lógica y reutilizarla en otros conjuntos de datos.


In [None]:
def analizar_dataset(df, umbral_edad=50):
    # Realiza un análisis simple del DataFrame y devuelve un diccionario con los resultados.
    # Limpia los datos eliminando filas con valores nulos.
    # Calcula el promedio de 'biomarker1' y 'biomarker2'.
    # Calcula la proporción de pacientes con edad mayor que umbral_edad.
    df_clean = df.dropna().copy()
    resultados = {}
    for columna in ['biomarker1', 'biomarker2']:
        resultados[f'promedio_{columna}'] = df_clean[columna].mean()
    resultados['proporcion_mayores'] = len(df_clean[df_clean['age'] > umbral_edad]) / len(df_clean)
    return resultados

# Ejecutar el pipeline en nuestro dataset
resultados_pipeline = analizar_dataset(df)
resultados_pipeline


## Tarea en clase

1. Modifica la función `analizar_dataset()` para que además devuelva la edad media de los pacientes.  
2. Ejecuta tu nueva función con `umbral_edad = 40` y comprueba los resultados.  

_Escribe tu solución en la celda siguiente y ejecútala._


In [None]:
# TODO: Modifica la función y prueba aquí tu solución
def analizar_dataset_extendido(df, umbral_edad=50):
    # TODO: Implementa tu versión extendida que incluya la edad media
    pass

# TODO: Llama a la función con umbral_edad=40 y muestra el resultado
