# 1️⃣ Define la problemática y registra el dataset

## Problema: Ver el estado más reciente de un paciente en el hospital

* **¿Qué?** En una unidad de cuidados intensivos (UCI) de un hospital, los equipos médicos (como monitores de corazón y de oxígeno) están constantemente tomando lecturas de los signos vitales de los pacientes. Esto pasa cada pocos minutos para cada paciente.

* **¿Para Quién?** Para el personal médico y de enfermería. Ellos necesitan tomar decisiones rápidas y, para hacerlo, deben ver el estado *actual* y *más reciente* de un paciente de forma inmediata.

* **¿Por Qué es un Problema?** El hospital acumula una cantidad enorme de datos (cientos de miles de registros) muy rápido. Además, diferentes equipos guardan la hora de la lectura en formatos distintos, creando un registro de "marcas de tiempo" desordenado.

    El problema es que cuando un doctor quiere ver cómo está el Paciente 5, no quiere ver una lista de 500 lecturas antiguas. Necesita ver **solo la última lectura válida** de ese paciente. Un sistema de registro simple no puede encontrar esa "última lectura" de forma rápida y confiable en medio de tantos datos y formatos de hora desordenados.

* **¿Cómo Ayuda el Análisis de Datos?** Necesitamos una base de datos analítica porque es capaz de manejar ese gran volumen de información. Nos permite "limpiar" y "entender" todos los formatos de hora diferentes para ponerlos en orden. Más importante aún, nos deja hacer una consulta inteligente que pueda mirar todos los registros de cada paciente y **mostrar únicamente el más reciente**.

    Así, el personal médico ve exactamente lo que necesita (el estado actual) sin tener que "excavar" en el historial de datos.

## Justificación del Dataset

* **Enlace:** `nasirayub2/human-vital-sign-dataset`
* **Explicación:** El dataset que elegí (Vital Signs) es perfecto para esto. Tiene muchísimas filas (cerca de 200,000) que simulan la gran cantidad de datos de un hospital. Lo más importante es que tiene un identificador de paciente (`patient_id`) y una columna de hora (`Timestamp`) con los formatos desordenados que mencionamos. Usar este dataset nos permite demostrar cómo limpiaríamos esos datos y aplicaríamos la lógica para encontrar la última lectura de cada paciente, resolviendo el problema.

# 2️⃣ Diseña el modelo entidad–relación (ERD)
# Modelo ER

# ![Modelo ER](modelo_ER_vital_sign.jpg)

## Descripción del modelo entidad–relación (ERD)

El modelo representa una base de datos analítica diseñada para almacenar, integrar y analizar **registros de signos vitales de pacientes hospitalizados**, junto con métricas derivadas y una tabla unificada de análisis.

---

### ** 1. measurement_patient**
Esta tabla almacena la **información básica del paciente**.  
Contiene atributos demográficos y físicos que permiten calcular indicadores derivados como el IMC (*Body Mass Index*).

**Campos principales:**
- `patient_id` (PK): identificador único del paciente.  
- `age`: edad del paciente.  
- `gender`: género del paciente.  
- `weight_kg`: peso corporal en kilogramos.  
- `height_m`: altura en metros.  

**Relación:** se conecta con las tablas `vital_measurements` y `derived_metrics` a través de `patient_id`.

---

### ** 2. vital_measurements**
Registra los **signos vitales directos** medidos en los pacientes, provenientes de sensores o dispositivos médicos.  
Estos datos son las mediciones básicas y periódicas del estado del paciente.

**Campos principales:**
- `vital_id` (PK): identificador único del registro de signos vitales.  
- `patient_id` (FK): referencia al paciente.  
- `timestamp`: fecha y hora de la medición.  
- `heart_rate`, `respiratory_rate`, `body_temperature`, `oxygen_saturation`, `systolic_blood_pressure`, `diastolic_blood_pressure`.  

**Relación:** está vinculada con `measurement_patient` por `patient_id`, y con `derived_metrics` y `unified_measurements` por `vital_id`.

---

### ** 3. derived_metrics**
Esta tabla almacena **métricas calculadas o derivadas** a partir de los signos vitales y la información física del paciente.  
Sirve para análisis más avanzados como evaluación del riesgo o detección de anomalías.

**Campos principales:**
- `metric_id` (PK): identificador único de la métrica.  
- `patient_id` (FK): referencia al paciente.  
- `vital_id` (FK): referencia al registro vital del cual se derivan las métricas.  
- `derived_hrv`: variabilidad de la frecuencia cardíaca.  
- `derived_pulse_pressure`: diferencia entre presión sistólica y diastólica.  
- `derived_bmi`: índice de masa corporal.  
- `derived_map`: presión arterial media.  
- `risk_category`: nivel de riesgo calculado (bajo, medio, alto).  

**Relación:** está conectada tanto con `measurement_patient` como con `vital_measurements`.

---

### ** 4. unified_measurements**
Es una **tabla analítica unificada** que integra toda la información relevante del paciente: sus datos demográficos, sus signos vitales y las métricas derivadas.  
Sirve para consultas rápidas y análisis globales sin necesidad de unir múltiples tablas.

**Campos principales:**
- `unified_id` (PK): identificador único del registro unificado.  
- `patient_id`, `vital_id`, `metric_id` (FKs): llaves foráneas que integran las tres fuentes de datos.  
- `timestamp`: fecha de la medición.  
- Variables combinadas: `heart_rate`, `respiratory_rate`, `body_temperature`, `oxygen_saturation`, `systolic_blood_pressure`, `diastolic_blood_pressure`, `age`, `gender`, `weight_kg`, `height_m`, `derived_hrv`, `derived_bmi`, `risk_category`, etc.  

**Relación:** consolida la información de todas las demás tablas, actuando como una **vista o tabla resumen** para análisis clínico.

---

### **🔗 Relaciones generales del modelo**
- Un **paciente** puede tener **muchas mediciones vitales** (`1 a N`).  
- Cada registro de signos vitales puede generar **una o varias métricas derivadas** (`1 a N`).  
- La tabla `unified_measurements` combina y consolida toda la información de las tres tablas anteriores para simplificar el análisis.




# 3️⃣ Crea la base de datos e inserta información

In [0]:
!pip install kagglehub[pandas-datasets]>=0.3.8

Collecting kagglehub>=0.3.8 (from kagglehub[pandas-datasets]>=0.3.8)
  Downloading kagglehub-0.3.13-py3-none-any.whl.metadata (38 kB)
Collecting tqdm (from kagglehub>=0.3.8->kagglehub[pandas-datasets]>=0.3.8)
  Downloading tqdm-4.67.1-py3-none-any.whl.metadata (57 kB)
Downloading kagglehub-0.3.13-py3-none-any.whl (68 kB)
Downloading tqdm-4.67.1-py3-none-any.whl (78 kB)
Installing collected packages: tqdm, kagglehub
Successfully installed kagglehub-0.3.13 tqdm-4.67.1
[43mNote: you may need to restart the kernel using %restart_python or dbutils.library.restartPython() to use updated packages.[0m


#Importamos libreria

In [0]:
import kagglehub
import pandas as pd
import os
import zipfile

In [0]:
#No lo utilizamos en esta actividad.
%pip install ingestar
%restart_python
from ingestar import Ingestar 

In [0]:
def download_dataset_zip(url = ""):
        print("Descargando dataset desde Kaggle...")
        dataset_path = kagglehub.dataset_download(url)
        print("Ruta al dataset:", dataset_path)
        return dataset_path
    
def extract_zip_files(dataset_path):
        zip_files = [f for f in os.listdir(dataset_path) if f.endswith('.zip')]
        if zip_files:
            zip_file = os.path.join(dataset_path, zip_files[0])
            extract_dir = os.path.join(dataset_path, "extracted")
            os.makedirs(extract_dir, exist_ok=True)
            print(f"Extrayendo {zip_file} en {extract_dir}...")
            with zipfile.ZipFile(zip_file, "r") as z:
                z.extractall(extract_dir)
            return extract_dir
        else:
            # Si no se encuentra un ZIP, se verifica si existen archivos CSV en la ruta
            csv_files = [f for f in os.listdir(dataset_path) if f.endswith('.csv')]
            if csv_files:
                print("No se encontró archivo ZIP pero se detectaron archivos CSV; se asume que el dataset ya se encuentra extraído.")
                return dataset_path
            else:
                raise FileNotFoundError("No se encontró ningún archivo .zip ni archivos .csv en la ruta del dataset")

def create_csv(csv_dir):
        #os.makedirs('src/static/csv', exist_ok=True)
        csv_files = [f for f in os.listdir(csv_dir) if f.endswith('.csv')]
        if not csv_files:
            raise FileNotFoundError("No se encontraron archivos CSV en el directorio extraído")

        for file in csv_files:
            file_path = os.path.join(csv_dir, file)
            print(f"Leyendo {file_path}...")
            try:
                df = pd.read_csv(file_path, encoding="latin1")
            except Exception as e:
                print(f"Error al leer {file}: {e}")
                continue
            print(f"Creando/actualizando ")
        print("cvs creado correctamente en ")
        return df

In [0]:
df = pd.DataFrame()
dataset = download_dataset_zip("nasirayub2/human-vital-sign-dataset") 
csv_dir =extract_zip_files(dataset)
df = create_csv(csv_dir)

Descargando dataset desde Kaggle...
Downloading from https://www.kaggle.com/api/v1/datasets/download/nasirayub2/human-vital-sign-dataset?dataset_version_number=1...


  0%|          | 0.00/14.0M [00:00<?, ?B/s] 36%|███▌      | 5.00M/14.0M [00:00<00:00, 45.7MB/s] 93%|█████████▎| 13.0M/14.0M [00:00<00:00, 59.3MB/s]100%|██████████| 14.0M/14.0M [00:00<00:00, 59.6MB/s]

Extracting files...





Ruta al dataset: /home/spark-0e31f325-ede0-4690-bbc6-05/.cache/kagglehub/datasets/nasirayub2/human-vital-sign-dataset/versions/1
No se encontró archivo ZIP pero se detectaron archivos CSV; se asume que el dataset ya se encuentra extraído.
Leyendo /home/spark-0e31f325-ede0-4690-bbc6-05/.cache/kagglehub/datasets/nasirayub2/human-vital-sign-dataset/versions/1/human_vital_signs_dataset_2024.csv...
Creando/actualizando 
cvs creado correctamente en 


In [0]:
df.head(3)

Unnamed: 0,Patient ID,Heart Rate,Respiratory Rate,Timestamp,Body Temperature,Oxygen Saturation,Systolic Blood Pressure,Diastolic Blood Pressure,Age,Gender,Weight (kg),Height (m),Derived_HRV,Derived_Pulse_Pressure,Derived_BMI,Derived_MAP,Risk Category
0,1,60,12,2024-07-19 21:53:45.729841,36.861707,95.702046,124,86,37,Female,91.541618,1.679351,0.121033,38,32.459031,98.666667,High Risk
1,2,63,18,2024-07-19 21:52:45.729841,36.511633,96.689413,126,84,77,Male,50.704921,1.992546,0.117062,42,12.771246,98.0,High Risk
2,3,63,15,2024-07-19 21:51:45.729841,37.052049,98.508265,131,78,68,Female,90.31676,1.770228,0.0532,53,28.821069,95.666667,Low Risk


In [0]:
from pyspark.sql.functions import to_date, col

spark_df = spark.createDataFrame(df)

# Convert 'Timestamp' to date type and cast long columns to int
for field in spark_df.schema.fields:
    if field.name == "Timestamp":
        spark_df = spark_df.withColumn("Timestamp", to_date(col("Timestamp")))
    elif field.dataType.typeName() == "long":
        spark_df = spark_df.withColumn(field.name, col(field.name).cast("int"))

**## **# Eliminar la vista temporal --****

In [0]:
spark.sql(
    "DROP VIEW IF EXISTS tabla_vital_signs"
)

DataFrame[]

**## Crear la tabla**

In [0]:
spark_df.createTempView("tabla_vital_signs")
display(spark_df)

Patient ID,Heart Rate,Respiratory Rate,Timestamp,Body Temperature,Oxygen Saturation,Systolic Blood Pressure,Diastolic Blood Pressure,Age,Gender,Weight (kg),Height (m),Derived_HRV,Derived_Pulse_Pressure,Derived_BMI,Derived_MAP,Risk Category
1,60,12,2024-07-19,36.861707108012936,95.70204560529264,124,86,37,Female,91.54161781042704,1.6793511495386064,0.1210328574047084,38,32.45903107193736,98.66666666666669,High Risk
2,63,18,2024-07-19,36.51163284237428,96.68941321884792,126,84,77,Male,50.70492136378624,1.992546278864286,0.1170615472064754,42,12.77124626305356,98.0,High Risk
3,63,15,2024-07-19,37.05204858016934,98.50826478317362,131,78,68,Female,90.3167596936639,1.770227684332464,0.0531999581506069,53,28.821069406784925,95.66666666666666,Low Risk
4,99,16,2024-07-19,36.65474750485421,95.01180149205474,118,72,41,Female,96.00618785155216,1.833629095455426,0.0644746768346745,46,28.554610608265143,87.33333333333333,High Risk
5,69,16,2024-07-19,36.97509754422735,98.6237917407539,138,76,25,Female,56.02000582141864,1.8664189298722969,0.1184842214202095,62,16.08143828760833,96.66666666666666,High Risk
6,79,12,2024-07-19,36.88497906258021,95.9871292033958,130,70,22,Male,79.86993283621617,1.9223336907147648,0.103963157437102,60,21.61353304286171,90.0,Low Risk
7,81,17,2024-07-19,37.273639584377314,99.45671576538214,118,84,43,Male,57.84656504041972,1.831483806988997,0.0558846524143972,34,17.245326017670862,95.33333333333331,High Risk
8,96,15,2024-07-19,36.85263343367673,97.1241246758814,135,77,72,Female,71.758971665616,1.6038878729923471,0.0734133726982765,58,27.895117756084,96.33333333333331,High Risk
9,83,12,2024-07-19,36.04419142105122,98.58449733479578,111,84,50,Male,79.29533165339934,1.6727351544521356,0.0985195628027585,27,28.339569682837293,93.0,Low Risk
10,66,15,2024-07-19,36.95717841280944,97.91626727887888,131,77,61,Male,53.923400264374514,1.8963808200748644,0.0813638585935069,54,14.994298811649214,95.0,High Risk


**Renombramos los nombres de las columnas**

In [0]:
rename_map = {
    "Patient ID": "patient_id",
    "Heart Rate": "heart_rate",
    "Respiratory Rate": "respiratory_rate",
    "Body Temperature": "body_temperature",
    "Oxygen Saturation": "oxygen_saturation",
    "Systolic Blood Pressure": "systolic_blood_pressure",
    "Diastolic Blood Pressure": "diastolic_blood_pressure",
    "Age": "age",
    "Gender": "gender",
    "Weight (kg)": "weight_kg",
    "Height (m)": "height_m",
    "Derived_HRV": "derived_hrv",
    "Derived_Pulse_Pressure": "derived_pulse_pressure",
    "Derived_BMI": "derived_bmi",
    "Derived_MAP": "derived_map",
    "Timestamp": "timestamp",
    "Risk Category": "risk_category",
}

In [0]:
for old, new in rename_map.items():
    if old in spark_df.columns:
        spark_df = spark_df.withColumnRenamed(old, new)

In [0]:
spark_df.write.mode("overwrite")\
    .option("overwriteSchema", "true")\
    .saveAsTable("tbl_vital_signs")

# 4️⃣ Evidencia con consultas SQL

In [0]:
%sql
SELECT COUNT(*) FROM tbl_vital_signs;

COUNT(*)
200020


In [0]:
%sql
DESCRIBE tbl_vital_signs


col_name,data_type,comment
patient_id,int,
heart_rate,int,
respiratory_rate,int,
timestamp,date,
body_temperature,double,
oxygen_saturation,double,
systolic_blood_pressure,int,
diastolic_blood_pressure,int,
age,int,
gender,string,


In [0]:
%sql
SELECT * FROM tbl_vital_signs
LIMIT 20;

patient_id,heart_rate,respiratory_rate,timestamp,body_temperature,oxygen_saturation,systolic_blood_pressure,diastolic_blood_pressure,age,gender,weight_kg,height_m,derived_hrv,derived_pulse_pressure,derived_bmi,derived_map,risk_category
175018,61,16,2024-03-20,37.01949453901685,97.63419927207366,131,77,85,Female,75.89527661088641,1.8056797200510304,0.1288677791273226,54,23.27733770371798,95.0,Low Risk
175019,79,15,2024-03-20,36.94761272678099,97.25010879482257,114,75,48,Male,86.18462434451314,1.7246289733717446,0.1100164291122248,39,28.97600028537614,88.0,Low Risk
175020,63,16,2024-03-20,37.02982496845897,96.93582649023348,133,86,61,Female,65.0816399294781,1.5871142025079803,0.0939052805089219,47,25.83700276933924,101.66666666666669,Low Risk
175021,95,19,2024-03-20,36.24873289295258,96.75732752419388,127,82,25,Male,71.29647570801586,1.5214242727517049,0.1177015555232018,45,30.801181874409327,97.0,High Risk
175022,76,19,2024-03-20,36.62878116972717,98.52063259022049,120,87,64,Female,76.13125607477234,1.9381282772047443,0.1190879168098607,33,20.26739628756455,98.0,Low Risk
175023,71,15,2024-03-20,37.25611947052519,98.36030428108609,127,80,87,Male,88.2874251374214,1.698215353398083,0.0849674255469039,47,30.61352398884673,95.66666666666669,High Risk
175024,85,19,2024-03-20,36.154446044901626,98.63852953560898,129,88,86,Male,61.02529052858373,1.8769465478912977,0.1328787417136371,41,17.322319552350624,101.66666666666669,High Risk
175025,63,13,2024-03-20,36.38379014440024,95.9704923273363,134,85,50,Male,68.76602179884027,1.5937585906128886,0.0667855783306634,49,27.072528724623552,101.33333333333331,Low Risk
175026,77,18,2024-03-20,37.26747654616965,95.99980813034423,127,81,62,Male,94.86581075843914,1.822539364181764,0.0791065132556189,46,28.55984777312033,96.33333333333331,Low Risk
175027,89,17,2024-03-20,36.06080197748504,95.22740266354084,112,86,75,Male,71.77632123615308,1.7316741712260442,0.1475977547108588,26,23.935849033357403,94.66666666666669,Low Risk


In [0]:
%sql
SELECT 
  patient_id,
  gender,
  age,
  timestamp,
  heart_rate,
  body_temperature,
  systolic_blood_pressure,
  diastolic_blood_pressure,
  risk_category
FROM
  tbl_vital_signs
WHERE
  date_format(timestamp, 'yyyy-MM-dd') = '2024-07-19'
  AND risk_category = 'High Risk'
  AND gender = 'Female'
  AND age BETWEEN 40 AND 60
ORDER BY
  heart_rate DESC,
  body_temperature DESC
LIMIT 50;

patient_id,gender,age,timestamp,heart_rate,body_temperature,systolic_blood_pressure,diastolic_blood_pressure,risk_category
1200,Female,58,2024-07-19,99,37.352948925206725,112,81,High Risk
940,Female,48,2024-07-19,99,36.72460204465527,135,75,High Risk
4,Female,41,2024-07-19,99,36.65474750485421,118,72,High Risk
334,Female,42,2024-07-19,99,36.49493503956264,127,71,High Risk
1195,Female,45,2024-07-19,99,36.20716090525957,132,88,High Risk
1088,Female,40,2024-07-19,99,36.08286009655074,121,71,High Risk
706,Female,59,2024-07-19,99,36.0070159849135,122,70,High Risk
1032,Female,45,2024-07-19,98,37.17452324077412,113,73,High Risk
830,Female,60,2024-07-19,98,36.3988422439448,129,88,High Risk
802,Female,57,2024-07-19,97,37.16132951138101,113,86,High Risk
