<a href="https://colab.research.google.com/github/apchavezr/-Analisis_Grandes_Volumenes_Datos/blob/main/Ejercicio_PySpark_Seguridad_Datos_Salud.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üè• Seguridad y privacidad en el an√°lisis de datos de salud usando PySpark
Este notebook simula el procesamiento seguro de datos personales de salud en una entidad p√∫blica. Se incluyen pr√°cticas como anonimizaci√≥n, control de acceso por roles y cifrado simb√≥lico.

## üéØ Objetivo
Simular una estrategia b√°sica de seguridad y privacidad de datos en salud, categorizando roles y aplicando t√©cnicas de protecci√≥n sobre datos sensibles.

In [1]:
# Paso 1: Inicializar sesi√≥n de Spark
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("SeguridadDatosSalud").getOrCreate()

In [2]:
# Paso 2: Crear datos simulados de pacientes con informaci√≥n sensible
data = [
    ("123456789", "Carlos G√≥mez", 45, "Diabetes", "analista"),
    ("987654321", "Laura D√≠az", 30, "Hipertensi√≥n", "auditor"),
    ("112233445", "Jorge Ruiz", 65, "C√°ncer", "desarrollador"),
    ("223344556", "Ana Torres", 52, "Asma", "analista"),
]
columnas = ["id", "nombre", "edad", "diagnostico", "rol"]
df = spark.createDataFrame(data, columnas)
df.show()

+---------+------------+----+------------+-------------+
|       id|      nombre|edad| diagnostico|          rol|
+---------+------------+----+------------+-------------+
|123456789|Carlos G√≥mez|  45|    Diabetes|     analista|
|987654321|  Laura D√≠az|  30|Hipertensi√≥n|      auditor|
|112233445|  Jorge Ruiz|  65|      C√°ncer|desarrollador|
|223344556|  Ana Torres|  52|        Asma|     analista|
+---------+------------+----+------------+-------------+



## üîê Paso 3: Anonimizar los datos personales (seudonimizaci√≥n del ID y ocultar nombre)
Para proteger la identidad de los pacientes, se reemplazan sus identificaciones por hashes simb√≥licos y se ocultan los nombres.

In [3]:
from pyspark.sql.functions import sha2, concat_ws, lit
df_seguro = df.withColumn("id_hash", sha2(df.id, 256)) \
               .drop("id") \
               .withColumn("nombre", lit("[PROTEGIDO]"))
df_seguro.select("id_hash", "nombre", "edad", "diagnostico", "rol").show(truncate=False)

+----------------------------------------------------------------+-----------+----+------------+-------------+
|id_hash                                                         |nombre     |edad|diagnostico |rol          |
+----------------------------------------------------------------+-----------+----+------------+-------------+
|15e2b0d3c33891ebb0f1ef609ec419420c20e320ce94c65fbc8c3312448eb225|[PROTEGIDO]|45  |Diabetes    |analista     |
|8a9bcf1e51e812d0af8465a8dbcc9f741064bf0af3b3d08e6b0246437c19f7fb|[PROTEGIDO]|30  |Hipertensi√≥n|auditor      |
|8aef254db3e4b69baff72c2d932f20a51a5e08b6e91b196b12f98d8151d12121|[PROTEGIDO]|65  |C√°ncer      |desarrollador|
|1d983d28d95dc1f0eae8a1e68dd366077b6f15344c2368d565ad0ef37edd40d3|[PROTEGIDO]|52  |Asma        |analista     |
+----------------------------------------------------------------+-----------+----+------------+-------------+



## üîí Paso 4: Control de acceso simulado por rol
Un ejemplo de acceso segmentado: mostrar solo cierta informaci√≥n dependiendo del rol del usuario conectado.

In [4]:
# Simulaci√≥n: filtro para analistas (solo edad y diagn√≥stico)
rol_usuario = "analista"
if rol_usuario == "analista":
    df_seguro.select("edad", "diagnostico").show()
elif rol_usuario == "auditor":
    df_seguro.select("id_hash", "edad", "diagnostico").show()
elif rol_usuario == "desarrollador":
    df_seguro.select("rol").distinct().show()

+----+------------+
|edad| diagnostico|
+----+------------+
|  45|    Diabetes|
|  30|Hipertensi√≥n|
|  65|      C√°ncer|
|  52|        Asma|
+----+------------+



## ‚úÖ Conclusi√≥n
- Este ejercicio demuestra c√≥mo aplicar principios de protecci√≥n de datos personales en un entorno PySpark.
- Se aplic√≥ seudonimizaci√≥n y restricciones de acceso por rol, respetando el principio de minimizaci√≥n.
- En contextos reales se complementar√≠a con cifrado real (KMS), autenticaci√≥n de usuarios y auditor√≠a de accesos.