# üîê Seguridad, Compliance y Auditor√≠a de Datos

Objetivo: implementar controles de seguridad (IAM, cifrado, enmascaramiento), cumplir regulaciones (GDPR, HIPAA, SOC2) y establecer auditor√≠a de accesos y linaje.

- Duraci√≥n: 120‚Äì150 min
- Dificultad: Alta
- Prerrequisitos: Governance (Senior 01), experiencia con cloud IAM

## 1. IAM y principio de m√≠nimo privilegio

- Roles por funci√≥n: data-engineer-ro, data-scientist, admin.
- Pol√≠ticas granulares: lectura de bucket espec√≠fico, escritura en tabla espec√≠fica.
- MFA obligatorio para operaciones sensibles (producci√≥n, eliminaci√≥n).
- Rotaci√≥n autom√°tica de credenciales (secretos, keys).

In [None]:
iam_policy_example = r'''
# AWS IAM policy para data engineer con acceso de lectura a raw y escritura a curated
{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": ["s3:GetObject", "s3:ListBucket"],
      "Resource": ["arn:aws:s3:::data-lake/raw/*"]
    },
    {
      "Effect": "Allow",
      "Action": ["s3:PutObject", "s3:DeleteObject"],
      "Resource": ["arn:aws:s3:::data-lake/curated/*"]
    }
  ]
}
'''
print(iam_policy_example.splitlines()[:18])

## 2. Cifrado en tr√°nsito y at-rest

- **At-rest**: S3 SSE-KMS, RDS encryption, disk encryption (EBS/GCS).
- **In-transit**: TLS 1.2+ para todas las APIs, VPN/PrivateLink para conectividad interna.
- Gesti√≥n de claves: AWS KMS, GCP Cloud KMS, Azure Key Vault con rotaci√≥n autom√°tica.

## 3. Enmascaramiento y anonimizaci√≥n de PII

In [None]:
import hashlib
def mask_email(email: str) -> str:
    user, domain = email.split('@')
    return f'{user[0]}***@{domain}'

def hash_pii(value: str) -> str:
    return hashlib.sha256(value.encode()).hexdigest()

mask_email('usuario@ejemplo.com'), hash_pii('12345678A')

## 4. Cumplimiento normativo

### GDPR (Europa)
- Derecho al olvido: implementar DELETE cascada y purga en backups.
- Consentimiento expl√≠cito y auditable.
- Data residency: almacenar en regi√≥n EU.

### HIPAA (salud, USA)
- PHI cifrado, logs de acceso auditables.
- Business Associate Agreements con proveedores cloud.

### SOC2 (seguridad organizacional)
- Controles de acceso, monitoreo, incident response.
- Auditor√≠as anuales por terceros.

## 5. Auditor√≠a de accesos y linaje

- CloudTrail (AWS), Cloud Audit Logs (GCP), Activity Log (Azure).
- Registrar qui√©n accedi√≥ qu√© dato, cu√°ndo, desde d√≥nde.
- Linaje de datos: OpenLineage, DataHub, Marquez ‚Üí rastrear transformaciones y uso.
- Alertas ante accesos an√≥malos (SIEM: Splunk, Datadog Security).

## 6. Checklist de seguridad para pipelines

In [None]:
checklist = '''
‚òë IAM con m√≠nimo privilegio y MFA
‚òë Cifrado at-rest (KMS) y in-transit (TLS)
‚òë Enmascaramiento de PII en logs y datasets de dev
‚òë Rotaci√≥n autom√°tica de secretos (API keys, DB passwords)
‚òë Auditor√≠a habilitada (CloudTrail, logs centralizados)
‚òë Vulnerability scanning de contenedores (Trivy, Clair)
‚òë Network segmentation (VPCs, subnets privadas)
‚òë Incident response plan documentado y probado
'''
print(checklist)