# 🕵️‍♂️ Enmascaramiento de Información Personal (PII) en un DataFrame con Pandas


Este notebook te muestra cómo detectar y enmascarar datos sensibles o **PII (Personal Identifiable Information)** en columnas de texto de un DataFrame:

- Correos electrónicos → `[EMAIL]`
- Teléfonos → `[TEL]`
- Nombres propios (simplificado) → `[NOMBRE]`


## 📋 1. Crear un DataFrame de ejemplo

In [None]:

import pandas as pd

df = pd.DataFrame({
    'texto': [
        "Mi nombre es Ana y mi email es ana.gomez@gmail.com",
        "Puedes llamarme al 5512345678 o al 55-1234-5678",
        "Luis me escribió desde luis123@hotmail.com",
        "Carlos tiene otro correo: carlos_87@empresa.mx y su cel 555-987-6543",
        "Hola, soy MARÍA. Mi teléfono es (55) 8888 9999 y correo maria@dominio.org"
    ]
})

df


## 🔐 2. Función para enmascarar PII

In [None]:

import re

def enmascarar_pii(texto):
    if pd.isnull(texto):
        return texto

    # Enmascarar correos electrónicos
    texto = re.sub(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', '[EMAIL]', texto)

    # Enmascarar teléfonos (varios formatos)
    texto = re.sub(r'(\(?\+?\d{1,3}\)?[-.\s]?)?(\(?\d{2,3}\)?[-.\s]?\d{4,5}[-.\s]?\d{4})', '[TEL]', texto)

    # Enmascarar nombres propios simples (inicial mayúscula y no al inicio de oración)
    texto = re.sub(r'(?<!\w)([A-ZÁÉÍÓÚÑ][a-záéíóúñ]{2,})(?!\w)', '[NOMBRE]', texto)

    return texto


## 🧪 3. Aplicar enmascaramiento al DataFrame

In [None]:

df['texto_enmascarado'] = df['texto'].apply(enmascarar_pii)
df
