🧩 Fase 3 – Generación de Datos Aleatorios
Generar un archivo CSV (pacientes.csv) con 3000 registros simulados, que incluya campos nulos, NA, entre otros

In [1]:
from pathlib import Path
import csv
import random
from datetime import datetime, timedelta

# 1️⃣ Crear carpeta "data" si no existe
data_path = Path.cwd() / "../data"
data_path.mkdir(parents=True, exist_ok=True)

# 2️⃣ Definir archivo CSV
csv_file = data_path / "pacientes.csv"

# 3️⃣ Listas base para generar datos
nombres = ["Ana", "Luis", "María", "José", "Carmen", "Pedro", "Lucía", "Carlos", "Rosa", "Miguel", "Javier", "Patricia"]
apellidos = ["Pérez", "Gómez", "Ramos", "Torres", "Fernández", "Ruiz", "Vargas", "Castillo", "Mendoza", "Flores"]

sexos = ["M", "F", "NA"]
distritos = ["San Isidro", "Miraflores", "Surco", "Callao", "La Molina", "Lince", "Comas", "NA"]
servicios = ["Consulta General", "Emergencia", "Pediatría", "Cardiología", "Odontología", "Rayos X", "Vacunación", "NA"]

# 4️⃣ Función para generar fechas aleatorias (válidas)
def generar_fecha():
    inicio = datetime(2018, 1, 1)
    fin = datetime(2025, 12, 31)
    delta = fin - inicio
    fecha_random = inicio + timedelta(days=random.randint(0, delta.days))
    return fecha_random.strftime("%d/%m/%Y")

# 5️⃣ Función auxiliar para incluir valores nulos o "NA"
def valor_opcional(valor):
    prob = random.random()
    if prob < 0.03:
        return ""  # vacío
    elif prob < 0.06:
        return "NA"
    return valor

# 6️⃣ Generar registros simulados (base limpia)
registros = []
for i in range(1, 2851):  # 2850 registros "buenos"
    id_paciente = f"P{str(i).zfill(5)}"
    nombre = valor_opcional(f"{random.choice(nombres)} {random.choice(apellidos)}")
    edad = valor_opcional(random.randint(1, 90))
    sexo = valor_opcional(random.choice(sexos))
    distrito = valor_opcional(random.choice(distritos))
    servicio = valor_opcional(random.choice(servicios))
    fecha_atencion = valor_opcional(generar_fecha())
    monto = valor_opcional(round(random.uniform(20, 1000), 2))
    
    registros.append([id_paciente, nombre, edad, sexo, distrito, servicio, fecha_atencion, monto])

# 7️⃣ Agregar duplicados (~5%)
num_duplicados = int(len(registros) * 0.05)
duplicados = random.sample(registros, num_duplicados)
registros.extend(duplicados)

# 8️⃣ Agregar inconsistencias (~5%)
num_inconsistentes = int(len(registros) * 0.05)
for _ in range(num_inconsistentes):
    id_paciente = f"P{str(random.randint(2851, 3000)).zfill(5)}"
    nombre = f"{random.choice(nombres)} {random.choice(apellidos)}"
    edad = random.choice([random.randint(-20, 0), random.randint(121, 200)])  # edades no válidas
    sexo = random.choice(["M", "F", "X", "NA"])  # "X" no válido
    distrito = random.choice(distritos + ["Desconocido"])
    servicio = random.choice(servicios + ["Otro", ""])
    
    # Fecha futura (hasta 2035)
    fecha_futura = (datetime(2026, 1, 1) + timedelta(days=random.randint(0, 365 * 9))).strftime("%d/%m/%Y")
    monto = random.choice([0, -50, round(random.uniform(20, 1000), 2)])
    
    registros.append([id_paciente, nombre, edad, sexo, distrito, servicio, fecha_futura, monto])

# 9️⃣ Barajar los registros para mezclar duplicados e inconsistentes
random.shuffle(registros)

# 🔟 Escribir archivo CSV
with open(csv_file, mode="w", newline="", encoding="utf-8") as file:
    writer = csv.writer(file)
    writer.writerow(["id_paciente", "nombre", "edad", "sexo", "distrito", "servicio", "fecha_atencion", "monto"])
    writer.writerows(registros)

print(f"✅ Archivo generado correctamente en: {csv_file}")
print(f"📊 Total de registros: {len(registros)}")
print(f"📁 Incluye nulos, duplicados e inconsistentes para pruebas ETL.")

✅ Archivo generado correctamente en: c:\Users\John_\documents\CentroMédico_2025\scripts\..\data\pacientes.csv
📊 Total de registros: 3141
📁 Incluye nulos, duplicados e inconsistentes para pruebas ETL.
