In [None]:
from pathlib import Path

print("Pathlib funciona correctamente ✅")

import csv
import random
from datetime import datetime, timedelta

# 1️⃣ Crear carpeta "data" si no existe (en la raíz del proyecto)
data_path = Path("data")
data_path.mkdir(parents=True, exist_ok=True)

# 2️⃣ Definir archivo CSV
csv_file = data_path / "pacientes.csv"

# 3️⃣ Listas base de datos simulados
nombres = ["Juan", "María", "Pedro", "Lucía", "Ana", "Luis", "José", "Xiomara", "Andrés", "Paola", "NA"]
apellidos = ["Pérez", "García", "Rojas", "Fernández", "Vargas", "Torres", "Gómez", "Ramírez", "NA"]
sexos = ["M", "F", "NA", ""]
diagnosticos = ["Gripe", "Covid-19", "Asma", "Diabetes", "Hipertensión", "Migraña", "Alergia", "NA", ""]
distritos = ["San Isidro", "Miraflores", "Surco", "La Molina", "Lince", "Callao", "Cajamarca", "NA", ""]

# 4️⃣ Función para generar fecha aleatoria
def generar_fecha():
    """Genera una fecha de ingreso aleatoria entre 2015 y 2025"""
    inicio = datetime(2015, 1, 1)
    fin = datetime(2025, 1, 1)
    delta = fin - inicio
    fecha_random = inicio + timedelta(days=random.randint(0, delta.days))
    return fecha_random.strftime("%d/%m/%Y")

# 5️⃣ Crear 3000 registros simulados con campos nulos/NA
registros = []
for i in range(1, 1001):
    paciente_id = f"P{str(i).zfill(5)}"
    nombre = random.choice(nombres)
    apellido = random.choice(apellidos)
    edad = random.choice([random.randint(0, 100), "", "NA"])  # Algunos sin edad
    sexo = random.choice(sexos)
    diagnostico = random.choice(diagnosticos)
    distrito = random.choice(distritos)
    fecha_ingreso = generar_fecha()
    registros.append([paciente_id, nombre, apellido, edad, sexo, diagnostico, distrito, fecha_ingreso])

# 6️⃣ Escribir en el archivo CSV
with open(csv_file, mode="w", newline="", encoding="utf-8") as file:
    writer = csv.writer(file)
    writer.writerow(["Paciente_ID", "Nombre", "Apellido", "Edad", "Sexo", "Diagnostico", "Distrito", "Fecha_Ingreso"])
    writer.writerows(registros)

print(f"✅ Archivo generado correctamente en: {csv_file}")
print(f"📊 Total de registros: {len(registros)}")
