# 🧩 Fase 3 – Generación de Datos Aleatorios
Generar un archivo CSV (pacientes.csv) con 3000 registros simulados, que incluya campos nulos, NA, entre otros

In [1]:
from pathlib import Path
import csv
import random
from datetime import datetime, timedelta

# 1️⃣ Crear carpeta "data" si no existe
data_path = Path.cwd() / "../data"
data_path.mkdir(parents=True, exist_ok=True)

# 2️⃣ Definir archivo CSV
csv_file = data_path / "pacientes.csv"

# 3️⃣ Listas base de datos simulados
nombres_m = ["Luis", "Carlos", "Javier", "Miguel", "José", "Juan", "Ricardo", "Fernando", "Diego", "Roberto", "Antonio", "Pedro"]
nombres_f = ["Ana", "María", "Laura", "Carmen", "Elena", "Sofía", "Isabel", "Patricia", "Rosa", "Lucía", "Claudia", "Andrea"]
apellidos = ["García", "Rodríguez", "González", "Fernández", "López", "Martínez", "Sánchez", "Pérez", "Gómez", "Díaz", "Torres", "Ramírez"]

distritos = ["Miraflores", "Surco", "San Isidro", "La Molina", "Lince", "Barranco", "Jesús María", "Magdalena", "Pueblo Libre", "San Borja", "Surquillo", "San Miguel"]
servicios = ["Odontología", "Pediatría", "Cardiología", "Dermatología", "Ginecología", "Traumatología", "Oftalmología", "Neurología", "Psicología", "Medicina General", "Cirugía", "Urología"]

# 4️⃣ Generar datos aleatorios
def generar_fecha():
    """Genera una fecha aleatoria entre 2024 y 2025"""
    inicio = datetime(2024, 1, 1)
    fin = datetime(2025, 1, 1)
    delta = fin - inicio
    fecha_random = inicio + timedelta(days=random.randint(0, delta.days))
    return fecha_random.strftime("%Y-%m-%d")

# 5️⃣ Crear 3000 registros simulados
registros = []
contador_nulos = 0

for i in range(1, 3001):
    id_paciente = f"P{str(i).zfill(3)}"
    sexo = random.choice(["M", "F"])
    if sexo == "M":
        nombre = f"{random.choice(nombres_m)} {random.choice(apellidos)}"
    else:
        nombre = f"{random.choice(nombres_f)} {random.choice(apellidos)}"
    
    edad = random.randint(1, 90)
   
    if random.random() < 0.1: 
        distrito = random.choice(["NA", None])
        contador_nulos += 1
    else:
        distrito = random.choice(distritos)
    
    if random.random() < 0.08: 
        servicio = random.choice(["NA", None])
        contador_nulos += 1
    else:
        servicio = random.choice(servicios)
    
    fecha_atencion = generar_fecha()
    monto_base = random.uniform(50, 500)
    monto = round(monto_base, 2)
    registros.append([id_paciente, nombre, edad, sexo, distrito, servicio, fecha_atencion, monto])

# 6️⃣ Escribir en el archivo CSV
with open(csv_file, mode="w", newline="", encoding="utf-8") as file:
    writer = csv.writer(file)
    writer.writerow(["id_paciente", "nombre", "edad", "sexo", "distrito", "servicio", "fecha_atencion", "monto"])
    writer.writerows(registros)

print(f"✅ Archivo generado correctamente en: {csv_file}")
print(f"📊 Total de registros: {len(registros)}")

✅ Archivo generado correctamente en: c:\Users\EVE\documents\SaludDigitalA_E1\scripts\..\data\pacientes.csv
📊 Total de registros: 3000
