# 🧩 Fase 3 – Generación de Datos Aleatorios (`pacientes.csv`)

En esta fase se genera un archivo **`pacientes.csv`** con 3 000 registros simulados,  
incluyendo valores nulos, “NA” y vacíos.  

Cada registro representa un paciente con atributos como nombre, edad, sexo, distrito,  
servicio médico, fecha de atención y monto pagado.

In [1]:
# ==========================================
# 🧩 FASE 3 – GENERACIÓN DE DATOS ALEATORIOS
# ==========================================

from pathlib import Path
import csv
import random
from datetime import datetime, timedelta

# 1️⃣ Crear carpeta "data" si no existe
data_path = Path.cwd() / "../data"
data_path.mkdir(parents=True, exist_ok=True)

# 2️⃣ Definir archivo CSV
csv_file = data_path / "pacientes.csv"

# 3️⃣ Listas base de datos simulados
nombres = ["Carlos", "María", "Luis", "Ana", "Jorge", "Lucía", "Pedro", "Elena", "Raúl", "Rosa", "Fernando", "Patricia"]
distritos = ["Lima", "San Isidro", "Miraflores", "Surco", "Callao", "Comas", "San Juan de Lurigancho", "Los Olivos", "Villa El Salvador", "San Miguel"]
servicios = ["Consulta General", "Pediatría", "Odontología", "Traumatología", "Laboratorio", "Emergencia", "Ginecología", "Cardiología"]
sexos = ["M", "F", None, "", "NA"]  # incluye campos nulos y NA

# 4️⃣ Función para generar fechas aleatorias
def generar_fecha():
    """Genera una fecha aleatoria entre 2020 y 2025"""
    inicio = datetime(2020, 1, 1)
    fin = datetime(2025, 12, 31)
    delta = fin - inicio
    fecha_random = inicio + timedelta(days=random.randint(0, delta.days))
    return fecha_random.strftime("%Y-%m-%d")

# 5️⃣ Crear 3000 registros simulados
registros = []
for i in range(1, 3001):
    id_paciente = f"P{str(i).zfill(4)}"
    nombre = random.choice(nombres)
    edad = random.choice(list(range(1, 91)) + ["", None, "NA"])  # algunas edades faltantes
    sexo = random.choice(sexos)
    distrito = random.choice(distritos)
    servicio = random.choice(servicios)
    fecha_atencion = generar_fecha()
    monto = random.choice([round(random.uniform(50, 2000), 2), "NA", "", None, 0])  # incluye NA y 0

    registros.append([id_paciente, nombre, edad, sexo, distrito, servicio, fecha_atencion, monto])

# 6️⃣ Escribir en el archivo CSV
with open(csv_file, mode="w", newline="", encoding="utf-8") as file:
    writer = csv.writer(file)
    writer.writerow(["id_paciente", "nombre", "edad", "sexo", "distrito", "servicio", "fecha_atencion", "monto"])
    writer.writerows(registros)

print(f"✅ Archivo generado correctamente en: {csv_file}")
print(f"📊 Total de registros: {len(registros)}")


✅ Archivo generado correctamente en: c:\Users\arnol\documents\SaludDigitalA_E1\scripts\..\data\pacientes.csv
📊 Total de registros: 3000
