In [32]:
import pandas as pd


headers_factura= ['idFactura', 'idpaciente', 'fecha', "idHosp"]


df_factura_sur = pd.DataFrame(columns=headers_factura)
df_factura_norte = pd.DataFrame(columns=headers_factura)

In [33]:
hospitals_headers = ['idHosp', 'nombre', 'id_ciudad'] # <--- Ajusta estos nombres según tu CSV

df_hospitales_norte = pd.read_csv(
    "zona_norte/hospitales.csv",
    header=None,
    names=hospitals_headers
)
df_hospitales_sur = pd.read_csv(
    "zona_sur/hospitales.csv",
    header=None,
    names=hospitals_headers
)



In [34]:
series_id_hospitales_sur = df_hospitales_sur["idHosp"]
series_id_hospitales_norte = df_hospitales_norte["idHosp"]



# ID'S SECUENCIALES

In [35]:
def asignar_ids_secuenciales(
    df_destino,
    columna_destino: str,
    prefijo: str,
    cantidad: int,
    padding: int = 3,
    start: int = 1
):
    """
    Asigna IDs secuenciales a un DataFrame ya creado.

    Parámetros:
    -----------
    df_destino : pd.DataFrame
        DataFrame al cual se le asignarán los IDs.
    columna_destino : str
        Nombre de la columna donde se guardarán los IDs.
    prefijo : str
        Prefijo del identificador (ej: "PA" para pacientes).
    cantidad : int
        Número total de IDs a generar.
    padding : int, opcional (default=3)
        Número de dígitos para el número secuencial (ej: 3 -> 001).
    start : int, opcional (default=1)
        Número desde el cual comenzar la secuencia.

    Retorna:
    --------
    pd.DataFrame
        El mismo DataFrame con la columna de IDs asignada.
    """
    ids = [f"{prefijo}{i:0{padding}d}" for i in range(start, start + cantidad)]
    df_destino[columna_destino] = ids
    return df_destino


In [36]:
df_factura_sur = asignar_ids_secuenciales(
    df_destino=df_factura_sur,
    columna_destino="idFactura",
    prefijo="FAS",
    cantidad=6000,
    padding=4
)

In [37]:
df_factura_sur

Unnamed: 0,idFactura,idpaciente,fecha,idHosp
0,FAS0001,,,
1,FAS0002,,,
2,FAS0003,,,
3,FAS0004,,,
4,FAS0005,,,
...,...,...,...,...
5995,FAS5996,,,
5996,FAS5997,,,
5997,FAS5998,,,
5998,FAS5999,,,


In [38]:
# Asignar 120 facturas a df_factura_norte
df_factura_norte = asignar_ids_secuenciales(
    df_destino=df_factura_norte,
    columna_destino="idFactura",
    prefijo="FAN",
    cantidad=6000,
    padding=4,

)

In [39]:
df_factura_norte

Unnamed: 0,idFactura,idpaciente,fecha,idHosp
0,FAN0001,,,
1,FAN0002,,,
2,FAN0003,,,
3,FAN0004,,,
4,FAN0005,,,
...,...,...,...,...
5995,FAN5996,,,
5996,FAN5997,,,
5997,FAN5998,,,
5998,FAN5999,,,


## Id hospitales

In [43]:
import numpy as np

def asignar_hospitales(df_destino, columna_destino, hospitales, facturas_por_hosp, shuffle=False, random_state=None):
    """
    Asigna IDs de hospitales a un DataFrame, garantizando un número
    fijo de facturas por hospital.
    """
    # Convertir a array plano (sin índices de pandas)
    hospitales = np.array(hospitales)

    # Expandir los hospitales: cada uno se repite `facturas_por_hosp` veces
    id_hosp_list = np.repeat(hospitales, facturas_por_hosp)

    # Mezclar si es necesario
    if shuffle:
        rng = np.random.default_rng(random_state)
        rng.shuffle(id_hosp_list)

    # Verificar tamaño
    if len(df_destino) != len(id_hosp_list):
        raise ValueError(f"El DataFrame tiene {len(df_destino)} filas pero se generaron {len(id_hosp_list)} IDs.")

    # Asignar al DataFrame
    df_destino[columna_destino] = id_hosp_list
    return df_destino


In [44]:
# Asignar hospitales (100 facturas por hospital)
df_factura_sur = asignar_hospitales(df_factura_sur, "idHosp", series_id_hospitales_sur, facturas_por_hosp=100)
df_factura_norte = asignar_hospitales(df_factura_norte, "idHosp", series_id_hospitales_norte, facturas_por_hosp=100)


In [46]:
df_factura_norte["idHosp"].value_counts()

idHosp
HN01    100
HN02    100
HN33    100
HN34    100
HN35    100
HN36    100
HN37    100
HN38    100
HN39    100
HN40    100
HN41    100
HN42    100
HN43    100
HN44    100
HN45    100
HN46    100
HN47    100
HN48    100
HN49    100
HN50    100
HN51    100
HN52    100
HN53    100
HN54    100
HN55    100
HN56    100
HN57    100
HN58    100
HN59    100
HN32    100
HN31    100
HN30    100
HN15    100
HN03    100
HN04    100
HN05    100
HN06    100
HN07    100
HN08    100
HN09    100
HN10    100
HN11    100
HN12    100
HN13    100
HN14    100
HN16    100
HN29    100
HN17    100
HN18    100
HN19    100
HN20    100
HN21    100
HN22    100
HN23    100
HN24    100
HN25    100
HN26    100
HN27    100
HN28    100
HN60    100
Name: count, dtype: int64

In [47]:
df_factura_sur["idHosp"].value_counts()

idHosp
HS01    100
HS02    100
HS33    100
HS34    100
HS35    100
HS36    100
HS37    100
HS38    100
HS39    100
HS40    100
HS41    100
HS42    100
HS43    100
HS44    100
HS45    100
HS46    100
HS47    100
HS48    100
HS49    100
HS50    100
HS51    100
HS52    100
HS53    100
HS54    100
HS55    100
HS56    100
HS57    100
HS58    100
HS59    100
HS32    100
HS31    100
HS30    100
HS15    100
HS03    100
HS04    100
HS05    100
HS06    100
HS07    100
HS08    100
HS09    100
HS10    100
HS11    100
HS12    100
HS13    100
HS14    100
HS16    100
HS29    100
HS17    100
HS18    100
HS19    100
HS20    100
HS21    100
HS22    100
HS23    100
HS24    100
HS25    100
HS26    100
HS27    100
HS28    100
HS60    100
Name: count, dtype: int64

# ID PACIENTES

In [51]:
patients_headers = ["idPaciente", "nombre", "edad", "sexo", "idCiudad", "idEtapaVida"]

df_pacientes = pd.read_csv("new_csv/pacientes.csv", header=None, names=patients_headers)
df_pacientes


Unnamed: 0,idPaciente,nombre,edad,sexo,idCiudad,idEtapaVida
0,PA001,Abel Olivárez,40,F,CS20,DF002
1,PA002,Sessa Méndez,40,F,CS09,DF002
2,PA003,Indira Carrero,37,M,CS12,DF007
3,PA004,José Carlos Almaraz,38,M,CS20,DF007
4,PA005,Paulina Preciado,55,F,CS04,DF006
...,...,...,...,...,...,...
295,PA296,María Eugenia Barajas,80,F,CN15,DF008
296,PA297,Martha Rosado,74,M,CS04,DF001
297,PA298,Hernán Benavídez,76,F,CS19,DF006
298,PA299,José Emilio Loera,67,M,CS18,DF005


In [77]:
series_id_pacientes_sur = df_pacientes[df_pacientes['idCiudad'].str.startswith('CS')]['idPaciente']
series_id_pacientes_norte = df_pacientes[df_pacientes['idCiudad'].str.startswith('CN')]['idPaciente']

In [83]:
series_id_pacientes_sur

0      PA001
1      PA002
2      PA003
3      PA004
4      PA005
       ...  
294    PA295
296    PA297
297    PA298
298    PA299
299    PA300
Name: idPaciente, Length: 158, dtype: object

In [80]:
import pandas as pd
import numpy as np

def asignar_valores_aleatorios(df_destino, nombre_columna, valores_origen):
    """
    Asigna valores aleatorios de una lista o Serie a una columna de un DataFrame.

    Args:
        df_destino (pd.DataFrame): El DataFrame que será modificado.
        nombre_columna (str): El nombre de la columna a crear o sobreescribir.
        valores_origen (pd.Series or list or np.array): Una colección de valores
                                                        de los que se elegirá al azar.

    Returns:
        pd.DataFrame: El DataFrame modificado.
    """
    # 1. Extrae los valores disponibles para la selección.
    #    Usamos .values para asegurar que trabajamos con un array de NumPy.
    valores_disponibles = pd.Series(valores_origen).values

    # 2. Determina el número de asignaciones necesarias.
    num_asignaciones = len(df_destino)

    # 3. Genera la selección aleatoria (permitiendo repeticiones).
    valores_aleatorios = np.random.choice(
        a=valores_disponibles,
        size=num_asignaciones,
        replace=True
    )

    # 4. Asigna los valores a la columna especificada.
    df_destino[nombre_columna] = valores_aleatorios

    return df_destino

In [81]:
df_factura_sur = asignar_valores_aleatorios(
    df_destino=df_factura_sur,
    nombre_columna="idpaciente",
    valores_origen=series_id_pacientes_sur
)
df_factura_sur


Unnamed: 0,idFactura,idpaciente,fecha,idHosp
0,FAS0001,PA139,,HS01
1,FAS0002,PA026,,HS01
2,FAS0003,PA274,,HS01
3,FAS0004,PA236,,HS01
4,FAS0005,PA123,,HS01
...,...,...,...,...
5995,FAS5996,PA055,,HS60
5996,FAS5997,PA171,,HS60
5997,FAS5998,PA155,,HS60
5998,FAS5999,PA217,,HS60


In [85]:
df_factura_norte = asignar_valores_aleatorios(
    df_destino=df_factura_norte,
    nombre_columna="idpaciente",
    valores_origen=series_id_pacientes_norte
)

In [87]:
df_factura_norte["idpaciente"].value_counts()

idpaciente
PA250    61
PA257    58
PA071    57
PA192    55
PA098    55
         ..
PA293    32
PA146    32
PA093    32
PA240    30
PA068    28
Name: count, Length: 142, dtype: int64

In [88]:
df_factura_sur

Unnamed: 0,idFactura,idpaciente,fecha,idHosp
0,FAS0001,PA139,,HS01
1,FAS0002,PA026,,HS01
2,FAS0003,PA274,,HS01
3,FAS0004,PA236,,HS01
4,FAS0005,PA123,,HS01
...,...,...,...,...
5995,FAS5996,PA055,,HS60
5996,FAS5997,PA171,,HS60
5997,FAS5998,PA155,,HS60
5998,FAS5999,PA217,,HS60


## FECHAS

In [89]:
import pandas as pd
import numpy as np

def asignar_fechas(df_destino, columna_destino, fecha_inicio, fecha_fin, shuffle=True, random_state=None):
    """
    Asigna fechas dentro de un rango a un DataFrame, repitiendo
    días para cubrir todas las filas.

    Parámetros:
    -----------
    df_destino : pd.DataFrame
        DataFrame al cual se le asignarán las fechas.
    columna_destino : str
        Nombre de la columna donde se guardarán las fechas.
    fecha_inicio : str | datetime
        Fecha mínima (ej: "2023-01-01").
    fecha_fin : str | datetime
        Fecha máxima (ej: "2024-12-31").
    shuffle : bool, opcional (default=True)
        Si True, mezcla las fechas antes de asignarlas.
    random_state : int, opcional
        Semilla para la aleatoriedad (solo si shuffle=True).

    Retorna:
    --------
    pd.DataFrame
        DataFrame con la columna de fechas asignada.
    """
    # Generar todas las fechas dentro del rango
    fechas = pd.date_range(start=fecha_inicio, end=fecha_fin, freq="D")

    # Repetir las fechas hasta cubrir el total de registros
    total_registros = len(df_destino)
    fechas_repetidas = np.resize(fechas, total_registros)

    # Mezclar si se solicita
    if shuffle:
        rng = np.random.default_rng(random_state)
        rng.shuffle(fechas_repetidas)

    # Asignar al DataFrame
    df_destino[columna_destino] = fechas_repetidas
    return df_destino


In [90]:
# Para df_factura_sur
df_factura_sur = asignar_fechas(
    df_factura_sur,
    columna_destino="fecha",
    fecha_inicio="2023-01-01",
    fecha_fin="2024-12-31",
    shuffle=True,
    random_state=42
)

# Para df_factura_norte
df_factura_norte = asignar_fechas(
    df_factura_norte,
    columna_destino="fecha",
    fecha_inicio="2023-01-01",
    fecha_fin="2024-12-31",
    shuffle=True,
    random_state=42
)


In [92]:
print("SUR -> Rango de fechas:", df_factura_sur["fecha"].min(), "a", df_factura_sur["fecha"].max())
print("NORTE -> Rango de fechas:", df_factura_norte["fecha"].min(), "a", df_factura_norte["fecha"].max())


SUR -> Rango de fechas: 2023-01-01 00:00:00 a 2024-12-31 00:00:00
NORTE -> Rango de fechas: 2023-01-01 00:00:00 a 2024-12-31 00:00:00


In [93]:
print("Facturas SUR por año:")
print(df_factura_sur["fecha"].dt.year.value_counts())

print("\nFacturas NORTE por año:")
print(df_factura_norte["fecha"].dt.year.value_counts())


Facturas SUR por año:
fecha
2023    3072
2024    2928
Name: count, dtype: int64

Facturas NORTE por año:
fecha
2023    3072
2024    2928
Name: count, dtype: int64


In [98]:
df_factura_sur.to_csv(
    "factura_sur.csv",  # Nombre del archivo de salida
    index=False,             # No incluir la columna de índice (0, 1, 2, ...)
    header=False
)

In [99]:
df_factura_norte.to_csv(
    "factura_norte.csv",  # Nombre del archivo de salida
    index=False,             # No incluir la columna de índice (0, 1, 2, ...)
    header=False
)