In [41]:
from faker import Faker
import random
import pandas as pd
from datetime import datetime, timedelta


In [53]:
def generar_entry_tatuaje():
    fake = Faker()
    
    # Definir probabilidades más realistas para las categorías
    categoria = random.choices(
        ["pequeño", "mediano", "grande"],
        weights=[0.5, 0.35, 0.15],  # Mayor probabilidad de tatuajes pequeños
        k=1
    )[0]
    
    if categoria == "pequeño":
        precio = random.randint(50, 200)
        duracion = random.randint(30, 90)  # En minutos
    elif categoria == "mediano":
        precio = random.randint(200, 500)
        duracion = random.randint(90, 180)
    else:  # grande
        precio = random.randint(500, 2000)
        duracion = random.randint(180, 480)
    
    
    # Probabilidades ajustadas para el método de pago
    metodo_pago = random.choices(["efectivo", "tarjeta"], weights=[0.4, 0.6], k=1)[0]
    
    # Probabilidades irregulares para edad y procedencia
    edad = random.choices(range(18, 61), weights=[5]*10 + [10]*10 + [15]*10 + [10]*10 + [5]*3, k=1)[0]
    procedencia = random.choices(
        [fake.city() for _ in range(10)],
        weights=[0.4, 0.15, 0.15, 0.1, 0.05, 0.05, 0.05, 0.025, 0.025, 0.025],
        k=1
    )[0]
    
    # Generar fechas con distribución por semanas (más actividad los fines de semana)
    fecha_hora = fake.date_time_between(start_date="-1y", end_date="now")
    while fecha_hora.weekday() in random.choices([0, 1, 2, 3, 4, 5, 6], weights=[5, 10, 15, 15, 20, 20, 15], k=1):
        fecha_hora = fake.date_time_between(start_date="-1y", end_date="now")
    fecha = fecha_hora.date().strftime("%Y-%m-%d")
    
    # Generar horas con pesos (más actividad en ciertas horas del día)
    horas_distribuidas = random.choices(
        range(9, 22), 
        weights=[5, 5, 10, 15, 20, 20, 15, 10, 5, 5, 5, 5, 5],
        k=1
    )[0]
    minutos = random.randint(0, 59)
    hora = (datetime.min + timedelta(hours=horas_distribuidas, minutes=minutos)).time().strftime("%H:%M")

    # Generar un id cliente con posibilidad de repetirse para simular distintas visitas de un cliente
    id_cliente = random.randint(0,50000)
    
    entry = {
        "id_venta": fake.uuid4(),
        "id_cliente": id_cliente,
        "nombre": fake.name(),
        "edad": edad,
        "procedencia": procedencia,
        "fecha": fecha,
        "hora": hora,
        "categoria": categoria,
        "duracion_min": duracion,
        "precio": precio,
        "metodo_pago": metodo_pago
    }
    
    return entry

# Ejemplo de uso
print(generar_entry_tatuaje())


{'id_venta': '423d4fcc-a7af-4629-8a9e-087249cc3fcd', 'id_cliente': 2664, 'nombre': 'Angela Roberts', 'edad': 50, 'procedencia': 'North Taylor', 'fecha': '2024-04-29', 'hora': '13:03', 'categoria': 'mediano', 'duracion_min': 127, 'precio': 495, 'metodo_pago': 'tarjeta'}


In [16]:
pd.DataFrame([generar_entry_tatuaje() for _ in range(10)])

Unnamed: 0,fecha_hora,hora,precio,duracion_min,categoria,id,nombre,procedencia,edad,cliente_nuevo,metodo_pago
0,2025-02-26,07:56:44,804,289,grande,d6144fe9-b5b6-41c6-812d-786d5dcca7f7,Emiliana Amat Sola,Ourense,48,False,tarjeta
1,2025-02-05,05:10:32,95,44,pequeño,ab224f7b-8e5b-41a6-84d0-0b61e44a3a70,María Cristina Planas Salamanca,Badajoz,31,False,efectivo
2,2025-01-12,12:27:48,128,33,pequeño,65ce2b24-096c-49fb-805e-164f232d0cc5,Amaro Alegre Monreal,León,52,True,tarjeta
3,2025-01-05,11:03:42,1774,251,grande,d1d3201b-dbbd-4eb2-a9b5-c8f1f5fab713,Concha de Guardia,Cáceres,43,False,efectivo
4,2025-01-27,15:32:41,203,162,mediano,d3f0ecc6-56a3-412e-8677-f49588c24fcd,Nadia Llanos Comas,Ourense,34,False,tarjeta
5,2025-01-22,23:35:47,481,138,mediano,100c777b-5465-4ae6-bac1-c9e92fda2bdf,Bartolomé Sacristán Fuentes,Barcelona,33,True,efectivo
6,2025-02-18,22:21:14,1835,369,grande,6a5d7364-71f2-4dde-a47a-161d6506a132,Benigna Ruiz-Castellanos,Castellón,52,True,tarjeta
7,2025-01-12,17:28:42,1633,283,grande,73fc840f-a300-4ef7-afbc-c9d1de413ee8,Laura de Pomares,Soria,56,False,tarjeta
8,2025-03-12,15:03:37,299,92,mediano,9b5b038d-8e4f-4ee8-99dd-1a71b7b8fc85,Edelmira Rubio Cabanillas,Alicante,46,True,tarjeta
9,2025-02-06,18:29:55,60,84,pequeño,e403c912-3b06-4407-a625-eadfeacc2d9a,Etelvina Peiró Vega,Ciudad,58,True,tarjeta


In [17]:
pd.DataFrame([generar_entry_tatuaje() for _ in range(100)])

Unnamed: 0,fecha_hora,hora,precio,duracion_min,categoria,id,nombre,procedencia,edad,cliente_nuevo,metodo_pago
0,2025-02-17,15:53:00,429,134,mediano,fd4e1bc5-0112-428d-883f-881ac90700ff,Julio Francisco Cornejo Colom,Ourense,43,True,tarjeta
1,2025-02-06,04:54:41,766,180,grande,ae4d51c7-94cf-4da8-acdf-59c87632625d,Domingo Carrasco,Asturias,27,True,tarjeta
2,2025-01-11,21:49:03,1957,244,grande,ef56b251-59ec-4f4f-bfed-4173c6a987b1,Moreno Guillen Vicens,Jaén,45,False,tarjeta
3,2025-02-17,05:17:40,120,37,pequeño,e8293ba6-373b-474b-8839-038f2e286b0d,Óscar Édgar Cortina Montenegro,Alicante,26,True,efectivo
4,2025-01-29,09:20:37,1151,214,grande,d3ec56f8-b0f4-4f4d-a80b-ecac793528fd,Valerio Coronado Girón,Huesca,28,True,efectivo
...,...,...,...,...,...,...,...,...,...,...,...
95,2025-02-17,06:10:04,143,73,pequeño,e583ea4a-a770-4724-aeaf-f8a1d1bc864d,Ezequiel Bayona Domínguez,Guipúzcoa,52,False,efectivo
96,2025-02-25,17:43:50,307,168,mediano,31220370-d95a-4973-a9fc-f3bad92444ec,Noé del Botella,León,51,True,tarjeta
97,2025-03-13,15:35:35,216,116,mediano,d982e9d4-b71b-4c1a-8956-14bf5026ea82,Pepe Rosendo Bernad Lozano,Teruel,21,True,tarjeta
98,2025-03-15,10:03:33,707,233,grande,c615d1ec-3677-42de-bb69-7f464a9a8390,Cristóbal del Serrano,Soria,31,False,tarjeta


In [18]:
df = pd.DataFrame([generar_entry_tatuaje() for _ in range(100)])

In [54]:
fake_data = pd.DataFrame([generar_entry_tatuaje() for _ in range(100000)])

In [55]:
fake_data.to_csv("data.csv",index=False)