In [None]:
!pip install spanish-dni
!pip install faker
!pip install unidecode



In [None]:
from spanish_dni.generator import generate_dni
from faker import Faker
import random
import unidecode
import pandas as pd

fake = Faker('es_ES')

# Generador de teléfono
def telefono_es():
    # prefijo '6' con probabilidad 85%, y los otros (71, 72, 74) con 15% en total
    prefijo = random.choices(
        population=['6', '71', '72', '74'],
        weights=[85, 5, 5, 5],
        k=1
    )[0]

    resto = ''.join(str(random.randint(0,9)) for _ in range(8 - len(prefijo)))
    return prefijo + resto


# Generador de cuenta bancaria
bancos = {
    "Santander": "0049",
    "BBVA": "0182",
    "CaixaBank": "2100",
    "Bankinter": "0128",
    "Sabadell": "0081",
    "ING": "1465"
}

def cuenta_bancaria():
    entidad = random.choice(list(bancos.values()))
    resto = "".join(str(random.randint(0, 9)) for _ in range(20))  # resto hasta 24 dígitos
    return entidad + resto

# Generador de email vinculado a nombre
def generar_email(nombre, apellido1):
    dominios = ["gmail.com", "hotmail.es", "yahoo.com", "outlook.com", "empresa.org"]
    nombre_clean = unidecode.unidecode(nombre.lower().replace(" ", "."))   # sin espacios
    apellido_clean = unidecode.unidecode(apellido1.lower().replace(" ", ""))  # sin espacios
    return f"{nombre_clean}.{apellido_clean}{random.randint(1,99)}@{random.choice(dominios)}"


# Generador de nombre con dos apellidos
def generar_nombre_completo():
    nombre = fake.first_name()
    apellido1 = fake.last_name()
    apellido2 = fake.last_name()
    return nombre, apellido1, apellido2

# Generar dataset
def generar_dataset(n=1000):
    registros = []
    for _ in range(n):
        nombre, apellido1, apellido2 = generar_nombre_completo()

        # Escoger aleatoriamente si será DNI o NIE
        if random.random() < 0.85:
            documento = generate_dni()
            tipo_doc = "DNI"
        else:
            documento = generate_dni(is_nie=True)
            tipo_doc = "NIE"

        registros.append({
            'documento': documento,
            'telefono': telefono_es(),
            'email': generar_email(nombre, apellido1),
            'cuenta_bancaria': cuenta_bancaria(),
            'nombre': f"{nombre} {apellido1} {apellido2}",
            'ciudad': fake.city()
        })

    return pd.DataFrame(registros)


data = generar_dataset(1000)

In [None]:
data.head(20)

Unnamed: 0,documento,telefono,email,cuenta_bancaria,nombre,ciudad
0,15842609W,68662321,ciriaco.vazquez19@empresa.org,018278814506795730291911,Ciriaco Vazquez Mayo,Zamora
1,74049745A,72434370,sofia.cazorla62@outlook.com,008111802755274117259948,Sofía Cazorla Iglesia,Málaga
2,21722479Z,60445577,leonel.villegas62@yahoo.com,012870311565154331766580,Leonel Villegas Ramón,Las Palmas
3,33974129R,66859011,luisa.arteaga41@empresa.org,004953329095534392581868,Luisa Arteaga Salinas,Ourense
4,68554826Z,60208523,leire.carnero5@outlook.com,008198538497167464003764,Leire Carnero Blanes,Zamora
5,60265236S,69342120,joan.garces83@empresa.org,146526014133815559854192,Joan Garcés Reyes,Baleares
6,11042421Y,65891258,eduardo.yanez36@yahoo.com,210016676988729547433492,Eduardo Yáñez Pou,La Coruña
7,51884244Q,71652673,ainoa.huertas53@hotmail.es,210058930916707290258221,Ainoa Huertas Esparza,Segovia
8,37638407B,64635988,iban.cerdan25@empresa.org,012818583040806643719716,Ibán Cerdán Zaragoza,Álava
9,Z6380219R,74825295,dan.portero70@empresa.org,012815860354974505030409,Dan Portero Aliaga,Burgos


In [None]:
data.to_csv('muestra.csv', index=False)