In [None]:
import json
import unicodedata
import re
import gender_guesser.detector as gender


def cargar_json(ruta):
    with open(ruta, "r", encoding="utf-8") as f:
        return json.load(f)


NOMBRES_INDIGENAS = cargar_json("data/nombres_indigenas.json")
detector = gender.Detector(case_sensitive=False)

def normalizar_nombre(nombre: str) -> str:
    nombre = nombre.strip().lower()
    nombre = unicodedata.normalize("NFD", nombre)
    nombre = nombre.encode("ascii", "ignore").decode("utf-8")
    nombre = re.sub(r"[^a-z\s]", "", nombre)
    return nombre


def obtener_primer_nombre(nombre: str) -> str:
    nombre_normalizado = normalizar_nombre(nombre)
    partes = nombre_normalizado.split()
    return partes[0] if partes else ""


def clasificar_nombre(nombre: str):
    primer_nombre = obtener_primer_nombre(nombre)

    if not primer_nombre:
        return "Desconocido", 0.0, "Sin nombre"

    # Diccionario ind√≠gena
    if primer_nombre in NOMBRES_INDIGENAS:
        d = NOMBRES_INDIGENAS[primer_nombre]
        return d["genero"], d["confianza"], "Diccionario ind√≠gena"

    # Modelo estad√≠stico
    resultado = detector.get_gender(primer_nombre)

    if resultado == "female":
        return "Mujer", 0.95, "Modelo estad√≠stico"
    elif resultado == "mostly_female":
        return "Mujer", 0.75, "Modelo estad√≠stico"
    elif resultado == "male":
        return "Hombre", 0.95, "Modelo estad√≠stico"
    elif resultado == "mostly_male":
        return "Hombre", 0.75, "Modelo estad√≠stico"
    else:
        return "Desconocido", 0.30, "Nombre ambiguo o poco com√∫n"



def calcular_porcentaje_autoras(lista_nombres):
    total = 0
    mujeres = 0
    hombres = 0
    desconocidos = 0

    detalle = []

    for nombre in lista_nombres:
        genero, confianza, fuente = clasificar_nombre(nombre)

        if genero != "Desconocido":
            total += 1

        if genero == "Mujer":
            mujeres += 1
        elif genero == "Hombre":
            hombres += 1
        else:
            desconocidos += 1

        detalle.append({
            "nombre": nombre,
            "genero": genero,
            "confianza": confianza,
            "fuente": fuente
        })

    porcentaje_mujeres = (mujeres / total * 100) if total > 0 else 0

    return {
        "total_autores_validos": total,
        "mujeres": mujeres,
        "hombres": hombres,
        "desconocidos": desconocidos,
        "porcentaje_mujeres": round(porcentaje_mujeres, 2),
        "detalle": detalle
    }

if __name__ == "__main__":

    autores = [
        "X√≥chitl G√≥mez",
        "Citlali Hern√°ndez",
        "Maria Jose L√≥pez",
        "Cuauht√©moc Blanco",
        "Nahuel P√©rez",
        "Jordan Smith",
        "Alex Ruiz",
        "Itzel Hern√°ndez"
    ]

    resultado = calcular_porcentaje_autoras(autores)

    print("\nRESULTADO GENERAL\n")
    print(f"Total autores v√°lidos: {resultado['total_autores_validos']}")
    print(f"Mujeres: {resultado['mujeres']}")
    print(f"Hombres: {resultado['hombres']}")
    print(f"Desconocidos: {resultado['desconocidos']}")
    print(f"Porcentaje de mujeres autoras: {resultado['porcentaje_mujeres']}%\n")



üìä RESULTADO GENERAL

Total autores v√°lidos: 8
Mujeres: 4
Hombres: 4
Desconocidos: 0
üëâ Porcentaje de mujeres autoras: 50.0%

