In [2]:
import pandas as pd
import unidecode
import openpyxl
import os

## 1. Abrir las bases de datos

In [8]:
# Definir la ruta del archivo
path = r"C:\Users\SALVADOR\OneDrive\CEPLAN\CeplanPythonCode\Machine Learning"
file_path = os.path.join(path, "BBDD Consulta Técnica 151024.xlsx")

# Abrir el archivo Excel
df = pd.read_excel(file_path, engine="openpyxl")

# Mostrar el contenido del DataFrame
print(df)


        Bloque Apelativo                  Nombre completo  \
0     Bloque 1       Sr.             Aaron Tuesta Sanchez   
1     Bloque 1       Sr.             Abad Cornejo Escobar   
2     Bloque 1       Sr.     Abanto Duran Roger Francisco   
3     Bloque 1       Sr.  Abanto Justo Miranda Ravichagua   
4     Bloque 1       Sr.     Abdel Alberto Arroyo Aguilar   
...        ...       ...                              ...   
7843  Bloque 3       NaN                  Yvanir Castillo   
7844  Bloque 3       NaN           Zaida Huarachi Guzman    
7845  Bloque 3       NaN        Zaira Joyce  Bravo Ravelo   
7846  Bloque 3       NaN         Zoila Rosa Rios Mimbela    
7847  Bloque 3       NaN    Zoraida Nery Velasquez Julcaa   

                Correo electrónico 1         Tipo  \
0                   op01@mimp.gob.pe      PÚBLICO   
1     abad.cornejo@aguatumbes.gob.pe      PÚBLICO   
2             frannis969@hotmail.com      PRIVADO   
3              abanto63111@gmail.com      PÚBLICO   
4 

In [None]:
# Seleccionar columnas relevantes
df_cut = df[["Apelativo", "Nombre completo"]]

In [None]:
# Definir la ruta usando os.path.join
path = r"C:\Users\SALVADOR\OneDrive\CEPLAN\CeplanPythonCode\Machine Learning"
file_path = os.path.join(path, "name_gender_dataset_full.csv")

# Abrir name_gender_dataset
df2 = pd.read_csv(file_path)

# Mostrar el contenido del DataFrame
print(df2)

## 2. Limpieza de títulos y otros caracteres

In [10]:
# Seleccionar columnas relevantes
df_cut = df[["Apelativo", "Nombre completo"]]

# Convertir el nombre completo a minúsculas y luego capitalizar la primera letra de cada palabra
df_cut.loc[:, 'Nombre completo'] = df_cut['Nombre completo'].str.lower().str.title()

# Eliminar los puntos y las comas del nombre completo
df_cut.loc[:, 'Nombre completo'] = df_cut['Nombre completo'].str.replace(r'[.,]', '', regex=True)

# Remover términos no deseados solo si están al inicio del nombre
remove_titles = ['Lic', 'General', "Coronel", 'Pnp', 'Adm', "Econ", "Eco", "Cpc", "Dr", "Ing", "Abg", "Cd", "Ma", "Cap", "Mc", "MC", "Mag", "Ng", "Profesor:"]
for title in remove_titles:
    # Usar una expresión regular para eliminar los títulos solo si están al principio del nombre, seguidos por un espacio
    df_cut.loc[:, 'Nombre completo'] = df_cut['Nombre completo'].str.replace(r'^' + title + r'\s+', '', regex=True)

# Remover números (de teléfono)
df_cut.loc[:, 'Nombre completo'] = df_cut['Nombre completo'].str.replace(r'\d+', '', regex=True)

# Reemplazar múltiples espacios en blanco por un solo espacio
df_cut.loc[:, 'Nombre completo'] = df_cut['Nombre completo'].str.replace(r'\s+', ' ', regex=True)

# Quitar espacios en blanco adicionales
df_cut.loc[:, 'Nombre completo'] = df_cut['Nombre completo'].str.strip()

# Si quieres guardar el resultado en un nuevo archivo Excel
# df_cut.to_excel('ruta_a_guardar_el_archivo.xlsx', index=False)

print(df_cut)


     Apelativo                  Nombre completo
0          Sr.             Aaron Tuesta Sanchez
1          Sr.             Abad Cornejo Escobar
2          Sr.     Abanto Duran Roger Francisco
3          Sr.  Abanto Justo Miranda Ravichagua
4          Sr.     Abdel Alberto Arroyo Aguilar
...        ...                              ...
7843       NaN                  Yvanir Castillo
7844       NaN            Zaida Huarachi Guzman
7845       NaN         Zaira Joyce Bravo Ravelo
7846       NaN          Zoila Rosa Rios Mimbela
7847       NaN    Zoraida Nery Velasquez Julcaa

[7848 rows x 2 columns]


In [147]:
print(df_cut.iloc[10])
print(df_cut.iloc[7570])
print(df_cut.iloc[7567])

Apelativo                                Sr.
Nombre completo    Abel Manuel Serna Herrera
Name: 10, dtype: object
Apelativo                          NaN
Nombre completo    David Zea Gutierrez
Name: 7570, dtype: object
Apelativo                                   NaN
Nombre completo    Carlos Alberto Abanto Ayasta
Name: 7567, dtype: object


## Checkpoint

In [149]:
df_cut.to_excel(r"C:\Users\SALVADOR\OneDrive\CEPLAN\CeplanPythonCode\Machine Learning\Nombres_RyO.xlsx", index=False)

In [11]:
# Seleccionar nombres que no tengan apelativos aún
df_nan = df_cut.loc[df_cut.isna().any(axis=1)]
df_nan

Unnamed: 0,Apelativo,Nombre completo
7003,,Aldo Lázaro
7004,,Angel Manuel Manero Campos
7005,,Angela Teresa Hernandez Cajo
7006,,Anne Ávalos
7007,,Benjamin Villa
...,...,...
7843,,Yvanir Castillo
7844,,Zaida Huarachi Guzman
7845,,Zaira Joyce Bravo Ravelo
7846,,Zoila Rosa Rios Mimbela


## 3. Añadir apelativos

In [13]:

def añadir_apelativo(lista_nombres, masculinos, femeninos):
    apelativo = []

    for nombre_completo in lista_nombres:
        # Limpiar y dividir el nombre en partes individuales
        partes_nombre = unidecode.unidecode(nombre_completo).lower() 
        partes_nombre = partes_nombre.strip().split()
        #print(partes_nombre)
        
        # Variable para determinar el apelativo
        apelativo_nombre = "Sr./Sra."
        
        for parte in partes_nombre:
            # Verificar si la parte del nombre está en las listas de masculinos o femeninos
            if parte in masculinos:
                apelativo_nombre = "Sr."
                break  # No es necesario seguir buscando si ya se encontró un masculino
            elif parte in femeninos:
                apelativo_nombre = "Sra."
                break  # No es necesario seguir buscando si ya se encontró una femenina
            
        
        apelativo.append(apelativo_nombre)
    
    # Crear un DataFrame con los nombres y apelativos
    df = pd.DataFrame({
        'Nombre': lista_nombres,
        'Apelativo': apelativo
    })
    
    return df

# Suponiendo que tienes una lista de nombres y tienes nombres_h_clean y nombres_m_clean definidos previamente
# Lista de nombres de ejemplo
lista_nombres = df_nan["Nombre completo"]
nombres_masculinos = df2[df2['genero'] == 'masculino']['nombre'].tolist()
nombres_femeninos = df2[df2['genero'] == 'femenino']['nombre'].tolist()
df_apelativos = añadir_apelativo(lista_nombres, nombres_masculinos, nombres_femeninos)

print(len(df_apelativos))
print(df_apelativos)


845
                             Nombre Apelativo
7003                    Aldo Lázaro       Sr.
7004     Angel Manuel Manero Campos       Sr.
7005   Angela Teresa Hernandez Cajo      Sra.
7006                    Anne Ávalos      Sra.
7007                 Benjamin Villa       Sr.
...                             ...       ...
7843                Yvanir Castillo      Sra.
7844          Zaida Huarachi Guzman      Sra.
7845       Zaira Joyce Bravo Ravelo      Sra.
7846        Zoila Rosa Rios Mimbela      Sra.
7847  Zoraida Nery Velasquez Julcaa      Sra.

[845 rows x 2 columns]


In [14]:
# Exportar
df_apelativos.to_excel(r"C:\Users\SALVADOR\OneDrive\CEPLAN\CeplanPythonCode\Machine Learning\prueba.xlsx", index=False)
df_apelativos.to_excel(r"C:\Users\SALVADOR\OneDrive\CEPLAN\CeplanPythonCode\Machine Learning\Apelativos_RyO.xlsx", index=False)