# Import libraries and models

In [39]:
import spacy
from tqdm import tqdm
import requests
from bs4 import BeautifulSoup
import pandas as pd
# Load the Spanish language model
nlp = spacy.load("es_core_news_sm")

# Declare function

In [40]:
# Function to lemmatize a verb in Spanish
def lemmatize_spanish_verb(text):
    doc = nlp(text)
    lemmatized_verb = ""
    
    for token in doc:
        print(token.text, token.pos_, token.lemma_)
        if token.pos_ == "VERB":
            lemmatized_verb = token.lemma_
            break  # Stop after finding the first verb
    
    return lemmatized_verb
verbo = "fliparás"
print(lemmatize_spanish_verb(verbo))


fliparás ADJ fliparás



In [43]:
import json
import time
import requests
from bs4 import BeautifulSoup
from tqdm import tqdm
import re
from unidecode import unidecode

modes_index = {
    10: "Indicativo",
    18: "Subjuntivo",
    20: "Imperativo",
    22: "Infinitivo",
    24: "Gerundio",
    25: "Participio"
}

def get_mode_by_index(index):
    for mode_index in modes_index.keys():
        if index < mode_index:
            return modes_index[mode_index]

def initialize_dict_mode_time(gauche_div):
    index = 0
    conjugations = {}  # verbs_df to store conjugations
    for mode in modes_index.values():
        conjugations[mode] = {}
    all_times_modes = gauche_div.find_all("div", class_="tempstab")
    for all_times in all_times_modes:
        all_times = all_times.find_all("h3", class_="tempsheader")
        for time in all_times:
            time = time.text.strip()
            # Get the mode by index
            mode = get_mode_by_index(index)
            conjugations[mode][time] = [] 
        index += 1
    return conjugations

def get_time(tense_div):
    return tense_div.find("h3", class_="tempsheader").text.strip()

def get_conjugations(tense_div, mode):
    # Extract conjugation time for the tense
    html_elements = tense_div.find_all("div", class_="tempscorps")[0]
    # Get all the html elements inside the div and print them
    conjugations = ""
    # Loop over all the elements of the div with class "_tempscorps"
    for element in html_elements:
        # Omit the <br> elements
        if element.name != "br":
            conjugations += element.text
        # Add a new line when the element is <br>
        else:
            conjugations += "\n"
    pronuons = ["yo", "tú", "él", "nosotros", "vosotros", "ellos"]
    # Remove the pronouns from the conjugations
    for pronuon in pronuons:
        conjugations = conjugations.replace(pronuon, "")
    # Remove unnecessary spaces regex
    conjugations = unidecode(re.sub(' +', ' ', conjugations))
    if "Imperativo" in mode:
        # Remove "no", "-" and " " from the conjugations
        conjugations = conjugations.replace("no", "").replace("-", "").replace(" ", "")
        result = conjugations.strip().split("\n")
    else:
        result = conjugations.strip().split("\n ")
    return result
        
def cast_dict_to_df(conjugations_verb):
    # Define the mode prefixes
    mode_prefixes = {
        'Indicativo': 'I_',
        'Subjuntivo': 'S_',
        'Imperativo': 'Im_',
        'Infinitivo': 'In_',
        'Gerundio': 'G_',
        'Participio': 'P_'
    }

    # Initialize an empty dictionary to store the modified conjugations
    modified_conjugations = {}

    # Loop through the original conjugations
    for mode, mode_conjugations in conjugations_verb.items():
        # Get the appropriate prefix for the mode
        mode_prefix = mode_prefixes.get(mode, '')

        # Initialize an empty dictionary for the mode's conjugations
        modified_mode_conjugations = {}

        # Loop through the tense and conjugation data for the mode
        for tense, tense_conjugations in mode_conjugations.items():
            # Add the tense with the prefix to the modified conjugations
            modified_tense = mode_prefix + tense
            modified_mode_conjugations[modified_tense] = tense_conjugations

        # Add the modified mode and its conjugations to the result
        modified_conjugations.update(modified_mode_conjugations)

    # Create a DataFrame from the modified conjugations
    df = pd.DataFrame([modified_conjugations])

    # Return the DataFrame
    return df

def scrape_verb_conjugations(verb):
    # URL of the website to scrape
    url = f"https://www.conjugacion.es/del/verbo/{verb}.php"
    # Send an HTTP GET request to the URL
    response = requests.get(url)
    # Check if the request was successful (status code 200)
    if response.status_code == 200:
        # Parse the HTML content of the page using BeautifulSoup
        soup = BeautifulSoup(response.text, "html.parser")
        # Find the element with id "gauche" that contains verb conjugation data
        gauche_div = soup.find("div", id="gauche")
        if gauche_div is not None:
            # Loop through all conjugation tenses
            conjugations_verb = initialize_dict_mode_time(gauche_div)
            index = 0
            for tense_div in gauche_div.find_all("div", class_="tempstab"):
                # Inference the mode with the current index of the loop
                mode = get_mode_by_index(index)
                # Get time
                time = get_time(tense_div)
                # Add the verb time and its conjugations to the verbs_df
                conjugations_verb[mode][time] = get_conjugations(tense_div, mode)
                # Add the number of conjugations
                # Add 1 to the index
                index += 1
            # Stablish infinitive
            
            return cast_dict_to_df(conjugations_verb)
        else:
            return {}
    else:
        return {}
    
def read_verbs(verbs_path):
    # Read txt file with verbs
    with open(verbs_path, "r", encoding="utf-8") as f:
        verbs = f.readlines()
        # Remove "\n" from the end of each verb
        verbs = [verb.strip() for verb in verbs]
    return verbs

def read_dictionary(dictionary_path):
    # This functions allows to read the verbs_df
    try:
        with open(dictionary_path, "r", encoding="utf-8") as f:
            verbs_df = json.load(f, ensure_ascii=False, indent=4)
        return verbs_df
    except:
        return {}

def create_dictionary(verbs_df):
    # Initialize an empty dictionary to store the conjugations
    verbs_conjugations = {}
    
    # Convert the conjugations dictionary into a DataFrame
    verbs_df_conjugated = pd.DataFrame(verbs_conjugations)

    # Get the list of verbs from the DataFrame columns
    verbs = list(verbs_df.columns)

    # Loop through the verbs in the DataFrame
    for verb in verbs:
        last_chars = verb[-2:]
        if last_chars in ["ar", "er", "ir"]:
            try:
                conjugation_data = scrape_verb_conjugations(verb)
                if conjugation_data:
                    verbs_conjugations[verb] = conjugation_data
                    # Update the DataFrame after adding each verb's conjugations
                    verbs_df_conjugated = pd.DataFrame(verbs_conjugations)
            except:
                # Handle errors during scraping (e.g., connection issues)
                continue

    return verbs_df_conjugated

def write_dictionary(verbs_df, dictionary_path):
    # This function allows to write the verbs_df
    with open(dictionary_path, "w", encoding="utf-8") as f:
        json.dump(verbs_df, f, ensure_ascii=False, indent=4)
        
def create_all_conjugations_list(verbs_df):
    # Drop the column "Infinitivo" and read by columns
    verbs_df = verbs_df.drop("Infinitivo").T
    all_conjugations = []
    for verb in verbs_df.columns:
        for mode in verbs_df[verb].keys():
            for time in verbs_df[verb][mode].keys():
                for conjugation in verbs_df[verb][mode][time]:
                    all_conjugations.append(unidecode(conjugation.lower()))
    return all_conjugations

def get_infinitive(verbs_df, range_index):
    return verbs_df[range_index]["Infinitivo"]['Simple'][0]

def verify_is_verb(word, all_conjugations, verbs_df):
    # Find word in all_conjugations and get the infinitive
    try:
        index = all_conjugations.index(unidecode(word.lower()))
        if index != -1:
            infinitive = get_infinitive(verbs_df, index)
            return infinitive
        else:
            return ""
    except:
        return ""

In [44]:
verbo = "aullar"
conjugations = scrape_verb_conjugations(verbo)
conjugations.head()

Unnamed: 0,I_Presente,I_Pretérito perfecto compuesto,I_Pretérito imperfecto,I_Pretérito pluscuamperfecto,I_Pretérito perfecto simple,I_Pretérito anterior,I_Futuro,I_Futuro perfecto,I_Condicional,I_Condicional perfecto,...,S_Pretérito pluscuamperfecto 2,S_Futuro,S_Futuro perfecto,Im_Imperativo,Im_Imperativo negativo,In_Simple,In_Compuesto,G_Simple,G_Compuesto,P_Pasado
0,"[aullo, aullas, aulla, aullamos, aullais, aullan]","[he aullado, has aullado, ha aullado, hemos au...","[aullaba, aullabas, aullaba, aullabamos, aulla...","[habia aullado, habias aullado, habia aullado,...","[aulle, aullaste, aullo, aullamos, aullasteis,...","[hube aullado, hubiste aullado, hubo aullado, ...","[aullare, aullaras, aullara, aullaremos, aulla...","[habre aullado, habras aullado, habra aullado,...","[aullaria, aullarias, aullaria, aullariamos, a...","[habria aullado, habrias aullado, habria aulla...",...,"[hubiese aullado, hubieses aullado, hubiese au...","[aullare, aullares, aullare, aullaremos, aulla...","[hubiere aullado, hubieres aullado, hubiere au...","[aulla, aulle, aullemos, aullad, aullen]","[aulles, aulle, aullemos, aulleis, aullen]",[aullar],[haber aullado],[aullando],[habiendo aullado],[aullado]


In [28]:
import random
verbs = read_verbs("./data/diccionario/verbos-espanol.txt")
# Take 20 random verbs not in order using random.sample
verbs = random.sample(verbs, 20)
# Read the dictionary
verbs_df = read_dictionary("./data/diccionario/verbos-espanol.json")
# Create the dictionary
verbs_df, errores = create_dictionary(verbs, verbs_df)
# Create all conjugations list
all_conjugations = create_all_conjugations_list(verbs_df)
# Write the dictionary
# write_dictionary(dict_verbs, "./data/diccionario/verbos-espanol.json")
# See all "Infinitivo"
# for verb in dict_verbs.keys():
#     print(dict_verbs[verb]["Infinitivo"]['Simple'][0])
# # Save all conjugations list
# with open("./data/diccionario/all_conjugations.txt", "w", encoding="utf-8") as f:
#     f.write("\n".join(all_conjugations))
# # Save errors
# with open("./data/diccionario/errores.txt", "w", encoding="utf-8") as f:
#     f.write("\n".join(errores))

Processing redilar: 100%|██████████| 20/20 [00:07<00:00,  2.65it/s]     


In [29]:
verbs_df.head()

Unnamed: 0,atolondrar,feriar,recomenzar,privar,monologar,glosar,rebobinar,musitar,reclutar,sopesar,despilarar,alfabetizar,ergotizar,redilar
Indicativo,"{'Presente': ['atolondro', 'atolondras', 'atol...","{'Presente': ['ferio', 'ferias', 'feria', 'fer...","{'Presente': ['recomienzo', 'recomienzas', 're...","{'Presente': ['privo', 'privas', 'priva', 'pri...","{'Presente': ['monologo', 'monologas', 'monolo...","{'Presente': ['gloso', 'glosas', 'glosa', 'glo...","{'Presente': ['rebobino', 'rebobinas', 'rebobi...","{'Presente': ['musito', 'musitas', 'musita', '...","{'Presente': ['recluto', 'reclutas', 'recluta'...","{'Presente': ['sopeso', 'sopesas', 'sopesa', '...","{'Presente': ['despilaro', 'despilaras', 'desp...","{'Presente': ['alfabetizo', 'alfabetizas', 'al...","{'Presente': ['ergotizo', 'ergotizas', 'ergoti...","{'Presente': ['redilo', 'redilas', 'redila', '..."
Subjuntivo,"{'Presente': ['atolondre', 'atolondres', 'atol...","{'Presente': ['ferie', 'feries', 'ferie', 'fer...","{'Presente': ['recomience', 'recomiences', 're...","{'Presente': ['prive', 'prives', 'prive', 'pri...","{'Presente': ['monologue', 'monologues', 'mono...","{'Presente': ['glose', 'gloses', 'glose', 'glo...","{'Presente': ['rebobine', 'rebobines', 'rebobi...","{'Presente': ['musite', 'musites', 'musite', '...","{'Presente': ['reclute', 'reclutes', 'reclute'...","{'Presente': ['sopese', 'sopeses', 'sopese', '...","{'Presente': ['despilare', 'despilares', 'desp...","{'Presente': ['alfabetice', 'alfabetices', 'al...","{'Presente': ['ergotice', 'ergotices', 'ergoti...","{'Presente': ['redile', 'rediles', 'redile', '..."
Imperativo,"{'Imperativo': ['atolondra', 'atolondre', 'ato...","{'Imperativo': ['feria', 'ferie', 'feriemos', ...","{'Imperativo': ['recomienza', 'recomience', 'r...","{'Imperativo': ['priva', 'prive', 'privemos', ...","{'Imperativo': ['mologa', 'mologue', 'mologuem...","{'Imperativo': ['glosa', 'glose', 'glosemos', ...","{'Imperativo': ['rebobina', 'rebobine', 'rebob...","{'Imperativo': ['musita', 'musite', 'musitemos...","{'Imperativo': ['recluta', 'reclute', 'reclute...","{'Imperativo': ['sopesa', 'sopese', 'sopesemos...","{'Imperativo': ['despilara', 'despilare', 'des...","{'Imperativo': ['alfabetiza', 'alfabetice', 'a...","{'Imperativo': ['ergotiza', 'ergotice', 'ergot...","{'Imperativo': ['redila', 'redile', 'redilemos..."
Infinitivo,"{'Simple': ['atolondrar'], 'Compuesto': ['habe...","{'Simple': ['feriar'], 'Compuesto': ['haber fe...","{'Simple': ['recomenzar'], 'Compuesto': ['habe...","{'Simple': ['privar'], 'Compuesto': ['haber pr...","{'Simple': ['monologar'], 'Compuesto': ['haber...","{'Simple': ['glosar'], 'Compuesto': ['haber gl...","{'Simple': ['rebobinar'], 'Compuesto': ['haber...","{'Simple': ['musitar'], 'Compuesto': ['haber m...","{'Simple': ['reclutar'], 'Compuesto': ['haber ...","{'Simple': ['sopesar'], 'Compuesto': ['haber s...","{'Simple': ['despilarar'], 'Compuesto': ['habe...","{'Simple': ['alfabetizar'], 'Compuesto': ['hab...","{'Simple': ['ergotizar'], 'Compuesto': ['haber...","{'Simple': ['redilar'], 'Compuesto': ['haber r..."
Gerundio,"{'Simple': ['atolondrando'], 'Compuesto': ['ha...","{'Simple': ['feriando'], 'Compuesto': ['habien...","{'Simple': ['recomenzando'], 'Compuesto': ['ha...","{'Simple': ['privando'], 'Compuesto': ['habien...","{'Simple': ['monologando'], 'Compuesto': ['hab...","{'Simple': ['glosando'], 'Compuesto': ['habien...","{'Simple': ['rebobinando'], 'Compuesto': ['hab...","{'Simple': ['musitando'], 'Compuesto': ['habie...","{'Simple': ['reclutando'], 'Compuesto': ['habi...","{'Simple': ['sopesando'], 'Compuesto': ['habie...","{'Simple': ['despilarando'], 'Compuesto': ['ha...","{'Simple': ['alfabetizando'], 'Compuesto': ['h...","{'Simple': ['ergotizando'], 'Compuesto': ['hab...","{'Simple': ['redilando'], 'Compuesto': ['habie..."


In [22]:
conjugation = dict_verbs['visitar']['Indicativo']['Futuro'][0]
# Find "visitare" in all_conjugations and get the infinitive
index = all_conjugations.index(unidecode(conjugation.lower()))
print(index)

528


In [93]:
# Verify "abacore" is a verb
verb = "aullando"
# Temporalize the process
start_time = time.time()
# print(verify_is_verb(verb, all_conjugations, diccionario))
# print("--- %s seconds ---" % (time.time() - start_time))

# Create a job offer text
text = "si te critico es porque estas hurtando y criticando a los demás"
verbos = []
start_time = time.time()
for word in text.split(" "):
    verbo = verify_is_verb(word, all_conjugations, dict_verbs)
    if verbo != "":
        verbos.append(verbo)
print(verbos)
print("--- %s seconds ---" % (time.time() - start_time))

['criticar', 'hurtar', 'criticar']
--- 0.00052642822265625 seconds ---


# Main

In [101]:
verb = "tener"
conjugation_data, total_conjugations = scrape_verb_conjugations(verb)
# list_times = list(conjugation_data.keys())
# print(list_times)
# conjugation_data['Pretérito perfecto compuesto']
print(conjugation_data)

{'Indicativo': {'Presente': ['tengo', 'tienes', 'tiene', 'tenemos', 'tenéis', 'tienen'], 'Pretérito perfecto compuesto': ['he tenido', 'has tenido', 'ha tenido', 'hemos tenido', 'habéis tenido', 'han tenido'], 'Pretérito imperfecto': ['tenía', 'tenías', 'tenía', 'teníamos', 'teníais', 'tenían'], 'Pretérito pluscuamperfecto': ['había tenido', 'habías tenido', 'había tenido', 'habíamos tenido', 'habíais tenido', 'habían tenido'], 'Pretérito perfecto simple': ['tuve', 'tuviste', 'tuvo', 'tuvimos', 'tuvisteis', 'tuvieron'], 'Pretérito anterior': ['hube tenido', 'hubiste tenido', 'hubo tenido', 'hubimos tenido', 'hubisteis tenido', 'hubieron tenido'], 'Futuro': ['tendré', 'tendrás', 'tendrá', 'tendremos', 'tendréis', 'tendrán'], 'Futuro perfecto': ['habré tenido', 'habrás tenido', 'habrá tenido', 'habremos tenido', 'habréis tenido', 'habrán tenido'], 'Condicional': ['tendría', 'tendrías', 'tendría', 'tendríamos', 'tendríais', 'tendrían'], 'Condicional perfecto': ['habría tenido', 'habrías t

In [None]:
# Abre el archivo en modo lectura
with open('./data/diccionario/verbos-espanol-conjugaciones.txt', 'r') as archivo:
    lineas = archivo.readlines()

# Crea un dict_verbspara almacenar los verbos y sus conjugaciones agrupados por el patrón de infinitivo
diccionario_verbos = {}

# Inicializa variables para rastrear el verbo actual y sus conjugaciones
verbo_actual = None
conjugaciones = []

# Itera a través de las líneas del archivo
for linea in lineas:
    linea = linea.strip()
    
    # Si la línea tiene el formato de un verbo en infinitivo
    if linea.endswith("ar") or linea.endswith("er") or linea.endswith("ir"):
        # Guarda el verbo anterior y sus conjugaciones en el diccionario
        if verbo_actual:
            diccionario_verbos[verbo_actual] = conjugaciones
        # Actualiza el verbo actual y reinicia la lista de conjugaciones
        verbo_actual = linea
        conjugaciones = []
    else:
        # Agrega la conjugación a la lista
        conjugaciones.append(linea)

# Agrega el último verbo y sus conjugaciones al diccionario
if verbo_actual:
    diccionario_verbos[verbo_actual] = conjugaciones
# Save to json file
import json
with open('./data/diccionario/verbos-espanol-conjugaciones.json', 'w', encoding='utf-8') as archivo:
    json.dump(diccionario_verbos, archivo, indent=4)

In [None]:
# Read json file
import json
with open('./data/diccionario/verbos-espanol-conjugaciones.json', 'r', encoding='utf-8') as archivo:
    diccionario_verbos = json.load(archivo)
# Verify if this word is a verb looking for the conjugations
palabra = "Tuviéramos"
for verbo in diccionario_verbos:
    if palabra.lower() in diccionario_verbos[verbo]:
        print("Verbo encontrado: " + verbo)
        break

Verbo encontrado: tutorar


In [None]:
# Ruta al archivo de texto
diccionario_verbos_path = './data/diccionario/verbos-espanol-conjugaciones.txt'

# Palabra que deseas buscar
palabra = "tuviéramos"

def read_diccionario_verbos():
    # Abre el archivo en modo lectura (encoding='utf-8' es necesario para manejar caracteres en español)
    with open(diccionario_verbos_path, 'r', encoding='utf-8') as archivo:
        # Read and strip each line
        diccionario_verbos = [linea.strip() for linea in archivo.readlines()]
    return diccionario_verbos

def buscar_palabra(palabra, diccionario_verbos):
    # Busca la palabra en el diccionario
    if palabra in diccionario_verbos:
        print(f"La palabra '{palabra}' es un verbo")
        # Return the index
        return diccionario_verbos.index(palabra)
    else:
        print(f"La palabra '{palabra}' no es un verbo")
        
diccionario_verbos = read_diccionario_verbos()
buscar_palabra(palabra, diccionario_verbos)

La palabra 'tuviéramos' es un verbo


529762