Se construirá un data set de los modismos con las columnas, palabra, significado y ejemplo

In [1]:
import pandas as pd
import re

In [2]:
path_file_academia = "AcademiaColombianaLengua/diccionario_colombianismos.txt"

data = []
current_entry = {}

with open(path_file_academia, "r", encoding="utf-8") as f:
    for line in f:
        line = line.strip()
        if not line:
            continue

        if line.startswith("**PALABRA:**"):
            if 'palabra' in current_entry:
                # Append previous entry if a new one starts
                data.append(current_entry)
            current_entry = {"palabra": line.replace("**PALABRA:**", "").strip()}
        elif line.startswith("**SIGNIFICADO:**"):
            current_entry["significado"] = line.replace("**SIGNIFICADO:**", "").strip()
        elif line.startswith("**EJEMPLO:**"):
            current_entry["ejemplo"] = line.replace("**EJEMPLO:**", "").strip()

# Add the last entry
if current_entry:
    data.append(current_entry)

df = pd.DataFrame(data)

# Display the first few rows of the dataframe
df.head()

Unnamed: 0,palabra,significado,ejemplo
0,abajeño,Propio o nativo de las costas o de las tierras...,Empezaron cultivos de tabaco y a elaborar un d...
1,abalear,Disparar a alguien o a algo de manera repetida...,El funcionario resultó ileso a pesar de que el...
2,abalear,Herir o matar a alguien con disparos de un arm...,Limpiaba la hojarasca cuando hombres armados l...
3,abaleo,Situación en la que hay disparos repetidos que...,Por la calle doce se oía un tremendo abaleo y ...
4,abanicar,"En el beisbol, fallar el bateador al no tocar ...",El bateador se ponchó abanicando el tercer lan...


In [3]:
df.shape

(7800, 3)

In [9]:
df[df["significado"] == "Definición no encontrada."]

Unnamed: 0,palabra,significado,ejemplo
13,abombao,Definición no encontrada.,Ejemplo no encontrado.
17,abozado,Definición no encontrada.,Ejemplo no encontrado.
21,abrigo,Definición no encontrada.,Ejemplo no encontrado.
76,achote,Definición no encontrada.,Ejemplo no encontrado.
79,achucharrar,Definición no encontrada.,Ejemplo no encontrado.
...,...,...,...
7678,yin,Definición no encontrada.,Ejemplo no encontrado.
7704,zacatín,Definición no encontrada.,Ejemplo no encontrado.
7740,zoco,Definición no encontrada.,Ejemplo no encontrado.
7759,zábila,Definición no encontrada.,Ejemplo no encontrado.


In [7]:
df_limpio = df[
    (df["significado"] != "Definición no encontrada.")
].copy()

In [8]:
df_limpio[df_limpio["significado"] == "Definición no encontrada."]

Unnamed: 0,palabra,significado,ejemplo


In [18]:
df_limpio[df_limpio["ejemplo"] == "Ejemplo no encontrado."]

Unnamed: 0,palabra,significado,ejemplo
6,abanico,Utensilio hecho con una pequeña estera de fibr...,Ejemplo no encontrado.
27,abuelita,Calzado femenino de tela sin tacón.,Ejemplo no encontrado.
28,abuelita,Especie de torcaza o tórtola de hasta 16 cms d...,Ejemplo no encontrado.
39,aceite,"En un automotor, perder aceite el motor.",Ejemplo no encontrado.
44,acerola,"Arbusto de hasta 6 m de altura, corteza obscur...",Ejemplo no encontrado.
...,...,...,...
7780,ñato,Persona que habla con marcado sonido nasal.,Ejemplo no encontrado.
7785,ñero,Forma de tratamiento usada entre amigos o comp...,Ejemplo no encontrado.
7788,ñinga,Mierda.,Ejemplo no encontrado.
7789,ñinga,"Referido a una persona, despreciable, de mala ...",Ejemplo no encontrado.


In [19]:
import numpy as np
df_limpio.replace('Ejemplo no encontrado.', np.nan, inplace=True)


In [20]:
df_limpio[df_limpio["ejemplo"] == "Ejemplo no encontrado."]

Unnamed: 0,palabra,significado,ejemplo


In [21]:
df_limpio.isnull().sum()

palabra           0
significado       0
ejemplo        1815
dtype: int64

Unificamos los nulos

Con este data set tenemos 7800 modismos

In [22]:
path_file_CaroCuervo = "Lexicc_CaroCuervoFinal.csv"
df_caro = pd.read_csv(path_file_CaroCuervo)

df_caro

Unnamed: 0,palabra,significado,ejemplo
0,a cabalidad,adecuadamente,el tra- bajo fue hecho a cabalidad
1,a juro,con terquedad o insistencia,a juro que tenía que hacerlo
2,a juro,"a la fuerza, contra la voluntad de uno",
3,a lo bien,"correctamente, bien, sin mala intención","ayúdeme, pero a lo bien"
4,a lo que dé el tejo,al máximo,haremos la fiesta a lo que dé el tejo
...,...,...,...
2685,ñero,indigente que vive en la calle,
2686,ñoco,"muñón, parte que queda de algunos objetos larg...",
2687,ñoco,cuchillo muy desgastado,entre una manca y un manco/hicieron un alborot...
2688,ñola,excremento,


In [23]:
df_caro.shape

(2690, 3)

Es encesario agregar la fuente de donde se sacaron cada grupo de datos. Para esrto agregaremos una columna fuente donde se dira que es de la fuente Academia Colombiana o Diccionario CaroCuervo

In [27]:
df_limpio["fuente"] = "AcademiaColombianaLengua"
df_caro["fuente"] = "DiccionarioCaroCuervo"

In [28]:
display(df_limpio.head())
display(df_caro.head())

Unnamed: 0,palabra,significado,ejemplo,fuente
0,abajeño,Propio o nativo de las costas o de las tierras...,Empezaron cultivos de tabaco y a elaborar un d...,AcademiaColombianaLengua
1,abalear,Disparar a alguien o a algo de manera repetida...,El funcionario resultó ileso a pesar de que el...,AcademiaColombianaLengua
2,abalear,Herir o matar a alguien con disparos de un arm...,Limpiaba la hojarasca cuando hombres armados l...,AcademiaColombianaLengua
3,abaleo,Situación en la que hay disparos repetidos que...,Por la calle doce se oía un tremendo abaleo y ...,AcademiaColombianaLengua
4,abanicar,"En el beisbol, fallar el bateador al no tocar ...",El bateador se ponchó abanicando el tercer lan...,AcademiaColombianaLengua


Unnamed: 0,palabra,significado,ejemplo,fuente
0,a cabalidad,adecuadamente,el tra- bajo fue hecho a cabalidad,DiccionarioCaroCuervo
1,a juro,con terquedad o insistencia,a juro que tenía que hacerlo,DiccionarioCaroCuervo
2,a juro,"a la fuerza, contra la voluntad de uno",,DiccionarioCaroCuervo
3,a lo bien,"correctamente, bien, sin mala intención","ayúdeme, pero a lo bien",DiccionarioCaroCuervo
4,a lo que dé el tejo,al máximo,haremos la fiesta a lo que dé el tejo,DiccionarioCaroCuervo


In [29]:
df_merged = pd.concat([df_limpio, df_caro], ignore_index=True)

In [30]:
print("Forma del dataframe mezclado:", df_merged.shape)
display(df_merged.head())

Forma del dataframe mezclado: (10195, 4)


Unnamed: 0,palabra,significado,ejemplo,fuente
0,abajeño,Propio o nativo de las costas o de las tierras...,Empezaron cultivos de tabaco y a elaborar un d...,AcademiaColombianaLengua
1,abalear,Disparar a alguien o a algo de manera repetida...,El funcionario resultó ileso a pesar de que el...,AcademiaColombianaLengua
2,abalear,Herir o matar a alguien con disparos de un arm...,Limpiaba la hojarasca cuando hombres armados l...,AcademiaColombianaLengua
3,abaleo,Situación en la que hay disparos repetidos que...,Por la calle doce se oía un tremendo abaleo y ...,AcademiaColombianaLengua
4,abanicar,"En el beisbol, fallar el bateador al no tocar ...",El bateador se ponchó abanicando el tercer lan...,AcademiaColombianaLengua


In [31]:
df_merged.isnull().sum()

palabra           0
significado       0
ejemplo        3855
fuente            0
dtype: int64

In [32]:
df_merged.to_csv("modismos_Dataset_Final.csv", sep=";", index=False)

Con esto obtenemos los datos finales para empezar la investigación