<a href="https://colab.research.google.com/github/SintagmaN/terminos/blob/main/hipers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [16]:
import pandas as pd

# Ruta del archivo en Google Drive
file_path = '/content/drive/MyDrive/Hiperónimos SUMA/dem_to_hiper.xlsx'

# Leer el archivo Excel
df = pd.read_excel(file_path)

# Mostrar las primeras filas del DataFrame para verificar que se ha cargado correctamente
df.head()


Unnamed: 0,vocablo,definición
0,a,Letra <i>A</i> (en mayúsculas) o <i>a</i> (en ...
1,a,
2,a,Introduce el lugar al que uno se dirige o el p...
3,a,"Introduce la fecha, la hora, el periodo o inte..."
4,a,Señala el medio o el instrumento con el que se...


In [17]:
import re

# Filtrar las filas donde la línea comienza con una palabra seguida de "que"
df_with_pattern = df[df['definición'].str.contains(r'^\b\w+\b\s+que\b', na=False)]

# Mostrar las primeras filas del DataFrame filtrado
df_with_pattern.head()


Unnamed: 0,vocablo,definición
19,ábaco,"Artesa que se usa para lavar minerales, especi..."
69,abanico,"Aparato que se arma a bordo, compuesto por un ..."
83,abarrotero,Persona que se dedica a la venta de abarrotes:
105,abatir,"Hacer que caiga al suelo, sin que luego pueda ..."
106,abatir,Hacer que baje o descienda completamente una c...


In [18]:
# Función para extraer la primera palabra antes de "que"
def extract_word_before_que(text):
    if pd.isna(text):  # Si el valor es NaN, regresar NaN
        return None
    # Buscar el patrón de una palabra seguida de "que"
    match = re.search(r'^\b(\w+)\b\s+que\b', text)
    if match:
        return match.group(1)  # Extraer solo la palabra antes de "que"
    return None

# Aplicar la función a la columna 'definición'
df_with_pattern['primera_palabra_antes_que'] = df_with_pattern['definición'].apply(extract_word_before_que)

# Mostrar las primeras filas con la nueva columna
df_with_pattern[['definición', 'primera_palabra_antes_que']].head()


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_with_pattern['primera_palabra_antes_que'] = df_with_pattern['definición'].apply(extract_word_before_que)


Unnamed: 0,definición,primera_palabra_antes_que
19,"Artesa que se usa para lavar minerales, especi...",Artesa
69,"Aparato que se arma a bordo, compuesto por un ...",Aparato
83,Persona que se dedica a la venta de abarrotes:,Persona
105,"Hacer que caiga al suelo, sin que luego pueda ...",Hacer
106,Hacer que baje o descienda completamente una c...,Hacer


In [19]:
from nltk.corpus import stopwords
nltk.download('stopwords')

# Cargar la lista de stopwords en español
spanish_stopwords = set(stopwords.words('spanish'))

# Función para filtrar palabras vacías
def remove_stopwords_nltk(word):
    if word is None:
        return None
    return word if word.lower() not in spanish_stopwords else None

# Aplicar la función a la columna 'primera_palabra_antes_que'
df_with_pattern['palabra_llena'] = df_with_pattern['primera_palabra_antes_que'].apply(remove_stopwords_nltk)

# Mostrar las primeras filas del DataFrame con palabras llenas
df_with_pattern[['definición', 'primera_palabra_antes_que', 'palabra_llena']].head()


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_with_pattern['palabra_llena'] = df_with_pattern['primera_palabra_antes_que'].apply(remove_stopwords_nltk)


Unnamed: 0,definición,primera_palabra_antes_que,palabra_llena
19,"Artesa que se usa para lavar minerales, especi...",Artesa,Artesa
69,"Aparato que se arma a bordo, compuesto por un ...",Aparato,Aparato
83,Persona que se dedica a la venta de abarrotes:,Persona,Persona
105,"Hacer que caiga al suelo, sin que luego pueda ...",Hacer,Hacer
106,Hacer que baje o descienda completamente una c...,Hacer,Hacer


In [20]:
# Filtrar las filas donde 'palabra_llena' no es None o NaN
df_con_palabra_llena = df_with_pattern[df_with_pattern['palabra_llena'].notna()]

# Mostrar el DataFrame resultante
df_con_palabra_llena.head()


Unnamed: 0,vocablo,definición,primera_palabra_antes_que,palabra_llena
19,ábaco,"Artesa que se usa para lavar minerales, especi...",Artesa,Artesa
69,abanico,"Aparato que se arma a bordo, compuesto por un ...",Aparato,Aparato
83,abarrotero,Persona que se dedica a la venta de abarrotes:,Persona,Persona
105,abatir,"Hacer que caiga al suelo, sin que luego pueda ...",Hacer,Hacer
106,abatir,Hacer que baje o descienda completamente una c...,Hacer,Hacer


In [22]:
# Crear un nuevo DataFrame con solo las columnas 'vocablo' y 'palabra_llena'
df_final = df_with_pattern[['vocablo', 'palabra_llena']]

# Mostrar las primeras filas del nuevo DataFrame
df_final


Unnamed: 0,vocablo,palabra_llena
19,ábaco,Artesa
69,abanico,Aparato
83,abarrotero,Persona
105,abatir,Hacer
106,abatir,Hacer
...,...,...
60327,zoólogo,Persona
60338,zoque,Lengua
60347,zorrero,Ladrón
60390,zumo,Líquido


In [23]:
# Convertir las columnas 'vocablo' y 'palabra_llena' a minúsculas
df_final['vocablo'] = df_final['vocablo'].str.lower()
df_final['palabra_llena'] = df_final['palabra_llena'].str.lower()

# Guardar el DataFrame en un archivo CSV con codificación UTF-8
df_final.to_csv('/content/drive/MyDrive/vocablo_palabra_llena.csv', index=False, encoding='utf-8')


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_final['vocablo'] = df_final['vocablo'].str.lower()
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_final['palabra_llena'] = df_final['palabra_llena'].str.lower()
