In [1]:
import pandas as pd
import spacy

In [2]:
corpus = pd.read_csv('corpus1.csv')

In [3]:
#Borrar duplicados
corpus.drop_duplicates(subset = 'Title', inplace = True)

# Convertir a minúsculas todas las columnas de tipo objeto (cadenas de texto)
corpus = corpus.apply(lambda x: x.str.lower() if x.dtype == "object" else x)

In [4]:
corpus

Unnamed: 0.1,Unnamed: 0,Source,Title,Content,Section,URL,Date
0,0,expansion,china avanza en su regulación para identificar...,en el país asiático están buscando implementar...,tecnologia,https://expansion.mx/tecnologia/2024/09/27/nue...,27/09/2024
1,1,expansion,"en medio de la crisis, la industria del gaming...",los despidos han marcado el año de los videoju...,tecnologia,https://expansion.mx/tecnologia/2024/09/27/cri...,27/09/2024
2,2,expansion,oracle construirá un centro hyperscale en nuev...,"samuel garcía, gobernador del estado, resaltó ...",tecnologia,https://expansion.mx/tecnologia/2024/09/26/ora...,26/09/2024
3,3,expansion,openai planea reestructuración para ser una em...,este cambio representaría una oportunidad para...,tecnologia,https://expansion.mx/tecnologia/2024/09/26/ope...,26/09/2024
4,4,expansion,meta empareja a openai y google en la carrera ...,"durante el evento meta connect, mark zuckerber...",tecnologia,https://expansion.mx/tecnologia/2024/09/26/met...,26/09/2024
...,...,...,...,...,...,...,...
91,91,expansion,claudia sheinbaum se reunirá con empresarios d...,en medio de voces empresariales que dicen que ...,economia,https://expansion.mx/economia/2024/09/18/ebrar...,18/09/2024
92,92,expansion,¿dónde hay mayor brecha salarial por género en...,banxico realizó un análisis de las brechas sal...,economia,https://expansion.mx/economia/2024/09/18/brech...,18/09/2024
93,93,expansion,¿por qué es importante tener un seguro para tu...,"un seguro no solo cubre los daños materiales, ...",economia,https://expansion.mx/economia/2024/09/18/por-q...,18/09/2024
94,94,expansion,peligra economía de méxico si trump gana y cum...,la agencia calificadora anticipa que la econom...,economia,https://expansion.mx/economia/2024/09/18/econo...,18/09/2024


In [5]:
# Cargar el modelo en español de spaCy
nlp = spacy.load('es_core_news_sm')

# Crear listas temporales para almacenar los resultados procesados
new_titles = []
new_contents = []

# Iterar sobre cada fila del DataFrame
for i, row in corpus.iterrows():
    doc_title = nlp(row['Title'])
    doc_content = nlp(row['Content'])
    

    # Procesar el título: reemplazar tokens por sus lemas, excluyendo artículos, conjunciones y pronombres
    new_title = " ".join([
        token.lemma_ if token.pos_ not in ['DET', 'CCONJ', 'SCONJ', 'PRON', 'ADP'] else '' for token in doc_title])
    # Eliminar espacios extra creados por tokens eliminados
    new_title = " ".join(new_title.split())
    new_titles.append(new_title)

    # Procesar el contenido: reemplazar tokens por sus lemas, excluyendo artículos, conjunciones, pronombres y stopwords
    new_content = " ".join([
        token.lemma_ if token.pos_ not in ['DET', 'CCONJ', 'SCONJ', 'PRON', 'ADP'] else '' for token in doc_content])

    # Eliminar espacios extra creados por tokens eliminados
    new_content = " ".join(new_content.split())

    new_contents.append(new_content)


# Asignar las listas modificadas al DataFrame
corpus['Title'] = new_titles
corpus['Content'] = new_contents

In [6]:
corpus

Unnamed: 0.1,Unnamed: 0,Source,Title,Content,Section,URL,Date
0,0,expansion,chino avanzar regulación identificar contenido...,país asiático estar buscar implementar medida ...,tecnologia,https://expansion.mx/tecnologia/2024/09/27/nue...,27/09/2024
1,1,expansion,"medio crisis , industria gaming buscar nuevo m...","despido haber marcar año videojuego , especial...",tecnologia,https://expansion.mx/tecnologia/2024/09/27/cri...,27/09/2024
2,2,expansion,oracle construir centro hyperscalar nuevo león...,"samuel garcía , gobernador estado , resaltar p...",tecnologia,https://expansion.mx/tecnologia/2024/09/26/ora...,26/09/2024
3,3,expansion,openai planeo reestructuración ser empresa fin...,cambio representar oportunidad startup consegu...,tecnologia,https://expansion.mx/tecnologia/2024/09/26/ope...,26/09/2024
4,4,expansion,meta emparejar openai google carrera ia,"evento meta connect , zuckerberg presentar inn...",tecnologia,https://expansion.mx/tecnologia/2024/09/26/met...,26/09/2024
...,...,...,...,...,...,...,...
91,91,expansion,claudia sheinbaum reunir empresario estados un...,medio voz empresarial decir inversión haber de...,economia,https://expansion.mx/economia/2024/09/18/ebrar...,18/09/2024
92,92,expansion,¿ haber mayor brecha salarial género méxico ?,banxico realizar análisis brecha salarial géne...,economia,https://expansion.mx/economia/2024/09/18/brech...,18/09/2024
93,93,expansion,¿ ser importante tener seguro negocio ?,"seguro no solo cubrir daño material , también ...",economia,https://expansion.mx/economia/2024/09/18/por-q...,18/09/2024
94,94,expansion,peligrar economía méxico trump gana cumplir ar...,agencia calificadoro anticipar economía mexica...,economia,https://expansion.mx/economia/2024/09/18/econo...,18/09/2024


In [7]:
corpus = corpus.reset_index(drop=True)
corpus.to_csv('norm_corpus1.csv')