In [90]:
import pandas as pd
import spacy

In [91]:
corpus = pd.read_csv('corpuses/raw/news_corpus9.csv', encoding='utf-8')

In [92]:
#Borrar duplicados
corpus.drop_duplicates(subset = 'Title', inplace = True)

# Convertir a minúsculas todas las columnas de tipo objeto (cadenas de texto)
corpus = corpus.apply(lambda x: x.str.lower() if x.dtype == "object" else x)

In [93]:
corpus

Unnamed: 0,Source,Title,Content,Section,URL,Date
0,la jornada,baltimore arrebata lo invicto a búfalo; lo ap...,lamar jackson y derrick henry forman una dupla...,deportes,https://www.jornada.com.mx/2024/09/30/deportes...,30/09/2024
1,la jornada,orgullo azul y oro; pumas vence al américa en...,en el futbol hay aficiones que se transmiten d...,deportes,https://www.jornada.com.mx/2024/09/30/deportes...,30/09/2024
2,la jornada,el ex escarlata sepúlveda disfruta ser sultán,carlos sepúlveda apenas tuvo tiempo de celebra...,deportes,https://www.jornada.com.mx/2024/09/30/deportes...,30/09/2024
3,la jornada,el nápoles vuelve a ser líder de la serie a,roma. el nápoles consiguió el liderato de la s...,deportes,https://www.jornada.com.mx/2024/09/30/deportes...,30/09/2024
4,la jornada,etíopes ganan el maratón de berlín,los etíopes tigist ketema y milkesa mengesha g...,deportes,https://www.jornada.com.mx/2024/09/30/deportes...,30/09/2024
...,...,...,...,...,...,...
124,expansión,microsoft usará energía nuclear para alimentar...,el acuerdo entre microsoft y constellation ene...,tecnología,https://expansion.mx/tecnologia/2024/09/20/mic...,20/09/2024
125,expansión,la onu formula siete recomendaciones para regu...,la onu creó el año pasado un órgano consultivo...,tecnología,https://expansion.mx/tecnologia/2024/09/20/la-...,20/09/2024
126,expansión,la ia decide si eres o no apto para un trabajo...,aunque la ia sí ha demostrado que puede ser un...,tecnología,https://expansion.mx/tecnologia/2024/09/20/la-...,20/09/2024
127,expansión,amazon prime y mgm studios se unen a la mpa,las empresas de entretenimiento se unen a otra...,tecnología,https://expansion.mx/tecnologia/2024/09/19/ama...,19/09/2024


In [94]:
# Reemplazar NaN en las columnas 'Title' y 'Content' con cadenas vacías
corpus['Title'].fillna('', inplace=True)
corpus['Content'].fillna('', inplace=True)


In [95]:
# Cargar el modelo en español de spaCy
nlp = spacy.load('es_core_news_sm')

# Crear listas temporales para almacenar los resultados procesados
new_titles = []
new_contents = []

# Iterar sobre cada fila del DataFrame
for i, row in corpus.iterrows():
    # Asegurarse de que 'Title' y 'Content' no sean nulos y sean cadenas de texto
    title = row['Title'] if isinstance(row['Title'], str) else ''
    content = row['Content'] if isinstance(row['Content'], str) else ''
    
    # Procesar el título solo si no está vacío
    if title:
        doc_title = nlp(title)
        new_title = " ".join([
            token.lemma_ if token.pos_ not in ['DET', 'CCONJ', 'SCONJ', 'PRON', 'ADP'] else '' for token in doc_title])
        # Eliminar espacios extra creados por tokens eliminados
        new_title = " ".join(new_title.split())
    else:
        new_title = ''
    
    new_titles.append(new_title)
    
    # Procesar el contenido solo si no está vacío
    if content:
        doc_content = nlp(content)
        new_content = " ".join([
            token.lemma_ if token.pos_ not in ['DET', 'CCONJ', 'SCONJ', 'PRON', 'ADP'] else '' for token in doc_content])
        # Eliminar espacios extra creados por tokens eliminados
        new_content = " ".join(new_content.split())
    else:
        new_content = ''
    
    new_contents.append(new_content)

# Asignar las listas modificadas al DataFrame
corpus['Title'] = new_titles
corpus['Content'] = new_contents


In [96]:
corpus

Unnamed: 0,Source,Title,Content,Section,URL,Date
0,la jornada,baltimore arrebatar invicto búfalo ; apabullar...,lamar jackson derrick henry formar dupla ofens...,deportes,https://www.jornada.com.mx/2024/09/30/deportes...,30/09/2024
1,la jornada,orgullo azul oro ; puma vence américa clásico ...,futbol haber afición transmitar padre hijo . c...,deportes,https://www.jornada.com.mx/2024/09/30/deportes...,30/09/2024
2,la jornada,ex escarlata sepúlvedo disfrutar ser sultán,carlos sepúlveda apenas tener tiempo celebrar ...,deportes,https://www.jornada.com.mx/2024/09/30/deportes...,30/09/2024
3,la jornada,nápol volver ser líder serie,romar . nápol conseguir liderato serie italia ...,deportes,https://www.jornada.com.mx/2024/09/30/deportes...,30/09/2024
4,la jornada,etíop ganar maratón berlín,etíop tigist ketema milkesa mengesha ganar mar...,deportes,https://www.jornada.com.mx/2024/09/30/deportes...,30/09/2024
...,...,...,...,...,...,...
124,expansión,microsoft usar energía nuclear alimentar intel...,acuerdo microsoft constellation energy permiti...,tecnología,https://expansion.mx/tecnologia/2024/09/20/mic...,20/09/2024
125,expansión,onu formular siete recomendación regular ia,onu crear año pasado órgano consultivo 39 miem...,tecnología,https://expansion.mx/tecnologia/2024/09/20/la-...,20/09/2024
126,expansión,"ia decidir ser no apto trabajo , ¿ hacer ver ?",ia sí haber demostrar poder ser aliada espacio...,tecnología,https://expansion.mx/tecnologia/2024/09/20/la-...,20/09/2024
127,expansión,amazon prime mgm studio unir mpa,empresa entretenimiento unir netflix paramount...,tecnología,https://expansion.mx/tecnologia/2024/09/19/ama...,19/09/2024


In [97]:
corpus = corpus.reset_index(drop=True)
corpus.to_csv('corpuses/norm/norm_corpus9.csv')