# Predicción de tópicos
Se desea extraer los tópicos principales de cada semana dentro del ámbito político

## Librerias

In [94]:
import pandas as pd
import re # expresiones regulares (regex)
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer

# Preprocesamiento

In [101]:
# Archivo npr.csv es para hacer pruebas

df = pd.read_csv('noticias-economicas-sample.csv')

textoPrueba = df[['text']].copy() # Pongo .copy() porque cuando intentas 
                                  # quitar las stopwords sale un warning.

print(textoPrueba.shape)
textoPrueba.head(10)

(10000, 1)


Unnamed: 0,text
0,Angela Merkel ayer en Berlin tras la cumbre te...
1,\n\n\n\n\nEnrique Quemada Clariana\nFusiones y...
2,¿Cuántas veces no ha querido ser su propio jef...
3,"El ministro de Sanidad, Salvador Illa, momento..."
4,El Pleno del Congreso ha aprobado el proyecto ...
5,Vacunarse de la gripe para aliviar los hospita...
6,"Elon Musk, fundador de Tesla. EFE\n\nLa compañ..."
7,Una usuaria consulta la aplicación de banca ar...
8,Las consecuencias socioeconómicas de la pandem...
9,La aerolínea Ryanair anunció este viernes que ...


Eliminamos stopwords

In [102]:
# Función para eliminar stopwords en español

def noStopwords(text):
    
    sw_es = set(stopwords.words('spanish'))

    text = ' '.join([word for word in text.split() if word.lower() not in sw_es])
    
    return text


In [103]:
textoPrueba['text'] = textoPrueba['text'].apply(noStopwords)
textoPrueba.head()

Unnamed: 0,text
0,Angela Merkel ayer Berlin tras cumbre telemáti...
1,Enrique Quemada Clariana Fusiones adquisicione...
2,¿Cuántas veces querido ser propio jefe? ¿Cuánt...
3,"ministro Sanidad, Salvador Illa, momentos rued..."
4,Pleno Congreso aprobado proyecto Presupuestos ...


Normalizamos el texto, quitamos mayúsculas y signos de puntuación

In [104]:
# Función para normalizar el texto

def noPuntuacion(text): return re.findall(r'[a-zA-ZñÑ]+', text.lower()) # áéíóúÁÉÍÓÚüÜ

In [105]:
textoPrueba['text'] = textoPrueba['text'].apply(noPuntuacion).apply(lambda x: " ".join(x))
textoPrueba.head()

Unnamed: 0,text
0,angela merkel ayer berlin tras cumbre telem ti...
1,enrique quemada clariana fusiones adquisicione...
2,cu ntas veces querido ser propio jefe cu ntas ...
3,ministro sanidad salvador illa momentos rueda ...
4,pleno congreso aprobado proyecto presupuestos ...


Aplicamos stemming

In [106]:
# Función para aplicar stemming al texto

def stemmiar(text):

    stemmer = SnowballStemmer('spanish')

    return ' '.join([stemmer.stem(word) for word in text.split()])

In [107]:
textoPrueba['text'] = textoPrueba['text'].apply(stemmiar)
textoPrueba.head()

Unnamed: 0,text
0,angel merkel ayer berlin tras cumbr telem tic ...
1,enriqu quem clarian fusion adquisicion actual ...
2,cu ntas vec quer ser propi jef cu ntas vec arr...
3,ministr sanid salvador illa moment rued prens ...
4,plen congres aprob proyect presupuest general ...
