In [1]:
# libraries importation

import pandas as pd
import re
import string
import nltk
from nltk import sent_tokenize, word_tokenize
from nltk.stem import WordNetLemmatizer
from nltk.stem import *
from nltk.corpus import stopwords

In [2]:
news = pd.read_csv('./data/fisrt_news.csv', names = ['title', 'text', 'author', 'url'])

In [3]:
news.head()

Unnamed: 0,title,text,author,url
0,La caprichosa y millonaria primera decisión de...,"Begoña Gómez quiere cambios más ""contundentes""...",SALOMON LUSH,https://www.periodistadigital.com/periodismo/t...
1,Santiago Abascal dice que perdona a las manife...,Santiago Abascal se ha mostrado generoso al op...,Ayudante de Becario,https://lavozdelbecario.es/santiago-abascal-di...
2,El aborto será legal durante todo el embarazo ...,La norma avala el aborto tardío en cualquier m...,Actuall / Aci Prensa,https://www.actuall.com/vida/el-aborto-sera-le...
3,El Gobierno cambiará los cementerios españoles...,La naturaleza y la composición de los ritos fu...,Mediterráneo Digital,https://www.mediterraneodigital.com/espana/and...
4,"Dos perros ""contraen matrimonio""","La concejal de Seguridad de Lorca, Murcia (Esp...",Redacción ACI Prensa,https://www.aciprensa.com/noticias/casan-a-dos...


In [4]:
type(news.text[0])

str

In [5]:
news['label'] = True 


In [6]:
news.loc[:59,'label'] = False

Preparing Text Data For Analysis

functions for cleaning, tokenizing, stemming and lemmatizing data and for deleting stop words

In [5]:
# function for cleaning

def clean_up_text(text):
    """
    The function cleans up numbers, remove punctuation and line break, and special characters from a string 
    and converts it to lowercase.

    Args:
        text: The string to be cleaned up.

    Returns:
        A string that has been cleaned up.
    """
    text = text.lower()
    text = re.sub('[%s]' % re.escape(string.punctuation), ' ', text)
    text = re.sub('\n', ' ', text) 
    text = re.sub('\w*\d\w*', '', text)    
    text = re.sub('[‘’“”…«»¿?¡!\-_\(\)]', '', text)
    text = re.sub(r'https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+', '', text)
  
    return text



In [6]:
# function for tokenizing

def tokenize_text(text):
        """
        Tokenize a string.

        Args:
            text: String to be tokenized.

        Returns:
            A list of words as the result of tokenization.
        """
        return word_tokenize(text)


In [7]:
# function for stemming, and lemmatizing

def stem_and_lemmatize(list_of_words):
    """
    Perform stemming and lemmatization on a list of words.

    Args:
        list_of_words: A list of strings.

    Returns:
        A list of strings after being stemmed and lemmatized.
    """
    stemmer = nltk.stem.SnowballStemmer('spanish')
    lemmatizer = WordNetLemmatizer()
    stemmed_lemmantized_list = [stemmer.stem(lemmatizer.lemmatize(word)) for word in list_of_words]
    return stemmed_lemmantized_list

In [8]:
# function for stops words

def remove_stopwords(list_of_words):
    """
    Remove English stopwords from a list of strings.

    Args:
        list_of_words: A list of strings.

    Returns:
        A list of strings after stop words are removed.
    """
    spanish_stop_words = stopwords.words('spanish')
    removed_stop_words = [' '.join([word for word in list_of_words if word not in spanish_stop_words])]      
    return removed_stop_words


In [16]:
news['processed_text'] = news['text'].apply(lambda x: clean_up_text(str(x)))

In [19]:
news['processed_text'] = news['processed_text'].apply(tokenize_text)

In [22]:
news['processed_text'] = news['processed_text'].apply(stem_and_lemmatize)

In [24]:
news['processed_text'] = news['processed_text'].apply(remove_stopwords)

In [26]:
words = []
for x in news['processed_text']:
    words += x

In [105]:
clean_up_text(news['text_processed'][0])

'begoña gómez quiere cambios más  contundentes  y profundos nunca antes en nuestra democracia se había producido una mudanza exprés del inquilino de la moncloa   en cuestión de horas  y gracias a la moción de censura  la familia rajoy fernández han tenido que empaquetar sus pertenencias y dejar atrás su residencia que lo ha sido en los últimos  años  ana rosa especula con el caramelito que le puede caer a los podemitas   a lo mejor sánchez les da radio televisión española     publicidad  llamando  con premura  a la puerta estaba pedro sánchez y la omnipresente e influyente ya primera dama  begoña gómez  el personal de la moncloa ha trabajado a destajo para preparar el cambio residencial  toalla  sábanas  colchones    es un cambio que la casa  hace por defecto  pero en esta ocasión va a haber algo más     según fuentes del palacio de la moncloa consultadas por periodista digital  begoña gómez quiere cambios más  contundentes  y profundos   la esposa de pedro sánchez habría quedado  horr

In [25]:
news.head()

Unnamed: 0,title,text,author,url,type,processed_text
0,La caprichosa y millonaria primera decisión de...,"Begoña Gómez quiere cambios más ""contundentes""...",SALOMON LUSH,https://www.periodistadigital.com/periodismo/t...,<class 'str'>,[begoñ gomez quier cambi mas contundent profun...
1,Santiago Abascal dice que perdona a las manife...,Santiago Abascal se ha mostrado generoso al op...,Ayudante de Becario,https://lavozdelbecario.es/santiago-abascal-di...,<class 'str'>,[santiag abascal mostr gener opin sobr mil fem...
2,El aborto será legal durante todo el embarazo ...,La norma avala el aborto tardío en cualquier m...,Actuall / Aci Prensa,https://www.actuall.com/vida/el-aborto-sera-le...,<class 'str'>,[norm aval abort tardi cualqui moment cas invi...
3,El Gobierno cambiará los cementerios españoles...,La naturaleza y la composición de los ritos fu...,Mediterráneo Digital,https://www.mediterraneodigital.com/espana/and...,<class 'str'>,[naturalez composicion rit funerari duel entie...
4,"Dos perros ""contraen matrimonio""","La concejal de Seguridad de Lorca, Murcia (Esp...",Redacción ACI Prensa,https://www.aciprensa.com/noticias/casan-a-dos...,<class 'str'>,[concejal segur lorc murci españ cas do perr p...


In [94]:
news.text_processed[0]

<function __main__.clean_up_text(text)>