# Clean and feature extraction

## Load the datasets

1) Load the dataset, unify it and shuffle it.

3) Explore texts

In [2]:
import nltk

In [3]:
import itertools
import seaborn as sns
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline

from nltk.corpus import stopwords  
from nltk import word_tokenize
from nltk import sent_tokenize
from nltk.data import load  
from nltk.stem import SnowballStemmer  
from string import punctuation

In [5]:
df = pd.read_csv('~/TFM_fake_news_detector/data/corpus_spanish.csv')

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 971 entries, 0 to 970
Data columns (total 7 columns):
Id          971 non-null int64
Category    971 non-null object
Topic       971 non-null object
Source      971 non-null object
Headline    971 non-null object
Text        971 non-null object
Link        971 non-null object
dtypes: int64(1), object(6)
memory usage: 53.2+ KB


In [9]:
print(df['Text'].iloc[1])

Un paso más cerca de hacer los exámenes 'online'
Cerca de *NUMBER* universitarios de seis universidades europeas participan este cuatrimestre en la última fase de pruebas de un programa informático que permitirá certificar la identidad y autoría de los estudiantes cuando realizan actividades 'online' como exámenes, trabajos u otras pruebas.
El proyecto se encuentra en la tercera y última fase de pruebas piloto, en la que se pone a prueba la versión "final" del 'software', que incluye herramientas de reconocimiento facial, de voz y otras que capturan patrones de escritura, detectan plagio y analizan el lenguaje y el estilo de redacción, según sus impulsores.
En dicha fase hay una primera prueba en la que están participando *NUMBER* estudiantes y en la que la Universitat Oberta de Catalunya (UOC) participa con *NUMBER* estudiantes, *NUMBER* profesores y *NUMBER* docentes; y una segunda prueba en la que participarán entre *NUMBER* y *NUMBER* estudiantes. "El balance de las dos pruebas [an

In [11]:
def standardize_text(df, text_field):
    
    df[text_field] = df[text_field].str.replace(r"http\S+", "")
    df[text_field] = df[text_field].str.replace(r"http", "")
    df[text_field] = df[text_field].str.replace(r"@\S+", "")
    df[text_field] = df[text_field].str.replace(r"(?<!\n)\n(?!\n)", " ")
    df[text_field] = df[text_field].str.lower()
    
    return df
df_cleaned = standardize_text(df, "Text")

df_cleaned.head()

Unnamed: 0,Id,Category,Topic,Source,Headline,Text,Link
0,641,True,Entertainment,Caras,Sofía Castro y Alejandro Peña Pretelini: una i...,sofía castro y alejandro peña pretelini: una i...,https://www.caras.com.mx/sofia-castro-alejandr...
1,6,True,Education,Heraldo,Un paso más cerca de hacer los exámenes 'online',un paso más cerca de hacer los exámenes 'onlin...,https://www.heraldo.es/noticias/suplementos/he...
2,141,True,Science,HUFFPOST,Esto es lo que los científicos realmente piens...,esto es lo que los científicos realmente piens...,https://www.huffingtonpost.com/entry/scientist...
3,394,True,Politics,El financiero,Inicia impresión de boletas para elección pres...,inicia impresión de boletas para elección pres...,http://www.elfinanciero.com.mx/elecciones-2018...
4,139,True,Sport,FIFA,A *NUMBER* día del Mundial,a *number* día del mundial fifa.com sigue la c...,https://es.fifa.com/worldcup/news/a-1-dia-del-...


In [98]:
text1 = corpus_cleaned['Text'].iloc[1]

In [99]:
text1

'un paso más cerca de hacer los exámenes \'online\' cerca de *number* universitarios de seis universidades europeas participan este cuatrimestre en la última fase de pruebas de un programa informático que permitirá certificar la identidad y autoría de los estudiantes cuando realizan actividades \'online\' como exámenes, trabajos u otras pruebas. el proyecto se encuentra en la tercera y última fase de pruebas piloto, en la que se pone a prueba la versión "final" del \'software\', que incluye herramientas de reconocimiento facial, de voz y otras que capturan patrones de escritura, detectan plagio y analizan el lenguaje y el estilo de redacción, según sus impulsores. en dicha fase hay una primera prueba en la que están participando *number* estudiantes y en la que la universitat oberta de catalunya (uoc) participa con *number* estudiantes, *number* profesores y *number* docentes; y una segunda prueba en la que participarán entre *number* y *number* estudiantes. "el balance de las dos prue

## Average words per sentence and nº of sentences

In [56]:
sentence1 = "¡cristiano ronaldo acepta dos años de prisión! el luso tiene un acuerdo verbal con la fiscalía de madrid tras admitir cuatro delitos fiscales"
tokens = nltk.word_tokenize(sentence)

stop_words = stopwords.words('spanish')
filtered_tokens = [w for w in tokens if w not in stop_words]
print(filtered_tokens)

['cristiano', 'ronaldo', 'acepta', 'dos', 'años', 'prisión', 'luso', 'acuerdo', 'verbal', 'fiscalía', 'madrid', 'tras', 'admitir', 'cuatro', 'delitos', 'fiscales']


In [103]:
# count number of sentences
sent_tokens = nltk.sent_tokenize(text1)
number_sentences = len(sent_tokens)

# count number of words
word_tokens = nltk.word_tokenize(text1) 

# need to take out commas plus other stuff
stop_words = stopwords.words('spanish')
stop_words.extend(list(punctuation))
stop_words.extend(['¿', '¡', '"', '``']) 
stop_words.extend(map(str,range(10)))

# number of words
filtered_tokens = [i for i in word_tokens if i not in stop_words]
number_words = len(filtered_tokens)

# average sentence length are words divided by sentences
print('The average words per sentence is: %f' %(float(number_words)/number_sentences))

The average words per sentence is: 28.000000


## Average size words

In [104]:
# count number of sentences
sent_tokens = nltk.sent_tokenize(text1)
number_sentences = len(sent_tokens)

# count number of words
word_tokens = nltk.word_tokenize(text1) 

# need to take out commas plus other stuff
stop_words = stopwords.words('spanish')
stop_words.extend(list(punctuation))
stop_words.extend(['¿', '¡', '"', '``']) 
stop_words.extend(map(str,range(10)))

# number of words
filtered_tokens = [i for i in word_tokens if i not in stop_words]
number_words = len(filtered_tokens)

# number of characters
avg_word_size = sum(len(word) for word in filtered_tokens)/number_words

print('The number of sentences are: %d' %(number_sentences))
print('The average words per sentence is: %f' %(float(number_words)/number_sentences))
print('The average word size is: %d'% (avg_word_size))

The number of sentences are: 8
The average words per sentence is: 28.000000
The average word size is: 7


In [12]:
def standardize_text(df, text_field):
    
    df[text_field] = df[text_field].str.replace(r"http\S+", "")
    df[text_field] = df[text_field].str.replace(r"http", "")
    df[text_field] = df[text_field].str.replace(r"@\S+", "")
    df[text_field] = df[text_field].str.replace(r"(?<!\n)\n(?!\n)", " ")
    df[text_field] = df[text_field].str.lower()
    
    return df

Unnamed: 0,Id,Category,Topic,Source,Headline,Text,Link
0,641,True,Entertainment,Caras,Sofía Castro y Alejandro Peña Pretelini: una i...,sofía castro y alejandro peña pretelini: una i...,https://www.caras.com.mx/sofia-castro-alejandr...
1,6,True,Education,Heraldo,Un paso más cerca de hacer los exámenes 'online',un paso más cerca de hacer los exámenes 'onlin...,https://www.heraldo.es/noticias/suplementos/he...
2,141,True,Science,HUFFPOST,Esto es lo que los científicos realmente piens...,esto es lo que los científicos realmente piens...,https://www.huffingtonpost.com/entry/scientist...
3,394,True,Politics,El financiero,Inicia impresión de boletas para elección pres...,inicia impresión de boletas para elección pres...,http://www.elfinanciero.com.mx/elecciones-2018...
4,139,True,Sport,FIFA,A *NUMBER* día del Mundial,a *number* día del mundial fifa.com sigue la c...,https://es.fifa.com/worldcup/news/a-1-dia-del-...


In [13]:
df_cleaned = standardize_text(df, "Text")

In [17]:
df = pd.read_csv('~/TFM_fake_news_detector/data/corpus_spanish.csv')

df_cleaned = standardize_text(df, "Text")

n_sentences = []
avg_words_sent = []
avg_word_size = []

for i, row in df_cleaned.iterrows():
    text = df['Text'].iloc[i]
    
    sent_tokens = nltk.sent_tokenize(text)
    number_sentences = len(sent_tokens)
    
    word_tokens = nltk.word_tokenize(text)
    
    stop_words = stopwords.words('spanish')
    stop_words.extend(list(punctuation))
    stop_words.extend(['¿', '¡', '"', '``']) 
    stop_words.extend(map(str,range(10)))
    
    filtered_tokens = [i for i in word_tokens if i not in stop_words]
    number_words = len(filtered_tokens)
    
    avg_word_sentences = (float(number_words)/number_sentences)
    word_size = sum(len(word) for word in filtered_tokens) / number_words
    
    n_sentences.append(number_sentences)
    avg_words_sent.append(avg_word_sentences)
    avg_word_size.append(word_size)
    
df_cleaned['sentences'] = n_sentences
df_cleaned['avg_words_sent'] = avg_words_sent
df_cleaned['avg_word_size'] = avg_word_size

df_features = df_cleaned

df_features.head()

Unnamed: 0,Id,Category,Topic,Source,Headline,Text,Link,sentences,avg_words_sent,avg_word_size
0,641,True,Entertainment,Caras,Sofía Castro y Alejandro Peña Pretelini: una i...,sofía castro y alejandro peña pretelini: una i...,https://www.caras.com.mx/sofia-castro-alejandr...,5,24.6,6.398374
1,6,True,Education,Heraldo,Un paso más cerca de hacer los exámenes 'online',un paso más cerca de hacer los exámenes 'onlin...,https://www.heraldo.es/noticias/suplementos/he...,8,28.0,7.200893
2,141,True,Science,HUFFPOST,Esto es lo que los científicos realmente piens...,esto es lo que los científicos realmente piens...,https://www.huffingtonpost.com/entry/scientist...,29,16.103448,7.571734
3,394,True,Politics,El financiero,Inicia impresión de boletas para elección pres...,inicia impresión de boletas para elección pres...,http://www.elfinanciero.com.mx/elecciones-2018...,10,16.7,7.964072
4,139,True,Sport,FIFA,A *NUMBER* día del Mundial,a *number* día del mundial fifa.com sigue la c...,https://es.fifa.com/worldcup/news/a-1-dia-del-...,4,14.25,7.368421


In [18]:
df_features.to_csv('~/TFM_fake_news_detector/data/corpus_features.csv')