# **PRE-PROCESSING AND CLEANING: SPANISH DATASET**

**IMPORT PACKAGES AND LIBRARIES**

In [None]:
import numpy as np
import pandas as pd
from nltk.corpus import stopwords
from sklearn import preprocessing

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


**LOAD THE DATA**

In [None]:
#LOAD THREE DATASETS
data_test=pd.read_csv('/content/drive/MyDrive/thesiss/sp_test.csv',encoding = "ISO-8859-1")
data_git=pd.read_csv('/content/drive/MyDrive/thesiss/sp_git.csv')
data_train=pd.read_csv('/content/drive/MyDrive/thesiss/sp_train.csv',encoding = "ISO-8859-1")


In [None]:
import nltk
nltk.download('punkt')
tokens = []
for row in data_train['Text']:
  for word in row:
      tokens.append(nltk.tokenize.word_tokenize(word))

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [None]:
print(len(tokens))

1544741


In [None]:
data=pd.concat((data_train,data_test),axis=0) #CONCATENATE SPANISHFAKENEWS CORPUS

In [None]:
data.drop(['Id','Topic','Source','Headline','Link'], axis=1, inplace=True) #DROP COLUMNS THAT WILL NOT BE USED

In [None]:
data

Unnamed: 0,Category,Text
0,Fake,"RAE INCLUIRÁ LA PALABRA ""LADY"" EN EL DICCIONAR..."
1,Fake,"La palabra ""haiga"", aceptada por la RAE La Rea..."
2,Fake,YORDI ROSADO ESCRIBIRÁ Y DISEÑARÁ LOS NUEVOS L...
3,True,UNAM capacitará a maestros para aprobar prueba...
4,Fake,Alerta: pretenden aprobar libros escolares con...
...,...,...
290,True,Meryl Streep disfrutó unos premios Oscar tan m...
291,Fake,EL PLAGIO DE LANA DEL REY A RADIOHEAD FUE ACOR...
292,True,Ricardo Arjona lanza una serie documental por ...
293,True,Raúl Araiza sorprende a Andrea Legarreta con b...


In [None]:
data['Category'].value_counts() 

True    491
Fake    480
Name: Category, dtype: int64

In [None]:
data['Category']=data['Category'].replace('Fake', '1')
data['Category']=data['Category'].replace('True', '0')

In [None]:
data

Unnamed: 0,Category,Text
0,1,"RAE INCLUIRÁ LA PALABRA ""LADY"" EN EL DICCIONAR..."
1,1,"La palabra ""haiga"", aceptada por la RAE La Rea..."
2,1,YORDI ROSADO ESCRIBIRÁ Y DISEÑARÁ LOS NUEVOS L...
3,0,UNAM capacitará a maestros para aprobar prueba...
4,1,Alerta: pretenden aprobar libros escolares con...
...,...,...
290,0,Meryl Streep disfrutó unos premios Oscar tan m...
291,1,EL PLAGIO DE LANA DEL REY A RADIOHEAD FUE ACOR...
292,0,Ricardo Arjona lanza una serie documental por ...
293,0,Raúl Araiza sorprende a Andrea Legarreta con b...


In [None]:
data_git[30:36]

Unnamed: 0,Category,Text
30,True,Unas 300 personas han sido desalojadas de un ...
31,False,Vaya manera de morir. Angelito. Intenta compl...
32,True,Vox evitará la foto con sus homólogos de la e...
33,True,Vox ha presentado este viernes una querella c...
34,True,Vox ya no quiere cerrar los canales autonómic...
35,False,¿Canciones de amor o títulos que promueven el...


In [None]:
# data_git['Category']=data_git['Category'].astype('object').replace('False','1')  #CHANGE BOOL TO OBJECT TYPE

In [None]:
data_git.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Category  2000 non-null   bool  
 1   Text      2000 non-null   object
dtypes: bool(1), object(1)
memory usage: 17.7+ KB


In [None]:
replace_vals={False:'1',True:'0'}   #CONVERT 'FALSE' LABEL TO 'FAKE LABEL' IN THE SECOND DATASET
data_git['Category']=data_git['Category'].map(replace_vals)

In [None]:
data_git['Category'].value_counts() #DISPLAY NUMBER OF FAKE AND TRUE NEWS

0    1000
1    1000
Name: Category, dtype: int64

In [None]:
data_git[30:40]

Unnamed: 0,Category,Text
30,0,Unas 300 personas han sido desalojadas de un ...
31,1,Vaya manera de morir. Angelito. Intenta compl...
32,0,Vox evitará la foto con sus homólogos de la e...
33,0,Vox ha presentado este viernes una querella c...
34,0,Vox ya no quiere cerrar los canales autonómic...
35,1,¿Canciones de amor o títulos que promueven el...
36,0,"""Alfredo, gracias por tanto. Tú, como nadie d..."
37,0,"""Nos sentimos muy orgullosos de haber salvado..."
38,1,"""Pensar que el reggaeton es el tipo de música..."
39,1,"""Sin ti no soy nada, una gota de lluvia mojan..."


In [None]:
datasets=pd.concat((data, data_git),axis=0)  #CONCATENATE BOTH CORPORA INTO A SINGLE ONE

In [None]:
datasets  #borrar

Unnamed: 0,Category,Text
0,1,"RAE INCLUIRÁ LA PALABRA ""LADY"" EN EL DICCIONAR..."
1,1,"La palabra ""haiga"", aceptada por la RAE La Rea..."
2,1,YORDI ROSADO ESCRIBIRÁ Y DISEÑARÁ LOS NUEVOS L...
3,0,UNAM capacitará a maestros para aprobar prueba...
4,1,Alerta: pretenden aprobar libros escolares con...
...,...,...
1995,0,El Consejo de Gobierno ha dado su visto bueno...
1996,0,Investigadores valencianos han desarrollado u...
1997,0,Los arrestados actuaban en coches y en establ...
1998,0,El Rey ha encargado este miércoles a Pedro Sá...


In [None]:
datasets['Text'].str.len().max()   ##???

15344

In [None]:
datasets['Text'].str.len().mean() 

926.9522046449007

In [None]:
datasets['Text'].str.len().min() 

36

In [None]:
datasets['Category'].value_counts()

0    1491
1    1480
Name: Category, dtype: int64

## **1. PRE-PROCESSING AND DATA CLEANING**

**1.1 CONVERT TEXT TO LOWERCASE**

In [None]:
datasets['clean_with_stopwords'] = datasets['Text'].str.lower()  # CONVERT TEXT TO LOWERCASE
#datasets

In [None]:
datasets

Unnamed: 0,Category,Text,clean_with_stopwords
0,1,"RAE INCLUIRÁ LA PALABRA ""LADY"" EN EL DICCIONAR...","rae incluirá la palabra ""lady"" en el diccionar..."
1,1,"La palabra ""haiga"", aceptada por la RAE La Rea...","la palabra ""haiga"", aceptada por la rae la rea..."
2,1,YORDI ROSADO ESCRIBIRÁ Y DISEÑARÁ LOS NUEVOS L...,yordi rosado escribirá y diseñará los nuevos l...
3,0,UNAM capacitará a maestros para aprobar prueba...,unam capacitará a maestros para aprobar prueba...
4,1,Alerta: pretenden aprobar libros escolares con...,alerta: pretenden aprobar libros escolares con...
...,...,...,...
1995,0,El Consejo de Gobierno ha dado su visto bueno...,el consejo de gobierno ha dado su visto bueno...
1996,0,Investigadores valencianos han desarrollado u...,investigadores valencianos han desarrollado u...
1997,0,Los arrestados actuaban en coches y en establ...,los arrestados actuaban en coches y en establ...
1998,0,El Rey ha encargado este miércoles a Pedro Sá...,el rey ha encargado este miércoles a pedro sá...


In [None]:
datasets.shape

(2971, 3)

In [None]:
datasets['Category'].value_counts()  #TOTAL NUMBER OF FAKE AND TRUE NEWS

0    1491
1    1480
Name: Category, dtype: int64

**1.2 REMOVE SPANISH STOPWORDS**

In [None]:
!pip install stop-words



In [None]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [None]:
stop_words = set(stopwords.words('spanish'))   #IMPORT SPANISH STOPWORDS

In [None]:
def remove_stop_words(sentence):   #REMOVE SPANISH STOPWORDS
    stop_words  = set(stopwords.words('spanish'))
    word_list=sentence.split()
    clean_sentence=' '.join([w for w in word_list if w not in stop_words])
    return(clean_sentence) 

In [None]:
extra_stop_words= ['él','si','la','los','las','lo','el','dc','mx','mc','ls','nlf','ay','ar','efe']
def remove_extra_stop_words(sentence):   #REMOVE SPANISH STOPWORDS
    word_list=sentence.split()
    clean_sentence=' '.join([w for w in word_list if w not in extra_stop_words])
    return(clean_sentence) 

In [None]:
datasets['final_clean'] = datasets['clean_with_stopwords'].apply(remove_stop_words)
datasets['final_clean'] = datasets['final_clean'].apply(remove_stop_words)

In [None]:
datasets

Unnamed: 0,Category,Text,clean_with_stopwords,final_clean
0,1,"RAE INCLUIRÁ LA PALABRA ""LADY"" EN EL DICCIONAR...",rae incluir el palabra lady en el diccionario ...,rae incluir palabra lady diccionario idioma es...
1,1,"La palabra ""haiga"", aceptada por la RAE La Rea...",el palabra haigar aceptado por el rae el real ...,palabra haigar aceptado rae real academia leng...
2,1,YORDI ROSADO ESCRIBIRÁ Y DISEÑARÁ LOS NUEVOS L...,yordi rosado escribir y diseñar el nuevo libro...,yordi rosado escribir diseñar nuevo libro text...
3,0,UNAM capacitará a maestros para aprobar prueba...,unam capacitar a maestro para aprobar prueba p...,unam capacitar maestro aprobar prueba pis maxi...
4,1,Alerta: pretenden aprobar libros escolares con...,alerta pretender aprobar libro escolar con con...,alerta pretender aprobar libro escolar conteni...
...,...,...,...,...
1995,0,El Consejo de Gobierno ha dado su visto bueno...,el consejo de gobierno haber dar su visto buen...,consejo gobierno haber dar visto bueno convoca...
1996,0,Investigadores valencianos han desarrollado u...,investigador valenciano haber desarrollar uno ...,investigador valenciano haber desarrollar inno...
1997,0,Los arrestados actuaban en coches y en establ...,el arrestado actuar en coche y en establecimie...,arrestado actuar coche establecimiento policia...
1998,0,El Rey ha encargado este miércoles a Pedro Sá...,el rey haber encargar este miercoles a pedro s...,rey haber encargar miercoles pedro sanchez pre...


**1.3 APPLY LEMMATIZATION**

In [None]:
!pip install -U pip setuptools wheel



In [None]:
!pip install -U spacy



In [None]:
!python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.2.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.2.0/es_core_news_sm-3.2.0-py3-none-any.whl (14.0 MB)
     |████████████████████████████████| 14.0 MB 17.8 MB/s            
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')


In [None]:
import spacy
from spacy import displacy

*LOAD MODEL FOR SPANISH LEMMATIZATION*

In [None]:
nlp = spacy.load('es_core_news_sm')  

*LEMMATIZING TEXT WITH AND WITHOUT STOPWORDS*

In [None]:
datasets['final_clean'] = datasets['final_clean'].apply(lambda x: " ".join([y.lemma_ for y in nlp(x)])) #LEMMATIZE TEXT

In [None]:
datasets['clean_with_stopwords'] = datasets['clean_with_stopwords'].apply(lambda x: " ".join([y.lemma_ for y in nlp(x)])) #LEMMATIZE TEXT

**1.4 DATA CLEANING**

In [None]:
import re 

def clean_data(text):
    
    text = re.sub(r'<br />', ' ', text) #Removes Html tag
    text = re.sub('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', ' ',text)
    text = text.replace('number', ' ')
    text = text.replace('email', ' ')
    text = text.replace('urls', ' ')
    text = text.replace('phone', ' ')
    text = text.replace('*dol*', ' ')
    text = text.replace('*eur*', ' ')
    text = re.sub(r'[^\ a-zá-ú]+', '', text)  #Removes non-alphabetic characters
    text = re.sub(r'^\s*|\s\s*', ' ', text).strip() #Removes extra whitespace, tabs
    text = re.sub(r'á', 'a', text)  #Converts accented vowels to their non-accented form
    text = re.sub(r'é', 'e', text)
    text = re.sub(r'í', 'i', text)
    text = re.sub(r'ó', 'o', text)
    text = re.sub(r'ú','u', text)
   # text = re.sub(r'ñ','n', text) #Converts consonant 'ñ' to 'n'

    return text

*APPLY DATA CLEANING TO THE TEXT WITH AND WITHOUT STOPWORDS*

In [None]:
datasets['final_clean'] = datasets['final_clean'].apply(lambda x: clean_data(x))
datasets['clean_with_stopwords'] = datasets['clean_with_stopwords'].apply(lambda x: clean_data(x))

In [None]:
datasets

Unnamed: 0,Category,Text,clean_with_stopwords,final_clean
0,1,"RAE INCLUIRÁ LA PALABRA ""LADY"" EN EL DICCIONAR...",rae incluir el palabra lady en el diccionario ...,rae incluir palabra lady diccionario idioma es...
1,1,"La palabra ""haiga"", aceptada por la RAE La Rea...",el palabra haigar aceptado por el rae el real ...,palabra haigar aceptado rae real academia leng...
2,1,YORDI ROSADO ESCRIBIRÁ Y DISEÑARÁ LOS NUEVOS L...,yordi rosado escribir y diseñar el nuevo libro...,yordi rosado escribir diseñar nuevo libro text...
3,0,UNAM capacitará a maestros para aprobar prueba...,unam capacitar a maestro para aprobar prueba p...,unam capacitar maestro aprobar prueba pis maxi...
4,1,Alerta: pretenden aprobar libros escolares con...,alerta pretender aprobar libro escolar con con...,alerta pretender aprobar libro escolar conteni...
...,...,...,...,...
1995,0,El Consejo de Gobierno ha dado su visto bueno...,el consejo de gobierno haber dar su visto buen...,consejo gobierno dado visto bueno convocatoria...
1996,0,Investigadores valencianos han desarrollado u...,investigador valenciano haber desarrollar uno ...,investigador valenciano desarrollado innovador...
1997,0,Los arrestados actuaban en coches y en establ...,el arrestado actuar en coche y en establecimie...,arrestado actuar coche establecimiento policia...
1998,0,El Rey ha encargado este miércoles a Pedro Sá...,el rey haber encargar este miercoles a pedro s...,rey encargado miercoles pedro sanchez presente...


*SAVE .CSV*

In [None]:
datasets.to_csv('Spanish_merged_dataa.csv')

In [None]:
datasets

Unnamed: 0,Category,Text,clean_with_stopwords,final_clean
0,1,"RAE INCLUIRÁ LA PALABRA ""LADY"" EN EL DICCIONAR...",rae incluir el palabra lady en el diccionario ...,rae incluir palabra lady diccionario idioma es...
1,1,"La palabra ""haiga"", aceptada por la RAE La Rea...",el palabra haigar aceptado por el rae el real ...,palabra haigar aceptado rae real academia leng...
2,1,YORDI ROSADO ESCRIBIRÁ Y DISEÑARÁ LOS NUEVOS L...,yordi rosado escribir y diseñar el nuevo libro...,yordi rosado escribir diseñar nuevo libro text...
3,0,UNAM capacitará a maestros para aprobar prueba...,unam capacitar a maestro para aprobar prueba p...,unam capacitar maestro aprobar prueba pis maxi...
4,1,Alerta: pretenden aprobar libros escolares con...,alerta pretender aprobar libro escolar con con...,alerta pretender aprobar libro escolar conteni...
...,...,...,...,...
1995,0,El Consejo de Gobierno ha dado su visto bueno...,el consejo de gobierno haber dar su visto buen...,consejo gobierno haber dar visto bueno convoca...
1996,0,Investigadores valencianos han desarrollado u...,investigador valenciano haber desarrollar uno ...,investigador valenciano haber desarrollar inno...
1997,0,Los arrestados actuaban en coches y en establ...,el arrestado actuar en coche y en establecimie...,arrestado actuar coche establecimiento policia...
1998,0,El Rey ha encargado este miércoles a Pedro Sá...,el rey haber encargar este miercoles a pedro s...,rey haber encargar miercoles pedro sanchez pre...


*NUMBER OF FAKE AND TRUE ARTICLES IN THE DATASET*

In [None]:
datasets['Category'].value_counts()

0    1491
1    1480
Name: Category, dtype: int64

In [None]:
complete_corpus=" ".join(list(data['final_clean'].values)) 

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

*TOTAL NUMBER OF WORDS*

In [None]:
total_words=len(nltk.word_tokenize(complete_corpus))
total_words

239951

*TOTAL NUMBER OFCHARACTERS PER ARTICLE*

In [None]:
data['final_clean'].str.len()

0       1759
1        705
2       1672
3        766
4       3674
        ... 
2966     160
2967     182
2968     155
2969     188
2970     189
Name: final_clean, Length: 2971, dtype: int64

*MEAN OF WORDS PER ARTICLE*

In [None]:
from nltk import word_tokenize
data['Text_tokenised'] = data['final_clean'].apply(word_tokenize)

In [None]:
data['length'] = data['Text_tokenised'].str.len()

In [None]:
maxlen = data['length'].mean()

In [None]:
maxlen

80.76438909458095