# Preprocessing Step

In [124]:
import os
import pandas as pd
import numpy as np
import re
import shutil

In [133]:
DATA_FOLDER = "../data/data_fake_news/"
PREPROCESSED_DATA = f"{DATA_FOLDER}/preprocessed_data.csv"

## File List

In [61]:
all_files = [ 
    f"{DATA_FOLDER}{folder}/{file}" for folder in os.listdir(DATA_FOLDER) 
         for file in os.listdir(f"{DATA_FOLDER}/{folder}") 
]

In [121]:
def find_title(string: str) -> str:
    
    pattern = re.compile(r'^[VvF]\s*-\s*(.+)\.(txt|TXT)$')
    match = pattern.match(string)
    if match:
        return match.group(1)

## Metadata dataframe

In [138]:
meta_data = pd.DataFrame(
    [
        {
         "label": news[28],
         "title": find_title(news[28:]),
         "filename": news
        }
        for news in all_files
    ]
)
meta_data.reset_index(inplace=True)
meta_data["index"] = "n" + meta_data["index"].astype(str)
meta_data["title_length"] = meta_data["title"].apply(lambda x: len(x))
meta_data["label"] = np.where(meta_data["label"] == "v", "V", meta_data["label"])
meta_data

Unnamed: 0,index,label,title,filename,title_length
0,n0,F,Hacer gargaras con agua y sal elimina el coron...,../data/data_fake_news/fake/F - Hacer gargaras...,52
1,n1,F,Helicópteros no rociarán desinfectante contra ...,../data/data_fake_news/fake/F - Helicópteros n...,68
2,n2,F,Nostradamus predijo el COVID19 y lo describió ...,../data/data_fake_news/fake/F - Nostradamus pr...,59
3,n3,F,Nostradamus predijo el COVID19 y lo describió ...,../data/data_fake_news/fake/F - Nostradamus pr...,60
4,n4,F,Sostener la respiración por 10 segundos no ayu...,../data/data_fake_news/fake/F - Sostener la re...,85
...,...,...,...,...,...
528,n528,V,"_Unidos para seguir cuidándote_, la nueva estr...",../data/data_fake_news/true/V-_Unidos para seg...,68
529,n529,V,_Vacuna contra covid en EE. UU. no estará disp...,../data/data_fake_news/true/V-_Vacuna contra c...,68
530,n530,V,"‘Datos del covid tienen rezagos, no falseamien...",../data/data_fake_news/true/V-‘Datos del covid...,69
531,n531,V,‘Este virus muestra cuán vulnerables somos’_Pe...,../data/data_fake_news/true/V-‘Este virus mues...,60


## Standardizing filenames

In [127]:
for idx, row in meta_data.iterrows():
    preprocessed_dir = f"{DATA_FOLDER}/preprocessed"
    if not os.path.isdir(preprocessed_dir):
        os.mkdir(preprocessed_dir)
    shutil.copy(row["filename"], f"{preprocessed_dir}/{row['index']}.txt")

In [140]:
def read_news(filepath: str) -> str:
    with open(filepath, "r") as f:
        text = f.read()
    return text

In [141]:
meta_data["news"] = meta_data["filename"].apply(lambda x: read_news(filepath=x))
meta_data

Unnamed: 0,index,label,title,filename,title_length,news
0,n0,F,Hacer gargaras con agua y sal elimina el coron...,../data/data_fake_news/fake/F - Hacer gargaras...,52,Beber mucha agua y hacer gárgaras con agua cal...
1,n1,F,Helicópteros no rociarán desinfectante contra ...,../data/data_fake_news/fake/F - Helicópteros n...,68,Helicópteros no rociarán desinfectante contra ...
2,n2,F,Nostradamus predijo el COVID19 y lo describió ...,../data/data_fake_news/fake/F - Nostradamus pr...,59,Nostradamus predijo el COVID19 y lo describió ...
3,n3,F,Nostradamus predijo el COVID19 y lo describió ...,../data/data_fake_news/fake/F - Nostradamus pr...,60,Nostradamus predijo el COVID19 y lo describió ...
4,n4,F,Sostener la respiración por 10 segundos no ayu...,../data/data_fake_news/fake/F - Sostener la re...,85,Sostener la respiración por 10 segundos no ayu...
...,...,...,...,...,...,...
528,n528,V,"_Unidos para seguir cuidándote_, la nueva estr...",../data/data_fake_news/true/V-_Unidos para seg...,68,"'Unidos para seguir cuidándote', la nueva estr..."
529,n529,V,_Vacuna contra covid en EE. UU. no estará disp...,../data/data_fake_news/true/V-_Vacuna contra c...,68,'Vacuna contra covid en EE. UU. no estará disp...
530,n530,V,"‘Datos del covid tienen rezagos, no falseamien...",../data/data_fake_news/true/V-‘Datos del covid...,69,"‘Datos del covid tienen rezagos, no falseamien..."
531,n531,V,‘Este virus muestra cuán vulnerables somos’_Pe...,../data/data_fake_news/true/V-‘Este virus mues...,60,‘Este virus muestra cuán vulnerables somos’: P...


## Writing structured data

In [142]:
meta_data.to_csv(PREPROCESSED_DATA, sep="\t", index=False)

## Validating data reading

In [143]:
pd.read_csv(PREPROCESSED_DATA, sep="\t")

Unnamed: 0,index,label,title,filename,title_length,news
0,n0,F,Hacer gargaras con agua y sal elimina el coron...,../data/data_fake_news/fake/F - Hacer gargaras...,52,Beber mucha agua y hacer gárgaras con agua cal...
1,n1,F,Helicópteros no rociarán desinfectante contra ...,../data/data_fake_news/fake/F - Helicópteros n...,68,Helicópteros no rociarán desinfectante contra ...
2,n2,F,Nostradamus predijo el COVID19 y lo describió ...,../data/data_fake_news/fake/F - Nostradamus pr...,59,Nostradamus predijo el COVID19 y lo describió ...
3,n3,F,Nostradamus predijo el COVID19 y lo describió ...,../data/data_fake_news/fake/F - Nostradamus pr...,60,Nostradamus predijo el COVID19 y lo describió ...
4,n4,F,Sostener la respiración por 10 segundos no ayu...,../data/data_fake_news/fake/F - Sostener la re...,85,Sostener la respiración por 10 segundos no ayu...
...,...,...,...,...,...,...
528,n528,V,"_Unidos para seguir cuidándote_, la nueva estr...",../data/data_fake_news/true/V-_Unidos para seg...,68,"'Unidos para seguir cuidándote', la nueva estr..."
529,n529,V,_Vacuna contra covid en EE. UU. no estará disp...,../data/data_fake_news/true/V-_Vacuna contra c...,68,'Vacuna contra covid en EE. UU. no estará disp...
530,n530,V,"‘Datos del covid tienen rezagos, no falseamien...",../data/data_fake_news/true/V-‘Datos del covid...,69,"‘Datos del covid tienen rezagos, no falseamien..."
531,n531,V,‘Este virus muestra cuán vulnerables somos’_Pe...,../data/data_fake_news/true/V-‘Este virus mues...,60,‘Este virus muestra cuán vulnerables somos’: P...
