In [1]:
import pandas as pd
import os
import numpy as np
from nltk.corpus import stopwords
from nltk.stem.wordnet import WordNetLemmatizer
from nltk.tokenize import word_tokenize
from nltk.corpus import wordnet
from nltk.stem import SnowballStemmer
from bs4 import BeautifulSoup
from tqdm import tqdm
import re 
import string

In [2]:
source_dir = "corpus\\"
target_dir = "preprocessed_corpus\\"
dir_list = next(os.walk(source_dir))[1]

In [10]:
stop = set(stopwords.words('english'))
exclude = set(string.punctuation)
lemma = WordNetLemmatizer()
snowball_stemmer = SnowballStemmer('english')

In [11]:
def clean(text_list, lemmatize, stemmer):
    """
    Function that a receives a list of strings and preprocesses it.
    
    :param text_list: List of strings.
    :param lemmatize: Tag to apply lemmatization if True.
    :param stemmer: Tag to apply the stemmer if True.
    """
    updates = []
    for j in tqdm(range(len(text_list))):
        
        text = text_list[j]
        
        #LOWERCASE TEXT
        text = text.lower()
        
        #REMOVE NUMERICAL DATA AND PUNCTUATION
        text = re.sub("[^a-zA-Z]", ' ', text)
        
        #REMOVE TAGS
        text = BeautifulSoup(text).get_text()
        
        if lemmatize:
            text = " ".join(lemma.lemmatize(word) for word in text.split())
        
        if stemmer:
            text = " ".join(snowball_stemmer.stem(word) for word in text.split())
        
        updates.append(text)
        
    return updates



In [12]:
def create_dir(path):
    if not os.path.exists(path):
        os.makedirs(path)

In [13]:
def update_df(dataframe, list_updated, column_name):
    dataframe.update(pd.DataFrame({column_name: list_updated}))

In [17]:
for d in dir_list:
    csv_path = source_dir + d + "\scores.csv"
    df = pd.read_csv(csv_path)
    update_df(df,clean(df['reference'],False,True),'reference')
    update_df(df,clean(df['translation'],False,True),'translation')
    create_dir(target_dir + d)
    df.to_csv(target_dir + d + "\\scores.csv" )

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11585/11585 [00:11<00:00, 1029.71it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11585/11585 [00:10<00:00, 1072.89it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 21704/21704 [00:21<00:00, 989.70it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████