In [56]:
from pathlib import Path
import pandas as pd
import re
import nltk
from nltk.corpus import stopwords
from nltk.stem.wordnet import WordNetLemmatizer
from bs4 import BeautifulSoup
from unidecode import unidecode
from tqdm import tqdm_notebook as tqdm

In [57]:
def load_corpus(filename):
    corpus = Path(filename).read_text(encoding="utf8")
    return corpus

In [58]:
def load_corpora(filelist,author):
    files = []
    for file in filelist:
        location = "Corpora/train/"+file
        corpus = load_corpus(location)
        files.append(corpus)
    df = pd.DataFrame(files, columns=['Text'])
    df['Author'] = pd.Series([author for x in range(len(df.index))], index=df.index)
    return df

In [59]:
train_set_almada = [
    'AlmadaNegreiros/pg22615.txt',
    'AlmadaNegreiros/pg22730.txt',
    'AlmadaNegreiros/pg22801.txt',
    'AlmadaNegreiros/pg22802.txt',
    'AlmadaNegreiros/pg22969.txt',
    'AlmadaNegreiros/pg23133.txt',
    'AlmadaNegreiros/pg23620.txt',
    'AlmadaNegreiros/pg23879.txt',
    'AlmadaNegreiros/pg23961.txt'
]

In [60]:
corpora_almada = load_corpora(train_set_almada, 'Almada Negreiros')
corpora_almada.shape

(9, 2)

In [61]:
train_set_camilo = [
    'CamiloCasteloBranco/24691-0.txt',
    'CamiloCasteloBranco/34756-0.txt',
    'CamiloCasteloBranco/pg16425.txt',
    'CamiloCasteloBranco/pg17927.txt',
    'CamiloCasteloBranco/pg19375.txt',
    'CamiloCasteloBranco/pg21406.txt',
    'CamiloCasteloBranco/pg23203.txt',
    'CamiloCasteloBranco/pg23345.txt',
    'CamiloCasteloBranco/pg23346.txt',
    'CamiloCasteloBranco/pg24339.txt',
    'CamiloCasteloBranco/pg25844.txt',
    'CamiloCasteloBranco/pg26017.txt',
    'CamiloCasteloBranco/pg26103.txt',
    'CamiloCasteloBranco/pg26110.txt',
    'CamiloCasteloBranco/pg26988.txt',
    'CamiloCasteloBranco/pg27364.txt',
    'CamiloCasteloBranco/pg27541.txt',
    'CamiloCasteloBranco/pg28310.txt',
    'CamiloCasteloBranco/pg31694.txt',
    'CamiloCasteloBranco/pg33788.txt',
]

corpora_camilo = load_corpora(train_set_camilo, 'Camilo Castelo Branco')
corpora_camilo.shape

(20, 2)

In [69]:
train_set_eca = [
    'EcaDeQueiros/pg18220.txt',
    'EcaDeQueiros/pg25641.txt',
    'EcaDeQueiros/pg27637.txt',
    'EcaDeQueiros/pg31347.txt',
    'EcaDeQueiros/pg40409.txt'
]

corpora_eca = load_corpora(train_set_eca, 'Eca de Queiros')
corpora_eca.shape

(5, 2)

In [63]:
train_set_rodrigues_santos = [
    'JoseRodriguesSantos/A Filha Do Capitao - Jose Rodrigues dos Santos.txt',
    'JoseRodriguesSantos/A Formula De Deus - Jose Rodrigues dos Santos.txt',
    'JoseRodriguesSantos/A Mao do Diabo - Jose Rodrigues dos Santos.txt',
    'JoseRodriguesSantos/A Vida Num Sopro - Jose Rodrigues dos Santos.txt',
    'JoseRodriguesSantos/Furia Divina - Jose Rodrigues dos Santos.txt',
    'JoseRodriguesSantos/O Anjo Branco - Jose Rodrigues dos Santos.txt',
    'JoseRodriguesSantos/O Setimo Selo - Jose Rodrigues dos Santos.txt',
    'JoseRodriguesSantos/O ultimo Segredo - Jose Rodrigues dos Santos.txt'
]

corpora_rodrigues_santos = load_corpora(train_set_rodrigues_santos, 'Jose Rodrigues dos Santos')
corpora_rodrigues_santos.shape

(8, 2)

In [64]:
train_set_saramago = [
    'JoseSaramago/A Caverna - Jose Saramago.txt',
    'JoseSaramago/As Intermitencias da Morte - Jose Saramago.txt',
    'JoseSaramago/Caim - Jose Saramago.txt',
    'JoseSaramago/Claraboia - Jose Saramago.txt',
    'JoseSaramago/Ensaio Sobre a Cegueira - Jose Saramago.txt',
    'JoseSaramago/Historia Do Cerco De Lisboa - Jose Saramago.txt',
    'JoseSaramago/Memorial Do Convento - Jose Saramago.txt',
    'JoseSaramago/O Ano Da Morte De Ricardo Reis - Jose Saramago.txt',
    'JoseSaramago/O Conto Da Ilha Desconhecida - Jose Saramago.txt',
    'JoseSaramago/O Homem Duplicado - Jose Saramago.txt',
    'JoseSaramago/Terra Do Pecado - Jose Saramago.txt',
    'JoseSaramago/Viagem Do Elefante - Jose Saramago.txt'
]

corpora_saramago = load_corpora(train_set_saramago, 'Jose Saramago')
corpora_saramago.shape

(12, 2)

In [65]:
train_set_luisa = [
    'LuisaMarquesSilva/ABelaHistoria.txt',
    'LuisaMarquesSilva/acabouSe.txt',
    'LuisaMarquesSilva/Botão.txt',
    'LuisaMarquesSilva/controlz.txt',
    'LuisaMarquesSilva/emedo.txt',
    'LuisaMarquesSilva/Lisboa2050.txt',
    'LuisaMarquesSilva/passeioInferno.txt',
    'LuisaMarquesSilva/rapsodiasemdo.txt',
    'LuisaMarquesSilva/UltimaHistoria.txt'
]

corpora_luisa = load_corpora(train_set_luisa, 'Luisa Marques Silva')
corpora_luisa.shape

(9, 2)

In [68]:
corpora = pd.concat([corpora_almada, corpora_camilo, corpora_eca, corpora_rodrigues_santos, corpora_saramago, corpora_luisa]).reset_index(drop = True)
corpora.shape

(63, 2)

In [33]:
"""
from unidecode import unidecode

corpora['Text'] = corpora['Text'].apply(lambda text: unidecode(text))

corpora
"""

"\nfrom unidecode import unidecode\n\ncorpora['Text'] = corpora['Text'].apply(lambda text: unidecode(text))\n\ncorpora\n"

In [70]:
"""
char = ''

for text in corpora['Text']:
    characters = list(set(text))
    for c in characters:
        char += c
    #print(list(set(text)))
    
print(list(set(char)))
"""

"\nchar = ''\n\nfor text in corpora['Text']:\n    characters = list(set(text))\n    for c in characters:\n        char += c\n    #print(list(set(text)))\n    \nprint(list(set(char)))\n"

In [38]:
"""
rep = {'\n':' ',
       '#':'',
       '+':'',
       '-':' ',
       '_':'',
       '<':'',
       '>':'',
       '=':'',
       '*':'',
       '\\':'',
       '|':'',
       '~':'',
       '[':'',
       ']':'',
       "'":' ',
       '"':'',
       '  ':' '
      }

for i,j in rep.items():
    corpora['Text'] = corpora['Text'].apply(lambda text: text.replace(i,j))

#print(corpora.loc[0,'Text'])

corpora
"""

'\nrep = {\'\n\':\' \',\n       \'#\':\'\',\n       \'+\':\'\',\n       \'-\':\' \',\n       \'_\':\'\',\n       \'<\':\'\',\n       \'>\':\'\',\n       \'=\':\'\',\n       \'*\':\'\',\n       \'\\\':\'\',\n       \'|\':\'\',\n       \'~\':\'\',\n       \'[\':\'\',\n       \']\':\'\',\n       "\'":\' \',\n       \'"\':\'\',\n       \'  \':\' \'\n      }\n\nfor i,j in rep.items():\n    corpora[\'Text\'] = corpora[\'Text\'].apply(lambda text: text.replace(i,j))\n\n#print(corpora.loc[0,\'Text\'])\n\ncorpora\n'

In [39]:
#print(corpora['Text'][0])

In [71]:
def preprocessing(dataframe):
    processed_corpus = []
    stop_words = set(stopwords.words("portuguese"))
    for i in tqdm(range(len(dataframe))):
        text = dataframe['Text'][i]
        
        #Remove accents
        text = unidecode(text)
        
        #Remove specific punctuations
        #rep = {'\n':' ','#':'','+':'','-':' ','_':'','<':'','>':'','=':'','*':'','\\':'','|':'','~':'','[':'',']':'',
               #"'":' ','"':'','  ':' '}
        #remove punctuation 
        text = re.sub('[^a-zA-Z]', ' ', text) 

        #for i,j in rep.items():
            #text = text.replace(i,j)
        
        #Convert to lowercase
        text = text.lower()

        #remove tags
        text = BeautifulSoup(text).get_text()
        
        # Convert to list from string
        text = text.split()

        #Lemmatisation
        lem = WordNetLemmatizer()
        text = [lem.lemmatize(word) for word in text if not word in stop_words] 
        text = " ".join(text)
        processed_corpus.append(text)
    return processed_corpus

In [72]:
cleaned_corpora = preprocessing(corpora)

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  after removing the cwd from sys.path.


HBox(children=(FloatProgress(value=0.0, max=63.0), HTML(value='')))




In [73]:
corpora['Clean Text'] = pd.Series(cleaned_corpora, index = corpora.index)
corpora

Unnamed: 0,Text,Author,Clean Text
0,Title: A Scena do Odio\n\nAuthor: José de Alma...,Almada Negreiros,title scena odio author jose almada negreiros ...
1,Title: O Jardim da Pierrette\n\nAuthor: José d...,Almada Negreiros,title jardim pierrette author jose almada negr...
2,\n\nTitle: A Invenção do Dia Claro\n\nAuthor: ...,Almada Negreiros,title invencao dia claro author jose almada ne...
3,\nTitle: Litoral\n A Amadeo de Souza Car...,Almada Negreiros,title litoral amadeo souza cardozo author jose...
4,\n\n\nEXPOSIÇÃO\n\n+amadeo\nde souza\ncardoso+...,Almada Negreiros,exposicao amadeo souza cardoso liga naval lisb...
...,...,...,...
58,Título\ne-medo\n\nAutora (inspiradíssima)\nLuí...,Luisa Marques Silva,titulo medo autora inspiradissima luisa marque...
59,"LISBOA 2050\nLisboa, ano de 2050. Um Agosto tã...",Luisa Marques Silva,lisboa lisboa ano agosto tao gelado ha vinte a...
60,Título\nUm passeio pelo inferno\n\nAutora\nLuí...,Luisa Marques Silva,titulo passeio inferno autora luisa marque sil...
61,Título\nRapsódia sem dó (maior)\n\nAutora\nLuí...,Luisa Marques Silva,titulo rapsodia maior autora luisa marque silv...


In [75]:
word_count = corpora['Clean Text'].apply(lambda x: len(str(x).split(" ")))
word_count_2 = corpora['Text'].apply(lambda x: len(str(x).split(" ")))
corpora['word_count_text'] = word_count_2
corpora['word_count_clean'] = word_count
corpora

Unnamed: 0,Text,Author,Clean Text,word_count_clean,word_count_text
0,Title: A Scena do Odio\n\nAuthor: José de Alma...,Almada Negreiros,title scena odio author jose almada negreiros ...,1139,1456
1,Title: O Jardim da Pierrette\n\nAuthor: José d...,Almada Negreiros,title jardim pierrette author jose almada negr...,203,280
2,\n\nTitle: A Invenção do Dia Claro\n\nAuthor: ...,Almada Negreiros,title invencao dia claro author jose almada ne...,3439,6212
3,\nTitle: Litoral\n A Amadeo de Souza Car...,Almada Negreiros,title litoral amadeo souza cardozo author jose...,476,1225
4,\n\n\nEXPOSIÇÃO\n\n+amadeo\nde souza\ncardoso+...,Almada Negreiros,exposicao amadeo souza cardoso liga naval lisb...,354,521
...,...,...,...,...,...
58,Título\ne-medo\n\nAutora (inspiradíssima)\nLuí...,Luisa Marques Silva,titulo medo autora inspiradissima luisa marque...,5466,8696
59,"LISBOA 2050\nLisboa, ano de 2050. Um Agosto tã...",Luisa Marques Silva,lisboa lisboa ano agosto tao gelado ha vinte a...,1968,3443
60,Título\nUm passeio pelo inferno\n\nAutora\nLuí...,Luisa Marques Silva,titulo passeio inferno autora luisa marque sil...,629,1040
61,Título\nRapsódia sem dó (maior)\n\nAutora\nLuí...,Luisa Marques Silva,titulo rapsodia maior autora luisa marque silv...,2511,4176


In [76]:
corpora.groupby(['Author']).sum()

Unnamed: 0_level_0,word_count_clean,word_count_text
Author,Unnamed: 1_level_1,Unnamed: 2_level_1
Almada Negreiros,27887,43610
Camilo Castelo Branco,454886,749872
Eca de Queiros,272083,438367
Jose Rodrigues dos Santos,668358,1131971
Jose Saramago,583250,1006571
Luisa Marques Silva,24114,41214


In [43]:
import re 
def number_token(text):
    """
    Function that receives a string of text and returns the string with 
    the number formats within it substituted by the token #COST
    """
    text = re.sub('(\d+|\d+.\d+)(| )(\$)', '#COST', text)
    tokenized_cost = re.sub('(\$)(| )(\d+.\d+.\d+)', "#COST", text)
    
    return tokenized_cost