In [1]:
from pathlib import Path
import pandas as pd
import re
import nltk
from nltk.corpus import stopwords
from nltk.stem.wordnet import WordNetLemmatizer
from bs4 import BeautifulSoup
from unidecode import unidecode
from tqdm import tqdm_notebook as tqdm

In [2]:
def load_corpus(filename):
    corpus = Path(filename).read_text(encoding="utf8")
    return corpus

In [3]:
def load_corpora(filelist,author):
    files = []
    for file in filelist:
        location = "C:/Users/Mafalda/Text Mining/textMiningProject/Corpora/train/"+file
        corpus = load_corpus(location)
        files.append(corpus)
    df = pd.DataFrame(files, columns=['Text'])
    df['Author'] = pd.Series([author for x in range(len(df.index))], index=df.index)
    return df

In [4]:
train_set_almada = [
    'AlmadaNegreiros/pg22615.txt',
    'AlmadaNegreiros/pg22730.txt',
    'AlmadaNegreiros/pg22801.txt',
    'AlmadaNegreiros/pg22802.txt',
    'AlmadaNegreiros/pg22969.txt',
    'AlmadaNegreiros/pg23133.txt',
    'AlmadaNegreiros/pg23620.txt',
    'AlmadaNegreiros/pg23879.txt',
    'AlmadaNegreiros/pg23961.txt'
]

In [5]:
corpora_almada = load_corpora(train_set_almada, 'Almada Negreiros')
corpora_almada

Unnamed: 0,Text,Author
0,Title: A Scena do Odio\n\nAuthor: José de Alma...,Almada Negreiros
1,Title: O Jardim da Pierrette\n\nAuthor: José d...,Almada Negreiros
2,\n\nTitle: A Invenção do Dia Claro\n\nAuthor: ...,Almada Negreiros
3,\nTitle: Litoral\n A Amadeo de Souza Car...,Almada Negreiros
4,\n\n\nEXPOSIÇÃO\n\n+amadeo\nde souza\ncardoso+...,Almada Negreiros
5,\n\n*JOSÉ DE ALMADA-NEGREIROS*\n\n\n*K4\n\no q...,Almada Negreiros
6,"\n\n*""ORPHEU""*\n\nREVISTA TRIMESTRAL DE LITERA...",Almada Negreiros
7,\n\n+a ENGOMADEIRA+\n\nNOVELA VULGAR LISBOETA\...,Almada Negreiros
8,\n+MANIFESTO+\n\n+ANTI-DANTAS+\n\nE\n\nPOR EXT...,Almada Negreiros


In [6]:
train_set_camilo = [
    'CamiloCasteloBranco/24691-0.txt',
    'CamiloCasteloBranco/34756-0.txt',
    'CamiloCasteloBranco/pg16425.txt',
    'CamiloCasteloBranco/pg17927.txt',
    'CamiloCasteloBranco/pg19375.txt',
    'CamiloCasteloBranco/pg21406.txt',
    'CamiloCasteloBranco/pg23203.txt',
    'CamiloCasteloBranco/pg23345.txt',
    'CamiloCasteloBranco/pg23346.txt',
    'CamiloCasteloBranco/pg24339.txt',
    'CamiloCasteloBranco/pg25844.txt',
    'CamiloCasteloBranco/pg26017.txt',
    'CamiloCasteloBranco/pg26103.txt',
    'CamiloCasteloBranco/pg26110.txt',
    'CamiloCasteloBranco/pg26988.txt',
    'CamiloCasteloBranco/pg27364.txt',
    'CamiloCasteloBranco/pg27541.txt',
    'CamiloCasteloBranco/pg28310.txt',
    'CamiloCasteloBranco/pg31694.txt',
    'CamiloCasteloBranco/pg33788.txt',
]

corpora_camilo = load_corpora(train_set_camilo, 'Camilo Castelo Branco')
corpora_camilo

Unnamed: 0,Text,Author
0,O vinho do Porto\n\nPROCESSO D'UMA BESTIALIDAD...,Camilo Castelo Branco
1,\nLIVRO DE CONSOLAÇÃO\n\nROMANCE\n\nPOR\n\nCAM...,Camilo Castelo Branco
2,AMOR DE PERDIÇÃO\n\n\n(MEMORIAS D'UMA FAMILIA)...,Camilo Castelo Branco
3,A QUEDA D'UM ANJO\n\nROMANCE\n\nPOR\n\nCAMILLO...,Camilo Castelo Branco
4,\n\nA SENHORA RATTAZZI\n\nPOR\n\nCAMILLO CASTE...,Camilo Castelo Branco
5,\nOBRAS DE CAMILLO CASTELLO BRANCO\n\n_Novella...,Camilo Castelo Branco
6,SCENAS CONTEMPORANEAS\n\nPOR\n\nCAMILLO CASTEL...,Camilo Castelo Branco
7,A GRATIDÃO.\n\nROMANCE.\n\n\nI.\n\nEstavamos n...,Camilo Castelo Branco
8,O ARREPENDIMENTO.\n\nROMANCE\n\n\nEm tempos da...,Camilo Castelo Branco
9,SUICIDA\n\n\nPORTO Typographia de A. J. da Sil...,Camilo Castelo Branco


In [7]:
train_set_eca = [
    'EcaDeQueiros/pg18220.txt',
    'EcaDeQueiros/pg25641.txt',
    'EcaDeQueiros/pg27637.txt',
    'EcaDeQueiros/pg31347.txt',
    'EcaDeQueiros/pg40409.txt'
]

corpora_eca = load_corpora(train_set_eca, 'Eca de Queiros')
corpora_eca

Unnamed: 0,Text,Author
0,\nA CIDADE E AS SERRAS\n\n\n\n\nA CIDADE E AS ...,Eca de Queiros
1,Cartas de Inglaterra\n\n\nPorto LIVRARIA CHARD...,Eca de Queiros
2,\nA CORRESPONDENCIA\n\nDE\n\nFRADIQUE MENDES\n...,Eca de Queiros
3,\nEÇA DE QUEIROZ\n\nCONTOS\n\n\nTERCEIRA EDIÇÃ...,Eca de Queiros
4,\nEÇA DE QUEIROZ\n\nOS MAIAS\n\nEPISODIOS DA V...,Eca de Queiros


In [8]:
train_set_rodrigues_santos = [
    'JoseRodriguesSantos/A Filha Do Capitao - Jose Rodrigues dos Santos.txt',
    'JoseRodriguesSantos/A Formula De Deus - Jose Rodrigues dos Santos.txt',
    'JoseRodriguesSantos/A Mao do Diabo - Jose Rodrigues dos Santos.txt',
    'JoseRodriguesSantos/A Vida Num Sopro - Jose Rodrigues dos Santos.txt',
    'JoseRodriguesSantos/Furia Divina - Jose Rodrigues dos Santos.txt',
    'JoseRodriguesSantos/O Anjo Branco - Jose Rodrigues dos Santos.txt',
    'JoseRodriguesSantos/O Setimo Selo - Jose Rodrigues dos Santos.txt',
    'JoseRodriguesSantos/O ultimo Segredo - Jose Rodrigues dos Santos.txt'
]

corpora_rodrigues_santos = load_corpora(train_set_rodrigues_santos, 'Jose Rodrigues dos Santos')
corpora_rodrigues_santos

Unnamed: 0,Text,Author
0,José Rodrigues dos Santos\n\nA Filha do Capitã...,Jose Rodrigues dos Santos
1,José Rodrigues dos Santos A FÓRMULA DE DEUS\n\...,Jose Rodrigues dos Santos
2,A MÃO DO D I A B O r o m a n c e\n\n\n\nNós so...,Jose Rodrigues dos Santos
3,I\nO sol jorrava por todas as janelas em casca...,Jose Rodrigues dos Santos
4,Prólogo\n\nAs luzes dos faróis rasgaram a noit...,Jose Rodrigues dos Santos
5,JOSÉ RODRIGUES DOS SANTOS\n\nO ANJO BRANCO\n\n...,Jose Rodrigues dos Santos
6,O SÉTIMO SELO romance\n\n\n © José Rodrigues d...,Jose Rodrigues dos Santos
7,"OBRAS DO AUTOR\n\nENSAIO Comunicação, Difusão ...",Jose Rodrigues dos Santos


In [9]:
train_set_saramago = [
    'JoseSaramago/A Caverna - Jose Saramago.txt',
    'JoseSaramago/As Intermitencias da Morte - Jose Saramago.txt',
    'JoseSaramago/Caim - Jose Saramago.txt',
    'JoseSaramago/Claraboia - Jose Saramago.txt',
    'JoseSaramago/Ensaio Sobre a Cegueira - Jose Saramago.txt',
    'JoseSaramago/Historia Do Cerco De Lisboa - Jose Saramago.txt',
    'JoseSaramago/Memorial Do Convento - Jose Saramago.txt',
    'JoseSaramago/O Ano Da Morte De Ricardo Reis - Jose Saramago.txt',
    'JoseSaramago/O Conto Da Ilha Desconhecida - Jose Saramago.txt',
    'JoseSaramago/O Homem Duplicado - Jose Saramago.txt',
    'JoseSaramago/Terra Do Pecado - Jose Saramago.txt',
    'JoseSaramago/Viagem Do Elefante - Jose Saramago.txt'
]

corpora_saramago = load_corpora(train_set_saramago, 'Jose Saramago')
corpora_saramago

Unnamed: 0,Text,Author
0,José Saramago\n\nA caverna\n\n\nRomance Novemb...,Jose Saramago
1,José Saramago As intermitências da morte\nComp...,Jose Saramago
2,JOSÉ SARAMAGO\n\nCAIM\n\nCAMINHO\n\nBadana da ...,Jose Saramago
3,José Saramago\n\n(Prêmio Nobel de Literatura)\...,Jose Saramago
4,Livro dos Conselhos\n\n\n\nO disco amarelo ilu...,Jose Saramago
5,José Saramago\n\nHistória do cerco de Lisboa h...,Jose Saramago
6,MEMORIAL DO CONVENTO José Saramago JOSÉ SARAMA...,Jose Saramago
7,José Saramago\n\nO ano da morte de Ricardo Rei...,Jose Saramago
8,José Saramago\n\nO conto da ilha desconhecida\...,Jose Saramago
9,O HOMEM DUPLICADO\n\nJosé Saramago\n\n***\n\nO...,Jose Saramago


In [10]:
train_set_luisa = [
    'LuisaMarquesSilva/ABelaHistoria.txt',
    'LuisaMarquesSilva/acabouSe.txt',
    'LuisaMarquesSilva/Botão.txt',
    'LuisaMarquesSilva/controlz.txt',
    'LuisaMarquesSilva/emedo.txt',
    'LuisaMarquesSilva/Lisboa2050.txt',
    'LuisaMarquesSilva/passeioInferno.txt',
    'LuisaMarquesSilva/rapsodiasemdo.txt',
    'LuisaMarquesSilva/UltimaHistoria.txt'
]

corpora_luisa = load_corpora(train_set_luisa, 'Luisa Marques Silva')
corpora_luisa

Unnamed: 0,Text,Author
0,A BELA HISTÓRIA DE DINIS E BEATRIZ OU REQUIEM ...,Luisa Marques Silva
1,\n\n\nAcabou-se!\nLuísa Marques da Silva\n\nTí...,Luisa Marques Silva
2,O terrível caso do botão assassino\nLuísa Marq...,Luisa Marques Silva
3,CONTROL Z\nChegou a hora de vos contar. Chegou...,Luisa Marques Silva
4,Título\ne-medo\n\nAutora (inspiradíssima)\nLuí...,Luisa Marques Silva
5,"LISBOA 2050\nLisboa, ano de 2050. Um Agosto tã...",Luisa Marques Silva
6,Título\nUm passeio pelo inferno\n\nAutora\nLuí...,Luisa Marques Silva
7,Título\nRapsódia sem dó (maior)\n\nAutora\nLuí...,Luisa Marques Silva
8,Título\nA última história\n\nAutora (próximo N...,Luisa Marques Silva


In [11]:
corpora = pd.concat([corpora_almada, corpora_camilo, corpora_eca, corpora_rodrigues_santos, corpora_saramago, corpora_luisa]).reset_index().drop('index',1)
corpora

Unnamed: 0,Text,Author
0,Title: A Scena do Odio\n\nAuthor: José de Alma...,Almada Negreiros
1,Title: O Jardim da Pierrette\n\nAuthor: José d...,Almada Negreiros
2,\n\nTitle: A Invenção do Dia Claro\n\nAuthor: ...,Almada Negreiros
3,\nTitle: Litoral\n A Amadeo de Souza Car...,Almada Negreiros
4,\n\n\nEXPOSIÇÃO\n\n+amadeo\nde souza\ncardoso+...,Almada Negreiros
5,\n\n*JOSÉ DE ALMADA-NEGREIROS*\n\n\n*K4\n\no q...,Almada Negreiros
6,"\n\n*""ORPHEU""*\n\nREVISTA TRIMESTRAL DE LITERA...",Almada Negreiros
7,\n\n+a ENGOMADEIRA+\n\nNOVELA VULGAR LISBOETA\...,Almada Negreiros
8,\n+MANIFESTO+\n\n+ANTI-DANTAS+\n\nE\n\nPOR EXT...,Almada Negreiros
9,O vinho do Porto\n\nPROCESSO D'UMA BESTIALIDAD...,Camilo Castelo Branco


In [12]:
"""
from unidecode import unidecode

corpora['Text'] = corpora['Text'].apply(lambda text: unidecode(text))

corpora
"""

"\nfrom unidecode import unidecode\n\ncorpora['Text'] = corpora['Text'].apply(lambda text: unidecode(text))\n\ncorpora\n"

In [13]:
word_count = corpora['Text'].apply(lambda x: len(str(x).split(" ")))
corpora['word_count'] = word_count
corpora

Unnamed: 0,Text,Author,word_count
0,Title: A Scena do Odio\n\nAuthor: José de Alma...,Almada Negreiros,1456
1,Title: O Jardim da Pierrette\n\nAuthor: José d...,Almada Negreiros,280
2,\n\nTitle: A Invenção do Dia Claro\n\nAuthor: ...,Almada Negreiros,6212
3,\nTitle: Litoral\n A Amadeo de Souza Car...,Almada Negreiros,1225
4,\n\n\nEXPOSIÇÃO\n\n+amadeo\nde souza\ncardoso+...,Almada Negreiros,521
5,\n\n*JOSÉ DE ALMADA-NEGREIROS*\n\n\n*K4\n\no q...,Almada Negreiros,5876
6,"\n\n*""ORPHEU""*\n\nREVISTA TRIMESTRAL DE LITERA...",Almada Negreiros,14191
7,\n\n+a ENGOMADEIRA+\n\nNOVELA VULGAR LISBOETA\...,Almada Negreiros,11408
8,\n+MANIFESTO+\n\n+ANTI-DANTAS+\n\nE\n\nPOR EXT...,Almada Negreiros,2441
9,O vinho do Porto\n\nPROCESSO D'UMA BESTIALIDAD...,Camilo Castelo Branco,10154


In [14]:
corpora.groupby(['Author']).sum()

Unnamed: 0_level_0,word_count
Author,Unnamed: 1_level_1
Almada Negreiros,43610
Camilo Castelo Branco,749872
Eca de Queiros,438367
Jose Rodrigues dos Santos,1131971
Jose Saramago,1006571
Luisa Marques Silva,41214


In [15]:
corpora.word_count.describe()

count        63.000000
mean      54152.460317
std       52898.399211
min         280.000000
25%        6017.000000
50%       46862.000000
75%       77193.500000
max      206090.000000
Name: word_count, dtype: float64

In [16]:
char = ''

for text in corpora['Text']:
    characters = list(set(text))
    for c in characters:
        char += c
    #print(list(set(text)))
    
print(list(set(char)))

['/', '[', 'ë', '½', 'Z', ';', '…', 'à', '„', 'K', 'ú', 'j', '↓', 'A', 'k', '!', 'J', '+', '}', 'ñ', 'ì', '¡', 'D', '–', 'f', '7', 'Ó', '°', 'í', '6', '§', 'á', 'g', 'L', 'û', 'p', '&', ',', 'Ô', 'ê', 'a', '3', 'ï', 'É', '$', 'Δ', '4', '‘', 'Y', '_', ':', '−', 'Ê', 'z', '0', '>', '|', 'c', 'Œ', 'M', 'q', 'T', '"', 'È', 'ń', 'V', 'o', 'À', '—', '9', '8', '’', 'B', 'W', 's', 'é', 'õ', 'w', '2', 'C', 'ò', 'Á', 'Ç', '\\', '☺', 'ö', 'r', 'ü', 'N', 'U', '%', 'Q', 'Ã', 'S', 'h', '»', 'î', 'Õ', '~', 'Ú', '¿', '£', 'e', ']', 'i', '5', 'œ', '■', '´', '☹', '*', '1', 'Í', '-', '”', 'I', '↵', 'Â', '\t', '=', ')', 'ù', '¦', 'm', 'ã', 'u', '\xad', '{', 'æ', 'n', 'ç', '(', '«', 'â', 'H', 'è', 't', 'º', '?', '^', 'l', '\n', 'F', 'P', 'y', "'", ' ', 'd', 'v', '↑', 'ś', 'x', 'ä', 'b', '©', 'ô', '•', '“', 'G', 'ª', 'ó', 'Ü', '<', '@', '#', 'O', '\xa0', 'X', 'R', 'E', '.']


In [17]:
"""
rep = {'\n':' ',
       '#':'',
       '+':'',
       '-':' ',
       '_':'',
       '<':'',
       '>':'',
       '=':'',
       '*':'',
       '\\':'',
       '|':'',
       '~':'',
       '[':'',
       ']':'',
       "'":' ',
       '"':'',
       '  ':' '
      }

for i,j in rep.items():
    corpora['Text'] = corpora['Text'].apply(lambda text: text.replace(i,j))

#print(corpora.loc[0,'Text'])

corpora
"""

'\nrep = {\'\n\':\' \',\n       \'#\':\'\',\n       \'+\':\'\',\n       \'-\':\' \',\n       \'_\':\'\',\n       \'<\':\'\',\n       \'>\':\'\',\n       \'=\':\'\',\n       \'*\':\'\',\n       \'\\\':\'\',\n       \'|\':\'\',\n       \'~\':\'\',\n       \'[\':\'\',\n       \']\':\'\',\n       "\'":\' \',\n       \'"\':\'\',\n       \'  \':\' \'\n      }\n\nfor i,j in rep.items():\n    corpora[\'Text\'] = corpora[\'Text\'].apply(lambda text: text.replace(i,j))\n\n#print(corpora.loc[0,\'Text\'])\n\ncorpora\n'

In [18]:
#print(corpora['Text'][0])

In [19]:
def preprocessing(dataframe):
    processed_corpus = []
    stop_words = set(stopwords.words("portuguese"))
    for i in tqdm(range(len(dataframe))):
        text = dataframe['Text'][i]
        
        #Remove accents
        text = unidecode(text)
        
        #Remove specific punctuations
        rep = {'\n':' ','#':'','+':'','-':' ','_':'','<':'','>':'','=':'','*':'','\\':'','|':'','~':'','[':'',']':'',
               "'":' ','"':'','  ':' '}

        for i,j in rep.items():
            text = text.replace(i,j)
        
        #Convert to lowercase
        text = text.lower()

        #remove tags
        text = BeautifulSoup(text).get_text()
        
        # Convert to list from string
        text = text.split()

        #Lemmatisation
        lem = WordNetLemmatizer()
        text = [lem.lemmatize(word) for word in text if not word in stop_words] 
        text = " ".join(text)
        processed_corpus.append(text)
    return processed_corpus

In [20]:
cleaned_corpora = preprocessing(corpora)

HBox(children=(IntProgress(value=0, max=63), HTML(value='')))




In [24]:
corpora['Clean Text'] = pd.Series(cleaned_corpora, index = corpora.index)
corpora

Unnamed: 0,Text,Author,word_count,Clean Text
0,Title: A Scena do Odio\n\nAuthor: José de Alma...,Almada Negreiros,1456,title: scena odio author: jose almada negreiro...
1,Title: O Jardim da Pierrette\n\nAuthor: José d...,Almada Negreiros,280,title: jardim pierrette author: jose almada ne...
2,\n\nTitle: A Invenção do Dia Claro\n\nAuthor: ...,Almada Negreiros,6212,title: invencao dia claro author: jose almada ...
3,\nTitle: Litoral\n A Amadeo de Souza Car...,Almada Negreiros,1225,title: litoral amadeo souza cardozo author: jo...
4,\n\n\nEXPOSIÇÃO\n\n+amadeo\nde souza\ncardoso+...,Almada Negreiros,521,exposicao amadeo souza cardoso liga naval lisb...
5,\n\n*JOSÉ DE ALMADA-NEGREIROS*\n\n\n*K4\n\no q...,Almada Negreiros,5876,jose almada negreiros k4 quadrado azul acaba a...
6,"\n\n*""ORPHEU""*\n\nREVISTA TRIMESTRAL DE LITERA...",Almada Negreiros,14191,orpheu revista trimestral literatura portugal ...
7,\n\n+a ENGOMADEIRA+\n\nNOVELA VULGAR LISBOETA\...,Almada Negreiros,11408,engomadeira novela vulgar lisboeta engomadeira...
8,\n+MANIFESTO+\n\n+ANTI-DANTAS+\n\nE\n\nPOR EXT...,Almada Negreiros,2441,manifesto anti dantas extenso jose almada negr...
9,O vinho do Porto\n\nPROCESSO D'UMA BESTIALIDAD...,Camilo Castelo Branco,10154,vinho porto processo d bestialidade ingleza ex...


In [22]:
import re 
def number_token(text):
    """
    Function that receives a string of text and returns the string with 
    the number formats within it substituted by the token #COST
    """
    text = re.sub('(\d+|\d+.\d+)(| )(\$)', '#COST', text)
    tokenized_cost = re.sub('(\$)(| )(\d+.\d+.\d+)', "#COST", text)
    
    return tokenized_cost