# Historical Tycho

Notebook criado para tratar os dados do corpus histórico do português brasileiros Tycho Brahe
O objetivo deste notebook é tratar o corpus para gerar um modelos de Word Embeddings para diferentes gerações e, posteriormente, criar uma representação gráfica da mudança semântica para o português brasileiro

In [1]:
# importanto bibliotecas utilizadas
import os, shutil,re
from lxml import etree

In [2]:
# Biblioteca criada para tratar os dados

import corpus_man as cm

In [None]:
nlp = cm.spacy_loader()


## Preparação do Corpus

Removendo os cabeçalhos dos arquivos .txt, transformando os tokens em lowercase e retirando stopwords e acentos

In [5]:
for root, dirs, files in os.walk("./txt/original", topdown=False):
    for name in files:
        with open(os.path.join(root,name),'r') as file:
            txt = file.read()
            txt = re.split(r'\[END HEADER\]\W+',txt)[1]
            txt = cm.pre_process(txt)
            with open('./txt/processed/'+ name, 'w') as processed:
                chungus = cm.Chunker(7)
                for chungu in chungus(txt.split(' ')):
                    processed.write(' '.join(chungu))
                    processed.write('\n')



In [6]:
with open ('/home/tolucas/Documentos/Repos/hist_tycho/txt/processed/a_001.txt','r') as file:
    print(file.read())

prologue author ma title reflexoes vaidade homens
end prologue prologue author ma title dedicatoria
title senhor ofereco majestade reflexoes vaidade homens
oferecer pequeno livro mundo compoe majestade feliz
indigencia majestade acha declamei vaidade pude resistir
vaidade inocente por discursos reais pes majestade
mesmos pes heroicamente pisam vaidades dignem proteger
reflexoes senhor vaidades estejam pes majestade virtudes
ocupam alguma havia vaidade homens si mesmos
espelho fiel veem sentem impressao lhes vaidade
majestade livro sentir majestade vaidade necessario estudasse
deram homens valeriam pudessem fosse estudo alcancar
ignorancia ditosa senhor vemos prodigio majestade gentes
penetradas admiracao respeito acham unidos majestade atributos
gloriosos raramente unir efeito viu senao trono
soberania benignidade justica clemencia supremo razao majestade
ficaram concordes faceis impossiveis mesma providencia quis
manifestar rei preparava lusitania mostrou oriente regio
berco majestade

## Classificando os arquivos

O próximo passo é ordenar e agrupar os arquivos de texto de acordo com a metainformação "Period by Birthdate", que corresponde ao período do texto de acordo com a data de nascimento do autor. Os textos foram manualmente classificados de acordo com seu pertencimento a cada período como definido por "Bechara"

In [7]:
import csv, shutil

In [8]:
cor_dict = {}
with open('periodos_tycho.csv', mode='r') as file:
    reader = csv.reader(file)
    cor_dict = {row[1]:row[0] for row in reader}

In [9]:
dir_path = 'txt_sorts/v1'
if not os.path.exists(dir_path):
    os.makedirs(dir_path)

if not os.path.exists(dir_path + '/p1'):
    os.makedirs(dir_path + '/p1')
if not os.path.exists(dir_path + '/p2'):
    os.makedirs(dir_path + '/p2')
if not os.path.exists(dir_path + '/p3'):
    os.makedirs(dir_path + '/p3')    

In [10]:
for root, dirs, files in os.walk("./txt/processed", topdown=False):
    for file in files:
        if cor_dict[file] == 'arcmed':
            source = os.path.join(root,file)
            target = dir_path + '/p1'
            shutil.copy(source,target)
        if cor_dict[file] == 'mod':
            source = os.path.join(root,file)
            target = dir_path + '/p2'
            shutil.copy(source,target)
        if cor_dict[file] == 'cont1' or cor_dict[file] == 'cont2':
            source = os.path.join(root,file)
            target = dir_path + '/p3'
            shutil.copy(source,target)

### Criando um dump

In [15]:
with open('./txt_sorts/v1/dump1', 'w') as dump:
    for root, dirs, files in os.walk('./txt_sorts/v1/p1', topdown=False):
        for file in files:
            with open(os.path.join(root,file),'r') as text:
                for content in text.readlines():
                    dump.write(content)
                

In [16]:
with open('./txt_sorts/v1/dump2', 'w') as dump:
    for root, dirs, files in os.walk('./txt_sorts/v1/p2', topdown=False):
        for file in files:
            with open(os.path.join(root,file),'r') as text:
                for content in text.readlines():
                    dump.write(content)


In [17]:
with open('./txt_sorts/v1/dump3', 'w') as dump:
    for root, dirs, files in os.walk('./txt_sorts/v1/p3', topdown=False):
        for file in files:
            with open(os.path.join(root,file),'r') as text:
                for content in text.readlines():
                    dump.write(content)

# playground

In [None]:
def wrapper(func, *args, **kwargs):
    def wrapped():
        return func(*args, **kwargs)
    return wrapped

In [None]:
a = open('/home/tolucas/Documentos/Repos/hist_tycho/xml_sorts/v1/g2/va_003.txt')
text = a.read()
a.close()

In [None]:
import timeit
from corpus_man import pre_process

wrapped = wrapper(pre_process, text)
timeit.timeit(wrapped, number=1)

In [None]:
processed = cm.pre_process(text)

In [None]:
print(processed)