# Primary Text Processing

## Import

### Libraries

In [7]:
import os
import json
import time
#import xml.etree.ElementTree as ET
import codecs
import numpy as np
import pandas as pd 
import natasha
import re

### Definitions

In [5]:
texts = './texts/fiction/'
bibleXML = './texts/bible/synodal.xml'
bibleTXT = './texts/bible/bibliya-sinodalnyy-perevod.txt'
libCols = ['author','pub_year','title','text']
tokenOHCO = ['title','part_num','para_num', 'sent_num', 'token_num']
bibleOHCO = ['test', 'book', 'chap', 'verse']

## Primary Texts

### Library

In [8]:
libDf = pd.DataFrame(columns = libCols)
for t in os.listdir(texts): 
    if t[-4:] == '.txt': 
        #print(t)
        info = re.match(r'(\w+)-(\d{4})-(.+).txt', t)
        with codecs.open(texts+t, 'r', encoding='windows-1251') as f: 
            textytext = f.read()
        libDf = libDf.append({
            'author': info.group(1),
            'pub_year': int(info.group(2)), 
            'title': info.group(3), 
            'text': textytext
        }, ignore_index=True)
        
libDf = libDf.sort_values(libCols[1:3]).set_index(libCols[2])
tokenDf = libDf[[libCols[3]]]
libDf = libDf.drop(columns=[libCols[3]])
libDf

Unnamed: 0_level_0,author,pub_year
title,Unnamed: 1_level_1,Unnamed: 2_level_1
troe,gorkii,1900
zhizn-vasiliia-fiveiskogo,andreev,1903
gubernator,andreev,1904
k-zvezdam,andreev,1905
khristiane,andreev,1905
tak-bylo,andreev,1905
mat,gorkii,1906
savva-ignis-sanat,andreev,1906
iuda-iskariot,andreev,1907
zhizn-cheloveka,andreev,1907


### Tokens

In [9]:
tokenDf = tokenDf.text.str.split('\n\n\n', expand=True).stack().to_frame()
tokenDf.index.names = tokenOHCO[:2]
tokenDf = tokenDf.rename(columns={0:'parts'})
tokenDf = tokenDf.parts.str.split('\n\s*\n', expand=True).stack().to_frame()
tokenDf.index.names = tokenOHCO[:3]
tokenDf = tokenDf.rename(columns={0:'paras'})
tokenDf = tokenDf.paras.str.split(r'!|\?|\.|;', expand=True).stack().to_frame()
tokenDf.index.names = tokenOHCO[:4]
#tokenDf 
sentDf = tokenDf = tokenDf.rename(columns={0:'sents'})
tokenDf = tokenDf.sents.str.split(r'\n|\s+', expand=True).stack().to_frame()
tokenDf.index.names = tokenOHCO
tokenDf = tokenDf.rename(columns={0:'token'})
tokenDf = tokenDf.token.apply(lambda x: x.lower().strip(r"\W\|\]\}\[\{\.\'\"\?;:,<>/1234567890")).to_frame()
tokenDf = tokenDf[tokenDf['token'].str.contains(r'\w+')]
tokenDf

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,token
title,part_num,para_num,sent_num,token_num,Unnamed: 5_level_1
troe,0,0,0,1,среди
troe,0,0,0,2,лесов
troe,0,0,0,3,керженца
troe,0,0,0,4,рассеяно
troe,0,0,0,5,много
...,...,...,...,...,...
moi-universitety,0,35,170,30,на
moi-universitety,0,35,170,31,калмыцком
moi-universitety,0,35,170,32,грязном
moi-universitety,0,35,170,34,промысле


In [15]:
tokenDf.token.value_counts().to_frame().reset_index().iloc[40:60]

Unnamed: 0,index,token
40,него,2206
41,нет,2161
42,глаза,2031
43,её,2022
44,был,1956
45,ну,1951
46,ее,1906
47,лицо,1799
48,до,1696
49,мы,1655


In [10]:
sentDf

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,sents
title,part_num,para_num,sent_num,Unnamed: 4_level_1
troe,0,0,0,Среди лесов Керженца рассеяно много оди...
troe,0,0,1,"в них тлеют\n кости старцев, людей древнег..."
troe,0,0,2,"Там, на краю крутого оврага, он срубил себе\n..."
troe,0,0,3,"Порою люди, заблудясь в лесу,\n случайно в..."
troe,0,0,4,Был он страшный: иссох в посте и молитве и\n ...
...,...,...,...,...
moi-universitety,0,35,167,\n -- Что будем делать
moi-universitety,0,35,168,\n Баринов уверенно сказал: \n --...
moi-universitety,0,35,169,Надо ехать дальше
moi-universitety,0,35,170,"\n До Самары доехали ""зайцами"" на пасса..."


In [6]:
sentDf = sentDf[sentDf['sents'].str.contains(r'\w+')].sents.apply(lambda x: x.lower().strip(r"\W\n\s\|\]\}\[\{\.\'\"\?;:,<>/1234567890")).to_frame()
sentDf#[sentDf['sents'].str.contains('r\w')]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,sents
title,part_num,para_num,sent_num,Unnamed: 4_level_1
k-zvezdam,0,0,0,
k-zvezdam,0,1,0,обсерватория в горах
k-zvezdam,0,1,1,поздний вечер
k-zvezdam,0,1,2,сцена представляет две комнаты
k-zvezdam,0,1,3,"\n первая - нечто вроде столовой, б..."
...,...,...,...,...
igo-voiny,0,139,88,"жил я ""клеточкой"" и\n умру такой ж..."
igo-voiny,0,139,89,\n но не могу совсем успокоиться в ...
igo-voiny,0,139,90,дай прикоснуться
igo-voiny,0,139,91,"я так люблю тебя,\n милый, милый ты мой"
