In [40]:
import pandas as pd
import sqlite3
from cleantext import clean

from pathlib import Path
import numpy as np
import swifter
from somajo import Tokenizer, SentenceSplitter
from tqdm import tqdm
import multiprocessing
from joblib import Parallel, delayed

num_cores = multiprocessing.cpu_count()

In [41]:
conn = sqlite3.connect("/home/filter/ptf/data/million_post_corpus/corpus.sqlite3")

In [42]:
comments = pd.read_sql('select headline, body, createdat from posts', conn)

In [43]:
comments = comments.fillna('')

In [44]:
comments['text'] = comments.swifter.apply(lambda x: x['Headline'] + ' ' + x['Body'], axis=1)

In [47]:
tokenizer = Tokenizer(split_camel_case=True, token_classes=False, extra_info=False)
sentence_splitter = SentenceSplitter(is_tuple=False)
def get_sents(text):
    text = clean(text, lang='de', lower=False)
    tokens = tokenizer.tokenize_paragraph(text)
    sentences = sentence_splitter.split(tokens)
    return [clean(' '.join(s), no_urls=True, no_digits=True, no_punct=True, no_line_breaks=True, lang='de') for s in sentences]

In [48]:
results = Parallel(n_jobs=num_cores)(delayed(get_sents)(row) for row in tqdm(comments['text'].values))


  0%|          | 0/1011773 [00:00<?, ?it/s][A
  0%|          | 1/1011773 [00:00<127:38:33,  2.20it/s][A
  0%|          | 8/1011773 [00:00<94:58:05,  2.96it/s] [A
  0%|          | 15/1011773 [00:01<67:58:50,  4.13it/s][A
  0%|          | 21/1011773 [00:01<49:09:50,  5.72it/s][A
  0%|          | 26/1011773 [00:01<36:09:43,  7.77it/s][A
  0%|          | 33/1011773 [00:01<26:34:36, 10.57it/s][A
  0%|          | 43/1011773 [00:01<19:34:40, 14.35it/s][A
  0%|          | 61/1011773 [00:01<14:14:18, 19.74it/s][A
  0%|          | 70/1011773 [00:01<10:59:16, 25.58it/s][A
  0%|          | 109/1011773 [00:01<7:56:04, 35.42it/s][A
  0%|          | 149/1011773 [00:01<5:47:07, 48.57it/s][A
  0%|          | 229/1011773 [00:02<4:09:19, 67.62it/s][A
  0%|          | 283/1011773 [00:02<3:04:00, 91.62it/s][A
  0%|          | 355/1011773 [00:02<2:16:29, 123.50it/s][A
  0%|          | 445/1011773 [00:02<1:42:03, 165.17it/s][A
  0%|          | 625/1011773 [00:02<1:14:43, 225.53it/s][A
  0%|

In [49]:
res_flat = list(np.hstack(np.array(results)))

In [50]:
res_flat = [r for r in res_flat if len(r) > 10]

In [53]:
res_flat[:50]

['newsletter der standard ich bin begeistert von den standard newslettern',
 'in keiner anderen ezeitung gibt es eine solche viel = falt und so interessante kommentare bzw eine so genaue berichterstattung',
 'macht weiter so ich finde es jedenfalls toll',
 'johann radakovits',
 'auch begeistert',
 'aber momentan funktioniert das abmelden oder adressen ändern überhaupt nicht',
 'in usa macht man dies auf den servern einfacher',
 'ansonsten ist der standard ja wirklich das beste was es in österreich gibt',
 'weiter im text carpe diem',
 'abmeldeprobleme es ist ganz einfach nervend',
 'vor kurzem habe ich den newsletter angemeldet in der hoffnungsvollen gewissheit weil vertrauenserweckend angekündigt ihn jederzeit wieder stornieren zu können',
 'aber leider führt kein weg dahin',
 'ich wäre dankbar für eine diesbezügliche hilfe des lesers dieser email',
 'und sie als mitarbeiter sind natuerlich objektiv',
 'erstklassig ist dieser newsletterservice und deshalb wird er von mir gerne weitere

In [52]:
Path('../hyperwords/ompc.txt').write_text('\n'.join(res_flat))

206140197