In [1]:
import re
import collections

The book I am using is in pdf format. So to convert it into a text format, I modified and used the Stanford code of converting a pdf to a text to run on python 3.7

In [2]:
from io import StringIO
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
import os
import sys, getopt

#converts pdf, returns its text content as a string
def convert(fname, pages=None):
    if not pages:
        pagenums = set()
    else:
        pagenums = set(pages)

    output = StringIO()
    manager = PDFResourceManager()
    converter = TextConverter(manager, output, laparams=LAParams())
    interpreter = PDFPageInterpreter(manager, converter)

    infile = open(fname, 'rb')
    for page in PDFPage.get_pages(infile, pagenums):
        interpreter.process_page(page)
    infile.close()
    converter.close()
    text = output.getvalue()
    output.close
    return text 
   
text = convert('Carroll__Wunderland.pdf')

In [3]:
text

' \n \n\nAlice’s Abenteuer im Wunderland\n\nvon\n\nLewis Carroll\n\nAus dem Englischen von\nAntonie Zimmermann\n\nAutorisierte Ausgabe\n\nMit den Illustrationen von\n\nJohn Tenniel\n\nKoloriert von\n\nGünter Jürgensmeier\n\nFür Luzie\n\nJohann Friedrich Hartknoch\n\nLeipzig\n\n[1869]\n\n\x0c\x0c \n \n \n \n \n \n\nInhalt\n\n01. Hinunter in den Kaninchenbau.   . . . . . . . . . . . . . . . .\n02. Der Thränenpfuhl.   . . . . . . . . . . . . . . . . . . . . . . . . . .\n03. Caucus-Rennen und was daraus wird.    . . . . . . . . . . .\n04. Die Wohnung des Kaninchens.   . . . . . . . . . . . . . . . . .\n05. Guter Rath von einer Raupe.   . . . . . . . . . . . . . . . . . . .\n06. Ferkel und Pfeffer.   . . . . . . . . . . . . . . . . . . . . . . . . . . .\n07. Die tolle Theegesellschaft.   . . . . . . . . . . . . . . . . . . . . .\n08. Das Croquetfeld der Königin.   . . . . . . . . . . . . . . . . . .\n09. Die Geschichte der falschen Schildkröte.    . . . . . . . . .\n10. Das Hummerballet.   

#### Normalise text
Normlaise text by removing punctuation and converting all leters into lower case

In [4]:
def normalise(text):
    # convert to lower case
    text = text.lower()
    
    # remove punctuations
    text = re.sub(r'\W', ' ', text)
    return text

#### Words sequence model
Collect words in the sequence of the given n

In [53]:
def Words_seq(text, n):
    # normalise text
    text = normalise(text)
    # tokenize 
    text = text.split()
    
    seq = list(zip(*[text[i:] for i in range(n)]))
    return seq

In [55]:
seq = Words_seq(text, 3)
seq

[('alice', 's', 'abenteuer'),
 ('s', 'abenteuer', 'im'),
 ('abenteuer', 'im', 'wunderland'),
 ('im', 'wunderland', 'von'),
 ('wunderland', 'von', 'lewis'),
 ('von', 'lewis', 'carroll'),
 ('lewis', 'carroll', 'aus'),
 ('carroll', 'aus', 'dem'),
 ('aus', 'dem', 'englischen'),
 ('dem', 'englischen', 'von'),
 ('englischen', 'von', 'antonie'),
 ('von', 'antonie', 'zimmermann'),
 ('antonie', 'zimmermann', 'autorisierte'),
 ('zimmermann', 'autorisierte', 'ausgabe'),
 ('autorisierte', 'ausgabe', 'mit'),
 ('ausgabe', 'mit', 'den'),
 ('mit', 'den', 'illustrationen'),
 ('den', 'illustrationen', 'von'),
 ('illustrationen', 'von', 'john'),
 ('von', 'john', 'tenniel'),
 ('john', 'tenniel', 'koloriert'),
 ('tenniel', 'koloriert', 'von'),
 ('koloriert', 'von', 'günter'),
 ('von', 'günter', 'jürgensmeier'),
 ('günter', 'jürgensmeier', 'für'),
 ('jürgensmeier', 'für', 'luzie'),
 ('für', 'luzie', 'johann'),
 ('luzie', 'johann', 'friedrich'),
 ('johann', 'friedrich', 'hartknoch'),
 ('friedrich', 'hartknoc

Get the frequencey of each sequence

In [42]:
collections.Counter(ngrams)

Counter({('alice', 's', 'abenteuer'): 1,
         ('s', 'abenteuer', 'im'): 1,
         ('abenteuer', 'im', 'wunderland'): 1,
         ('im', 'wunderland', 'von'): 1,
         ('wunderland', 'von', 'lewis'): 1,
         ('von', 'lewis', 'carroll'): 1,
         ('lewis', 'carroll', 'aus'): 1,
         ('carroll', 'aus', 'dem'): 1,
         ('aus', 'dem', 'englischen'): 1,
         ('dem', 'englischen', 'von'): 1,
         ('englischen', 'von', 'antonie'): 1,
         ('von', 'antonie', 'zimmermann'): 1,
         ('antonie', 'zimmermann', 'autorisierte'): 1,
         ('zimmermann', 'autorisierte', 'ausgabe'): 1,
         ('autorisierte', 'ausgabe', 'mit'): 1,
         ('ausgabe', 'mit', 'den'): 1,
         ('mit', 'den', 'illustrationen'): 1,
         ('den', 'illustrationen', 'von'): 1,
         ('illustrationen', 'von', 'john'): 1,
         ('von', 'john', 'tenniel'): 1,
         ('john', 'tenniel', 'koloriert'): 1,
         ('tenniel', 'koloriert', 'von'): 1,
         ('koloriert', 'v

#### The most occuring sequence

In [43]:
# get the top frequent sequence
freq = collections.Counter(ngrams).most_common(20)
freq

[(('die', 'falsche', 'schildkröte'), 35),
 (('sagte', 'der', 'könig'), 31),
 (('sagte', 'die', 'falsche'), 18),
 (('sagte', 'die', 'herzogin'), 17),
 (('sagte', 'der', 'greif'), 16),
 (('das', 'weiße', 'kaninchen'), 14),
 (('sagte', 'die', 'raupe'), 14),
 (('sagte', 'die', 'katze'), 13),
 (('sagte', 'der', 'hutmacher'), 11),
 (('zu', 'sich', 'selbst'), 10),
 (('sagte', 'der', 'faselhase'), 10),
 (('sagte', 'die', 'königin'), 10),
 (('du', 'denn', 'nicht'), 10),
 (('den', 'nächsten', 'augenblick'), 9),
 (('die', 'arme', 'alice'), 8),
 (('und', 'fing', 'an'), 8),
 (('den', 'kopf', 'ab'), 8),
 (('der', 'könig', 'und'), 8),
 (('willst', 'du', 'denn'), 8),
 (('denn', 'nicht', 'willst'), 8)]

#### Extracting Chunks
convert the above list to a text file and save it in the hard disk for further use in language learning

The most frequent sequence is a list with a tuple of a tuple of words and time of occurance, i need to loop through all these to get the word sequence only

In [51]:
words_list = []
chunks = []
# first loop inside the list
for element in freq:
    for words in element:
        # ignore the frequence number and get only words tuple
        if type(words) !=  int:
            words_list.append(words)
            
# join words to get the chuncks
for word in words_list:
    sentence = " ".join(word)
    chunks.append(sentence)

chunks

['die falsche schildkröte',
 'sagte der könig',
 'sagte die falsche',
 'sagte die herzogin',
 'sagte der greif',
 'das weiße kaninchen',
 'sagte die raupe',
 'sagte die katze',
 'sagte der hutmacher',
 'zu sich selbst',
 'sagte der faselhase',
 'sagte die königin',
 'du denn nicht',
 'den nächsten augenblick',
 'die arme alice',
 'und fing an',
 'den kopf ab',
 'der könig und',
 'willst du denn',
 'denn nicht willst']

In [52]:
# save the chunks to a text file
with open("German_chunks.txt", "w") as output:
    output.write('\n'.join(chunks))

### Results

Length of a chunk can be adjusted and saved to different files.

The text is not large enough to get feasible chunks. Most of chunks are one of the character saying something like 'said Alice'

I think, it's better if I used next time a complete tv series, so I get a regular conversation