In [1]:
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBox, LTTextLine
import numpy as np
import pandas as pd
import csv
import re

In [2]:
def pdfToDataFrame(filename):
    fp = open(filename, 'rb')
    data = np.array('0')
    parser = PDFParser(fp)
    doc = PDFDocument()
    parser.set_document(doc)
    doc.set_parser(parser)
    doc.initialize('')
    rsrcmgr = PDFResourceManager()
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    # Process each page contained in the document.
    for page in doc.get_pages():
        interpreter.process_page(page)
        layout = device.get_result()
        for lt_obj in layout:
            if isinstance(lt_obj, LTTextBox) or isinstance(lt_obj, LTTextLine):
                #print(lt_obj.get_text())
                tmp = np.array(lt_obj.get_text())
                data = np.append(data,tmp)
    return data

In [24]:
def pdfToDataFrameIfTextBox(filename):
    fp = open(filename, 'rb')
    data = np.array('0')
    parser = PDFParser(fp)
    doc = PDFDocument()
    parser.set_document(doc)
    doc.set_parser(parser)
    doc.initialize('')
    rsrcmgr = PDFResourceManager()
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    # Process each page contained in the document.
    for page in doc.get_pages():
        interpreter.process_page(page)
        layout = device.get_result()
        for lt_obj in layout:
            if isinstance(lt_obj, LTTextBox):
                #print(lt_obj.get_text())
                tmp = np.array(lt_obj.get_text())
                data = np.append(data,tmp)
    return data

In [3]:
data = pdfToDataFrame('Data/KMK-Liste_Splitterberufe_2015.pdf')

In [25]:
dataTBox = pdfToDataFrameIfTextBox('Data/KMK-Liste_Splitterberufe_2015.pdf')

In [4]:
data.shape

(6038,)

In [5]:
data.dtype

dtype('<U407')

In [6]:
df = pd.DataFrame(data=data, columns=['Text'])

In [30]:
df[33:50]

Unnamed: 0,Text
33,Seite 3 \n
34,"Liste der anerkannten Ausbildungsberufe, für w..."
35,27. Fortschreibung \nvom 26.06.2015 \n
36,Ausbildungsberuf \n
37,Aufnehmendes Land \n(Berufsschulstandort) \n
38,Änderungsschneider und \nÄnderungsschneiderin ...
39,Sachsen (Dresden) \n
40,Berufliches Schulzentrum für Dienst-\nleistung...
41,Einzugsbereich \n
42,(Abkürzungen siehe Tabellen-\nende) \n


In [26]:
dfBox = pd.DataFrame(data=dataTBox, columns=['Text'])

In [33]:
dfBox[76:100]

Unnamed: 0,Text
76,"Liste der anerkannten Ausbildungsberufe, für w..."
77,27. Fortschreibung \nvom 26.06.2015 \n
78,Ausbildungsberuf \n
79,Aufnehmendes Land \n(Berufsschulstandort) \n
80,Einzugsbereich \n
81,(Abkürzungen siehe Tabellen-\nende) \n
82,Automatenfachmann und \nAutomatenfachfrau (BBi...
83,"BB, BE, MV, SN, ST \n"
84,"HE, TH \n"
85,"HB, HH, NI, NW, SL, \nSH \n"


In [8]:
df.to_csv('test.csv', index=False, quoting=None, encoding='utf-8')

In [9]:
dfRegrexed = pd.read_csv('test.csv')

In [20]:
dfRegrexed[30:50]

Unnamed: 0,Text
30,entsendendes Land kann gleichzeitig einen Teil...
31,"dungsberuf selbst beschulen (was in der ""Liste..."
32,\r\n
33,Seite 3 \r\n
34,"Liste der anerkannten Ausbildungsberufe, für w..."
35,27. Fortschreibung \r\nvom 26.06.2015 \r\n
36,Ausbildungsberuf \r\n
37,Aufnehmendes Land \r\n(Berufsschulstandort) \r\n
38,Änderungsschneider und \r\nÄnderungsschneideri...
39,Sachsen (Dresden) \r\n


In [11]:
# Read the entire file as a single string
with open('test.csv', 'rt') as f:
    data = f.read()

In [12]:
import re

In [14]:
testString = 'vasfg ahjavklj aern aerg Seite 3 avav avag l jlaerg erjg jrg gj; Seite 34 laopck an adfi aer'
l = re.compile("Seite [0-9]").split(testString)
print (l)

['vasfg ahjavklj aern aerg ', ' avav avag l jlaerg erjg jrg gj; ', '4 laopck an adfi aer']


In [15]:
pages = re.compile("(Seite [0-9]+)").split(data)

In [16]:
pages[4]

' \n"\n"Liste der anerkannten Ausbildungsberufe, fÃ¼r welche lÃ¤nderÃ¼bergreifende \nFachklassen eingerichtet werden, m it Angabe der aufnehmenden LÃ¤nder (Be-\nrufsschulstandorte) und Einzugsbereiche \n"\n"27. Fortschreibung \nvom 26.06.2015 \n"\n"Ausbildungsberuf \n"\n"Aufnehmendes Land \n(Berufsschulstandort) \n"\n"Ã„nderungsschneider und \nÃ„nderungsschneiderin (HwO) \n"\n"Sachsen (Dresden) \n"\n"Berufliches Schulzentrum fÃ¼r Dienst-\nleistung und Gestaltung Dresden \nChemnitzer Str. 83 \n01187 Dresden \nTelefon-Nummer: 0351 4277660 \nTelefax-Nummer: 0351 4277683 \n"\n"Einzugsbereich \n"\n"(AbkÃ¼rzungen siehe Tabellen-\nende) \n"\n"BB1), MV, SN, ST \n"\n"1) Auszubildende aus dem Umkreis Berlin besuchen nach Absprachen zwischen Berlin und Brandenburg \ndie Berufsschule in Berlin \n"\n" \n"\n" \n"\n" \n"\n" \n"\n" \n"\n" \n"\n" \n"\n" \n"\n" \n"\n" \n"\n" \n"\n" \n"\n" \n"\n" \n"\n" \n"\n"'

In [23]:
pages[8]

' \n"\n"Liste der anerkannten Ausbildungsberufe, fÃ¼r welche lÃ¤nderÃ¼bergreifende \nFachklassen eingerichtet werden, m it Angabe der aufnehmenden LÃ¤nder (Be-\nrufsschulstandorte) und Einzugsbereiche \n"\n"27. Fortschreibung \nvom 26.06.2015 \n"\n"Ausbildungsberuf \n"\n"Aufnehmendes Land \n(Berufsschulstandort) \n"\n"Einzugsbereich \n"\n"(AbkÃ¼rzungen siehe Tabellen-\nende) \n"\n"Aufbereitungsmechaniker und \nAufbereitungsmechanikerin \n"\n"(BBiG) \n"\n"Fachrichtung: \n- Feuerfeste und keramische \nRohstoffe \n"\n"Bayern (W iesau) \n"\n"Staatliche Berufsschule W iesau \nPestalozzistr. 2 \n95676 W iesau \nTelefon-Nummer: 09634/92030 \nTelefax-Nummer: 09634/8282 \n"\n"BW , BY, BB, HH, \nHE, MV, NI, NW , SL, \nSN, ST, SH, TH \n"\n" \n"\n" \n"\n" \n"\n" \n"\n" \n"\n" \n"\n" \n"\n" \n"\n"'

In [21]:
pages_version2 = re.compile("Seite [0-9]+").split(data)

In [22]:
pages_version2[4]

' \n"\n"Liste der anerkannten Ausbildungsberufe, fÃ¼r welche lÃ¤nderÃ¼bergreifende \nFachklassen eingerichtet werden, m it Angabe der aufnehmenden LÃ¤nder (Be-\nrufsschulstandorte) und Einzugsbereiche \n"\n"27. Fortschreibung \nvom 26.06.2015 \n"\n"Ausbildungsberuf \n"\n"Aufnehmendes Land \n(Berufsschulstandort) \n"\n"Einzugsbereich \n"\n"(AbkÃ¼rzungen siehe Tabellen-\nende) \n"\n"Aufbereitungsmechaniker und \nAufbereitungsmechanikerin \n"\n"(BBiG) \n"\n"Fachrichtung: \n- Feuerfeste und keramische \nRohstoffe \n"\n"Bayern (W iesau) \n"\n"Staatliche Berufsschule W iesau \nPestalozzistr. 2 \n95676 W iesau \nTelefon-Nummer: 09634/92030 \nTelefax-Nummer: 09634/8282 \n"\n"BW , BY, BB, HH, \nHE, MV, NI, NW , SL, \nSN, ST, SH, TH \n"\n" \n"\n" \n"\n" \n"\n" \n"\n" \n"\n" \n"\n" \n"\n" \n"\n"'