# Bereiten wir das Script vor

In [1]:
#Imports
import os #Files in listen abgreifen
import tqdm #anzeigen, wo wir stehen
import textract
import pandas as pd


## Vorbereitung

In [2]:
#Als Vorbereitung, machen aus dem Inhalt des Folders eine Liste. Es handelt sich hierbei
#um eine Liste aller pdfs im Ordner pdfs. Es sind die Swissmedic Recalls (#ImplantFiles)
pdfs = os.listdir('pdfs')

In [3]:
pdfs[0:5]

['Vk_20180514_49documents0.pdf',
 'Vk_20180522_02documents1.pdf',
 'Vk_20180413_17documents3.pdf',
 'Vk_20180525_03documents1.pdf',
 'Vk_20180529_02documents2.pdf']

## Fortschritt anzeigen

In [4]:
from tqdm import tqdm
for i in tqdm(range(1000)): #100000000000
    elem = i

100%|██████████| 1000/1000 [00:00<00:00, 1984060.55it/s]


## Ein File auslesen

In [5]:
text = textract.process("pdfs/"+pdfs[1]) #method='pdfminer', encoding='ISO-8859-1', 
#das wäre dann (text = textract.process("pdfs/"+pdfs[1], method='pdfminer', encoding='ISO-8859-1')

Für texttract ist der häufigste Befehl .process('variable/'+pdfs[1])

In [6]:
print("pdfs/"+pdfs[1])

pdfs/Vk_20180522_02documents1.pdf


In [7]:
type(text)

bytes

Es ist ein bytes-Objekt! Also umwandeln:

In [8]:
text_str = str(text)

In [9]:
type(text_str)

str

## Alle Files auslesen

Jetzt durchlaufen lassen. Und dafür sorgen, dass fehlerhafte Umwandlungen in eine separate Liste gespeichert werden. 

In [10]:
lst = []
mistakes = []
for pdf in tqdm(pdfs):
    try:
        text = textract.process("pdfs/"+pdf, method='pdfminer', encoding='ISO-8859-1') 
        #method und encoding könnte man evtl. auch weglassen, da diese Parameter default sind. 
        lst.append(text)
    except:
        mistakes.append(pdf)

100%|██████████| 82/82 [01:27<00:00,  1.68it/s]


In [11]:
lst[0:2]

[b'\x0c\x0c\x0c',
 b"Information urgente relative \xe0 la s\xe9curit\xe9  Retrait/remplacement support de poign\xe9e\nMALTE (T. 2-4), MALTE Outdoor (T. 2+3) et MARCY (T. 2+3)\n\nHasbergen, le 25/05/2018\n\nMesdames, Messieurs,\nnous avons pour principe de livrer des produits de qualit\xe9 sup\xe9rieure et donc conformes aux \nexigences de qualit\xe9 de fabrication et de s\xe9curit\xe9 de production.  Cest pourquoi nos produits \nsont soumis en permanence \xe0 des tests effectu\xe9s en interne par notre entreprise mais \xe9gale-\nment par des laboratoires de contr\xf4le accr\xe9dit\xe9s selon les normes en vigueur. \nCes tests simulent les sollicitations auxquelles les produits seront soumis plus tard et nous \ndonnent, en tant que fabricant, lassurance d\xe9 nitive que nous pouvons les commercialiser.\nMalheureusement, lusage r\xe9el de nos d\xe9ambulateurs MALTE, MAL-\nTE Outdoor et MARCY a montr\xe9 que les sollicitations d\xe9passent en \npartie celles de la simulation et quelles on

## Bilder auslesen

Ein Problem: Text in vielen pdfs ist eigentlich als Bild abgespeichert (zum Teil absichtlich, um die Maschinenlesbarkeit oder Durchsuchbarkeit zu erschweren).

In [12]:
text = textract.process("pdfs/"+pdfs[0], method='tesseract') #Nicht ideal, aber gut

## Alles zusammen

In [18]:
lst=[]
#Rohe Analyse
for pdf in tqdm(pdfs):
    try:
        text = textract.process("pdfs/"+pdf, method='pdfminer', encoding='ISO-8859-1')
        text = text.decode("ISO-8859-1").replace("\n", " ") 
        #entspricht eigentlich einer Umwandlung in str(text), produziert aber weniger Fehler.
        
        if len(text) < 40:
        #Annahme: wenn weniger als 40 Bytes muss es sich um ein Bild handeln! Also wende die "tesseract"-Methode an:
            text = textract.process("pdfs/"+pdf, method='tesseract', encoding='ISO-8859-1') #oder zB language: 'deu'
            text = text.decode("ISO-8859-1").replace("\n", " ")
            
        mini_dict = {'Text':text, #ist der Inhalt
                     'File':pdf} #ist der Name der Datei
        lst.append(mini_dict)
    #für fehlerhafte Umwandlungen mach einen Eintrag "Fehlermeldung", häng es aber trotzdem an
    except:
        mini_dict = {'Text':'Fehlermeldung',
                     'File':pdf}
        lst.append(mini_dict)

100%|██████████| 82/82 [02:39<00:00,  1.34it/s]


In [19]:
pd.DataFrame(lst)

Unnamed: 0,Text,File
0,dical Wassenburg Medical B.V. Edisonnng 9 66...,Vk_20180514_49documents0.pdf
1,Information urgente relative à la sécurité Re...,Vk_20180522_02documents1.pdf
2,"Dräger Schweiz AG, CH-3097 Liebefeld À latte...",Vk_20180413_17documents3.pdf
3,BIBRAUN B. Braun Medical SA Seesatz 17 CH-...,Vk_20180525_03documents1.pdf
4,URGENT ...,Vk_20180529_02documents2.pdf
...,...,...
77,"Adresse Reichenbach, 27. April...",Vk_20180522_13documents0.pdf
78,COOK ® Avis Urgent de Sécur...,Vk_20180226_08documents1.pdf
79,Avis de sécurité urgentFSN Nom commercial / M...,Vk_20180521_01documents1.pdf
80,Dringender Sicherheitshinweis (FSN) Handelsnam...,Vk_20180521_01documents0.pdf


In [20]:
#Erste Säuberung
df = pd.DataFrame(lst)
def date(elem):
    elem = elem[3:11]
    return elem
df['date'] = df['File'].apply(date)
df['date'] = pd.to_datetime(df['date'], format='%Y%m%d')
df.index = df['date']
#Suchen wir noch nach Implantaten
df['implant'] = df['Text'].str.contains('implant')
df.to_csv('datafile.csv')

In [21]:
df[0:3]

Unnamed: 0_level_0,Text,File,date,implant
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2018-05-14,dical Wassenburg Medical B.V. Edisonnng 9 66...,Vk_20180514_49documents0.pdf,2018-05-14,False
2018-05-22,Information urgente relative à la sécurité Re...,Vk_20180522_02documents1.pdf,2018-05-22,False
2018-04-13,"Dräger Schweiz AG, CH-3097 Liebefeld À latte...",Vk_20180413_17documents3.pdf,2018-04-13,False


Nach und nach werden mit Suchen (z.B. nach PLZ, Beträgen) neue Spalten erstellt und die Datenbank ergänzt.  
Zum Beispiel mit der Textlänge:

In [22]:
def length(elem):
    elem = len(elem)
    return elem

df['Text Länge'] = df['Text'].apply(length)

In [23]:
df

Unnamed: 0_level_0,Text,File,date,implant,Text Länge
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-05-14,dical Wassenburg Medical B.V. Edisonnng 9 66...,Vk_20180514_49documents0.pdf,2018-05-14,False,5755
2018-05-22,Information urgente relative à la sécurité Re...,Vk_20180522_02documents1.pdf,2018-05-22,False,4478
2018-04-13,"Dräger Schweiz AG, CH-3097 Liebefeld À latte...",Vk_20180413_17documents3.pdf,2018-04-13,False,20713
2018-05-25,BIBRAUN B. Braun Medical SA Seesatz 17 CH-...,Vk_20180525_03documents1.pdf,2018-05-25,False,4403
2018-05-29,URGENT ...,Vk_20180529_02documents2.pdf,2018-05-29,False,4532
...,...,...,...,...,...
2018-05-22,"Adresse Reichenbach, 27. April...",Vk_20180522_13documents0.pdf,2018-05-22,False,7781
2018-02-26,COOK ® Avis Urgent de Sécur...,Vk_20180226_08documents1.pdf,2018-02-26,False,4334
2018-05-21,Avis de sécurité urgentFSN Nom commercial / M...,Vk_20180521_01documents1.pdf,2018-05-21,False,2783
2018-05-21,Dringender Sicherheitshinweis (FSN) Handelsnam...,Vk_20180521_01documents0.pdf,2018-05-21,False,3249
