In [1]:
import bs4 as bs
import pandas as pd
import matplotlib as plt
from matplotlib import pyplot as pplt
import os
from pptx import Presentation
import pprint as p

#Die Buch-Kürzel des alten Testaments
AT = ["Gn", "Ex", "Lv", "Nm", "Dt", "Ios", "Idc", "Rt", "1Sm", "2Sm", "3Rg", "4Rg", "1Par", "2Par", "Esr", "Neh", "Tb",
      "Idt", "Est", "1Mcc"
    , "2Mcc", "3Mcc", "4Mcc", "Iob", "Ps", "Prv", "Ecl", "Ct", "Sap", "Sir", "Is", "Ier", "Lam", "Bar", "Ez", "Dn",
      "Os", "Ioel", "Am", "Abd"
    , "Ion", "Mi", "Na", "Hab", "So", "Agg", "Za", "Mal"]

In [29]:
def percent_calc(num1, num2):
    '''returns percentage value'''
    return (num1/num2)*100
    
 
    
def analyse(filename):
    '''Opens a file specified by the filename, including the directory and creates dataframe for the respective file. Subsequently, 
    this function analyses the chapter with regard to our criteria: 1) Length of the text 2) direct bible quote 3) percentage of text that is a quote'''
    #Öffnen der Datei "filename"
    file_title = filename.split(".")[0]
    with open(filename, 'r') as f:
        file = f.read()   
    soup = bs.BeautifulSoup(file, 'lxml')

    
    #Entferne alle note  type="annotation"
    notes = soup.find_all('note')
    note_len=0
    for i in range(len(notes)):
        note_len += len(notes[i].getText().replace(" ", "").replace("n", ""))
    print(f"Note-Länge {note_len}")
    
    notes_to_remove = []
    for note in notes:
        if not note.find('ref'):
            notes_to_remove.append(note)
    print(notes_to_remove)
    

    #Wählen aller ref-Elemente, die das Attribut cRef haben
    Refs = soup.select('ref[cRef]')
    #print(Refs)
    # Konvertierung der Daten in data. Dies ist die Grundlage für die Auswertungen
    data = []
    for ref in Refs:
        if ref.get('cref').split('_')[0] in AT:
            if ref.parent.find_previous_sibling() == ref.parent.find_previous_sibling('q'):
                data.append((ref.get('cref') , 'at', ref.getText() , ref.parent.find_previous_sibling('q').get_text(' ',strip=True)))
            else:
                data.append((ref.get('cref'), 'at', ref.getText(), 'not a direct quote'))
        else:
            if ref.parent.find_previous_sibling() == ref.parent.find_previous_sibling('q'):
                data.append((ref.get('cref') , 'nt', ref.getText() , ref.parent.find_previous_sibling('q').get_text(' ',strip=True)))
            else:
                data.append((ref.get('cref'), 'nt', ref.getText(), 'not a direct quote'))
    # der eigentliche Dataframe wird gesetzt
    df_data = pd.DataFrame(data)
    # der Header wird gesetzt.
    df_data.columns = ['kuerzel', 'atnt', 'stelle', 'zitat']



    # Hier wird eine Liste der wörtlichen Zitate erstellt
    qs = []
    for ref in Refs:
        if ref.parent.find_previous_sibling() == ref.parent.find_previous_sibling("q"):
            qs.append(ref.parent.find_previous_sibling("q").get_text(" ", strip=True))



    # Hier eine Liste der zitierten Stelle 
    stellen = []
    for i in range (0, len(df_data)):
        if df_data['zitat'][i] != 'not a direct quote':
            stellen.append(df_data['stelle'][i])
    #print(stellen)
    
    # Zählen der Gesamtlänge des zitierten Textes; ohne Leerzeilen und Zeilenumbrüche 
    quote_len = 0
    for i in range(len(qs)):
        quote_len +=len(qs[i].replace(" ","").replace("\n", ""))

    
    ges_soup = soup.select('div')

    
    # Zählen der Gesamtlänge des Textes; ohne Leerzeilen und Zeilenumbrüche
    total_len=0
    for i in range(len(ges_soup)):
        total_len += len(ges_soup[i].getText().replace(" ", "").replace("n", ""))
     
   # Berechnung der Länge des Textes aller note-Elemente 


    print(f"---{filename}---")
    print("Gesamtlänge:" +str(total_len - note_len))
    print(f"Anzahl an erfassten Bibelstellen: {len(Refs)}")
    print(f"wörtliche Zitate: {len(stellen)}")
    #p.pprint(f"Liste d. wörtlichen Zitate:{stellen}")
    print("Zitatlänge :"+ str(quote_len))    
    print("Prozentualer Anteil: " +(str(percent_calc(quote_len, total_len))))
    lines = [f"Anzahl an erfassten Bibelstellen: {len(Refs)}", f"wörtliche Zitate: {len(stellen)}", f"Liste d. wörtl.: {stellen}",f"Gesamtlänge: {str(total_len)}", f"Zitatlänge :{str(quote_len)}",f"Prozentualer Anteil: {(str(percent_calc(quote_len, total_len)))}"]
    # Speichern der obigen Ausgabe harter Fakten in einer Text-Datei mit dem Titel der ausgewählten Datei. 
    with open(f'Visualisierungen/{file_title}', 'w') as f2:
        for line in lines:
            f2.write(line)
            f2.write("\n")
    # Ausgabe, Speichern und Schließen der einzelen Diagramme. 
    print(df_data["kuerzel"].value_counts().plot(figsize=(8,8), kind="pie", legend=False, title=f"{filename}"))
    pplt.savefig(f'Visualisierungen/{file_title}.jpg')
    pplt.clf()
    pplt.cla()
    pplt.close()
    print(df_data["atnt"].value_counts().plot(figsize=(8,8), kind="bar", legend=False, title=f"{filename}", color=["blue", "red"]))
    pplt.savefig(f'Visualisierungen/{file_title}_atnt.jpg')
    pplt.clf()
    pplt.cla()
    pplt.close()
    print(df_data["kuerzel"].value_counts()[:5].plot(figsize=(8,8), kind="barh", legend=False, title=f"{filename}  @cRef)", color="purple"))
    pplt.savefig(f'Visualisierungen/{file_title}_cref.jpg')
    pplt.clf()
    pplt.cla()
    pplt.close()
    print(df_data["stelle"].value_counts()[:10].plot(figsize=(8,8), kind="barh", legend=False, title=f"{filename} nach Stellen", color="red"))
    pplt.savefig(f'Visualisierungen/{file_title}_nach_stellen.jpg')
    pplt.clf()
    pplt.cla()
    pplt.close()
    
    

In [3]:
def no_bible_quote(filename):
    '''Opens a file specified by the filename, including the directory and creates dataframe for the respective file. Subsequently, this function analyses the chapter with regard to our criteria'''
    file_title = filename.split(".")[0]
    with open(filename, 'r') as f:
        file = f.read() 
    ges = bs.BeautifulSoup(file, 'lxml')
    ges_soup = ges.select('div')
    notes = ges.find_all("note", {'type', 'annotation'})
    # Zählen der Gesamtlänge des Textes; ohne Leerzeilen und Zeilenumbrüche
    total_len=0
    for i in range(len(ges_soup)):
        total_len += len(ges_soup[i].getText().replace(" ", "").replace("n", ""))
     
   # Berechnung der Länge des Textes aller note-Elemente 
    no_len = 0
    for i in range(len(notes)):
        #print(len(notes[i].getText()))
        no_len += len(notes[i].getText())
    print(no_len)


    print("Gesamtlänge:" +str(total_len-no_len))

# Daten für das gesamte Interim

In [30]:
analyse('interim4.xml')


Note-Länge 23519
[<note type="annotation">Gedeihen.</note>, <note type="annotation">Vorteil.</note>, <note type="annotation">schwerlich, kaum.</note>, <note type="annotation">dass ohne ... irgendein beständiger Friede ... zu erwarten, erhoffen.</note>, <note type="annotation">Ausgleich.</note>, <note type="annotation">weit.</note>, <note type="annotation">angemessener.</note>, <note type="annotation">zweckmäßig.</note>, <note type="annotation">Das Konzil wurde am <date when="1545-12-13">13.12.1545</date> in <rs ref="#trient" type="place">Trient</rs> eröffnet (vgl. <rs ref="#jedin_geschichte_1" type="bibl"><surname type="author">Jedin</surname>, Geschichte 1, S. 456-460</rs>).</note>, <note type="annotation">bei ihnen erreicht.</note>, <note type="annotation">stets.</note>, <note type="annotation">zu befolgen.</note>, <note type="annotation">anheimgestellt, überlassen.</note>, <note type="annotation">zwischenzeitlich.</note>, <note type="annotation">Abschluss.</note>, <note type="annota

AxesSubplot(0.1275,0.11;0.77x0.77)
AxesSubplot(0.125,0.11;0.775x0.77)
AxesSubplot(0.125,0.11;0.775x0.77)
AxesSubplot(0.125,0.11;0.775x0.77)


In [None]:
analyse('interim2.xml')

In [None]:
with open('interim.xml', 'r') as f:
    file = f.read()   
ges2 = bs.BeautifulSoup(file, 'lxml')
ges_soup2 = ges2.select('div')
print(len(ges_soup2[0]))
print(ges_soup2[0].getText(" ", strip=True))

In [None]:
for i in range(0,27):
    if i <=10:
        print(f"analyse(Artikel/0{i}.xml)")
    else:
        print(f"analyse(Artikel/{i}.xml)")
    i +=1

In [None]:
no_bible_quote('Artikel/05.xml')

In [None]:
analyse('Artikel/05.xml')