# RegEx: finditer() und match objects

Siehe auch die ersten Informationen und die Übung zu Regular Expressions. 

Die Funktion finditer() hat viele Anwendungen bei der Suche in Strings. Ein Beispiel dafür ist die Berechnung der Länge von Absätzen, wie im Folgenden gezeigt. Eine KWIC-Ansicht ("Keywords in Context") wäre aber eine andere naheliegende Anwendungsmöglichkeit. 

Unser Schwerpunkt zu finditer() liegt hier darauf, mit den resultierenden match objects umzugehen. 

**KWIC-Ansicht in TXM (https://textometrie.fr)**

![](txm-beccaria.png)

## Beispielaufgabe: Länge von Absätzen

Wir haben ein HTML-Dokument, in dem mehrere Absätze vorkommen, die mit dem Element `p` ausgezeichnet sind.

Wir möchten für jeden der Absätze bestimmen, welche Länge, in Zeichen und in Wörtern, er hat. 

## Struktur des Lösungsansatzes

1. Libraries importieren (os, re, pandas)
2. HTML-Datei als String einlesen
3. Absätze herausfiltern
4. Länge der Absätze bestimmen
5. Informationen einsammeln
6. Informationen abspeichern
7. Alles über main() koordiniert

## Importe

In [148]:
from os.path import join
import re
import pandas as pd

## Eine HTML-Datei laden

In [149]:
def read_htmlfile(htmlfile): 
    """
    Input: HTML-Datei. 
    Output: Inhalt der HTML-Datei als String. 
    """
    with open(htmlfile, "r", encoding="utf8") as infile: 
        htmlstr = infile.read()
    #print(htmlstr[0:50])
    return htmlstr

#main(htmlfile) # [Steht hier nur, um zum Testen von hier aus main() ausführen zu können!]

## Die Absätze herausfiltern

Das machen wir hier mit `finditer()`, das uns einen Iterator von match objects zurückgibt. 

Die Absätze zeichnen sich dadurch aus, dass sie die Struktur `<p>...</p>` haben. Danach können wir suchen. 

In [161]:
def filter_html(htmlstr): 
    """
    Funktion: Alle Absätze im Dokument einsammeln, alles andere ignorieren. 
    Input: HTML als String
    Output: Liste von Absätzen
    """
    paras = re.finditer("<p>.*?</p>", htmlstr)
    #for para in paras:
    #    print(para)
    return paras

main(htmlfile)

   chars1  chars2  words
1     230     231     29
2     177     178     22
3     344     346     47
4     630     635     69
5     393     393     51


## Länge der Absätze ermitteln

Weil unsere Absätze in `paras` als "match objects" vorliegen, können wir über die Liste der Absätze iterieren und jeweils auf das match object zugreifen. 

Die Teile des match objects sind als Methoden verfügbar: `.start()` (Anfangsposition des Absatzes im HTML-Dokument), `.end()` (Endposition), `.span()` (Anfang und Ende als Tupel) und `.group()` (der Textinhalt). 

Wir können entweder die Länge des Strings in `group` ohne den Markup oder den Offset der Span ermitteln, um die Länge der Absätze in Zeichen zu erhalten. Wir vergleichen hier mal das Ergebnis beider Methoden.

In [151]:
def get_paraslens(paras): 
    """
    Den Textinhalt isolieren und die Länge in chars ermitteln. 
    Input: Liste von match objects (Absätze)
    Output: Dict mit ints (Länge der Absätze)
    """
    counter = 0
    paraslens = {}
    for para in paras: 
        counter +=1
        # TEST
        #print(para.span(), para.start(), para.end())
        #print(para.group())
        #print(re.sub("[<p>|</p>]", "", para.group()))

        # Methode 1
        paratext = re.sub("[<p>|</p>]", "", para.group())
        #print(paratext)
        chars1 = len(paratext)

        # Methode 2
        chars2 = para.end() - para.start() - 7 #len("<p></p>")=7
        
        # Methode 3: Länge in Wörtern 
        words = len([word for word in re.split("\W+", paratext) if word])
        #print(chars1, chars2, words)
        
        # Werte für den para dem dict hinzufügen
        paraslens[counter] = (chars1, chars2, words)
    return paraslens

#main(htmlfile)

## Dict als DataFrame abspeichern

Oft ist es nützlich, die Inhalte eines Dicts auch abzuspeichern. Dafür bietet sich ein pandas DataFrame an. 

In [152]:
def save_dict_as_df(paraslens): 
    """
    Dictionary in DataFrame umwandeln und als CSV-Datei abspeichern.
    https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.from_dict.html
    """
    columns = ["chars1", "chars2", "words"]
    paraslens_df = pd.DataFrame.from_dict(paraslens, orient="index", columns=columns)
    #print(paraslens_df.head())
    with open("paraslens.csv", "w", encoding="utf8") as outfile: 
        paraslens_df.to_csv(outfile, sep=";")

#main(htmlfile)

Um zu prüfen, dass unsere CSV Datei (a) da ist und (b) die richtigen Inhalte enhält, können wir die Datei entweder außerhalb des Codes öffnen oder vom Skript aus inspizieren. 

**CSV-Datei in LibreOffice Calc geöffnet**

<img src="calcsheet.png" width="300" align="left"/>

In [157]:
def check_csv(): 
    with open("paraslens.csv", "r", encoding="utf8") as infile: 
        csv = pd.read_csv(infile, sep=";", index_col=0)
        #print(csv.head())

#main(htmlfile)

## Koordination mit main()

In [None]:
htmlfile = join("..", "data", "dnb.html")    # Einziger Parameter: Dateiname

def main(htmlfile): 
    htmlstr = read_htmlfile(htmlfile)        # HTML-Datei einlesen
    paras = filter_html(htmlstr)             # Absätze herausfiltern
    paraslens = get_paraslens(paras)         # Länge der Absätze ermitteln
    save_dict_as_df(paraslens)               # Als df abspeichern
    check_csv()

main(htmlfile)

## Erweiterungen

* Wie müsste man das Skript erweitern, damit man wahlweise die Länge der Absätze oder die Länge der Überschriften ermitteln kann, indem man in "main" einen Parameter setzt.  