In [23]:
maerchen = ""  #25 Eine leere Zeichenkette, in der Daten für Märchen gesammelt werden.
import xml.etree.ElementTree as ET  #26 Importieren der ElementTree-Bibliothek zum Parsen von XML.
root_node = ET.parse('gesamt_märchen.xml').getroot()  #27 Parsen der XML-Datei und Zugriff auf das Wurzelelement.
never_saved = True  #28 Ein boolean-Wert, der angibt, ob Daten bereits gespeichert wurden oder nicht.
#29 Iteration durch jedes 'text'-Element in der XML-Datei.
for corp in root_node.findall (".//{http://www.tei-c.org/ns/1.0}teiCorpus"):
    if "rus" in corp.attrib["n"]:
        for ganze in corp.findall(".//{http://www.tei-c.org/ns/1.0}text"):
            #30 Überprüfung, ob das Attribut 'deu' in der 'id'-Eigenschaft des 'text'-Elements vorhanden ist.
            if ('zyx_' in ganze.attrib['{http://www.w3.org/XML/1998/namespace}id']):
                #31 Iteration durch jeden Absatz im 'body' des 'text'-Elements.
                for body in ganze.findall(".//{http://www.tei-c.org/ns/1.0}body"):
                    for absatz in body.findall(".//{http://www.tei-c.org/ns/1.0}p"):
                        #32 Iteration durch jede 'seg'-Phrase im Absatz.
                        for phrase in absatz.findall(".//{http://www.tei-c.org/ns/1.0}seg"):
                            #33 Extrahieren von Labels und Inhalten aus den Attributen und dem Text der Phrase.
                            labelx = ganze.attrib['{http://www.w3.org/XML/1998/namespace}id']
                            labela = phrase.attrib['{www.dglab.uni-jena.de/vmf/a}ana']
                            if labela !='N' and labela!="formel" and labela!="a554": #and labela!="a516":

                                maerchen += labela+','+labelx+'\n'
                                
with open("anzahl.csv", 'w', encoding='utf-8') as f:
    f.write ('labela,labelx\n')
    f.write (maerchen)

In [24]:
relevanter = 8
import pandas as pd
from pyvis.network import Network
from itertools import combinations
from collections import defaultdict

# CSV-Datei einlesen
df = pd.read_csv('anzahl.csv')

# Duplikate entfernen, um einzigartige Datensätze zu erhalten
unique_df = df.drop_duplicates()

# Netzwerk erstellen
net = Network(notebook=True)

# Aktivieren der interaktiven Suche und des Physik-Layouts
#net.show_buttons(filter_=['physics'])  # Fügt das Steuerungsmenü hinzu
net.force_atlas_2based()

# Dictionary zur Speicherung der Kanten, deren Gewicht und der zugehörigen labelx-Werte
edges = {}

# Mindesthäufigkeit definieren
min_frequency = 1  # Setze hier die minimale Häufigkeit

# Mindestanzahl an einzigartigen labelx-Werten für die Anzeige eines Knotens
min_unique_labelx = relevanter  # Hier die minimale Anzahl der einzigartigen labelx-Werte angeben

# Selbstverbindungen dictionary
self_loops = {}

# Dictionary zur Speicherung der Häufigkeit der Knoten basierend auf der Anzahl der verschiedenen labelx-Werte
node_frequency = defaultdict(set)

# Gruppieren nach labelx und zählen, wie viele einzigartige labelx-Werte mit jedem labela verbunden sind
for labelx, group in unique_df.groupby('labelx'):
    labelas = group['labela'].unique()
    
    if len(labelas) == 1:
        # Fall, wenn ein labela nur mit einem labelx verbunden ist -> Selbstverbindung
        labela = labelas[0]
        if labela in self_loops:
            self_loops[labela]['weight'] += 1
            self_loops[labela]['labelx_values'].append(labelx)
        else:
            self_loops[labela] = {
                'weight': 1,
                'labelx_values': [labelx]
            }
        # Füge den aktuellen `labelx` dem Knoten hinzu
        node_frequency[labela].add(labelx)
    else:
        # Alle Paare von labela Elementen, die denselben labelx teilen
        for pair in combinations(labelas, 2):
            sorted_pair = tuple(sorted(pair))  # Sortieren, um Richtungslosigkeit zu gewährleisten
            if sorted_pair in edges:
                edges[sorted_pair]['weight'] += 1  # Häufigkeit erhöhen
                edges[sorted_pair]['labelx_values'].append(labelx)  # labelx-Wert hinzufügen
            else:
                edges[sorted_pair] = {
                    'weight': 1,
                    'labelx_values': [labelx]  # Erster labelx-Wert
                }
            
            # Füge den aktuellen `labelx` beiden Knoten hinzu
            node_frequency[pair[0]].add(labelx)
            node_frequency[pair[1]].add(labelx)

# Berechne die Häufigkeit basierend auf der Anzahl der einzigartigen labelx-Werte für jeden Knoten
node_frequency = {node: len(labelx_set) for node, labelx_set in node_frequency.items()}

# Funktion zur Skalierung der Knotengröße basierend auf der Anzahl der einzigartigen labelx-Werte
def get_node_size(frequency, min_size=10, max_size=50):
    # Skalierung zwischen min_size und max_size
    max_frequency = max(node_frequency.values()) if node_frequency else 1
    return min_size + (max_size - min_size) * (frequency / max_frequency)

# Knoten und Kanten zum Netzwerk hinzufügen, basierend auf min_frequency und min_unique_labelx
for (labela1, labela2), data in edges.items():
    if data['weight'] >= min_frequency:  # Nur Kanten mit ausreichender Häufigkeit hinzufügen
        if node_frequency[labela1] >= min_unique_labelx and node_frequency[labela2] >= min_unique_labelx:
            labelx_list = ", ".join(data['labelx_values'])  # labelx-Werte als String
            edge_title = f'{data["weight"]}'  # {labelx_list}
        
            # Knotengröße berechnen basierend auf der Anzahl der einzigartigen labelx-Werte
            size1 = get_node_size(node_frequency[labela1])
            size2 = get_node_size(node_frequency[labela2])
        
            # Knoten mit Anzahl der einzigartigen labelx-Werte im Titel hinzufügen
            net.add_node(labela1, labela1, title=f'{labela1} ({node_frequency[labela1]})', size=size1)
            net.add_node(labela2, labela2, title=f'{labela2} ({node_frequency[labela2]})', size=size2)
            net.add_edge(labela1, labela2, value=data['weight'], title=edge_title)

# Selbstverbindungen hinzufügen, nur wenn die Anzahl der einzigartigen labelx-Werte >= min_unique_labelx ist
for labela, data in self_loops.items():
    if node_frequency[labela] >= min_unique_labelx:
        labelx_list = ", ".join(data['labelx_values'])
        edge_title = f'{data["weight"]}'  # {labelx_list}
    
        # Knotengröße berechnen basierend auf der Anzahl der einzigartigen labelx-Werte
        size = get_node_size(node_frequency[labela])
    
        # Knoten mit Anzahl der einzigartigen labelx-Werte im Titel hinzufügen
        net.add_node(labela, labela, title=f'{labela} ({node_frequency[labela]})', size=size)
        net.add_edge(labela, labela, value=data['weight'], title=edge_title)  # , color='red'  # Optional: Selbstverbindungen farblich hervorheben

# Graph anzeigen
net.show('ava.html')


ava.html


In [9]:
import pandas as pd
from pyvis.network import Network
from itertools import combinations
from collections import defaultdict

# CSV-Datei einlesen
df = pd.read_csv('anzahl.csv')

# Duplikate entfernen, um einzigartige Datensätze zu erhalten
unique_df = df.drop_duplicates()

# Netzwerk erstellen
net = Network(notebook=True)

# Aktivieren der interaktiven Suche und des Physik-Layouts
#net.show_buttons(filter_=['physics'])  # Fügt das Steuerungsmenü hinzu
net.force_atlas_2based()

# Dictionary zur Speicherung der Kanten, deren Gewicht und der zugehörigen labelx-Werte
edges = {}

# Mindesthäufigkeit definieren
min_frequency = 1  # Setze hier die minimale Häufigkeit

# Selbstverbindungen dictionary
self_loops = {}

# Dictionary zur Speicherung der Häufigkeit der Knoten basierend auf der Anzahl der verschiedenen labelx-Werte
node_frequency = defaultdict(set)

# Gruppieren nach labelx und zählen, wie viele einzigartige labelx-Werte mit jedem labela verbunden sind
for labelx, group in unique_df.groupby('labelx'):
    labelas = group['labela'].unique()
    
    if len(labelas) == 1:
        # Fall, wenn ein labela nur mit einem labelx verbunden ist -> Selbstverbindung
        labela = labelas[0]
        if labela in self_loops:
            self_loops[labela]['weight'] += 1
            self_loops[labela]['labelx_values'].append(labelx)
        else:
            self_loops[labela] = {
                'weight': 1,
                'labelx_values': [labelx]
            }
        # Füge den aktuellen `labelx` dem Knoten hinzu
        node_frequency[labela].add(labelx)
    else:
        # Alle Paare von labela Elementen, die denselben labelx teilen
        for pair in combinations(labelas, 2):
            sorted_pair = tuple(sorted(pair))  # Sortieren, um Richtungslosigkeit zu gewährleisten
            if sorted_pair in edges:
                edges[sorted_pair]['weight'] += 1  # Häufigkeit erhöhen
                edges[sorted_pair]['labelx_values'].append(labelx)  # labelx-Wert hinzufügen
            else:
                edges[sorted_pair] = {
                    'weight': 1,
                    'labelx_values': [labelx]  # Erster labelx-Wert
                }
            
            # Füge den aktuellen `labelx` beiden Knoten hinzu
            node_frequency[pair[0]].add(labelx)
            node_frequency[pair[1]].add(labelx)

# Berechne die Häufigkeit basierend auf der Anzahl der einzigartigen labelx-Werte für jeden Knoten
node_frequency = {node: len(labelx_set) for node, labelx_set in node_frequency.items()}

# Funktion zur Skalierung der Knotengröße basierend auf der Anzahl der einzigartigen labelx-Werte
def get_node_size(frequency, min_size=10, max_size=50):
    # Skalierung zwischen min_size und max_size
    max_frequency = max(node_frequency.values()) if node_frequency else 1
    return min_size + (max_size - min_size) * (frequency / max_frequency)

# Knoten und Kanten zum Netzwerk hinzufügen, basierend auf min_frequency
for (labela1, labela2), data in edges.items():
    if data['weight'] >= min_frequency:  # Nur Kanten mit ausreichender Häufigkeit hinzufügen
        labelx_list = ", ".join(data['labelx_values'])  # labelx-Werte als String
        edge_title = f'{data["weight"]}'#{labelx_list}'
        
        # Knotengröße berechnen basierend auf der Anzahl der einzigartigen labelx-Werte
        size1 = get_node_size(node_frequency[labela1])
        size2 = get_node_size(node_frequency[labela2])
        
        # Knoten mit Anzahl der einzigartigen labelx-Werte im Titel hinzufügen
        net.add_node(labela1, labela1, title=f'{labela1} ({node_frequency[labela1]})', size=size1)
        net.add_node(labela2, labela2, title=f'{labela2} ({node_frequency[labela2]})', size=size2)
        net.add_edge(labela1, labela2, value=data['weight'], title=edge_title)

# Selbstverbindungen hinzufügen
for labela, data in self_loops.items():
    labelx_list = ", ".join(data['labelx_values'])
    edge_title = f'{data["weight"]}'#{labelx_list}'
    
    # Knotengröße berechnen basierend auf der Anzahl der einzigartigen labelx-Werte
    size = get_node_size(node_frequency[labela])
    
    # Knoten mit Anzahl der einzigartigen labelx-Werte im Titel hinzufügen
    net.add_node(labela, labela, title=f'{labela} ({node_frequency[labela]})', size=size)
    net.add_edge(labela, labela, value=data['weight'], title=edge_title)#, color='red')  # Optional: Selbstverbindungen farblich hervorheben

# Graph anzeigen
net.show('ava.html')


ava.html


In [15]:
import pandas as pd
from pyvis.network import Network
from itertools import combinations

# CSV-Datei einlesen
df = pd.read_csv('anzahl.csv')

# Duplikate entfernen, um einzigartige Datensätze zu erhalten
unique_df = df.drop_duplicates()

# Netzwerk erstellen
net = Network(notebook=True)

# Dictionary zur Speicherung der Kanten, deren Gewicht und der zugehörigen labelx-Werte
edges = {}

# Mindesthäufigkeit definieren
min_frequency = 1  # Setze hier die minimale Häufigkeit

# Selbstverbindungen dictionary
self_loops = {}

# Gruppieren nach labelx und Häufigkeit der Begegnung zwischen labela Elementen zählen
for labelx, group in unique_df.groupby('labelx'):
    labelas = group['labela'].unique()
    
    if len(labelas) == 1:
        # Fall, wenn ein labela nur mit einem labelx verbunden ist -> Selbstverbindung
        labela = labelas[0]
        if labela in self_loops:
            self_loops[labela]['weight'] += 1
            self_loops[labela]['labelx_values'].append(labelx)
        else:
            self_loops[labela] = {
                'weight': 1,
                'labelx_values': [labelx]
            }
    else:
        # Alle Paare von labela Elementen, die denselben labelx teilen
        for pair in combinations(labelas, 2):
            sorted_pair = tuple(sorted(pair))  # Sortieren, um Richtungslosigkeit zu gewährleisten
            if sorted_pair in edges:
                edges[sorted_pair]['weight'] += 1  # Häufigkeit erhöhen
                edges[sorted_pair]['labelx_values'].append(labelx)  # labelx-Wert hinzufügen
            else:
                edges[sorted_pair] = {
                    'weight': 1,
                    'labelx_values': [labelx]  # Erster labelx-Wert
                }

# Knoten und Kanten zum Netzwerk hinzufügen, basierend auf min_frequency
for (labela1, labela2), data in edges.items():
    if data['weight'] >= min_frequency:  # Nur Kanten mit ausreichender Häufigkeit hinzufügen
        labelx_list = ", ".join(data['labelx_values'])  # labelx-Werte als String
        edge_title = f'{data["weight"]}'#{labelx_list}'
        
        net.add_node(labela1, labela1, title=labela1)
        net.add_node(labela2, labela2, title=labela2)
        net.add_edge(labela1, labela2, value=data['weight'], title=edge_title)

# Selbstverbindungen hinzufügen
for labela, data in self_loops.items():
    labelx_list = ", ".join(data['labelx_values'])
    edge_title = f'{data["weight"]}'#{labelx_list}'
    
    net.add_node(labela, labela, title=labela)
    net.add_edge(labela, labela, value=data['weight'], title=edge_title)#, color='red')  # Optional: Selbstverbindungen farblich hervorheben

# Graph anzeigen
net.show('ava.html')

ava.html


In [10]:
import pandas as pd
from pyvis.network import Network
from itertools import combinations

# CSV-Datei einlesen
df = pd.read_csv('anzahl.csv')

# Duplikate entfernen, um einzigartige Datensätze zu erhalten
unique_df = df.drop_duplicates()

# Netzwerk erstellen, dabei die Möglichkeit zur Interaktion (Suchen, Filter) aktivieren
net = Network(notebook=True, height="750px", width="100%", bgcolor="#ffffff", font_color="black")

# Aktivieren der interaktiven Suche und des Physik-Layouts
net.show_buttons(filter_=['physics'])  # Fügt das Steuerungsmenü hinzu

# Dictionary zur Speicherung der Kanten, deren Gewicht und der zugehörigen labelx-Werte
edges = {}

# Mindesthäufigkeit definieren
min_frequency = 1  # Setze hier die minimale Häufigkeit

# Selbstverbindungen dictionary
self_loops = {}

# Gruppieren nach labelx und Häufigkeit der Begegnung zwischen labela-Elementen zählen
for labelx, group in unique_df.groupby('labelx'):
    labelas = group['labela'].unique()
    
    if len(labelas) == 1:
        # Fall, wenn ein labela nur mit einem labelx verbunden ist -> Selbstverbindung
        labela = labelas[0]
        if labela in self_loops:
            self_loops[labela]['weight'] += 1
            self_loops[labela]['labelx_values'].append(labelx)
        else:
            self_loops[labela] = {
                'weight': 1,
                'labelx_values': [labelx]
            }
    else:
        # Alle Paare von labela-Elementen, die denselben labelx teilen
        for pair in combinations(labelas, 2):
            sorted_pair = tuple(sorted(pair))  # Sortieren, um Richtungslosigkeit zu gewährleisten
            if sorted_pair in edges:
                edges[sorted_pair]['weight'] += 1  # Häufigkeit erhöhen
                edges[sorted_pair]['labelx_values'].append(labelx)  # labelx-Wert hinzufügen
            else:
                edges[sorted_pair] = {
                    'weight': 1,
                    'labelx_values': [labelx]  # Erster labelx-Wert
                }

# Knoten und Kanten zum Netzwerk hinzufügen, basierend auf min_frequency
for (labela1, labela2), data in edges.items():
    if data['weight'] >= min_frequency:  # Nur Kanten mit ausreichender Häufigkeit hinzufügen
        labelx_list = ", ".join(data['labelx_values'])  # labelx-Werte als String
        edge_title = f'{data["weight"]}'  # Tooltip für Kante (Gewicht der Verbindung)
        
        net.add_node(labela1, labela1, title=labela1)
        net.add_node(labela2, labela2, title=labela2)
        net.add_edge(labela1, labela2, value=data['weight'], title=edge_title)

# Selbstverbindungen hinzufügen
for labela, data in self_loops.items():
    labelx_list = ", ".join(data['labelx_values'])
    edge_title = f'{data["weight"]}'  # Tooltip für Kante (Selbstverbindung)
    
    net.add_node(labela, labela, title=labela)
    net.add_edge(labela, labela, value=data['weight'], title=edge_title)

# Netzwerk generieren und in HTML-Datei speichern
#net.save_graph('ava.html')
net.show('ava.html')

ava.html
