In [None]:
from scraper import Corpus
from data_preparation import DataPreparation
from analyzer import Analyzer
import pandas as pd

In [None]:
%load_ext autoreload
%autoreload 2
pd.set_option('display.max_columns', 999)

# Beschreibung

Dieses Notebook dient dazu, die einzelnen Schritte des Programms zur Analyse der Multimodalität von Webseiten auszuführen. Für die Details siehe Artikel "Vorstellung eines (teil-)automatisierten Verfahrens zur Analyse der Multimodalität von Webseiten" (eingereicht bei [Zeitschrift für digitale Geisteswissenschaften](https://zfdg.de/)).

**ACHTUNG**: Dieses Programm dient nur zur Dokumentation und Durchführung der Analyse im Kontext des Artikels und ist nicht für eine allgemeine Nutzung ausgelegt. Erfordert zahlreiche Vorkehrungen, bspw. funktioniert die derzeitige Version nur mit dem Edge-Webdriver, der im selben Verzeichnis wie das Programm liegen muss.

# 1. Corpus-Initialisierung
*Muss für jedes Webseiten-Sample nur einmal ausgeführt werden.*

In [None]:
cp = Corpus()

In [None]:
cp.initCorpus()

# 2. Vorbereitung der Corpus-Daten

*Muss für jedes Webseiten-Sample nur einmal ausgeführt werden.*

In [None]:
dp = DataPreparation()

In [None]:
dp.getImages()

In [None]:
data_dict = dp.createAnalyzerDict()

# 3. Analysis

In [None]:
ana = Analyzer()

In [None]:
ana.getColumnSelection()

## Feature Selektionen des ZFDG Article:

Images and Video Features: `['background_images', 'total_images', 'big_images', 'middle_images', 'small_images', 'very_small_images', 'small_videos', 'big_videos', 'RA_big_images/total_images', 'RA_middle_images/total_images', 'RA_small_images/total_images', 'RA_very_small_images/total_images']`

Images Small Feature Set: `['total_images', 'big_images', 'middle_images', 'small_images', 'very_small_images']`

Text Features: `['total_length', 'headings', 'RA_headings/total_length']`

Images, Video, and Text Features: `['total_images', 'big_images', 'middle_images', 'small_images', 'very_small_images', 'small_videos', 'big_videos', 'RA_big_images/total_images', 'RA_middle_images/total_images', 'RA_small_images/total_images', 'RA_very_small_images/total_images', 'total_length', 'headings', 'RA_headings/total_length', 'RA_total_images/total_length']`

Features-Set können mit der Methode `setColumnSelection()` geändert werden.

In [None]:
# KMeans clustering and standardization

In [None]:
ana_selection = ana.getDataFrame()

In [None]:
standardized_data = ana.standardizeData(ana_selection)

In [None]:
clustered_data = ana.clusterDataKMeans(standardized_data, n=3)

In [None]:
ana.createElbowPlot(clustered_data)

In [None]:
# optional auf Basis der Ergebnisse des Elbow-Plot neues Clustering 
#clustered_data = ana.clusterDataKMeans(standardized_data, n=XX)

In [None]:
ana.getScreenshotsFromClusters(clustered_data)

In [None]:
clustered_data.sort_values("clusters")