# Datengrundlage der Analyse zum Uploadverhalten

Um die Veröffentlichungen bezüglich deren Uhrzeit und Textlänge zu analysieren, wird nachfolgend zunächst die dafür benötigte Datengrundlage geschaffen. Als eigene Spalten werden dazu die `upload-hour` (Stunde, in der der Artikel hochgeladen wurde), `length` (Länge des Texten, gemessen in Anzahl an Zeichen) und `weekday` (Wochentag der Veröffentlichung).

In [1]:
import pandas as pd

In [2]:
articles_data = pd.read_csv('2-1-data.csv')
articles = pd.DataFrame(articles_data)
articles = articles.drop('filename', axis=1)
articles.head()

Unnamed: 0,date,time,category,headline,text
0,2024-05-10,17:14:00,politik,Gruppen treten am Vatertag mit Nazi Symbolik auf,Am Vatertag steuern Männer ein altes Militärfa...
1,2024-05-10,17:16:00,politik,Peking schimpft ueber US Zerstoerer im Suedchi...,China beansprucht die Paracel-Inseln im Südchi...
2,2024-05-10,19:33:00,politik,SPD Politiker Ecke schildert Sekunden der Prue...,Der vor einer Woche brutal attackierte SPD-Pol...
3,2024-05-10,08:40:00,politik,Landkreise fordern haertere Buergergeld Sankti...,Beim Bürgergeld in seiner jetzigen Form bemäng...
4,2024-05-10,15:44:00,politik,Buschmanns Regierungsflieger kehrt in Parkposi...,Deutsche Regierungsflieger sind für ihre Panne...


Das Dataframe wird zusätzlich um die Spalte *upload* erweitert. Darin wird die Uhrzeit und das Upload-Datum in eine Pandas-Datetime konvertiert und eingefügt. Mit dieser kann anschließend leichter weiter gearbeitet werden. Da es einige wenige Artikel gibt, bei welchen kein Upload-Datum bzw. Uhrzeit existiert, sollen diese herausgefiltert werden. Artikel, bei denen diese Attribute nicht gefüllt sind können nicht sinnvoll in die Statistik aufgenommen werden.

In [94]:
articles['upload'] = pd.to_datetime(articles['time'] + ' ' + articles['date'])
articles = articles.dropna()
articles.head()

Unnamed: 0,date,time,category,headline,text,upload,upload-hour,weekday,length
0,2024-05-10,17:14:00,politik,Gruppen treten am Vatertag mit Nazi Symbolik auf,Am Vatertag steuern Männer ein altes Militärfa...,2024-05-10 17:14:00,17,Friday,2908
1,2024-05-10,17:16:00,politik,Peking schimpft ueber US Zerstoerer im Suedchi...,China beansprucht die Paracel-Inseln im Südchi...,2024-05-10 17:16:00,17,Friday,3504
2,2024-05-10,19:33:00,politik,SPD Politiker Ecke schildert Sekunden der Prue...,Der vor einer Woche brutal attackierte SPD-Pol...,2024-05-10 19:33:00,19,Friday,2445
3,2024-05-10,08:40:00,politik,Landkreise fordern haertere Buergergeld Sankti...,Beim Bürgergeld in seiner jetzigen Form bemäng...,2024-05-10 08:40:00,8,Friday,2984
4,2024-05-10,15:44:00,politik,Buschmanns Regierungsflieger kehrt in Parkposi...,Deutsche Regierungsflieger sind für ihre Panne...,2024-05-10 15:44:00,15,Friday,2570


Da nachfolgend die Upload-**Stunde** untersucht werden soll, wird diese extrahiert und als zusätzliche Spalte aufgenommen. Diese wird aus der *upload*-Spalte genommen und in einen Integer umgewandelt.

In [95]:
articles['upload-hour'] = articles['upload'].dt.hour
articles['upload-hour'] = articles['upload-hour'].astype(int)
articles.head()

Unnamed: 0,date,time,category,headline,text,upload,upload-hour,weekday,length
0,2024-05-10,17:14:00,politik,Gruppen treten am Vatertag mit Nazi Symbolik auf,Am Vatertag steuern Männer ein altes Militärfa...,2024-05-10 17:14:00,17,Friday,2908
1,2024-05-10,17:16:00,politik,Peking schimpft ueber US Zerstoerer im Suedchi...,China beansprucht die Paracel-Inseln im Südchi...,2024-05-10 17:16:00,17,Friday,3504
2,2024-05-10,19:33:00,politik,SPD Politiker Ecke schildert Sekunden der Prue...,Der vor einer Woche brutal attackierte SPD-Pol...,2024-05-10 19:33:00,19,Friday,2445
3,2024-05-10,08:40:00,politik,Landkreise fordern haertere Buergergeld Sankti...,Beim Bürgergeld in seiner jetzigen Form bemäng...,2024-05-10 08:40:00,8,Friday,2984
4,2024-05-10,15:44:00,politik,Buschmanns Regierungsflieger kehrt in Parkposi...,Deutsche Regierungsflieger sind für ihre Panne...,2024-05-10 15:44:00,15,Friday,2570


Außerdem soll das Dataframe um die Spalten `weekday` ergänzt werden.

In [96]:
articles['weekday'] = articles['upload'].dt.dayofweek
wochentag_map = {0: 'Monday', 1: 'Tuesday', 2: 'Wednesday', 3: 'Thursday', 4: 'Friday', 5: 'Saturday', 6: 'Sunday'}
articles['weekday'] = articles['weekday'].map(wochentag_map)
articles.head()

Unnamed: 0,date,time,category,headline,text,upload,upload-hour,weekday,length
0,2024-05-10,17:14:00,politik,Gruppen treten am Vatertag mit Nazi Symbolik auf,Am Vatertag steuern Männer ein altes Militärfa...,2024-05-10 17:14:00,17,Friday,2908
1,2024-05-10,17:16:00,politik,Peking schimpft ueber US Zerstoerer im Suedchi...,China beansprucht die Paracel-Inseln im Südchi...,2024-05-10 17:16:00,17,Friday,3504
2,2024-05-10,19:33:00,politik,SPD Politiker Ecke schildert Sekunden der Prue...,Der vor einer Woche brutal attackierte SPD-Pol...,2024-05-10 19:33:00,19,Friday,2445
3,2024-05-10,08:40:00,politik,Landkreise fordern haertere Buergergeld Sankti...,Beim Bürgergeld in seiner jetzigen Form bemäng...,2024-05-10 08:40:00,8,Friday,2984
4,2024-05-10,15:44:00,politik,Buschmanns Regierungsflieger kehrt in Parkposi...,Deutsche Regierungsflieger sind für ihre Panne...,2024-05-10 15:44:00,15,Friday,2570


Zuletzt das Dataframe um die Spalte `length` erweitert. Hierin wird die Textlänge des jeweiligen Artikels gespeichert.

In [97]:
articles['length'] = articles['text'].apply(len)
articles.head()

Unnamed: 0,date,time,category,headline,text,upload,upload-hour,weekday,length
0,2024-05-10,17:14:00,politik,Gruppen treten am Vatertag mit Nazi Symbolik auf,Am Vatertag steuern Männer ein altes Militärfa...,2024-05-10 17:14:00,17,Friday,2908
1,2024-05-10,17:16:00,politik,Peking schimpft ueber US Zerstoerer im Suedchi...,China beansprucht die Paracel-Inseln im Südchi...,2024-05-10 17:16:00,17,Friday,3504
2,2024-05-10,19:33:00,politik,SPD Politiker Ecke schildert Sekunden der Prue...,Der vor einer Woche brutal attackierte SPD-Pol...,2024-05-10 19:33:00,19,Friday,2445
3,2024-05-10,08:40:00,politik,Landkreise fordern haertere Buergergeld Sankti...,Beim Bürgergeld in seiner jetzigen Form bemäng...,2024-05-10 08:40:00,8,Friday,2984
4,2024-05-10,15:44:00,politik,Buschmanns Regierungsflieger kehrt in Parkposi...,Deutsche Regierungsflieger sind für ihre Panne...,2024-05-10 15:44:00,15,Friday,2570


Wir speichern das nun generierte Dataframe als neue `csv`-Datei, die anschließend zur weiteren Auswertung verwendet werden kann.

In [98]:
articles.to_csv('2-2-data-extended.csv', index=False)