# Explorative Datenanalyse der gesammelten Daten 

In [35]:
#Import Bibliotheken
import pandas as pd
import matplotlib.pyplot as plt
from collections import Counter

In [36]:
#Abruf und Anzeige DataFrame
file_path = r'4_Daten_alle.csv'
df = pd.read_csv(file_path)
print(df.head())

  Quelle       Datum                                               Link  \
0    FAZ  11/30/2023  https://www.faz.net/aktuell/wirtschaft/unterne...   
1    FAZ  11/30/2023  https://www.faz.net/aktuell/wirtschaft/kuenstl...   
2    FAZ  11/29/2023  https://www.faz.net/aktuell/feuilleton/medien/...   
3    FAZ  11/28/2023  https://www.faz.net/pro/d-economy/kuenstliche-...   
4    FAZ  11/28/2023  https://www.faz.net/pro/d-economy/kuenstliche-...   

                                               Titel  \
0  KI: Warum wir nicht mit Roboter-Autos vollauto...   
1  Microsoft: Sind Jahrzehnte von einer künstlich...   
2  Künstliche Intelligenz: Europa muss von neuen ...   
3  Bilderstrecke zu: Was die Superintelligenz-KI ...   
4  Was die Superintelligenz-KI anrichten könnte, ...   

                                                Text  
0  Roboterautos faszinieren viele – die Augen der...  
1  Der Krieg von Mensch gegen Maschine verschiebt...  
2  Durch den Streik gegen die Hollywoodbosse ha

In [37]:
#Dekriptive Analyse des DataFrame

#Gestaltung (Shape) des DataFrames
df.shape

(10841, 5)

In [38]:
#Informationen (Info) über den DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10841 entries, 0 to 10840
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Quelle  10841 non-null  object
 1   Datum   10841 non-null  object
 2   Link    10841 non-null  object
 3   Titel   10841 non-null  object
 4   Text    9562 non-null   object
dtypes: object(5)
memory usage: 423.6+ KB


In [39]:
#Beschreibung (Describe) über den DataFrame
print(df.describe())

       Quelle      Datum                                               Link  \
count   10841      10841                                              10841   
unique      8        839                                               5998   
top       FAZ  11/2/2023  https://www.sueddeutsche.de/wirtschaft/kuenstl...   
freq     1902         73                                                  6   

         Titel  Text  
count    10841  9562  
unique    5977  5228  
top     #NAME?        
freq        10   366  


In [40]:
#Prüfung Duplikate in dem DataFrame
duplicates = df[df.duplicated()]
num_duplicates = len(duplicates)

print("Anzahl der Duplikate:", num_duplicates)
print(duplicates)

Anzahl der Duplikate: 4786
      Quelle       Datum                                               Link  \
8        FAZ  11/28/2023  https://www.faz.net/pro/d-economy/kuenstliche-...   
12       FAZ  11/30/2023  https://www.faz.net/aktuell/wirtschaft/kuenstl...   
13       FAZ  11/28/2023  https://www.faz.net/pro/d-economy/kuenstliche-...   
14       FAZ  11/30/2023  https://www.faz.net/aktuell/wirtschaft/unterne...   
15       FAZ  11/29/2023  https://www.faz.net/aktuell/wirtschaft/unterne...   
...      ...         ...                                                ...   
10835   Zeit   12/2/2023  https://www.zeit.de/2023/51/kuenstliche-intell...   
10836   Zeit   12/3/2023  https://www.zeit.de/digital/internet/2023-12/k...   
10837   Zeit   12/4/2023  https://www.zeit.de/digital/2023-11/ki-gesetz-...   
10838   Zeit   12/3/2023  https://www.zeit.de/politik/ausland/2023-12/is...   
10840   Zeit   12/2/2023  https://www.zeit.de/2023/51/kuenstliche-intell...   

                        

In [41]:
#Zählen Anzahl der Wörter pro Nachrichtenartikel
df['Anzahl Wörter Titel'] = df['Titel'].apply(lambda x: len(str(x).split()) if pd.notnull(x) else 0)
total_words_titel = df['Anzahl Wörter Titel'].sum()

df['Anzahl Wörter Text'] = df['Text'].apply(lambda x: len(str(x).split()) if pd.notnull(x) else 0)
total_words_text = df['Anzahl Wörter Text'].sum()

print("Gesamtanzahl der Wörter im Titel:", total_words_titel)
print("Gesamtanzahl der Wörter im Text:", total_words_text)

#Beschreibung (Describe) über den DataFrame
print(df.describe())

print(df)

Gesamtanzahl der Wörter im Titel: 118256
Gesamtanzahl der Wörter im Text: 5204197
       Anzahl Wörter Titel  Anzahl Wörter Text
count         10841.000000        10841.000000
mean             10.908219          480.047689
std               2.925011          493.846364
min               1.000000            0.000000
25%               9.000000          109.000000
50%              11.000000          376.000000
75%              13.000000          675.000000
max              27.000000         5771.000000
      Quelle       Datum                                               Link  \
0        FAZ  11/30/2023  https://www.faz.net/aktuell/wirtschaft/unterne...   
1        FAZ  11/30/2023  https://www.faz.net/aktuell/wirtschaft/kuenstl...   
2        FAZ  11/29/2023  https://www.faz.net/aktuell/feuilleton/medien/...   
3        FAZ  11/28/2023  https://www.faz.net/pro/d-economy/kuenstliche-...   
4        FAZ  11/28/2023  https://www.faz.net/pro/d-economy/kuenstliche-...   
...      ...         

In [42]:
#Zählen der häufigsten Wörter im Titel und im Text

#Wörter in allen Einträgen der Spalte "Text_bereinigt" aufteilen und in einer Liste sammeln
words = df['Text'].str.split(expand=True).stack()

#Zähle die Wörter mit Counter
word_counts = Counter(words)

#Abrufen und Sortieren der häufigsten Wörter
most_common_words = word_counts.most_common()

#Umwandlung der Liste der häufigsten Wörter in einen DataFrame
df_most_common_words = pd.DataFrame(most_common_words, columns=['Wort', 'Anzahl im Text'])

#Anzahl der einzelnen Wörter im Titel

#Wörter in allen Einträgen der Spalte "Titel_bereinigt" aufteilen und in einer Liste sammeln (für den Titel)
head_words = df['Titel'].str.split(expand=True).stack()

#Zähle die Wörter mit Counter
head_word_counts = Counter(head_words)

#Abrufen und Sortieren der häufigsten Wörter
head_most_common_words = head_word_counts.most_common()

#Umwandlung der Liste der häufigsten Wörter in einen DataFrame
df_head_most_common_words = pd.DataFrame(head_most_common_words, columns=['Wort', 'Anzahl im Titel'])

#Full outer Verknüpfung mit der Spalte 'Wort'
df_single_combined = pd.merge(df_most_common_words, df_head_most_common_words, on='Wort', how='outer')

#Füllen von NaN-Werten mit 0 für die Berechnung in df_single_combined
df_single_combined['Anzahl im Text'] = df_single_combined['Anzahl im Text'].fillna(0)
df_single_combined['Anzahl im Titel'] = df_single_combined['Anzahl im Titel'].fillna(0)

# Hinzufügen einer neuen Spalte 'Anzahl Gesamt' durch Summierung von 'Anzahl im Text' und 'Anzahl im Titel'
df_single_combined['Anzahl Gesamt'] = df_single_combined['Anzahl im Text'] + df_single_combined['Anzahl im Titel']

#Sortieren des df_single_combined DataFrame nach 'Anzahl Gesamt' in absteigender Reihenfolge
df_single_combined = df_single_combined.sort_values(by='Anzahl Gesamt', ascending=False)

#Zurücksetzen des Index
df_single_combined = df_single_combined.reset_index(drop=True)

#Speichern des sortierten df_single_combined DataFrame in CSV
df_single_combined.to_csv('2_Einzelwörter.csv', index=False)

#Oberen Teil des sortierten df_single_combined DataFrame anzeigen, um zu überprüfen
print(df_single_combined.head(20))

     Wort  Anzahl im Text  Anzahl im Titel  Anzahl Gesamt
0     die        144551.0           1479.0       146030.0
1     der        127115.0           1645.0       128760.0
2     und        116348.0           1842.0       118190.0
3      in         78332.0           1494.0        79826.0
4     von         60583.0           1098.0        61681.0
5      zu         55591.0            563.0        56154.0
6     das         49008.0            489.0        49497.0
7     den         47605.0            430.0        48035.0
8     mit         44812.0           1075.0        45887.0
9     für         40653.0           1202.0        41855.0
10    auf         37680.0            601.0        38281.0
11    ist         37483.0            573.0        38056.0
12   sich         35672.0            421.0        36093.0
13   eine         33479.0            260.0        33739.0
14  nicht         32999.0            299.0        33298.0
15     es         31467.0            209.0        31676.0
16    ein     

In [43]:
#Zählen der häufigsten "2 zusammenhängenden Wörter" im Titel und im Text

#Funktion zum Erzeugen von Bigrammen aus einer Zeichenkette
def create_bigrams(text):
    if isinstance(text, str):  # Überprüfe, ob der Text ein String ist
        # Aufteilung des Textes in Wörter
        words = text.split()
        # Erstellen von Bigrammen, indem aufeinanderfolgende Wörter gepaart werden
        bigrams = [' '.join(pair) for pair in zip(words[:-1], words[1:])]
        return bigrams
    else:
        return []  # Wenn der Text kein String ist, gib eine leere Liste zurück

# Anwendung der Funktion auf jeden Eintrag in der Spalte "Text_bereinigt" und Sammlung aller Bigramme in einer Liste
bigrams_list = df['Text'].apply(create_bigrams).sum()
# Zählen der Bigramme mit Counter
bigram_counts = Counter(bigrams_list)

#Abrufen und Sortieren der häufigsten Bigramme
most_common_bigrams = bigram_counts.most_common()

#Umwandlung der Liste der häufigsten Bigramme in einen DataFrame
df_most_common_bigrams = pd.DataFrame(most_common_bigrams, columns=['Wörter', 'Anzahl im Text'])

#Anzahl mit zwei Wörtern in der Überschrift

#Funktion zum Erzeugen von Bigrammen aus einer Zeichenkette
def create_bigrams(text):
    #Aufteilung des Textes in Wörter
    words = text.split()
    #Bilden von Bigrammen, indem aufeinanderfolgende Wörter gepaart werden
    bigrams = [' '.join(pair) for pair in zip(words[:-1], words[1:])]
    return bigrams

# Anwendung der Funktion auf jeden Eintrag in der Spalte "Titel_bereinigt" und Sammlung aller Bigramme in einer Liste
bigrams_list = df['Titel'].apply(create_bigrams).sum()

#Zählen der Bigramme mit Counter
bigram_counts = Counter(bigrams_list)

#Abrufen und Sortieren der häufigsten Bigramme
most_common_bigrams = bigram_counts.most_common()

#Konvertieren der Liste häufig vorkommender Bigramme in einen DataFrame
df_head_most_common_bigrams = pd.DataFrame(most_common_bigrams, columns=['Wörter', 'Anzahl im Titel'])

#Verknüpfung mit der Spalte 'Wort'
df_bigrams_combined = pd.merge(df_most_common_bigrams, df_head_most_common_bigrams, on='Wörter', how='outer')

#Füllen von NaN-Werten mit 0 für die Berechnung in df_single_combined
df_bigrams_combined['Anzahl im Text'] = df_bigrams_combined['Anzahl im Text'].fillna(0)
df_bigrams_combined['Anzahl im Titel'] = df_bigrams_combined['Anzahl im Titel'].fillna(0)

#Hinzufügen einer neuen Spalte 'Anzahl Gesamt' durch Summierung von 'Anzahl im Text' und 'Anzahl im Titel' in df_single_combined
df_bigrams_combined['Anzahl Gesamt'] = df_bigrams_combined['Anzahl im Text'] + df_bigrams_combined['Anzahl im Titel']

#Sortieren des df_single_combined DataFrame nach 'Anzahl Gesamt' in absteigender Reihenfolge
df_bigrams_combined = df_bigrams_combined.sort_values(by='Anzahl Gesamt', ascending=False)

#Zurücksetzen des Index
df_bigrams_combined = df_bigrams_combined.reset_index(drop=True)

#Speichern des sortierten df_single_combined DataFrame in CSV
df_bigrams_combined.to_csv('3_Zwei_Wörter.csv', index=False)

#Anzeige des oberen Teils des sortierten df_bigrams_combined DataFrame, um zu überprüfen
print(df_bigrams_combined.head(20))


                    Wörter  Anzahl im Text  Anzahl im Titel  Anzahl Gesamt
0                   in der         14846.0            365.0        15211.0
1                   in den          7941.0             57.0         7998.0
2                  für die          7826.0            119.0         7945.0
3                  mit dem          4932.0             39.0         4971.0
4                  auf die          4894.0             24.0         4918.0
5                  und die          4678.0             49.0         4727.0
6                  bei der          4397.0             57.0         4454.0
7   Künstliche Intelligenz          3642.0            748.0         4390.0
8                  mit der          4293.0             31.0         4324.0
9                 dass die          4177.0              3.0         4180.0
10                 von der          3792.0             29.0         3821.0
11                  in die          3775.0             36.0         3811.0
12                  die K