In [2]:
####################### Machine Learning #####################

############################## CountVectorizer

# Bibliotheken installieren (für die Nutzung von pandas und scikit-learn)
!pip install pandas
!pip install scikit-learn

# Importieren der notwendigen Bibliotheken
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

# Textdaten definieren (Beispieldaten)
text = ['This is my bag',  # Satz 1
        'I like this movie',  # Satz 2
        'She wants to buy my bag']  # Satz 3

# Initialisierung des CountVectorizers zur Umwandlung von Textdaten in numerische Merkmale
cv = CountVectorizer()

# Erstellen einer Sparse-Matrix aus den Textdaten
matrix = cv.fit_transform(text)

# Die Matrix repräsentiert die Häufigkeiten der Wörter im Text
print(matrix)  # Ausgabe: <3x10 sparse matrix mit 13 gespeicherten Elementen>
matrix
#   (0, 7)	1
#   (0, 2)	1
#   (0, 5)	1
#   (0, 0)	1
#   (1, 7)	1
#   (1, 3)	1
#   (1, 4)	1
#   (2, 5)	1
#   (2, 0)	1
#   (2, 6)	1
#   (2, 9)	1
#   (2, 8)	1
#   (2, 1)	1
# <3x10 sparse matrix of type '<class 'numpy.int64'>'
# 	with 13 stored elements in Compressed Sparse Row format>

# Umwandlung der Sparse-Matrix in ein Array zur besseren Ansicht
array = matrix.toarray()
print(array)  # Numerische Darstellung der Textdaten
array
# array([[1, 0, 1, 0, 0, 1, 0, 1, 0, 0],
#        [0, 0, 0, 1, 1, 0, 0, 1, 0, 0],
#        [1, 1, 0, 0, 0, 1, 1, 0, 1, 1]])

# Erstellen eines DataFrames mit den Spaltennamen (Wörter aus dem Text)
df = pd.DataFrame(data=array, columns=cv.get_feature_names_out())
print(df)  # Ausgabe der Wort-Häufigkeiten je Satz
#    bag  buy  is  like  movie  my  she  this  to  wants
# 0    1    0   1     0      0   1    0     1   0      0
# 1    0    0   0     1      1   0    0     1   0      0
# 2    1    1   0     0      0   1    1     0   1      1


############################################### naive Bayes



# Weitere Bibliotheken importieren für maschinelles Lernen
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

# Zugriff auf Google Drive (benötigt Colab)
from google.colab import drive

drive.mount('/content/drive')

# CSV-Daten laden
# Diese Datei enthält Textdaten und zugehörige Klassen

# Daten laden (Anpassen des Pfads, falls erforderlich)
df = pd.read_csv('/content/drive/My Drive/bbc_data.csv')


# Anzeige der ersten Zeilen des DataFrames
print(df.head())
df.head()
# Mounted at /content/drive
# text	class
# 0	Musicians to tackle US red tape Musicians gro...	entertainment
# 1	U2s desire to be number one U2, who have won ...	entertainment
# 2	Rocker Doherty in on-stage fight Rock singer ...	entertainment
# 3	Snicket tops US box office chart The film ada...	entertainment
# 4	Oceans Twelve raids box office Oceans Twelve,...	entertainment
# ...

# Ausgabe der Dimensionen des DataFrames
print(df.shape)  # (2225, 2)
df.shape

# Definieren der Eingabedaten (X) und Zielklassen (y)
# X enthält die Texte (Merkmale), y enthält die zugehörigen Klassen (Labels)
X = df['text']
y = df['class']

# Verteilung der Klassen analysieren
# Diese Zeile zeigt, wie viele Datenpunkte jeder Klasse (Kategorie) zugeordnet sind.
df['class'].value_counts()
# print(df['class'].value_counts())
# class
# sport            511
# business         510
# politics         417
# tech             401
# entertainment    386
# Name: count, dtype: int64

# Aufteilen der Daten in Trainings- und Testdatensätze
# 70% der Daten werden für das Training verwendet, 30% für das Testen.
# random_state sorgt dafür, dass die Aufteilung reproduzierbar ist.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Umwandeln der Textdaten in numerische Merkmale mit CountVectorizer
# CountVectorizer wandelt Texte in numerische Matrizen um, basierend auf der Häufigkeit der Wörter.
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()

# fit_transform wird auf die Trainingsdaten angewendet, um die Wort-Häufigkeiten zu lernen
# und gleichzeitig die Trainingsdaten in eine numerische Darstellung zu transformieren.
X_train_vectorized = cv.fit_transform(X_train)

# transform wird auf die Testdaten angewendet, um sie basierend auf der Struktur der Trainingsdaten zu transformieren,
# ohne neue Wort-Häufigkeiten zu lernen (um Datenleckage zu vermeiden).
X_test_vectorized = cv.transform(X_test)

# Initialisierung und Training des Naive Bayes Klassifikators
# MultinomialNB ist besonders geeignet für diskrete Daten wie Wortzählungen.
classifier = MultinomialNB()

# Training des Modells mit den vektorisierten Trainingsdaten und den zugehörigen Klassen (y_train).
classifier.fit(X_train_vectorized, y_train)

# Vorhersagen auf den Testdaten
# Das trainierte Modell wird verwendet, um die Klassen der Testdaten vorherzusagen.
y_pred = classifier.predict(X_test_vectorized)

# Berechnung und Ausgabe der Genauigkeit des Modells
# accuracy_score vergleicht die vorhergesagten Klassen (y_pred) mit den tatsächlichen Klassen (y_test)
# und berechnet den Anteil korrekt klassifizierter Datenpunkte.
print("Accuracy:", accuracy_score(y_test, y_pred)) # Accuracy: 0.97904191616766



############################################### confusion Matrix


# Die Confusion Matrix (oder auch "Fehlermatrix") ist ein zentrales Werkzeug in der
# Bewertung von Machine-Learning-Modellen, insbesondere für Klassifikationsaufgaben.
# Sie gibt einen Überblick darüber, wie gut das Modell die Klassen vorhergesagt hat,
# indem es die tatsächlichen und vorhergesagten Werte in einer Matrix gegenüberstellt.
# Evaluierung des Modells mit einer Konfusionsmatrix
# Die Konfusionsmatrix ist ein hilfreiches Werkzeug, um die Leistung eines Klassifikators zu evaluieren.
# Sie zeigt, wie oft die vorhergesagten Klassen mit den tatsächlichen Klassen übereinstimmen.
# Die Zeilen repräsentieren die tatsächlichen Klassen, die Spalten die vorhergesagten Klassen.
from sklearn.metrics import confusion_matrix

# Berechnung der Konfusionsmatrix auf Basis der Testdaten (y_test) und der Vorhersagen (y_pred).
cm = confusion_matrix(y_test, y_pred)

# Ausgabe der Konfusionsmatrix als numerisches Array.
# Jede Zelle (i, j) gibt die Anzahl der Datenpunkte an, die zur Klasse i gehörten, aber als Klasse j vorhergesagt wurden.
print(cm)  # Ausgabe der Konfusionsmatrix
cm
# array([[157,   0,   2,   0,   4],
#        [  1, 117,   1,   0,   1],
#        [  1,   0, 111,   0,   0],
#        [  1,   0,   0, 147,   0],
#        [  1,   1,   1,   0, 122]])

# Visualisierung der Konfusionsmatrix mit Plotly
# Plotly Express wird verwendet, um die Matrix als Heatmap darzustellen.
import plotly.express as px

# Erstellung einer Heatmap basierend auf der Konfusionsmatrix
fig = px.imshow(
    cm,  # Die numerischen Werte der Konfusionsmatrix
    labels=dict(
        x="Vorhergesagte Werte",  # Beschriftung der x-Achse (Vorhersagen)
        y="Tatsächliche Werte",  # Beschriftung der y-Achse (Tatsächliche Klassen)
        color="Häufigkeit"  # Farbskala repräsentiert die Anzahl der Datenpunkte
    ),
    x=['business', 'entertainment', 'politics', 'sport', 'tech'],  # Klassen für die x-Achse
    y=['business', 'entertainment', 'politics', 'sport', 'tech']   # Klassen für die y-Achse
)

# Anpassung der x-Achse: Labels werden unten angezeigt
fig.update_xaxes(side="bottom")

# Hinzufügen der numerischen Werte direkt in die Heatmap
# texttemplate wird verwendet, um die Werte der Matrix in jeder Zelle anzuzeigen.
fig.update_traces(text=cm, texttemplate="%{text}")

# Anzeige der Heatmap
fig.show()

# Wichtige Metriken aus der Confusion Matrix
# Mit diesen Werten können verschiedene Metriken berechnet werden,
# die die Leistung des Modells bewerten:
# Accuracy (Genauigkeit):
# Der Anteil der korrekt vorhergesagten Fälle (sowohl positive als auch negative)
# an allen Fällen
# Precision (Präzision):
# Der Anteil der korrekt als positiv klassifizierten Fälle an allen als positiv
# vorhergesagten Fällen (Wie viele der vorhergesagten Positiven sind tatsächlich positiv?)
# Recall (Sensitivität, Trefferquote):
# Der Anteil der korrekt als positiv klassifizierten Fälle an allen tatsächlich
# positiven Fällen (Wie viele der tatsächlichen Positiven hat das Modell gefunden?)
# F1-Score:
# Das harmonische Mittel von Precision und Recall, das ein Gleichgewicht zwischen
# beiden schafft
# Specificity (Spezifität):
# Der Anteil der korrekt als negativ klassifizierten Fälle an allen tatsächlich
# negativen Fällen (Wie gut erkennt das Modell die negativen Fälle?)

# Interpretation der Werte:
# False Positives (FP):
# Ein hoher FP-Wert bedeutet, dass das Modell oft "falschen Alarm" gibt.
# Das kann in sicherheitskritischen Bereichen (z. B. Krebsdiagnose) problematisch sein.
# False Negatives (FN):
# Ein hoher FN-Wert bedeutet, dass das Modell oft wichtige positive Fälle übersieht.
# Dies ist z. B. bei medizinischen Anwendungen kritisch,
# da Erkrankungen unerkannt bleiben könnten.
# True Positives (TP) und True Negatives (TN):
# Diese Werte zeigen, wie oft das Modell korrekt arbeitet.
# Höhere Werte sind natürlich wünschenswert.

# Ausgabe des Klassifikationsberichts
# Der Klassifikationsbericht enthält detaillierte Metriken für jede Klasse:
# - Precision: Wie viele der vorhergesagten Instanzen einer Klasse korrekt waren.
# - Recall: Wie viele der tatsächlichen Instanzen einer Klasse korrekt erkannt wurden.
# - F1-Score: Harmonisches Mittel aus Precision und Recall.
# - Support: Anzahl der tatsächlichen Instanzen pro Klasse.
from sklearn.metrics import classification_report
print("Classification Report:\n", classification_report(y_test, y_pred))

# Classification Report:
#                 precision    recall  f1-score   support
#
#      business       0.98      0.96      0.97       163
# entertainment       0.99      0.97      0.98       120
#      politics       0.97      0.99      0.98       112
#         sport       1.00      0.99      1.00       148
#          tech       0.96      0.98      0.97       125
#
#      accuracy                           0.98       668
#     macro avg       0.98      0.98      0.98       668
#  weighted avg       0.98      0.98      0.98       668


# 1. Precision (Präzision)
# Definition: Precision misst, wie viele der als positiv vorhergesagten Fälle
# tatsächlich positiv sind. Hohe Precision: Das Modell hat wenige False Positives.
# Relevant, wenn False Positives kritisch sind (z. B. bei einem Spam-Filter,
 #                                      der nur echte Spam-Mails markieren soll).

# 2. Recall (Trefferquote/Sensitivität)
# Definition: Recall misst, wie viele der tatsächlich positiven Fälle vom Modell
# korrekt erkannt wurden.
# Interpretation:
# Hoher Recall: Das Modell übersieht wenige tatsächliche positive Fälle.
# Relevant, wenn False Negatives kritisch sind (z. B. bei einer Krebsdiagnose,
 #                                  bei der jede Erkrankung erkannt werden muss).

# 3. F1-Score
# Definition: Der F1-Score ist das harmonische Mittel von Precision und Recall.
# Er balanciert die beiden Metriken aus.
# Interpretation:
# Der F1-Score ist besonders nützlich, wenn Precision und Recall beide wichtig sind.
# Er ist weniger geeignet, wenn ein klares Ungleichgewicht in der Wichtigkeit
# zwischen Precision und Recall besteht.

# 4. Support
# Definition: Support ist die Anzahl der tatsächlichen Beispiele in einer Klasse.
# Interpretation:
# Der Support gibt keine Information über die Modellqualität, sondern beschreibt die
# Datenverteilung. Eine stark unausgewogene Verteilung kann das Modell beeinflussen.
# Globale Metriken im Classification Report
# Zusätzlich zu den Metriken für jede Klasse werden oft globale Metriken berechnet:

# 1. Macro Average
# Definition: Der ungewichtete Durchschnitt der Metriken über alle Klassen.
# Interpretation:
# Berücksichtigt keine Klassenhäufigkeiten.
# Gut geeignet, wenn alle Klassen gleich wichtig sind.

# 2. Weighted Average
# Definition: Der gewichtete Durchschnitt der Metriken, wobei der Support
#  (Anzahl der Beispiele) der Klassen als Gewicht verwendet wird.
# Interpretation:
# Berücksichtigt Klassenhäufigkeiten.
# Nützlich bei unausgewogenen Datensätzen

# Praktische Bedeutung der Metriken
# Precision hoch, Recall niedrig: Das Modell ist vorsichtig und klassifiziert nur die sichersten positiven Fälle, übersieht aber einige. (Nützlich z. B. für Spam-Filter.)
# Precision niedrig, Recall hoch: Das Modell versucht, alle positiven Fälle zu finden, generiert aber viele Fehlalarme. (Nützlich z. B. in der Medizin, um möglichst keine Erkrankung zu übersehen.)
# F1-Score: Gibt eine balancierte Bewertung von Precision und Recall. Nützlich, wenn weder Precision noch Recall allein ausreichend sind.
# Precision für Klasse 0 (0.75): 75% der vorhergesagten positiven Fälle in Klasse 0 sind korrekt.
# Recall für Klasse 1 (0.80): 80% der tatsächlichen positiven Fälle in Klasse 1 wurden korrekt erkannt.
# Accuracy (70%): Der Anteil der insgesamt korrekt klassifizierten Fälle


########################################### TF-IDF



import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer


# Define the corpus
corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
]

# Beispiel einer TF-IDF Transformation
# TF-IDF steht für "Term Frequency-Inverse Document Frequency" und misst die Relevanz eines Wortes in einem Dokument relativ zu allen anderen Dokumenten im Korpus.
# Es ist eine gängige Methode zur numerischen Darstellung von Textdaten.

# Initialisierung des TF-IDF Vektorisierers
vec = TfidfVectorizer()

# Transformation des Textkorpus ("corpus") in eine TF-IDF Repräsentation
# Der fit_transform() Prozess:
# - fit(): Lernt die Gewichtung der Begriffe basierend auf ihrem Vorkommen im Korpus.
# - transform(): Wandelt den Text in eine numerische Darstellung basierend auf den gelernten Gewichtungen um.
tf_idf = vec.fit_transform(corpus)

# Ausgabe der TF-IDF Matrix als DataFrame
# - toarray(): Wandelt die sparse matrix in ein denses Array um, um die Werte sichtbar zu machen.
# - get_feature_names_out(): Gibt die Namen der Merkmale (Wörter) zurück.
import pandas as pd
print(pd.DataFrame(tf_idf.toarray(), columns=vec.get_feature_names_out()))

#         and  document     first        is       one    second       the  \
# 0  0.000000  0.469791  0.580286  0.384085  0.000000  0.000000  0.384085
# 1  0.000000  0.687624  0.000000  0.281089  0.000000  0.538648  0.281089
# 2  0.511849  0.000000  0.000000  0.267104  0.511849  0.000000  0.267104
# 3  0.000000  0.469791  0.580286  0.384085  0.000000  0.000000  0.384085
#
#       third      this
# 0  0.000000  0.384085
# 1  0.000000  0.281089
# 2  0.511849  0.267104
# 3  0.000000  0.384085

#################################### naive Bayes with TF-IDF vectors

# Ein multifaktorielles Naive-Bayes-Modell (auch bekannt als Naive Bayes Classifier)
# ist ein einfacher, aber leistungsstarker Algorithmus, der oft für Klassifikationsprobleme
# verwendet wird. Er basiert auf der Anwendung des Bayes-Theorems unter der Annahme,
# dass die Merkmale voneinander unabhängig sind (daher der Begriff "naiv").

import pandas as pd

# Importieren der notwendigen Module aus scikit-learn
from sklearn.model_selection import train_test_split  # Zum Aufteilen der Daten in Trainings- und Testdatensätze
from sklearn.naive_bayes import MultinomialNB  # Naive Bayes Klassifikator für Multinomialdaten
from sklearn.metrics import accuracy_score, classification_report  # Evaluierungsmethoden wie Genauigkeit und Bericht
from sklearn.feature_extraction.text import TfidfVectorizer  # TF-IDF Vektorisierung für Textdaten

# Zugriff auf Google Drive herstellen (benötigt Google Colab)
from google.colab import drive

drive.mount('/content/drive')  # Mountet Google Drive, um Zugriff auf Dateien zu ermöglichen

# Laden der BBC-Daten aus einer CSV-Datei
# Die CSV-Datei enthält zwei Spalten: 'text' (Artikeltexte) und 'class' (Kategorien der Artikel)
df = pd.read_csv('/content/drive/My Drive/bbc_data.csv')

# Definition der Eingabedaten (X) und Zielklassen (y)
# X: Artikeltexte; y: zugehörige Kategorien.
X = df['text']
y = df['class']

# Aufteilen der Daten in Trainings- und Testdatensätze
# Trainingsdaten: 70%, Testdaten: 30% der gesamten Daten
# random_state sorgt für Reproduzierbarkeit der Aufteilung
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# TF-IDF Vektorisierung der Textdaten
# TF-IDF (Term Frequency-Inverse Document Frequency) misst die Relevanz eines Wortes innerhalb eines Dokuments relativ zu anderen Dokumenten
vec = TfidfVectorizer()

# Anpassen und Transformieren der Trainingsdaten
# fit_transform: Lernt die Gewichtungen der Wörter und wandelt die Texte in numerische Merkmale um
X_train_vectorized = vec.fit_transform(X_train)

# Transformieren der Testdaten basierend auf den Trainingsdaten
# transform: Wandelt die Texte in numerische Merkmale um, ohne neue Gewichtungen zu lernen
X_test_vectorized = vec.transform(X_test)

# Initialisierung und Training des Naive Bayes Modells
# MultinomialNB: Probabilistisches Modell für diskrete Daten wie Wortzählungen
classifier = MultinomialNB()
classifier.fit(X_train_vectorized, y_train)  # Anpassen des Modells an die Trainingsdaten

# Vorhersagen auf den Testdaten
y_pred = classifier.predict(X_test_vectorized)  # Vorhersagen der Kategorien für die Testdaten

# Berechnung der Genauigkeit des Modells
# accuracy_score: Misst den Anteil korrekt klassifizierter Datenpunkte
print("Accuracy:", accuracy_score(y_test, y_pred)) # Accuracy: 0.9431137724550899

# Berechnung der Konfusionsmatrix
# Die Konfusionsmatrix zeigt die Verteilung der vorhergesagten Klassen im Vergleich zu den tatsächlichen Klassen
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)

# Visualisierung der Konfusionsmatrix
# Plotly Express wird verwendet, um die Konfusionsmatrix als Heatmap darzustellen
import plotly.express as px
fig = px.imshow(
    cm,  # Numerische Werte der Konfusionsmatrix
    labels=dict(
        x="Vorhergesagte Werte",  # Beschriftung der x-Achse (Vorhersagen)
        y="Tatsächliche Werte",  # Beschriftung der y-Achse (Tatsächliche Klassen)
        color="Häufigkeit"  # Farbskala repräsentiert die Häufigkeit der Werte
    ),
    x=['business', 'entertainment', 'politics', 'sport', 'tech'],  # Klassen für die x-Achse
    y=['business', 'entertainment', 'politics', 'sport', 'tech']   # Klassen für die y-Achse
)

# Anpassung der x-Achse: Labels werden unten angezeigt
fig.update_xaxes(side="bottom")

# Hinzufügen der numerischen Werte direkt in die Heatmap
fig.update_traces(text=cm, texttemplate="%{text}")

# Anzeige der Heatmap
fig.show()

# Ausgabe des Klassifikationsberichts
# Der Bericht enthält:
# - Precision: Anteil der korrekt vorhergesagten Instanzen einer Klasse
# - Recall: Anteil der tatsächlichen Instanzen einer Klasse, die korrekt erkannt wurden
# - F1-Score: Harmonisches Mittel aus Precision und Recall
# - Support: Anzahl der tatsächlichen Instanzen pro Klasse
print("Classification Report:\n", classification_report(y_test, y_pred))

# Classification Report:
#                 precision    recall  f1-score   support
#
#      business       0.97      0.99      0.98       163
# entertainment       0.99      0.78      0.87       120
#      politics       0.86      0.99      0.92       112
#         sport       0.91      1.00      0.95       148
#          tech       1.00      0.93      0.96       125
#
#      accuracy                           0.94       668
#     macro avg       0.95      0.94      0.94       668
#  weighted avg       0.95      0.94      0.94       668


######################################## Random Forest

# Ein Random Forest ist ein Ensemble-Learning-Algorithmus,
# der auf einer Sammlung von Entscheidungsbäumen basiert.
# Es kombiniert mehrere Entscheidungsbäume,
# um die Vorhersagegenauigkeit zu erhöhen und die Überanpassung (Overfitting) zu reduzieren.

# Ein Random Forest ist ein Ensemble-Learning-Algorithmus,
# der auf einer Sammlung von Entscheidungsbäumen basiert.
# Es kombiniert mehrere Entscheidungsbäume, um die Vorhersagegenauigkeit
# zu erhöhen und die Überanpassung (Overfitting) zu reduzieren.
# Hier erkläre ich, wie und warum man Random Forest verwendet und wie
# er sich von einem einzelnen Decision Tree unterscheidet.
# 1. Was ist ein Decision Tree?
# Ein Entscheidungsbaum (Decision Tree) ist ein baumbasiertes Modell,
# das auf einer Hierarchie von Entscheidungen basiert.
# Es teilt die Eingabedaten auf Basis von Merkmalen und Schwellenwerten
# in rekursiven Schritten auf, bis eine Klassifikation (bei Klassifikationsproblemen)
# oder ein Wert (bei Regressionsproblemen) erreicht ist.
# Vorteile eines Entscheidungsbaums:
# Einfach zu verstehen und zu interpretieren.
# Kann sowohl für Klassifikation als auch Regression verwendet werden.
# Benötigt wenig Datenvorbereitung (keine Normierung oder Skalierung).
# Nachteile eines Entscheidungsbaums:
# Überanpassung (Overfitting): Ein einzelner Baum neigt dazu,
# sich zu sehr an die Trainingsdaten anzupassen.
# Sensitivität gegenüber Rauschen: Kleine Änderungen in den Daten können die
# Struktur des Baums drastisch verändern.
# Ein Random Forest ist ein Ensemble-Learning-Algorithmus, der auf einer Sammlung von
# Entscheidungsbäumen basiert. Es kombiniert mehrere Entscheidungsbäume,
# um die Vorhersagegenauigkeit zu erhöhen und die Überanpassung (Overfitting) zu reduzieren.
# Hier erkläre ich, wie und warum man Random Forest verwendet und wie er sich von einem
# einzelnen Decision Tree unterscheidet.
# 1. Was ist ein Decision Tree?
# Ein Entscheidungsbaum (Decision Tree) ist ein baumbasiertes Modell, das auf einer
# Hierarchie von Entscheidungen basiert. Es teilt die Eingabedaten auf Basis von
# Merkmalen und Schwellenwerten in rekursiven Schritten auf, bis eine Klassifikation
#  (bei Klassifikationsproblemen) oder ein Wert (bei Regressionsproblemen) erreicht ist.
# Vorteile eines Entscheidungsbaums:
# Einfach zu verstehen und zu interpretieren.
# Kann sowohl für Klassifikation als auch Regression verwendet werden.
# Benötigt wenig Datenvorbereitung (keine Normierung oder Skalierung).
# Nachteile eines Entscheidungsbaums:
# Überanpassung (Overfitting): Ein einzelner Baum neigt dazu, sich zu sehr an die
# Trainingsdaten anzupassen.
# Sensitivität gegenüber Rauschen: Kleine Änderungen in den Daten können die Struktur
# des Baums drastisch verändern.
# 2. Was ist ein Random Forest?
# Random Forest ist ein Ensemble-Modell, das die Vorhersagen mehrerer Entscheidungsbäume
# kombiniert. Es verwendet zwei Schlüsseltechniken, um die Leistung zu verbessern:
# Bagging (Bootstrap Aggregation):
# Für jeden Baum wird ein zufälliges Subset der Trainingsdaten (mit Zurücklegen) verwendet.
# Dies erzeugt verschiedene Trainingssätze für die einzelnen Bäume, was die Varianz reduziert.
# Feature Randomness:
# Bei jedem Split eines Baums wird nicht auf alle Merkmale geschaut,
# sondern nur auf eine zufällige Teilmenge der Merkmale.
# Dies verhindert, dass ein Merkmal in allen Bäumen dominiert,
# und sorgt für mehr Diversität.
# Ablauf:
# Erstelle n Entscheidungsbäume, wobei jeder Baum mit einem zufälligen Subset der
# Trainingsdaten trainiert wird.
# Für eine Klassifikation: Lasse jeden Baum eine Klasse vorhersagen,
# und nimm die Mehrheit der Vorhersagen (Mehrheitsentscheidung).
# Für eine Regression: Nimm den Durchschnitt der Vorhersagen aller Bäume.
# 3. Warum verwendet man Random Forest?
# Vorteile:
# Robustheit gegen Overfitting: Da Random Forest auf der Aggregation vieler Bäume basiert,
# ist es weniger wahrscheinlich, dass das Modell die Trainingsdaten überanpasst.
# Stabilität: Es ist weniger anfällig für kleine Änderungen in den Trainingsdaten.
# Automatische Feature-Auswahl: Da bei jedem Split nur eine Teilmenge von Merkmalen
# betrachtet wird, werden irrelevante Merkmale oft ignoriert.
# Flexibilität: Es kann sowohl für Klassifikations- als auch für Regressionsprobleme
# eingesetzt werden.
# Skalierbarkeit: Es kann parallelisiert werden, da jeder Baum unabhängig von den
# anderen trainiert wird.
# Nachteile:
# Erhöhte Komplexität: Random Forest ist schwerer zu interpretieren als ein einzelner
# Entscheidungsbaum.
# Längere Trainingszeit: Da viele Bäume trainiert werden müssen, dauert das Training länger.
# Speicherbedarf: Die Speicherung vieler Entscheidungsbäume benötigt mehr Speicherplatz.
# Zusammenfassung
# Decision Tree: Einfach, leicht zu interpretieren, aber anfällig für Overfitting.
# Random Forest: Ein leistungsstarker, stabiler Algorithmus, der mehrere Entscheidungsbäume
# kombiniert, um Overfitting zu reduzieren und die Genauigkeit zu verbessern.
# Verwendung: Random Forest ist ideal für größere Datensätze mit vielen Features und in
# Szenarien, in denen Genauigkeit wichtiger ist als Interpretierbarkeit.


from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Zugriff auf Google Drive herstellen
# Dieser Schritt ist erforderlich, um auf Dateien im Drive zuzugreifen (nur relevant in Google Colab).
from google.colab import drive

drive.mount('/content/drive')  # Mountet das Google Drive und ermöglicht Zugriff auf Dateien.

# Importieren der Pandas-Bibliothek
import pandas as pd  # Pandas wird verwendet, um Daten in Tabellenform zu laden und zu manipulieren.

# Laden der BBC-Daten aus einer CSV-Datei
# Die CSV-Datei enthält zwei Spalten: 'text' (Artikeltexte) und 'class' (Kategorien der Artikel).
df = pd.read_csv('/content/drive/My Drive/bbc_data.csv')

# Anzeige der ersten Zeilen des DataFrames
# Ermöglicht einen schnellen Überblick über die Struktur und den Inhalt der Daten.
df.head()

# Definieren der Eingabedaten (X) und Zielklassen (y)
# X: Enthält die Texte (Artikelinhalte); y: Enthält die zugehörigen Kategorien.
X = df['text']
y = df['class']

# Aufteilen der Daten in Trainings- und Testdatensätze
# 70% der Daten werden für das Training verwendet, 30% für das Testen.
# random_state sorgt dafür, dass die Aufteilung reproduzierbar ist.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Initialisierung des CountVectorizers
# CountVectorizer wandelt die Texte in numerische Merkmale um, basierend auf der Häufigkeit der Wörter.
cv = CountVectorizer()

# Anpassung und Transformation der Trainingsdaten
# fit_transform: Lernt die Wort-Häufigkeiten und wandelt die Texte in numerische Merkmale um.
X_train_vectorized = cv.fit_transform(X_train)

# Transformation der Testdaten
# transform: Wandelt die Testdaten in numerische Merkmale um, basierend auf den aus den Trainingsdaten gelernten Wort-Häufigkeiten.
X_test_vectorized = cv.transform(X_test)

# Initialisierung des Random Forest Klassifikators
# RandomForestClassifier ist ein Ensemble-Modell, das mehrere Entscheidungsbäume kombiniert, um die Vorhersagegenauigkeit zu verbessern.
classifier = RandomForestClassifier()

# Training des Random Forest Modells mit den vektorisierten Trainingsdaten
classifier.fit(X_train_vectorized, y_train)

# Vorhersagen auf den Testdaten
# Das trainierte Modell wird verwendet, um die Kategorien der Testdaten vorherzusagen.
y_pred = classifier.predict(X_test_vectorized)

# Berechnung der Genauigkeit auf den Testdaten
# accuracy_score misst den Anteil korrekt klassifizierter Datenpunkte.
print("Test accuracy:", accuracy_score(y_test, y_pred)) # Test accuracy: 0.9640718562874252

# Vorhersagen auf den Trainingsdaten
# Überprüfung, ob das Modell überangepasst ist (Overfitting), indem die Trainingsgenauigkeit berechnet wird.
y_pred = classifier.predict(X_train_vectorized)

# Berechnung der Genauigkeit auf den Trainingsdaten
print("Train accuracy:", accuracy_score(y_train, y_pred)) # Train accuracy: 1.0



#################################### Random Forest best hyperparameters

# Hyperparameter sind die Einstellungen eines Modells, die nicht während des Trainings gelernt werden,
# sondern vom Benutzer festgelegt werden müssen. Beispiele:
# Anzahl der Bäume in einem Random Forest.
# Tiefe eines Entscheidungsbaums.
# Lernrate bei Gradientenabstiegsalgorithmen.


from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Zugriff auf Google Drive herstellen
# Dieser Schritt ist erforderlich, wenn mit Google Colab gearbeitet wird, um auf Dateien im Drive zuzugreifen.
from google.colab import drive

drive.mount('/content/drive')

# Importieren der Pandas-Bibliothek
import pandas as pd  # Ermöglicht die Arbeit mit Daten in Tabellenform

# Laden der BBC-Daten aus einer CSV-Datei
# Die Datei enthält zwei Spalten: 'text' (Artikeltexte) und 'class' (Kategorien der Artikel).
df = pd.read_csv('/content/drive/My Drive/bbc_data.csv')

# Definieren der Eingabedaten (X) und Zielklassen (y)
# X enthält die Texte der Artikel, y enthält die zugehörigen Kategorien.
X = df['text']
y = df['class']

# Aufteilen der Daten in Trainings- und Testdaten
# Trainingsdaten: 70% der Daten, Testdaten: 30% der Daten.
# random_state sorgt dafür, dass die Aufteilung reproduzierbar ist.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Initialisierung des CountVectorizers
# CountVectorizer wandelt die Textdaten in numerische Merkmale um, basierend auf der Häufigkeit der Wörter.
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()

# Anpassung und Transformation der Trainingsdaten
# fit_transform lernt die Wort-Häufigkeiten und transformiert die Texte in numerische Merkmale.
X_train_vectorized = cv.fit_transform(X_train)

# Transformation der Testdaten
# transform nutzt die Wort-Häufigkeiten, die aus den Trainingsdaten gelernt wurden, um die Testdaten zu transformieren.
X_test_vectorized = cv.transform(X_test)

# Initialisierung des Random Forest Klassifikators mit spezifischen Hyperparametern
# max_features: Maximale Anzahl von Merkmalen, die für die besten Splits in Betracht gezogen werden.
# min_samples_leaf: Minimale Anzahl von Samples, die in einem Blatt-Knoten vorhanden sein müssen.
# min_samples_split: Minimale Anzahl von Samples, die erforderlich sind, um einen Knoten zu teilen.
# n_estimators: Anzahl der Entscheidungsbäume im Wald.
# classifier = RandomForestClassifier(max_features=30, min_samples_leaf=4, min_samples_split=8, n_estimators=300)
# Best hyperparameters are {'max_features': 30, 'min_samples_leaf': 4, 'min_samples_split': 6, 'n_estimators': 300}
classifier =RandomForestClassifier(max_features = 30, min_samples_leaf = 4, min_samples_split = 6, n_estimators = 300)


# Training des Random Forest Modells
# Das Modell wird mit den vektorisierten Trainingsdaten (X_train_vectorized) und den Zielklassen (y_train) trainiert.
classifier.fit(X_train_vectorized, y_train)

# Vorhersagen auf den Testdaten
# Das trainierte Modell wird verwendet, um die Kategorien der Testdaten vorherzusagen.
y_pred = classifier.predict(X_test_vectorized)

# Berechnung und Ausgabe der Genauigkeit auf den Testdaten
# accuracy_score misst den Anteil korrekt klassifizierter Datenpunkte.
print("Test accuracy:", accuracy_score(y_test, y_pred)) # Test accuracy: 0.9416167664670658

# Vorhersagen auf den Trainingsdaten
# Dies dient zur Überprüfung, ob das Modell überangepasst ist (Overfitting).
y_pred = classifier.predict(X_train_vectorized)

# Berechnung und Ausgabe der Genauigkeit auf den Trainingsdaten
print("Train accuracy:", accuracy_score(y_train, y_pred)) # Train accuracy: 0.9736673089274245




################################## Random Forest Grid search

# Bei Grid Search wird ein Suchraum von Hyperparametern definiert. Dabei werden alle möglichen Kombinationen ausprobiert,
# um die beste Kombination für das Modell zu finden.
# Mit Grid Search werden systematisch die besten Parameter gesucht, die das Modell am besten auf die Daten abstimmen.

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Zugriff auf Google Drive herstellen
# Dieser Schritt ermöglicht den Zugriff auf Dateien im Drive, wenn Google Colab verwendet wird.
from google.colab import drive

drive.mount('/content/drive')  # Mountet das Google Drive und stellt den Zugriff auf Dateien sicher.

# Importieren der Pandas-Bibliothek
import pandas as pd  # Pandas wird verwendet, um Daten in Tabellenform zu laden und zu verarbeiten.

# Laden der BBC-Daten aus einer CSV-Datei
# Die Datei enthält zwei Spalten: 'text' (Artikeltexte) und 'class' (Kategorien der Artikel).
df = pd.read_csv('/content/drive/My Drive/bbc_data.csv')

# Definieren der Eingabedaten (X) und Zielklassen (y)
# X: Enthält die Artikeltexte, y: Enthält die zugehörigen Kategorien.
X = df['text']
y = df['class']

# Aufteilen der Daten in Trainings- und Testdatensätze
# 70% der Daten werden für das Training verwendet, 30% für das Testen.
# random_state sorgt dafür, dass die Aufteilung reproduzierbar ist.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Initialisierung des CountVectorizers
# CountVectorizer wandelt die Texte in numerische Merkmale um, basierend auf der Häufigkeit der Wörter.
cv = CountVectorizer()

# Anpassung und Transformation der Trainingsdaten
# fit_transform: Lernt die Wort-Häufigkeiten und wandelt die Texte in numerische Merkmale um.
X_train_vectorized = cv.fit_transform(X_train)

# Transformation der Testdaten
# transform: Wandelt die Testdaten in numerische Merkmale um, basierend auf den aus den Trainingsdaten gelernten Wort-Häufigkeiten.
X_test_vectorized = cv.transform(X_test)

# Initialisierung und Training des Random Forest Klassifikators
# RandomForestClassifier ist ein Ensemble-Modell, das mehrere Entscheidungsbäume kombiniert, um die Vorhersagegenauigkeit zu verbessern.
classifier = RandomForestClassifier()
classifier.fit(X_train_vectorized, y_train)  # Anpassen des Modells an die Trainingsdaten

# Vorhersagen auf den Testdaten
# Das trainierte Modell wird verwendet, um die Kategorien der Testdaten vorherzusagen.
y_pred = classifier.predict(X_test_vectorized)

# Berechnung und Ausgabe der Genauigkeit auf den Testdaten
# accuracy_score misst den Anteil korrekt klassifizierter Datenpunkte.
print("Test accuracy:", accuracy_score(y_test, y_pred)) # Test accuracy: 0.9565868263473054

# Vorhersagen auf den Trainingsdaten
# Überprüfung, ob das Modell überangepasst ist (Overfitting), indem die Trainingsgenauigkeit berechnet wird.
y_pred = classifier.predict(X_train_vectorized)

# Berechnung und Ausgabe der Genauigkeit auf den Trainingsdaten
print("Train accuracy:", accuracy_score(y_train, y_pred)) # Train accuracy: 1.0

# Hyperparameter-Optimierung mit GridSearchCV
# GridSearchCV durchsucht systematisch alle Kombinationen der angegebenen Hyperparameter.
from sklearn.model_selection import GridSearchCV

# Definition der Hyperparameter, die optimiert werden sollen
params = {
   'n_estimators': [100, 200, 300],  # Anzahl der Entscheidungsbäume im Wald
   'max_features': [10, 20, 30],    # Maximale Anzahl von Merkmalen, die für die besten Splits in Betracht gezogen werden
   'min_samples_split': [4, 6, 8],  # Minimale Anzahl von Samples, die erforderlich sind, um einen Knoten zu teilen
   'min_samples_leaf': [4, 6, 8]    # Minimale Anzahl von Samples, die in einem Blatt-Knoten vorhanden sein müssen
}

# Initialisierung von GridSearchCV
# cv=5 bedeutet, dass eine 5-fache Kreuzvalidierung verwendet wird.
# cv = cross validation, Fitting 5 folds for each of 81 candidates, totalling 405 fits
# verbose=3 sorgt für detaillierte Ausgaben über den Fortschritt der Optimierung.
grid = GridSearchCV(classifier, params, cv=5, verbose=3)

# Training des Modells mit den besten Hyperparametern
# fit() passt das Modell an die Trainingsdaten an und bewertet die verschiedenen Parameterkombinationen.
model = grid.fit(X_train_vectorized, y_train)

# Ausgabe der besten Hyperparameterkombination
# best_params_ gibt die Parameterkombination mit der höchsten Leistung zurück.
print('Best hyperparameters are ' + str(model.best_params_))
# Best hyperparameters are {'max_features': 30, 'min_samples_leaf': 4, 'min_samples_split': 6, 'n_estimators': 300}

# Ausgabe des besten Scores der Kreuzvalidierung
# best_score_ gibt die höchste Genauigkeit über die Kreuzvalidierungsfalten hinweg an.
print('Best score is: ' + str(model.best_score_))
# Best score is: 0.9293573254184186


  (0, 7)	1
  (0, 2)	1
  (0, 5)	1
  (0, 0)	1
  (1, 7)	1
  (1, 3)	1
  (1, 4)	1
  (2, 5)	1
  (2, 0)	1
  (2, 6)	1
  (2, 9)	1
  (2, 8)	1
  (2, 1)	1
[[1 0 1 0 0 1 0 1 0 0]
 [0 0 0 1 1 0 0 1 0 0]
 [1 1 0 0 0 1 1 0 1 1]]
   bag  buy  is  like  movie  my  she  this  to  wants
0    1    0   1     0      0   1    0     1   0      0
1    0    0   0     1      1   0    0     1   0      0
2    1    1   0     0      0   1    1     0   1      1
Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
                                                text          class
0  Musicians to tackle US red tape  Musicians gro...  entertainment
1  U2s desire to be number one  U2, who have won ...  entertainment
2  Rocker Doherty in on-stage fight  Rock singer ...  entertainment
3  Snicket tops US box office chart  The film ada...  entertainment
4  Oceans Twelve raids box office  Oceans Twelve,...  entertainment
(2225, 2)
Accuracy: 0.97904191

Classification Report:
                precision    recall  f1-score   support

     business       0.98      0.96      0.97       163
entertainment       0.99      0.97      0.98       120
     politics       0.97      0.99      0.98       112
        sport       1.00      0.99      1.00       148
         tech       0.96      0.98      0.97       125

     accuracy                           0.98       668
    macro avg       0.98      0.98      0.98       668
 weighted avg       0.98      0.98      0.98       668

        and  document     first        is       one    second       the  \
0  0.000000  0.469791  0.580286  0.384085  0.000000  0.000000  0.384085   
1  0.000000  0.687624  0.000000  0.281089  0.000000  0.538648  0.281089   
2  0.511849  0.000000  0.000000  0.267104  0.511849  0.000000  0.267104   
3  0.000000  0.469791  0.580286  0.384085  0.000000  0.000000  0.384085   

      third      this  
0  0.000000  0.384085  
1  0.000000  0.281089  
2  0.511849  0.267104  
3  0.0

Classification Report:
                precision    recall  f1-score   support

     business       0.97      0.99      0.98       163
entertainment       0.99      0.78      0.87       120
     politics       0.86      0.99      0.92       112
        sport       0.91      1.00      0.95       148
         tech       1.00      0.93      0.96       125

     accuracy                           0.94       668
    macro avg       0.95      0.94      0.94       668
 weighted avg       0.95      0.94      0.94       668

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Test accuracy: 0.9565868263473054
Train accuracy: 1.0
Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Test accuracy: 0.938622754491018
Train accuracy: 0.970456005138086
Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content

naive Bayes with grid search

In [4]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import GridSearchCV


from google.colab import drive
drive.mount('/content/drive')
import pandas as pd
df = pd.read_csv('/content/drive/My Drive/bbc_data.csv')

X = df['text']
y = df['class']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,
random_state=42)
cv = CountVectorizer()# create an instance of the class CountVectorizer
X_train_vectorized = cv.fit_transform(X_train)
X_test_vectorized = cv.transform(X_test)

classifier = MultinomialNB()
classifier.fit(X_train_vectorized, y_train)
params= {
 'alpha': [0.1, 0.5, 1.0, 2.0],
 'fit_prior': [True, False]
}
grid = GridSearchCV(classifier, params, cv = 5, verbose = 3)
model = grid.fit(X_train_vectorized, y_train)

# Ausgabe der besten Hyperparameterkombination
# best_params_ gibt die Parameterkombination mit der höchsten Leistung zurück.
print('Best hyperparameters are '+str(model.best_params_))
# Best hyperparameters are {'alpha': 0.1, 'fit_prior': True}

# Ausgabe des besten Scores der Kreuzvalidierung
# best_score_ gibt die höchste Genauigkeit über die Kreuzvalidierungsfalten hinweg an.
print('Best score is: ' + str(model.best_score_))
# Best score is: 0.9736746640283618

y_pred = classifier.predict(X_test_vectorized)

print("Test accuracy:", accuracy_score(y_test, y_pred))
# Test accuracy: 0.9790419161676647

y_pred = classifier.predict(X_train_vectorized)

print("Train accuracy:", accuracy_score(y_train, y_pred))
# Train accuracy: 0.9942196531791907

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Fitting 5 folds for each of 8 candidates, totalling 40 fits
[CV 1/5] END .........alpha=0.1, fit_prior=True;, score=0.962 total time=   0.0s
[CV 2/5] END .........alpha=0.1, fit_prior=True;, score=0.974 total time=   0.0s
[CV 3/5] END .........alpha=0.1, fit_prior=True;, score=0.974 total time=   0.0s
[CV 4/5] END .........alpha=0.1, fit_prior=True;, score=0.977 total time=   0.0s
[CV 5/5] END .........alpha=0.1, fit_prior=True;, score=0.981 total time=   0.0s
[CV 1/5] END ........alpha=0.1, fit_prior=False;, score=0.962 total time=   0.0s
[CV 2/5] END ........alpha=0.1, fit_prior=False;, score=0.974 total time=   0.0s
[CV 3/5] END ........alpha=0.1, fit_prior=False;, score=0.974 total time=   0.0s
[CV 4/5] END ........alpha=0.1, fit_prior=False;, score=0.977 total time=   0.0s
[CV 5/5] END ........alpha=0.1, fit_prior=False;, score=0.981 total time=   0.0s
[