# Logistische Regression mit Scikit-Learn
## Stopword Erkennung

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, ConfusionMatrixDisplay

import pandas as pd

Der Datensatz **stopword_corpus_mixed.txt** besitzt folgende Spalten, getrennt durch Kommata:\
[0] = word, \
[1] = starts_with_vowel, \
[2] = charlen (Anzahl Buchstaben),\
[3] = logfreq (logarithmierte Frequenz), \
[4] = category \
Die Spalten [2] und [3] sollen als Inputs (X) für den Klassifizierer fungieren, Spalte [4] soll klassifiziert werden (y).

Der Datensatz besteht aus 211 Zeilen.
Davon sollen die ersten 160 Zeilen für das Training des Klassifizierers verwendet werden
und die restlichen 51 Zeilen sollen in einem Testdurchlauf klassifiziert werden.

In [None]:
filename = "stopword_corpus_mixed.txt"

### Daten einlesen als Dataframe

In [None]:
col_names = ["word", "starts_with_vowel", "charlen", "logfreq", "category"]

data = pd.read_csv(filename, header=None, names=col_names)
data

### Features extrahieren
Diesmal gibt es für jeden Datenpunkt konkrete Features, die wir verwenden wollen und der Datensatz ist entsprechend bereits aufbereitet. Wir können daher einfach eine Teilmenge der Spalten als Features (die üblicherweise mit `X` benannt werden) deklarieren.

In [None]:
feature_cols = ["charlen", "logfreq"]

X = data[feature_cols] # Features
y = data.category # Target variable

### Daten in Trainings- und Testdaten aufsplitten
mit `test_size` (alternativ `train_size`) geben wir an, welcher Anteil der Daten als Testdaten (bzw. Trainingsdaten) verwendet werden soll. Um die absolute Anzahl der Datenpunkte anzugeben, einfach einen Integer-Wert verwenden. Mit `shuffle = True` werden die Datenpunkte zunächst zufällig durcheinandergewürfelt. Damit wir bei jedem Durchgang dasselbe Ergebnis erhalten, muss unbedingt ein `random_state` gesetzt werden (der Wert ist egal!).

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=160, shuffle=False)

### Klassifikator trainieren
Wir verwenden hier eine Logistische Regression mit Default-Parametern. Wir setzen nur einen `random_state`, der dafür sorgt, dass wir mit den gleichen Daten auch immer die gleichen Ergebnisse bekommen. Mit der Methode `fit()` wird der Klassifikator trainiert.

In [None]:
logreg = LogisticRegression(random_state=16)
logreg.fit(X_train, y_train)

### Klassifikator anwenden
Mit `predict()` werden dann die Klassen für die Testdaten vorhergesagt.

In [None]:
y_pred = logreg.predict(X_test)
y_pred

### Evaluation
Wir vergleichen nun `y_pred`, also die vorhergesagten Klassen mit `y_test` also den tatsächlichen Klassen für die Testdaten.

In [None]:
# Accuracy
accuracy_score(y_test, y_pred)

In [None]:
# Konfusionsmatrix
cm = confusion_matrix(y_test, y_pred)
cm_display = ConfusionMatrixDisplay(confusion_matrix=cm)
    
cm_display.plot()

In [None]:
# Klassifikations-Report
print(classification_report(y_test, y_pred))

### Interpretation

In [None]:
print("Gewichte:", logreg.coef_)
print("Bias:", logreg.intercept_)

Feature [2] = charlen (Anzahl Buchstaben) hat ein negatives Gewicht
 -> je mehr Buchstaben ein Wort hat, desto mehr geht die Wahrscheinlichkeit zu y = 0 (nonstopword)\
 Feature [3] = logfreq (logarithmierte Frequenz) hat ein positives Gewicht
 -> je häufiger das Wort ist, desto mehr geht die Wahrscheinlichkeit zu y = 1 (stopword)

 Das deckt sich mit dem gängigen Wissen: Stopwords sind kurze, häufige Wörter!