# 4.4.1	Vektorisierung mit dem Count-Vectorizer (German-News-Classification)

### 01 - Daten laden und inspizieren

In [1]:
import pandas as pd
from os.path import join

path = r'..\Data'

df = pd.read_csv(join(path, 'german_news_psw.csv'))
print(df.head())
print()
print('Verteilung auf die Rubriken:\n', df.tag1.value_counts(), sep='')

                                                text        tag1
0  Anzeige\n\nDie Corona-Krise hat auch vor dem e...  Wirtschaft
1  Deutschland kassiert in der fünften Minute der...       Sport
2  An der Great Northern Road schrauben Monteure ...  Wirtschaft
3  Zwischen Ende Juni und Ende September hat sich...  Wirtschaft
4  Lange Zeit hatten Politiker für innerländische...  Wirtschaft

Verteilung auf die Rubriken:
Politik       9680
Sport         5227
Wirtschaft    3990
Name: tag1, dtype: int64


### Durchschnittliche Anzahl der Wörter pro Dokument berechnen
***Bitte beachten***: Vor der ersten Benutzung von *nltk* müssen Sie ggf. mit dem Befehl *nltk.download()* 
einige Basis-Pakte herunterladen.

In [2]:
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [3]:
from nltk.tokenize import word_tokenize

# Text-Spalte in Liste konvertieren
text = df['text'].values.tolist()

i = 0
num_words = 0
for doc in text:
    i += 1
    num_words += len(word_tokenize(doc))
average = num_words / i 
average, len(df)

(557.2310948827857, 18897)

### 02 - X- und y-Variablen separieren und Trainings- und Testpartitionen sampeln

In [4]:
from sklearn.model_selection import train_test_split

X = df['text']
y = df['tag1']

X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                    test_size=.2, random_state=11)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((15117,), (3780,), (15117,), (3780,))

## 03 - Bag-of-words aus den x-Daten mit *sklearn.CountVectorizer* erzeugen

#### Zunächst die Stopwords laden (liegen im Verzeichnis *..\Data* als txt-Datei)

In [5]:
sw_df = pd.read_csv(join(path, 'stopwords_de.txt'), header=None)
print(sw_df.head())
stopwords = sw_df[0].values.tolist() ## Stopwords in Liste überführen
stopwords[:10]

      0
0     a
1    ab
2  aber
3   ach
4  acht


['a', 'ab', 'aber', 'ach', 'acht', 'achte', 'achten', 'achter', 'achtes', 'ag']

#### Jetzt den *Bag-of-words* mit *CountVectorizer* erstellen 
- *min_df = min document frequency* (When building the vocabulary ignore terms that have a document frequency strictly lower than the given threshold., vgl. https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html ) 
- Stopwords werden bei der Instanziierung von CountVectorizer übergeben und aus der Analyse/Erzeugung des *Bag-of-words* ausgeschlossen

In [6]:
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer(stop_words=stopwords, min_df=10)
cv.fit(X_train)
X_train_cv = cv.transform(X_train)
X_test_cv = cv.transform(X_test)
len(cv.vocabulary_)

30101

### 04 - Softmax-Regression instanziieren und Training über vorbereitete Daten durchführen 

In [7]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression(multi_class='multinomial', max_iter=10000)
model.fit(X_train_cv, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=10000,
                   multi_class='multinomial', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

### 05 - Überprüfung der Qualität des Modells (Testdaten verwenden)

#### Testweise eine Schätzung durchführen

In [8]:
## Rohtext
x_pred =  r'''In den Streit über die Einführung einer Impfpflicht in Deutschland hat sich jetzt 
              auch der frühere Bundesverkehrsminister Andreas Scheuer eingeschaltet. 
            Der CSU-Politiker fordert Kanzler Olaf Scholz (SPD) auf, im Bundestag die 
            Vertrauensfrage zu stellen.'''

## Umwandlung in Bag-of-words
x_bag = cv.transform([x_pred])

## Schätzungen mit dem Modell
y_pred = model.predict(x_bag) # label schätzen
y_pred_proba = model.predict_proba(x_bag) # wahrscheinlichkeiten für alle labels ausgeben

y_pred, y_pred_proba.round(3), model.classes_

(array(['Politik'], dtype=object),
 array([[0.9  , 0.005, 0.095]]),
 array(['Politik', 'Sport', 'Wirtschaft'], dtype=object))

#### Accuracy und Confusion-Matrix erstellen 

In [9]:
from sklearn.metrics import accuracy_score, confusion_matrix

# Schätzungen des Modells für die Testdaten erzeugen
y_test_pred = model.predict(X_test_cv) # die Testdaten wurden bereits weiter oben in Bag-of-words umgewandelt

# Vergleich der vom Modell geschätzten y-Werten mit den tatsächlichen y-Werten
acc = accuracy_score(y_test, y_test_pred)
matrix = confusion_matrix(y_test, y_test_pred)

# Ausgabe
print('Accuray: ', acc.round(3), '\n\nConfusion-Matrix:\n', matrix, sep='')
model.classes_

Accuray: 0.949

Confusion-Matrix:
[[1865    8   70]
 [  13 1022    1]
 [  96    6  699]]


array(['Politik', 'Sport', 'Wirtschaft'], dtype=object)

### 06 - Mit TfIdf-Vectorizer arbeiten
Wir verwenden die gleichen Daten wie oben, fürhen die Bag-of-words-Umwandlungen aber mit einem *TfidfVectorizer* durch

#### a) Tfidf-Vektorisierer anlernen und Daten umwandeln

In [10]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer(stop_words=stopwords, min_df=10)
tfidf.fit(X_train)
X_train_tfidf = tfidf.transform(X_train)
X_test_tfidf = tfidf.transform(X_test)

#### b) Softmax-Modell mit vektorisierten Daten anlernen

In [11]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression(multi_class='multinomial', max_iter=10000)
model.fit(X_train_tfidf, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=10000,
                   multi_class='multinomial', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

#### Qualität des Modells überprüfen

In [12]:
y_test_pred = model.predict(X_test_tfidf)

acc = accuracy_score(y_test, y_test_pred)
matrix = confusion_matrix(y_test, y_test_pred)

# Ausgabe
print('Accuray: ', acc.round(3), '\n\nConfusion-Matrix:\n', matrix, sep='')
model.classes_

Accuray: 0.952

Confusion-Matrix:
[[1883    3   57]
 [  15 1020    1]
 [  98    6  697]]


array(['Politik', 'Sport', 'Wirtschaft'], dtype=object)