# Ein kurzer  Einblick: Pandas und Scikit-learn


--> vgl. für die Dokumentation von Pandas z.B. https://pandas.pydata.org/pandas-docs/stable/

--> vgl. für die Dokumentation von scikit-learn z.B. : https://scikit-learn.org/stable/index.html

--> vgl. zum Iris flower Datensatz z.B. https://en.wikipedia.org/wiki/Iris_flower_data_set

- zum Iris flower Datensatz gibt es sehr viel Dokumentation
- eignet sich daher gut zum "Herumspielen", Kennenlernen, Testen von Methoden

In [None]:
import pandas as pd
import numpy as np

In [None]:
#mit read_csv eine CSV-Datei einlesen

data = pd.read_csv("iris.csv") 

# (mit to_csv in eine CSV-Datei schreiben)

In [None]:
# info zeigt uns ein paar Informationen über den Datensatz

data.info() 

In [None]:
# DataFrame = zweidimensionales Array (Zeilen und Spalten)
# Series = eindimensionales Array (eine Spalte) 

In [None]:
# Zeilen?

data.axes[0]

In [None]:
# Spalten? 

#data.axes[1]

# oder auch: 
#data.keys()
# data.columns

In [None]:
print("Anzahl der Zeilen: " + str(len(data.axes[0])))
print("Anzahl der Spalten: " + str(len(data.axes[1])))

In [None]:
# shape zeigt uns die Dimension des Datensatzes (Zeilen,Spalten)

data.shape 

# für die Zeilen:
#data.shape[0] 

# für die Spalten: 
#data.shape[1]

In [None]:
# Gibt es fehlende Werte in unserem Datensatz?

#data.isnull()
data.isnull().sum()

In [None]:
# Die Daten einer bestimmten Spalte anzeigen lassen:

data['SepalLengthCm']

In [None]:
# head: die ersten 5 Zeilen anzeigen

data.head() 

In [None]:
# tail: die letzten 5 Zeilen anzeigen

data.tail()

In [None]:
# Die ersten drei Zeilen anzeigen lassen:

data[0:3] 

In [None]:
# nur die Blumen enzeigen lassen mit SepalLengthCm > 7

data[data['SepalLengthCm'] > 7]

In [None]:
# nur die Blumen enzeigen lassen mit PetalLengthCm zwischen 5.5 und 6

data[data['PetalLengthCm'].between(5.5, 6)]

In [None]:
# Der Mittelwert von PetalWidthCm:

data['PetalWidthCm'].mean()

In [None]:
# auch praktisch: describe gibt uns ein paar statistische Werte

data.describe()

In [None]:
# iloc 
# um Daten nach Zeilen- oder Spaltenindex auszuwählen 

#data.iloc[0] # erste Zeile
#data.iloc[1] # zweite Zeile
#data.iloc[-1] #  letzte Zeile 
#data.iloc[0:5] # die ersten fünf Zeilen 

#data.iloc[:,0] # erste Spalte
#data.iloc[:,1] # zweite Spalte
#data.iloc[:,-1] # letzte Spalte

data.iloc[:, 0:2] # nur die ersten beiden Spalten, aber alle Zeilen
#data.iloc[[0,3,6,24], [1,3,5]] # 1., 4., 7., 25. Zeile + 2., 4., 6. Spalte
#data.iloc[0:5, 0:3] # die ersten fünf Zeilen,  die ersten drei Spalten

In [None]:
# loc 
# um Daten nach einem Label (oder anhand einer Bedingung) auszuwählen

#data.loc[:,['SepalLengthCm']] #alle Zeilen der gewählten Spalte 
#data.loc[:4,['SepalLengthCm']] # die ersten fünf Zeilen der gewählten Spalte 

spec = data.set_index('Species')
print(spec.loc['Iris-virginica']) # Alle, die zur Spezies Iris-virginica gehören  

In [None]:
# loc aber auch um Daten hinzuzufügen oder zu verändern: 

data.loc['150'] = [151, 5.1, 3.5, 1.4, 0.2, 'Iris-neu']
print(data)

# aber lieber wieder löschen:
data = data.drop('150')
print(data)

In [None]:
# ... und es gibt noch viele weitere coole Methoden :-) 

In [None]:
data

--------------------

# Daten klassifizieren mit Pandas und Scikit-learn

In [1]:
import pandas as pd
import numpy as np

data = pd.read_csv("iris.csv") 

###  --> Den Datensatz in eine zufällige Reihenfolge bringen / shuffeln:

In [2]:
# mit Pandas:
data = data.sample(frac=1)

In [3]:
# oder mit sklearn:
from sklearn.utils import shuffle
data = shuffle(data)

In [4]:
data.shape

(150, 6)

### --> Den Datensatz aufteilen in Merkmale und Label:

In [5]:
data = data.drop('Id', axis=1) # die Id-Spalte entfernen 

features = data.iloc[:, :-1].values # alle Zeilen, aber nicht die letzte Spalte 
labels = data.iloc[:, 4].values #alle Zeilen, aber nur die letzte Spalte

print("Attributes:\n", features)
print("\nLabels:\n", labels)

Attributes:
 [[5.8 2.7 5.1 1.9]
 [5.  3.5 1.6 0.6]
 [4.9 3.1 1.5 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 3.8 1.7 0.3]
 [6.5 3.2 5.1 2. ]
 [7.2 3.  5.8 1.6]
 [6.5 3.  5.5 1.8]
 [6.4 2.7 5.3 1.9]
 [5.4 3.4 1.7 0.2]
 [6.8 2.8 4.8 1.4]
 [6.4 2.9 4.3 1.3]
 [5.4 3.7 1.5 0.2]
 [4.7 3.2 1.3 0.2]
 [5.4 3.  4.5 1.5]
 [5.1 3.5 1.4 0.2]
 [5.2 3.4 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [5.8 2.7 5.1 1.9]
 [7.3 2.9 6.3 1.8]
 [5.6 3.  4.1 1.3]
 [6.5 2.8 4.6 1.5]
 [6.3 3.3 4.7 1.6]
 [7.4 2.8 6.1 1.9]
 [5.1 3.4 1.5 0.2]
 [7.2 3.6 6.1 2.5]
 [6.7 3.1 5.6 2.4]
 [6.3 3.3 6.  2.5]
 [5.4 3.9 1.7 0.4]
 [6.3 2.9 5.6 1.8]
 [6.7 3.  5.2 2.3]
 [6.7 3.1 4.4 1.4]
 [6.2 2.8 4.8 1.8]
 [5.5 2.4 3.8 1.1]
 [4.8 3.4 1.9 0.2]
 [5.7 3.  4.2 1.2]
 [5.3 3.7 1.5 0.2]
 [6.3 2.8 5.1 1.5]
 [6.8 3.2 5.9 2.3]
 [5.4 3.9 1.3 0.4]
 [5.7 2.6 3.5 1. ]
 [5.1 3.8 1.6 0.2]
 [7.7 3.8 6.7 2.2]
 [6.  3.4 4.5 1.6]
 [5.9 3.  4.2 1.5]
 [5.7 2.9 4.2 1.3]
 [5.6 2.7 4.2 1.3]
 [5.5 3.5 1.3 0.2]
 [6.3 2.5 5.  1.9]
 [6.  2.7 5.1 1.6]
 [4.4 3.2 1.3 0.2]
 [6.4 2.8 5.6 2.2]

In [None]:
features.shape

In [None]:
labels.shape

### --> Nun in Trainings- und Testset aufteilen:
(i.d.R. gibt es auch noch ein Validationset)

In [6]:
from sklearn.model_selection import train_test_split

features_train, features_test, labels_train, labels_test = train_test_split(features, labels, test_size=0.30, random_state=20)

#random_state wird genutzt, damit wir es reproduzieren können 

In [7]:
# 70% Trainingsdaten 
print(features_train)
print(labels_train)

[[4.9 3.1 1.5 0.1]
 [6.5 3.2 5.1 2. ]
 [6.  2.7 5.1 1.6]
 [6.7 3.3 5.7 2.1]
 [5.9 3.  4.2 1.5]
 [5.  3.3 1.4 0.2]
 [7.1 3.  5.9 2.1]
 [6.7 3.1 4.4 1.4]
 [6.7 3.  5.  1.7]
 [5.5 2.5 4.  1.3]
 [5.  2.3 3.3 1. ]
 [4.6 3.6 1.  0.2]
 [5.1 3.8 1.6 0.2]
 [5.4 3.9 1.3 0.4]
 [5.  3.6 1.4 0.2]
 [4.6 3.4 1.4 0.3]
 [5.5 4.2 1.4 0.2]
 [7.7 3.  6.1 2.3]
 [6.1 2.8 4.  1.3]
 [5.  2.  3.5 1. ]
 [6.1 2.9 4.7 1.4]
 [7.4 2.8 6.1 1.9]
 [5.8 2.7 3.9 1.2]
 [4.9 3.  1.4 0.2]
 [5.4 3.4 1.7 0.2]
 [6.8 3.2 5.9 2.3]
 [5.9 3.  5.1 1.8]
 [6.2 3.4 5.4 2.3]
 [4.7 3.2 1.6 0.2]
 [7.3 2.9 6.3 1.8]
 [6.3 2.5 5.  1.9]
 [5.5 2.6 4.4 1.2]
 [5.3 3.7 1.5 0.2]
 [6.7 3.  5.2 2.3]
 [6.  2.9 4.5 1.5]
 [4.9 3.1 1.5 0.1]
 [4.8 3.4 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [6.2 2.2 4.5 1.5]
 [5.9 3.2 4.8 1.8]
 [5.1 3.3 1.7 0.5]
 [6.4 3.1 5.5 1.8]
 [6.1 2.6 5.6 1.4]
 [6.3 2.7 4.9 1.8]
 [5.7 4.4 1.5 0.4]
 [6.4 2.7 5.3 1.9]
 [4.8 3.  1.4 0.3]
 [6.3 3.3 6.  2.5]
 [5.7 3.8 1.7 0.3]
 [5.4 3.  4.5 1.5]
 [7.9 3.8 6.4 2. ]
 [6.2 2.9 4.3 1.3]
 [6.7 3.1 4.

In [8]:
# 30 % Testdaten
print(features_test)
print(labels_test)

[[5.5 3.5 1.3 0.2]
 [5.2 4.1 1.5 0.1]
 [6.7 3.3 5.7 2.5]
 [4.9 2.4 3.3 1. ]
 [5.1 2.5 3.  1.1]
 [6.5 3.  5.8 2.2]
 [6.9 3.2 5.7 2.3]
 [6.5 2.8 4.6 1.5]
 [5.8 2.7 4.1 1. ]
 [5.4 3.7 1.5 0.2]
 [5.7 2.5 5.  2. ]
 [5.1 3.8 1.5 0.3]
 [6.1 3.  4.6 1.4]
 [5.7 3.  4.2 1.2]
 [5.4 3.9 1.7 0.4]
 [6.4 3.2 4.5 1.5]
 [4.7 3.2 1.3 0.2]
 [4.9 3.1 1.5 0.1]
 [5.2 2.7 3.9 1.4]
 [6.6 2.9 4.6 1.3]
 [4.4 3.2 1.3 0.2]
 [5.6 2.8 4.9 2. ]
 [6.4 2.8 5.6 2.1]
 [5.6 3.  4.1 1.3]
 [5.7 2.8 4.1 1.3]
 [5.  3.  1.6 0.2]
 [6.9 3.1 5.4 2.1]
 [4.8 3.4 1.9 0.2]
 [4.4 3.  1.3 0.2]
 [4.8 3.1 1.6 0.2]
 [6.3 2.3 4.4 1.3]
 [7.7 2.8 6.7 2. ]
 [5.8 2.7 5.1 1.9]
 [5.6 2.7 4.2 1.3]
 [6.4 2.9 4.3 1.3]
 [5.  3.2 1.2 0.2]
 [5.7 2.8 4.5 1.3]
 [5.  3.5 1.6 0.6]
 [6.4 2.8 5.6 2.2]
 [7.2 3.2 6.  1.8]
 [5.  3.4 1.5 0.2]
 [6.3 3.4 5.6 2.4]
 [6.3 2.8 5.1 1.5]
 [4.5 2.3 1.3 0.3]
 [5.  3.5 1.3 0.3]]
['Iris-setosa' 'Iris-setosa' 'Iris-virginica' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-virginica' 'Iris-virginica' 'Iris-versicolor'
 'Iris-ve

In [None]:
print(len(features_train))
print(len(features_test))

### -->  Jetzt können wir schon klassifizieren!

### -->  Naive Bayes Classifier 

In [9]:
from sklearn.naive_bayes import GaussianNB

# den Klassfikator erstellen: 
gnb = GaussianNB()

# den Klassfikator mit dem Trainingsset trainieren: 
gnb.fit(features_train, labels_train)

# den Klassifikator auf das Testset anwenden: 
labels_pred = gnb.predict(features_test)
print("Ergebnis für das Testset:")
print(labels_pred)

# Wie gut funktioniert der Klassifikator?
from sklearn.metrics import accuracy_score

print("\n Treffsicherheit/ Accuracy:")
print(accuracy_score(labels_test, labels_pred))
#print(gnb.score(features_test, labels_test))

Ergebnis für das Testset:
['Iris-setosa' 'Iris-setosa' 'Iris-virginica' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-virginica' 'Iris-virginica' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-setosa' 'Iris-virginica' 'Iris-setosa'
 'Iris-versicolor' 'Iris-versicolor' 'Iris-setosa' 'Iris-versicolor'
 'Iris-setosa' 'Iris-setosa' 'Iris-versicolor' 'Iris-versicolor'
 'Iris-setosa' 'Iris-virginica' 'Iris-virginica' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-setosa' 'Iris-virginica' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-versicolor' 'Iris-virginica'
 'Iris-virginica' 'Iris-versicolor' 'Iris-versicolor' 'Iris-setosa'
 'Iris-versicolor' 'Iris-setosa' 'Iris-virginica' 'Iris-virginica'
 'Iris-setosa' 'Iris-virginica' 'Iris-versicolor' 'Iris-setosa'
 'Iris-setosa']

 Treffsicherheit/ Accuracy:
0.9777777777777777


In [10]:
from sklearn.metrics import classification_report

print(classification_report(labels_test, labels_pred))

                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        17
Iris-versicolor       0.94      1.00      0.97        15
 Iris-virginica       1.00      0.92      0.96        13

      micro avg       0.98      0.98      0.98        45
      macro avg       0.98      0.97      0.98        45
   weighted avg       0.98      0.98      0.98        45



### --> Perceptron Klassifikator:

In [11]:
from sklearn.linear_model import Perceptron

# den Klassfikator erstellen: 
# n_iter = Hyperparameter 
ppn = Perceptron(n_iter=30)

# den Klassfikator mit dem Trainingsset trainieren: 
ppn.fit(features_train, labels_train)

# den Klassifikator auf das Testset anwenden: 
labels_pred = ppn.predict(features_test)
print("Ergebnis für das Testset:")
print(labels_pred)

# Wie gut funktioniert der Klassifikator?
print("\n Treffsicherheit/ Accuracy:")
print(accuracy_score(labels_test, labels_pred))
#print(ppn.score(features_test, labels_test)) 



Ergebnis für das Testset:
['Iris-setosa' 'Iris-setosa' 'Iris-virginica' 'Iris-setosa' 'Iris-setosa'
 'Iris-virginica' 'Iris-virginica' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 'Iris-virginica' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-virginica' 'Iris-virginica'
 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-virginica' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-versicolor' 'Iris-virginica'
 'Iris-virginica' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 'Iris-virginica' 'Iris-virginica' 'Iris-setosa'
 'Iris-virginica' 'Iris-virginica' 'Iris-setosa' 'Iris-setosa']

 Treffsicherheit/ Accuracy:
0.6888888888888889


### --> K Nearest Neighbor (KNN) Klassifikator:

In [12]:
from sklearn.neighbors import KNeighborsClassifier

# den Klassfikator erstellen: 
# n_neighbors = Hyperparameter 
knn = KNeighborsClassifier(n_neighbors=2)

# den Klassfikator mit dem Trainingsset trainieren: 
knn.fit(features_train, labels_train)

# den Klassifikator auf das Testset anwenden: 
labels_pred = knn.predict(features_test)
print("Ergebnis für das Testset:")
print(labels_pred)

# Wie gut funktioniert der Klassifikator?
print("\n Treffsicherheit/ Accuracy:")
print(accuracy_score(labels_test, labels_pred))
#print(knn.score(features_test, labels_test))

Ergebnis für das Testset:
['Iris-setosa' 'Iris-setosa' 'Iris-virginica' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-virginica' 'Iris-virginica' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-setosa' 'Iris-virginica' 'Iris-setosa'
 'Iris-versicolor' 'Iris-versicolor' 'Iris-setosa' 'Iris-versicolor'
 'Iris-setosa' 'Iris-setosa' 'Iris-versicolor' 'Iris-versicolor'
 'Iris-setosa' 'Iris-virginica' 'Iris-virginica' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-setosa' 'Iris-virginica' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-versicolor' 'Iris-virginica'
 'Iris-virginica' 'Iris-versicolor' 'Iris-versicolor' 'Iris-setosa'
 'Iris-versicolor' 'Iris-setosa' 'Iris-virginica' 'Iris-virginica'
 'Iris-setosa' 'Iris-virginica' 'Iris-versicolor' 'Iris-setosa'
 'Iris-setosa']

 Treffsicherheit/ Accuracy:
0.9777777777777777


# Ergänzung 19.12.19:  

### --> Logistic Regression

In [13]:
from sklearn.linear_model import LogisticRegression

# das Modell erstellen: 
logreg = LogisticRegression(C=1e5) 

# mit dem Trainingsset trainieren: 
logreg.fit(features_train, labels_train)

# auf das Testset anwenden: 
labels_pred = logreg.predict(features_test)
print(labels_pred)

# Wie gut funktioniert das Modell?
print("\n Treffsicherheit/ Accuracy:")
print(accuracy_score(labels_test, labels_pred))
#print(logreg.score(features_test, labels_test))

['Iris-setosa' 'Iris-setosa' 'Iris-virginica' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-virginica' 'Iris-virginica' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-setosa' 'Iris-virginica' 'Iris-setosa'
 'Iris-versicolor' 'Iris-versicolor' 'Iris-setosa' 'Iris-versicolor'
 'Iris-setosa' 'Iris-setosa' 'Iris-versicolor' 'Iris-versicolor'
 'Iris-setosa' 'Iris-virginica' 'Iris-virginica' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-setosa' 'Iris-virginica' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-versicolor' 'Iris-virginica'
 'Iris-virginica' 'Iris-versicolor' 'Iris-versicolor' 'Iris-setosa'
 'Iris-versicolor' 'Iris-setosa' 'Iris-virginica' 'Iris-virginica'
 'Iris-setosa' 'Iris-virginica' 'Iris-versicolor' 'Iris-setosa'
 'Iris-setosa']

 Treffsicherheit/ Accuracy:
0.9777777777777777




In [14]:
output_df = pd.DataFrame(columns=['Merkmale', 'Richtiges Label', 'Klassifiziertes Label'])
for i in range(len(features_test)):
    output_df.loc[i] = [features_test[i], labels_test[i], labels_pred[i]]

In [15]:
for num, row in output_df.iterrows():
    print('Merkmale', row['Merkmale'])
    print('Klassifiziertes Label: ', row['Klassifiziertes Label'])
    print('Richtiges Label: ', row['Richtiges Label'])
    print()

Merkmale [5.5 3.5 1.3 0.2]
Klassifiziertes Label:  Iris-setosa
Richtiges Label:  Iris-setosa

Merkmale [5.2 4.1 1.5 0.1]
Klassifiziertes Label:  Iris-setosa
Richtiges Label:  Iris-setosa

Merkmale [6.7 3.3 5.7 2.5]
Klassifiziertes Label:  Iris-virginica
Richtiges Label:  Iris-virginica

Merkmale [4.9 2.4 3.3 1. ]
Klassifiziertes Label:  Iris-versicolor
Richtiges Label:  Iris-versicolor

Merkmale [5.1 2.5 3.  1.1]
Klassifiziertes Label:  Iris-versicolor
Richtiges Label:  Iris-versicolor

Merkmale [6.5 3.  5.8 2.2]
Klassifiziertes Label:  Iris-virginica
Richtiges Label:  Iris-virginica

Merkmale [6.9 3.2 5.7 2.3]
Klassifiziertes Label:  Iris-virginica
Richtiges Label:  Iris-virginica

Merkmale [6.5 2.8 4.6 1.5]
Klassifiziertes Label:  Iris-versicolor
Richtiges Label:  Iris-versicolor

Merkmale [5.8 2.7 4.1 1. ]
Klassifiziertes Label:  Iris-versicolor
Richtiges Label:  Iris-versicolor

Merkmale [5.4 3.7 1.5 0.2]
Klassifiziertes Label:  Iris-setosa
Richtiges Label:  Iris-setosa

Merkmale [

----------------- 

# Texte vektorisieren mit Scikit-learn

In [None]:
texts = [
    "it's really really cold outside",
    "i prefer hot beverages to cold beverages",
    "to find the best beverages you have to think outside the box",
    "christmas boxes are wrapped as presents"
]

### --> Count Vectorizer

- Konvertiert einen Text / einen Textkorpus in eine Matrix von "token counts"

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
vectorizer = CountVectorizer()

# die Vokabeln lernen:
voc  = vectorizer.fit_transform(texts)

In [None]:
print(vectorizer.get_feature_names())

In [None]:
# gelernte Matrix
voc.toarray()

# Jeder Zeile dieser Matrix spiegelt ein Dokument/ einen Text wieder 
# und ist so lang wie das gesamte Vokabular des Korpus 
# für jedes Wort wird gezählt, wie oft es in dem jeweiligen Text/ Dokument vorgekommen ist 

In [None]:
#print(voc.shape)

In [None]:
#vectorizer.vocabulary_.keys()

In [None]:
pd.DataFrame(vectorizer.fit_transform(texts).toarray(), columns=sorted(vectorizer.vocabulary_.keys()))

### oder auch mit n-grams: 

In [None]:
vectorizer2 = CountVectorizer(analyzer='word', ngram_range=(2, 2))

# ngram_range:
# (2,2) = nur Bigramme
# (1,2) = Unigramme und Bigramme
# (1,1) = nur Unigramme 

voc2  = vectorizer2.fit_transform(texts)

In [None]:
print(vectorizer2.get_feature_names())

In [None]:
# gelernte Matrix
print(voc2.toarray())

In [None]:
pd.DataFrame(vectorizer2.fit_transform(texts).toarray(), columns=sorted(vectorizer2.vocabulary_.keys()))

### --> Tf-Idf Vectorizer:

- Konvertiert einen Text / einen Textkorpus in eine Matrix von TF-IDF-Werten


In [None]:
texts_tfidf = [
    "the weather today is the worst within the history of mankind",
    "the largest state in the US is Alaska",
    "the the something here the the",
    "this is the the is this"
]

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer = TfidfVectorizer()

voc3 = tfidf_vectorizer.fit_transform(texts_tfidf)

In [None]:
print(tfidf_vectorizer.get_feature_names())

In [None]:
#print(voc3.shape)

In [None]:
# gelernte Matrix
voc3.toarray()

In [None]:
pd.DataFrame(tfidf_vectorizer.fit_transform(texts_tfidf).toarray(), columns=(tfidf_vectorizer.vocabulary_.keys()))