# Einführung: NumPy (Numeric Python)
---

* Acronym für “Numeric Python”
* Open source Erweiterung für Python.
* Sehr nützliche Datenstrukturen zur Effizienten Verwendung von multi-dimensionalen Arrays und Matrizen.
* Schnelle, vorkompilierte Funktionen für mathematische und numerische Routinen.
* Wird von vielen anderen Programmbibliotheken im Bereich Scientific
Computing und Machine Learning verwendet. Zum Beispiel:
 * Scipy (Scientific Python): Optimierung, Regression Fourier-Transformation und vieles mehr.
 * Ähnliche Datenstrukturen existieren in Tensorflow oder Pytorch: Deep
learning, Optimierung selbst-definierter Zielfunktionen, automatische
Berechnung von Gradienten.
* Download und mehr Information: www.numpy.org
---
* "Kern-Python": Python ohne Spezialmodule, insbesondere ohne NumPy.
* Vorteile von Kern-Python:
 * Einfache Zahlen-Typen: Integers, Floating Point
 * Container-Typen:
 * Listen mit effizienten Operationen zum Einfügen und Anhängen von
Werten.
 * Dictionaries für das effiziente Nachschlagen von Werten für einen Key.
* Vorteile die Numpy zusätzlich bietet:
 * Effiziente multi-dimensionale Arrays
 * Matrix-Operatoren
 * Wissenschaftliche Berechnungen

 ---
 ## Numpy: Einfaches Beispiel

In [1]:
import numpy as np
# Bringe eine Liste mit Celsius-Temperaturen in ein Numpy Array:
c_values = [25.3, 24.8, 26.9, 23.9]
C = np.array(c_values)

print(C)

[25.3 24.8 26.9 23.9]


In [2]:
# Wandle Celsius-Werte in Grad Fahrenheit um:
C * 9 / 5 + 32

array([77.54, 76.64, 80.42, 75.02])

In [3]:
# In Kern-Python müsste jeder Wert in der Liste einzeln konvertiert werden:
[ x * 9/5 + 32 for x in c_values ]

[77.54, 76.64, 80.42, 75.02]

In [4]:
# Für Funktionsgraphen: Werte für x-Achse erzeugen und y = f (x) berechnen
# Syntax

# help(np.arange)

'''
arange(...)
    arange([start,] stop[, step,], dtype=None, *, like=None)
    
    Return evenly spaced values within a given interval.
'''

# dtype: Zahlen-Typ der Werte (float, int, ...). Übernimmt den Typ von start/stop/step, falls nicht spezifiziert.

'\narange(...)\n    arange([start,] stop[, step,], dtype=None, *, like=None)\n    \n    Return evenly spaced values within a given interval.\n'

In [5]:
np.arange(3.0)

array([0., 1., 2.])

In [6]:
np.arange(1,5,2)

array([1, 3])

In [91]:
np.arange(0,1,1/8)

array([0.   , 0.125, 0.25 , 0.375, 0.5  , 0.625, 0.75 , 0.875])

## Vergleich Python-Listen vs. Numpy-Arrays

In [92]:
import time

v = [e for e in range(10000)]
start = time.time()


for i in range(10000):
  x = [e+e for e in v]
  v = [e/2 for e in x]
time_lists = time.time() - start


arr = np.array(v)
start = time.time()
for i in range(10000):
  x = arr + arr
  arr = x/2
time_arrays = time.time() - start 

print("time_lists", time_lists)
print("time_arrays", time_arrays)

time_lists 14.229166269302368
time_arrays 0.15268659591674805


* NumPy arrays können mehrere Achsen haben
 * Ähnlich zu verschachtelten Listen
 * Eine Matrix hat z.B. 2 Achsen: Zeilen (Achse 0) und Spalten (Achse 1)
 * Jede Achse hat wieder eine bestimmte Anzahl von **Komponenten** pro Achse (z.B. Anzahl von Zeilen, Anzahl von Spalten)
* Arrays mit mehreren Achsen heißen auch **multi-dimensionale** Arrays
* Numpy stellt pro Array ein **Shape**-Attribut bereit: Ein Tuple, das für jede Achse die Anzahl der Komponeten angibt

In [93]:
# 0 Achsen (Skalar)
np.array(42)

# 1 Achse (Vector)
np.array([3.4, 6.9, 99.8, 12.8])

# 2 Achsen (Matrix)
np.array([ [3.4, 8.7, 9.9],
          [1.1, -7.8, -0.7], 
          [4.1, 12.3, 4.8] ])

# 3 Achsen oder mehr (Tensor)
np.array([[[ 111 , 112] , [ 121 , 122] ],
          [[ 211 , 212] , [ 221 , 222 ] ] ,
          [[ 311 , 312] , [ 321 , 322 ] ] ] )

array([[[111, 112],
        [121, 122]],

       [[211, 212],
        [221, 222]],

       [[311, 312],
        [321, 322]]])

In [94]:
x = np.array ( [ [ 67 , 63 , 87 ] ,
      [ 77 , 69 , 59 ] ,
      [ 85 , 87 , 99 ] ,
      [ 79 , 72 , 71 ] ,
      [ 63 , 89 , 93 ] ,
      [ 68 , 92 , 78 ] ] )

In [95]:
np.shape(x)

(6, 3)

![Matrix](https://i.imgur.com/5VfIsUA.jpg)

In [96]:
# reshape erzeugt ein neues Array

a = np.arange(12).reshape(3 , 4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [97]:
# Für ein bestehendes Array kann die Shape auch direkt geändert werden:

a.shape = (2,6)
a
# Das Produkt der Dimensionen (=Anzahl an Komponenten) aller Achsen muss mit der Anzahl der Elemente im Array übereinstimmen

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [98]:
a = np.arange(24).reshape(2,3,4)
a

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

![Matrix](https://i.imgur.com/5bHf5cH.jpg)

### Transponieren eines Arrays

2-dimensionales Array (Array mit 2 Achsen):

In [14]:
a = np.arange(6).reshape(2,3)
a

array([[0, 1, 2],
       [3, 4, 5]])

In [15]:
a.T

array([[0, 3],
       [1, 4],
       [2, 5]])

### Multidimensionales Array:
``a.transpose(...)`` nimmt ein Tuple mit Indizes, die anzeigen, welche der Achsen das alten Arrays den Achsen im neuen Array entsprechen.

**Beispiel:**

In [16]:
b = a.transpose(0,1)
b

array([[0, 1, 2],
       [3, 4, 5]])

### Einfache Operatoren

In [99]:
a = np.array( [20, 30, 40, 50])
b = np.array( [0, 1, 2, 3])

c = a-b
c

array([20, 29, 38, 47])

In [18]:
b**2

array([0, 1, 4, 9])

In [19]:
a<35

array([ True,  True, False, False])

In [20]:
# elementweise Multiplikation
a * b

array([  0,  30,  80, 150])

In [21]:
# dot product
a.dot(b)

260

In [22]:
# Unäre (ein Argument) - Elementweise:
np.exp(b)

array([ 1.        ,  2.71828183,  7.3890561 , 20.08553692])

In [23]:
np.sqrt(b)

array([0.        , 1.        , 1.41421356, 1.73205081])

In [24]:
np.log(b)

  np.log(b)


array([      -inf, 0.        , 0.69314718, 1.09861229])

![Matrix](https://i.imgur.com/5bHf5cH.jpg)

In [25]:
b = np.arange(12).reshape(3,4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [26]:
b.sum(axis=0)

array([12, 15, 18, 21])

In [27]:
b.min(axis=1)

array([0, 4, 8])

### Matrix Multiplikation

`A = X.dot(Y)` berechnet die Multiplikation der beiden Matrizen
XϵR <sup>m×n</sup> und YϵR<sup>n×k</sup>, mit Ergebnis AϵR<sup>m×k</sup>


Anzahl der Spalten der ersten Matrix sollte gleich sein mit die Anzahl
der Zeilen der zweiten Matrix -> Matrix Produkt: Anzahl der Zeilen
der ersten Matrix und Anzahl der Spalten der zweiten Matrix

In [28]:
a = np.array([[2,-1],[0,3],[1,0]])
b = np.array([[2,0,],[1,-1]])

In [29]:
A = a.dot(b)
A

array([[ 3,  1],
       [ 3, -3],
       [ 2,  0]])

In [30]:
# Elemente indizieren

B = np.array( [[ [ 111 , 112 ] , [ 121 , 122 ] ] , 
               [ [ 211 , 212 ] , [ 221 , 222 ] ] , 
               [ [ 311 , 312 ] , [ 321 , 322 ] ] ] )
B

array([[[111, 112],
        [121, 122]],

       [[211, 212],
        [221, 222]],

       [[311, 312],
        [321, 322]]])

In [31]:
B[2][1][0]

321

In [32]:
B[2,1,0]

321

In [33]:
# Sub-Arrays indizieren
D = B[1]
D

array([[211, 212],
       [221, 222]])

In [34]:
# Vom Ende ausgehen
B[-1,-1]

array([321, 322])

In [35]:
a = np.arange(12)**2
a

array([  0,   1,   4,   9,  16,  25,  36,  49,  64,  81, 100, 121])

In [36]:
i = np.array([1,1,3,8,5])
i

array([1, 1, 3, 8, 5])

In [37]:
a[i]

array([ 1,  1,  9, 64, 25])

### Indizieren mit Wahrheitswerten

Arrays mit Booleschen Werten (`True, False`) können verwendet werden, um
die Werte zu übernehmen, für die ein Wahrheitswert `True` ist.

Das Array mit Zahlwerten und das Array mit Wahrheitswerten müssen eine
gleiche Shape haben.

In [38]:
a = np.arange(12).reshape(3,4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [39]:
b = a > 4
b

array([[False, False, False, False],
       [False,  True,  True,  True],
       [ True,  True,  True,  True]])

In [40]:
a[b]

array([ 5,  6,  7,  8,  9, 10, 11])

In [41]:
a[a>4]

array([ 5,  6,  7,  8,  9, 10, 11])

In [42]:
a[b] = 0
a

array([[0, 1, 2, 3],
       [4, 0, 0, 0],
       [0, 0, 0, 0]])

### Slicing

* Zugriff auf Index-Bereiche
* Syntax ähnlich wie bei Python-Listen und Tuples (aber für jede Achse):


`A[start0: stop0: step0,  start1: stop1: step1, ...]`


Beispiel mit 1 Achse:

In [43]:
S = np.array([0,1,2,3,4,5,6,7,8,9])

In [44]:
S[3:6:2]

array([3, 5])

In [45]:
S[:4]

array([0, 1, 2, 3])

In [46]:
S[:]

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Gegeben sind die folgenden vier Slice-Aufgaben.
Die oberen beiden Matrizen resultieren aus Slices von

`A = np.arange(25).reshape(5,5)`

die unteren beiden Matrizen aus Slices von

`X = np.arange(28).reshape(4, 7)`

Wie erhält man die Slices?
* 1.
* 2.
* 3.
* 4.

![slicing](https://i.imgur.com/CklAIJ9.jpg)

In [47]:
#@title Lösung A

A = np.arange(25).reshape(5,5)

B = A[:3, 2:]
B = A[3: , :]


In [48]:
#@title Lösung X

X = np.arange(28).reshape(4, 7)

Y = X[::2, ::3]
Y = X[:, ::3]

### Hinweis
Slicing erzeugt lediglich einen neuen **View**: Das bedeutet das die Werte im neuen Array mit dem alten Array verbunden sind. Dies ist ähnlich zu *call-by-reference* der Python Listen.

In [100]:
A = np.array( [ 0 , 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 ] )

In [101]:
S = A[2:6]

In [102]:
S

array([2, 3, 4, 5])

In [103]:
S[0] = 22
S[1] = 42

In [104]:
A

array([ 0,  1, 22, 42,  4,  5,  6,  7,  8,  9])

In [105]:
# Lösung:
S = A[2:6].copy()

In [106]:
S

array([22, 42,  4,  5])

### Weitere nützliche Matrizen

In [56]:
np.ones((2,3))

array([[1., 1., 1.],
       [1., 1., 1.]])

In [57]:
a = np.ones((3,4), dtype=int)
a

array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]])

In [58]:
np.zeros((2,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.]])

### Zufallszahlen

In [59]:
# Array mit Floats die gleichverteilt aus dem Intervall [0,1) erzeugt sind
np.random.rand(2,3)

array([[0.10429867, 0.90933769, 0.16208728],
       [0.71592937, 0.48950409, 0.24193027]])

In [60]:
# Floats aus einer Normalverteilung (Gauss-Verteilung)
# N (µ = 0; σ = 1):
np.random.randn(2,3)

array([[-0.22749226, -1.02929092, -0.07498425],
       [-0.74483536,  2.06418905,  0.19298564]])

* Um jedesmal die gleichen "Zufalls"-Matrizen zu bekommen, sollte am
Anfang des Skriptes der Zufalls-Seed von Numpy gesetzt werden:


`np.random.seed(0)`


* Ansonsten wird der Seed bei jedem Start des Programms automatisch
anders gewählt (nach System-Uhrzeit).

* Außerdem sollte der Seed von Kern-Python gesetzt werden:

`import random`

`random.seed(9001)`

### Diagonale Matrizen

* `numpy.eye` gibt ein 2-D array mit Einsen in der Diagonale und Nullen überall anders zurück

* `eye(N, M=None, k=0, dtype=float)`
 * `N` Zeilenanzahl
 * `M` Spaltenanzahl
 * `k` diagonale Position
  * 0: Hauptdiagonale, liegt auf Zelle (0,0)
  * `n+`, `n-`: bewegt die Diagonale `n` nach oben/unten
 * `dtype` Datentyp

In [61]:
help(np.eye)

Help on function eye in module numpy:

eye(N, M=None, k=0, dtype=<class 'float'>, order='C', *, like=None)
    Return a 2-D array with ones on the diagonal and zeros elsewhere.
    
    Parameters
    ----------
    N : int
      Number of rows in the output.
    M : int, optional
      Number of columns in the output. If None, defaults to `N`.
    k : int, optional
      Index of the diagonal: 0 (the default) refers to the main diagonal,
      a positive value refers to an upper diagonal, and a negative value
      to a lower diagonal.
    dtype : data-type, optional
      Data-type of the returned array.
    order : {'C', 'F'}, optional
        Whether the output should be stored in row-major (C-style) or
        column-major (Fortran-style) order in memory.
    
        .. versionadded:: 1.14.0
    like : array_like
        Reference object to allow the creation of arrays which are not
        NumPy arrays. If an array-like passed in as ``like`` supports
        the ``__array_functi

In [62]:
np.eye(5,5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [63]:
np.eye(5,5,-2)

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.]])

### Stacking von Arrays

In [64]:
# Vertikal

a = np.array([[1,2],[3,4]])
b = np.array([[11,22],[33,44]])

np.vstack((a,b))


array([[ 1,  2],
       [ 3,  4],
       [11, 22],
       [33, 44]])

In [65]:
# Horizontal

np.hstack((a,b))

array([[ 1,  2, 11, 22],
       [ 3,  4, 33, 44]])

# Scipy Sparse Matrices

* **SciPy** (scientific Python) bietet Funktionalitäten für wissenschaftliche Berechnungen
* `scipy.sparse` beinhaltet Klassen für das Rechnen mit **Sparse Matrices**, d.h. Matrizen bei denen die meisten Einträge den Wert 0 haben.
 * Intern werden andere Datenstrukturen als bei Arrays verwendet
 * Teilweise unterscheidet sich die Verwendung zu Numpy Arrays
* Es gibt verschiedene Sparse Matrix Klassen. Alle
 * erben von der selben Basis Klasse
 * stellen grundlegende Matrix funktionen zu Verfügung
  

In [66]:
import scipy as sp

In [67]:
help(sp.sparse)

Help on package scipy.sparse in scipy:

NAME
    scipy.sparse

DESCRIPTION
    Sparse matrices (:mod:`scipy.sparse`)
    
    .. currentmodule:: scipy.sparse
    
    SciPy 2-D sparse array package for numeric data.
    
    .. note::
    
       This package is switching to an array interface, compatible with
       NumPy arrays, from the older matrix interface.  We recommend that
       you use the array objects (`bsr_array`, `coo_array`, etc.) for
       all new work.
    
       When using the array interface, please note that:
    
       - ``x * y`` no longer performs matrix multiplication, but
         element-wise multiplication (just like with NumPy arrays).  To
         make code work with both arrays and matrices, use ``x @ y`` for
         matrix multiplication.
       - Operations such as `sum`, that used to produce dense matrices, now
         produce arrays, whose multiplication behavior differs similarly.
       - Sparse arrays currently must be two-dimensional.  This a

In [68]:
A = sp.sparse.csr_matrix([[1, 2, 0], [0, 0, 3], [4, 0, 5]])

In [69]:
A

<3x3 sparse matrix of type '<class 'numpy.int64'>'
	with 5 stored elements in Compressed Sparse Row format>

In [70]:
A.get_shape() # Elemente pro Achse

(3, 3)

In [71]:
A.getnnz() # Anzahl der non-zeros

5

In [72]:
A.transpose() # Transponieren

<3x3 sparse matrix of type '<class 'numpy.int64'>'
	with 5 stored elements in Compressed Sparse Column format>

In [73]:
sp.sparse.csr_matrix

# Compressed Sparse Row Matrix (default)
# Effizient für arithmetische Operatoren.
# (Wenig effizient für Spalten-Slicing
# oder einfügen/entfernen von Werten)

sp.sparse.lil_matrix

# Linked List Sparse Matrix.
# Effizientes Einfügen von Werten.
# (Wenig effizient für Spalten-Slicing
# oder arithmetische Operatoren)

sp.sparse.coo_matrix

# Sparse Matrix in COOrdinate Format
# Tupel aus Zeile, Spalte und Wert
# (Nur) gut, um Matrizen aus Koordinaten
# zu erstellen.
# Um Sparse Matrizen zu verwenden,
# immer zu CSR oder LIL konvertieren

scipy.sparse._coo.coo_matrix

In [74]:
print(A)

  (0, 0)	1
  (0, 1)	2
  (1, 2)	3
  (2, 0)	4
  (2, 2)	5


## Was ist das Ergebnis?

In [107]:
import numpy as np
from scipy.sparse import csr_matrix
A = csr_matrix([[1, 2, 0], 
                [0, 0, 3], 
                [4, 0, 5]])
v = np.array([1, 0, -1])
A.dot(v);

In [76]:
v

array([ 1,  0, -1])

In [77]:
# A.dot(v)

### Lösung

```
A.dot(v) = 
[[1 2 0]   [1]   [1]
 [0 0 3] * [0] = [0]
 [4 0 5]]  [-1]  [-1]
 
= [1*1 + 2*0 + 0*(-1), 0*1 + 0*0 + 3*(-1), 4*1 + 0*0 + 5*(-1)]
= [1, -3, -1]
```




# Scikit-Learn Vectorizer
## Scikit-Learn: Machine Learning in Python
https://scikit-learn.org/stable/

* Wie können wir unsere Daten einfach in ein Matrix-Format bringen?
(z.B. für die Verwendung mit Klassifikatoren aus der Scikit-Learn
Bibliothek)

* Scikit-Learn verwendet Matrizen für effiziente Machine-Learning
Algorithmen.
* Zunächst sind die Daten aber in einer anderen Form, z.B. Texte oder
Merkmals-Dictionaries (Merkmal ! Wert der Merkmals, z.B. Anzahl)
* Scikit-Learn stellt Vectorizer zur Verfügung, die Daten in Matrizen
konvertieren
* Ein Vectorizer-Objekt erstellt eine Feature Map (Abbildung z.B. vom
Vokabular zu Spalten-Indizes):
Es ist wichtig, dass das selbe Vectorizer-Objekt für die Trainings-,
Entwicklungs- und Test-Daten verwendet wird!
* Für Vectorizer kann man normalerweise angeben, ob sie ein Array oder
eine Sparse Matrix erzeugen sollen.
---
### DictVectorizer

* Die Klasse `DictVectorizer` wandelt **Listen mit Dictionaries** in
Arrays oder Sparse Matrizen um.
* **Eingabe**: Ein Dictionary pro Instanz (enthält Merkmale und Werte)
 * Key: Merkmal
 * Value: Wert/Ausprägung des Merkmals, z.B. Anzahl
* **Ausgabe**: Design Matrix

* Der Vectorizer erstellt eine Feature Map – die selbe Feature Map muss
für das selbe Modell bei allen Daten verwendet werden!
(D.h. immer nur einmal eine Feature Map erstellen!)
* Die Values in den Dictionaries der Instanzen können die folgenden
Typen haben:
 * **Numerisch**: Der Zahlenwert wird in der entsprechenden Spalte der
Design-Matrix abgespeichert.
 * **Boolean**: Zwei Spalten werden in der Design-Matrix angelegt (für True
und False), der Wert wird 1-hot codiert.
 * **String**: Für jeden vorkommenden Wert für das Merkmal wird eine
eigene Spalte angelegt (1-hot Encoding).

### Beispiel:

In [78]:
measurements = [
 {'city': 'Dubai', 'temperature': 33.},
 {'city': 'London', 'temperature': 12.},
 {'city': 'San Fransisco', 'temperature': 18.},
 ]

In [79]:
measurements

[{'city': 'Dubai', 'temperature': 33.0},
 {'city': 'London', 'temperature': 12.0},
 {'city': 'San Fransisco', 'temperature': 18.0}]

In [80]:
from sklearn.feature_extraction import DictVectorizer
v = DictVectorizer()

In [81]:
v.fit_transform(measurements).toarray()

array([[ 1.,  0.,  0., 33.],
       [ 0.,  1.,  0., 12.],
       [ 0.,  0.,  1., 18.]])

In [82]:
v.get_feature_names_out()

array(['city=Dubai', 'city=London', 'city=San Fransisco', 'temperature'],
      dtype=object)

* `v.fit(list_of_dicts)`: Erstellt die Feature Map (Abbildung von
Merkmalen zu Spalten in der Design Matrix)
* `v.transform(list_of_other_dicts)`: Transformiert Listen von
Instanzen (Dictionaries) zu Matrizen
* `v.fit_transform(list_of_dicts)`: fit und transform zusammen

In [83]:
# Create a list of dictionaries representing some data points
data = [{'city': 'New York', 'temperature': 70.0},
        {'city': 'San Francisco', 'temperature': 60.0},
        {'city': 'Chicago', 'temperature': 50.0}]

# Create a DictVectorizer object and use it to transform the data
vec = DictVectorizer()
X = vec.fit_transform(data)

# View the resulting feature matrix
print(X.toarray())
print()

# Alternatively, you can fit the DictVectorizer object and then transform the data
vec.fit(data)
X = vec.transform(data)

# View the resulting feature matrix
print(X.toarray())


[[ 0.  1.  0. 70.]
 [ 0.  0.  1. 60.]
 [ 1.  0.  0. 50.]]

[[ 0.  1.  0. 70.]
 [ 0.  0.  1. 60.]
 [ 1.  0.  0. 50.]]


* Der SciPy **CountVectorizer** erstellt Design Matrizen aus Text
 * Tokenisierung
 * umwandeln in Kleinschreibung (lowercasing)
 * N-Gramme erzeugen
 * Vorkommen zählen
 * Filter: Mindest-Wortlänge (default=2)
 * Filter: minimale und maximale Dokument-Frequenz (Anzahl der
Dokumente in denen ein Merkmal vorkommt)
 * ...


* Anwendungsfälle:
 * **CountVectorizer**: Praktisch für einfache Standardaufgaben in
computerlinguistischen Anwendungen.
 * **DictVectorizer**: Mehr Kontrolle, Merkmale können selbst definiert
werden.

In [84]:
from sklearn.feature_extraction.text import CountVectorizer

# Create a list of three text documents
corpus = ['This is the first document.',
 'This is the second second document.',
 'And the third one.',
 'Is this the first document?',
 ]

# Create a CountVectorizer object and use it to transform the corpus into a feature matrix
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)

# View the resulting feature matrix
print(X.toarray())
print()

# View the mapping of terms to feature indices
print(vectorizer.get_feature_names_out())


[[0 1 1 1 0 0 1 0 1]
 [0 1 0 1 0 2 1 0 1]
 [1 0 0 0 1 0 1 1 0]
 [0 1 1 1 0 0 1 0 1]]

['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']


Die resultierende Feature_Matrix ist eine *sparse* Matrix mit vier Reihen und neun Spalten, für die vier Dokumente und den Frequenzen der neun einzigartigen Terme.

Das Vokabular-Mapping wird mit den Termen als Schlüssel und den features als Werte gespeichert.

---

Es gibt mehrere **optionale Parameter**, mit denen das Verhalten angepasst werden kann, einschließlich `min_df` und `ngram_range`.

* `min_df` gibt an, in wie vielen Dokumenten ein Term mindestens vorkommen muss, um im Vokabular enthalten zu sein. Terme, die in weniger als min_df Dokumenten vorkommen, werden ignoriert. Das Einstellen von min_df auf einen größeren Wert kann nützlich sein, um seltene oder uninformative Terme zu entfernen, die Rauschen in den Daten sein können.

* `ngram_range` gibt den Bereich der N-Gramme an, die im Vokabular enthalten sein sollen. Zum Beispiel wären in dem Satz "The quick brown fox" die 2-Gramme (oder Bigramme) "The quick", "quick brown" und "brown fox". Der Parameter ngram_range nimmt ein Tupel von zwei ganzen Zahlen (min_n, max_n) entgegen, das den Bereich der N-Gramme angibt.

Hier ist ein Beispiel, das zeigt, wie man CountVectorizer mit min_df=2 und ngram_range=(1, 2) verwendet:

In [85]:
corpus = ['This is the first document.',
 'This is the second second document.',
 'And the third one.',
 'Is this the first document?',
 ]

vectorizer = CountVectorizer(min_df=2, ngram_range=(1, 2))
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names_out())
print()

X.toarray()

['document' 'first' 'first document' 'is' 'is the' 'the' 'the first'
 'this' 'this is']



array([[1, 1, 1, 1, 1, 1, 1, 1, 1],
       [1, 0, 0, 1, 1, 1, 0, 1, 1],
       [0, 0, 0, 0, 0, 1, 0, 0, 0],
       [1, 1, 1, 1, 0, 1, 1, 1, 0]])

## Zusammenfassung

* Merkmale für die Paraphrasenerkennung
 * Überlappung von Wörtern und N-Grammen
 * Normalisierung anhand der Text-Längen
 * Wortpaar-Merkmale
* Arrays und Sparse Matrizen
 * [Numpy Arrays](docs.scipy.org/doc/numpy-dev/user/quickstart.html)
 * [Scipy Sparse Matrizen
 ](docs.scipy.org/doc/scipy-0.18.1/reference/sparse.html)

*  [Scikit-learn Vecorizers](http://scikit-learn.org/stable/modules/feature_extraction.html)