In [1]:
import math
import numpy as np
import pandas as pd

# Automatisierung

Für die automatisierte Mustererkennung wollen wir uns in den nächsten Wochen an Verfahren aus der 'Angewandten Mathematik' bedienen. Für die Musterekennung ist es nötig, dass wir Ähnlichkeiten und Unterschiede erkennen können!

**Was bedeutet das mathematisch?**

---

## Abstand

Ein Möglichkeit Ähnlichkeiten mathematisch auszudrücken ist der Abstand. Zwei Datenpunkte sind sich ähnlich, wenn sie nah beieinander liegen, verschieden, wenn sie weiter auseinander liegen.

Für einen Abstand muss mathematisch gelten:
- $d(x,y) \geq 0$ und wenn  $d(x,y) = 0$ gilt $x=y$ und umgekehrt (Positive Definitheit)
- $d(x,y) = d(y,x)$ (Symmetrie)
- $d(x,y) \leq d(x,z) + d(z,y)$ (Dreiecksungleichung)

Im eindimensionalen kann man einen Abstand mit der Betragsfunktion definieren:

$$ d(x,y) = \left|x-y\right| $$

In [2]:
def d(x,y):
    return abs(x - y)

In [3]:
d(10,10) == 0

True

In [4]:
d(10,3) == d(3,10)

True

In [5]:
d(3,10) <= d(3,12) + d(12,10)

True

Das schöne an der Mathematik ist, dass es so einen Abstand nicht nur im Eindimensionalen gibt. Der euklidische Abstand ist für unendlich viele Dimensionen definiert!

https://de.wikipedia.org/wiki/Euklidischer_Abstand

In [6]:
# die funktion erwartet zwei numpy arrays der gleichen Länge
def euklid_d(x,y):
    d = (x-y) # elementweise differenz
    d = d**2 # elementweise quadrat d^2
    d = d.sum() #die summe aller einträge in d
    return math.sqrt(d) # die Wurzel aus diesem Wert ist der euklidische Abstand

In [7]:
# Im 2-Dimensionalen
x = np.array([1,1])
y = np.array([1,2])
euklid_d(x,y)

1.0

In [8]:
# Im 7-Dimensionalen
x = np.array([1,1,1,1,1,1,1])
y = np.array([1,2,1,1,1,3,1])
euklid_d(x,y)

2.23606797749979

In [9]:
# Zwischen verschiedenen Dimensionen?!
x = np.array([1,1,1,1,1,1])
y = np.array([1,2,1,1,1,3,1])
euklid_d(x,y)

ValueError: operands could not be broadcast together with shapes (6,) (7,) 

**Funktioniert natürlich nicht zwischen verschiednene Dimensionen!**

OK, in bestimmten mathematischen "Räumen" haben wir einen Abstand. Der "Raum" gibt unter anderem die Dimension vor. Was machen wir damit aber nun in der Anwendung?!

Wenn wir uns unsere Daten anschauen:

In [10]:
file_name = '~/neuefische/data-fish/data/bank_transactions.csv'
data = pd.read_csv(file_name) 
data.head()

Unnamed: 0,step,customer,age,gender,merchant,category,amount,fraud
0,0,C1093826151,4,M,M348934600,es_transportation,4.55,0
1,0,C352968107,2,M,M348934600,es_transportation,39.68,0
2,0,C2054744914,4,F,M1823072687,es_transportation,26.89,0
3,0,C1760612790,3,M,M348934600,es_transportation,17.25,0
4,0,C757503768,5,M,M348934600,es_transportation,35.72,0


Was ich ja machen will ist die Unterschiede zwischen einzelnen Zeilen erkennen, oder anders, Muster zwischen den Zeilen erkennen. Wie aber messe ich mathematisch den Abstand zwischen zwei Zeilen im Bezug auf das Geschlecht?!