# Business Analytics und Künstliche Intelligenz

Prof. Dr. Jürgen Bock & Maximilian-Peter Radtke

---

## Ein erster Datensatz
In dieser Einheit geht es um die ersten Analysen von Daten. Wir verwenden hier einen einfachen Datensatz über Autos. (Mehr Informationen zum Datensatz finden Sie [hier](https://intro-stat-learning.github.io/ISLP/datasets/Auto.html)).

**Wichtig:** Stellen Sie bitte sicher, dass die Datei `Auto_clean.csv` aus dem Moodle-Kursraum im gleichen Verzeichnis wie dieses Notebook auf Ihrem Rechner vorhanden ist. (Laden Sie die Datei aus Moodle und speichern Sie diese genau wie das Jupyter Notebook selbst im gleichen Verzeichnis ab.)

### Pandas
Zum Einlesen eines Datensatzes verwenden wir das Pandas-Modul.

In [None]:
import pandas as pd

Pandas stellt eine Funktion zur Verfügung um einen im CSV-Format vorliegenden Datensatz einzulesen.

In [None]:
data = pd.read_csv('Auto_clean.csv')

Die Daten aus der Datei wurden nun geladen und in der Variablen `data` gespeichert.

In [None]:
data

Die Ausgabe sieht jedoch anders aus als gewohnt. Dies liegt am Datentyp, denn es handelt sich weder um einen primitiven Datentyp (einzelner Wert), noch um eine Kollektion (Liste, Menge, Tupel). Durch die `type()`-Funktion können wir den Datentyp erfahren:

In [None]:
type(data)

Es handelt sich also um den Datentyp `DataFrame` der im Modul `pandas.core.frame` definiert ist.

**Hintergrundinfo:** Bei diesem Datentyp handelt es sich um eine sogenannte *Klasse*. Neben den Attributen der Klasse (welche die eigentlichen Daten beinhalten) gibt es auch *Methoden*. Dies sind Funktionen, die im Rahmen der Klasse existieren und bestimmte Funktionalitäten für die Klassenobjekte bereitstellen.

Eine gute Möglichkeit, einen ersten Blick in einen `DataFrame` zu werfen ist über die *Methode* `head()`, die auf dem entsprechenden `DataFrame` ausgeführt werden kann:

In [None]:
data.head()

Standardmäßig zeigt `head()` die ersten 5 Datenreihen. Sollen mehr oder weniger Datenreihen angezeigt werden, kann die Anzahl als Paramter angegeben werden:

In [None]:
data.head(10)

Der `DataFrame` ähnelt einer Tabelle. Hier sind die einzelnen Merkmale / Variablen (Features) in Spalten, die verschiedenen Datenreihen in Zeilen dargestellt.

Die Bedeutung der Merkmale lässt sich an den Spaltenüberschriften ablesen. Wichtig ist dabei, dass diese Interpretation nur für den menschlichen Betrachter / Data Scientist bedeutsam ist. Entsprechend der DIKW Pyramide handelt es sich hier lediglich um *Daten*. Die *Information*, was diese Daten bedeuten könnten, und wie Sie zu interpretieren sind, kommt nur durch einen Menschen zustande und dessen Fähigkeit, die natürliche Sprache der Spaltenüberschriften zu verstehen.

Einzelne Bestandteile und Informationen zu einem `DataFrame` können über entsprechende *Klassenattribute* erfragt werden, z.B. die Dimensionen des Datensatzes:

In [None]:
data.shape

Unser Datensatz besteht entsprechend aus 392 Zeilen und 9 Spalten. Ein weiteres wichtiges Klassenattribut sind die Spalten:

In [None]:
data.columns

In diesem Fall haben die einzelnen Spalten folgende Bedeutung:
* `mpg` - Meilen pro Gallone
* `cylinders` - Anzahl der Zylinder
* `displacement` - Hubraum des Motors in inches
* `horsepower` - PS des Motors
* `weight` - Gewicht des Fahrzeuges
* `acceleration` - Beschleunigungszeit von 0 auf 60 mph in Sekunden
* `year` - Modelljahr des Autos (modulo 100)
* `origin` - Herkunft des Fahrzeuges (1=Amerika, 2=Europa, 3=Japan)
* `name` - Name des Fahrzeuges

*Wie lassen sich die einzelnen Variablen in die Kategorien nominal, ordinal und quantitativ einordnen?*

Der Zugriff auf die Spalten eines `DataFrame` kann in Pandas komfortabel über den Spaltennamen erfolgen:

In [None]:
data["mpg"]

bzw.

In [None]:
data.mpg

Jeder Spalte ist ein Datentyp zugeordnet, welcher sich über das Klassenattribut `dtypes` anzeigen lässt:

In [None]:
data.dtypes

Um einen Überblick über die Daten zu bekommen, eignet sich die Methode `describe()`, welche diverse deskriptive Statistiken ausgibt.

In [None]:
data.describe()

Die einzelnen Werte lassen sich natürlich auch einzeln berechnen.

In [None]:
data.mpg.mean()

In [None]:
data.cylinders.std()

In [None]:
data.displacement.min()

In [None]:
data.horsepower.max()

Wir können uns auch einzelnen Bereiche des Datensatzes anschauen. Beispielsweise können wir uns alle Autos ausgeben lassen, die nach 1980 auf den Markt gekommen sind.

In [None]:
data.loc[data.year > 80, :]

Oder uns interessiert nur der Name und die Herkunft der Autos, die nach 1980 auf dem Markt gekommen sind und genau 4 Zylinder haben.

In [None]:
data.loc[(data.year>80) & (data.cylinders==4), ['name', 'origin']]

Durch dieses sogenannte **slicing** des Datensatzes können wir uns deskriptive Statistiken für Subgruppen der Farhzeuge ausgeben lassen.

In [None]:
data.loc[(data.year>80) & (data.cylinders==4), :].describe()

Oft ist es leichter mithilfe von Graphiken einen genaueren Einblick über die Daten zu bekommen. Um dies zu tun, benötigen wir jedoch eine zusätzliche Python-Bibliothek. Hierzu ist `matplotlib` ein mächtiges und häufig verwendetes Toolkit.

## matplotlib
Matplotlib ist ein Python-Package zum Plotten von Daten. Um `matplotlib` zu verwenden, muss es, wie üblich, importiert werden. Besonders relevant ist das Modul `pyplot`, welches konventionsgemäß mit dem Alias `plt` importiert wird:

In [None]:
import matplotlib.pyplot as plt

Einfache Visualisierungen lassen sich nun leicht erstellen und werden direkt unter der ausgeführten Zelle angezeigt..

In [None]:
plt.plot([1,2,3,4,5], [1,4,9,16,25])
plt.show()

Da `matplotlib` die verschiedenen Stadien der Graphik "im Hinterkopf" behält, können wir einzelne Elemente der Graphik anpassen, bspw. die Achsenbeschriftung oder die Linienfarbe:

In [None]:
plt.plot([1,2,3,4,5], [1,4,9,16,25], color='red')
plt.xlabel('X')
plt.ylabel('Y')
plt.show()

Es gibt sehr viele Möglichkeiten Plots den individuellen Bedürfnissen anzupassen. Nähere Informationen zu den einzelnen Methoden können durch ein Fragezeichen (`?`) angezeigt werden.

In [None]:
?plt.plot

Desweiteren gibt es [hier](https://matplotlib.org/stable/contents.html "Matplotlib Dokumentation") eine detaillierte Dokumentation, welche auch Beispiele beinhaltet. Im weiteren Verlauf des Kurses werden wir verschiedene dieser Funktionalitäten nutzen um Datensätze zu visualieren und besser zu verstehen.

Ein Scatterplot eignet sich besonders um das Verhältnis zwischen zwei Variablen zu untersuchen.

In [None]:
plt.scatter(data.displacement, data.horsepower)
plt.xlabel('Hubraum')
plt.ylabel('PS')
plt.title('Verhältnis zwischen Hubraum und PS')
plt.show()

Mithilfe eines Histogramms kann die Verteilung einzelner Variablen analysiert werden.

In [None]:
plt.hist(data.horsepower)
plt.xlabel('PS')
plt.ylabel('Häufigkeit')
plt.title('Histogramm PS')
plt.show()

## Fluch der Dimensionalität (Curse of Dimensionality)

In [None]:
import numpy as np

# Funktion um die durchschnittliche Entfernung zwischen zufälligen Punkten in einem Hyperwürfel zu berechnen
def avg_point_distance(side_length, num_points, num_dimensions):
    points = np.random.rand(num_points, num_dimensions) * side_length
    distances = []
    for i in range(num_points):
        for j in range(i+1, num_points):
            distance = np.linalg.norm(points[i] - points[j])
            distances.append(distance)
    return np.mean(distances)

# # Vektorisierte Version der Funktion um die durchschnittliche Entfernung zwischen zufälligen Punkten in einem Hyperwürfel zu berechnen
# # Funktioniert sehr viel schneller, aber ist schwerer zu verstehen
# def avg_point_distance_vec(side_length, num_points, num_dimensions):
#     points = np.random.rand(num_points, num_dimensions) * side_length
#     pairwise_distances = np.linalg.norm(points[:, np.newaxis] - points, axis=2)
#     avg_distance = np.mean(pairwise_distances[pairwise_distances != 0])
#     return avg_distance

# Generiere eine Reihe von Dimensionen
dimensions = np.arange(1, 21)

# Definiere die Anzahl der Punkte und die Seitenlänge des Hyperwürfels
num_points = 1000
side_length = 1.0

# Berechne die durchschnittliche Entfernung zwischen Punkten für jede Dimension
avg_distances = [avg_point_distance(side_length, num_points, d) for d in dimensions]
# avg_distances = [avg_point_distance_vec(side_length, num_points, d) for d in dimensions]

# Plot die Dimensionen gegen die durchschnittliche Punktentfernung
# Plot the dimensions vs. the average point distance
plt.plot(dimensions, avg_distances, marker='o')
plt.xlabel('Anzahl Dimensionen')
plt.ylabel('Durchschnittliche Entfernung zwischen Punkten')
plt.title('Durchnittliche Entfernung vs. Anzahl Dimensionen')
# plt.yscale('log')  # Nutze logarithmische Skala für die y-Achse
plt.show()


# Übungsaufgaben

## Aufgabe 1

Welche der Variablen im vorliegenden Auto-Datensatz ist quantitativ? Welche sind qualitativ?

In [None]:
data.head()

* Quantitativ
    * mpg
    * cylinders
    * horsepower
    * weight
    * year
* Qualitativ
    * origin
    * name

## Aufgabe 2

Analysieren sie die einzelnen Variabelen graphisch. Was fällt Ihnen auf? Unterstreichen Sie Ihre Erkenntnisse mithilfe von aussagekräftigen Graphiken.

In [None]:
plt.scatter(data.mpg, data.cylinders)
plt.xlabel('mpg')
plt.ylabel('cylinders')
plt.title('mpg vs cylinders')
plt.show()

In [None]:
plt.bar(data.cylinders.value_counts().index, data.cylinders.value_counts())
plt.xlabel('cylinders')
plt.ylabel('Absolute Häufigkeit')
plt.title('Absolute Häufigkeiten von cylinders')
plt.show()

In [None]:
data.cylinders.value_counts().plot.bar()
plt.xlabel('cylinders')
plt.ylabel('Absolute Häufigkeit')
plt.title('Absolute Häufigkeiten von cylinders')
plt.show()

In [None]:
plt.hist(data.mpg)
plt.xlabel('mpg')
plt.ylabel('Anzahl')
plt.title('Histogramm mpg')
plt.show()

In [None]:
pd.plotting.scatter_matrix(data, figsize=(30,30))
plt.show()

In [None]:
data.head()

## Aufgabe 3

Angenommen wir wollen `mpg` - Meilen pro Gallone - eines Autos vorhersagen. Welche Variablen würden Sie hierfür nutzen? Welche Zusammenhänge gibt es? Nutzen Sie hierfür auch die Ergebnisse aus Aufgabe 2.