<a href="https://colab.research.google.com/github/stebirl/Py-start/blob/main/Tag_3_Datens%C3%A4tze.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 08-27-GS-2 - Einführung in die Datenverarbeitung und -visualisierung mit Python

5-tägiger Blockkurs - Stella Birlo


---------
# Tag 3 - Datensätze

## 3.1. Datentypen und Datensätze

Es gibt viele andere Datentypen, die in der Datenanalyse und -verarbeitung vorkommen können. Hier sind einige Beispiele:

* **Numerische Daten**: Dies sind Daten, die Zahlenwerte darstellen, wie zum Beispiel die Größe oder das Gewicht von Objekten, die Temperatur oder der Druck in einem System.

* **Kategorische Daten**: Diese Art von Daten repräsentiert eine feste Anzahl von Kategorien oder Labels, wie zum Beispiel die Farbe von Objekten, der Hersteller eines Produkts oder die Kategorie von Produkten in einem Online-Shop.

* **Textdaten**: Dies sind Daten, die aus Text bestehen, wie zum Beispiel die Beschreibung von Produkten, Kundenfeedback oder soziale Medien Beiträge.

* Bild- und Videodaten: Diese Art von Daten besteht aus Pixeln oder Bildpunkten, die ein Bild oder Video darstellen. Sie werden häufig in der Bildverarbeitung, Gesichtserkennung und Überwachung eingesetzt.

* **Geodaten**: Dies sind Daten, die geographische Informationen enthalten, wie zum Beispiel Längen- und Breitengrade von Standorten, Karten- und Satellitenbilder oder Geo-Tags von Fotos.

* Graphdaten: Dies sind Daten, die aus Knoten und Kanten bestehen und Beziehungen zwischen Objekten oder Entitäten darstellen, wie zum Beispiel in sozialen Netzwerken, Empfehlungssystemen oder Netzwerkarchitekturen.

* Audio-Daten: Diese Datentypen repräsentieren Schallwellen und werden in der Spracherkennung, Musikanalyse und anderen Audioanwendungen verwendet.

* Binärdaten: Dies sind Daten, die in Binärform vorliegen, wie zum Beispiel Dateien, die in Computern gespeichert sind. Sie können Text, Bilder, ausführbare Programme und mehr repräsentieren.

* **Bool'sche Daten** (Boolesche Werte): Dies sind Daten, die nur zwei mögliche Werte annehmen können, oft wahr (true) oder falsch (false). Sie werden häufig in bedingten Aussagen und Logikoperationen verwendet.

* Komplexe Zahlen: In der Mathematik repräsentieren komplexe Zahlen Werte mit einem Realteil und einem Imaginärteil. Sie werden in verschiedenen Bereichen der Ingenieurwissenschaften und der Physik verwendet.

* **NULL oder NaN:** Diese repräsentieren oft den Mangel an Daten oder eine undefinierte oder nicht zutreffende Zustandsinformation.

* UUID (Universally Unique Identifier): Ein eindeutiger Identifikator, der oft in Datenbanken und verteilten Systemen verwendet wird.

* **JSON **(JavaScript Object Notation): Ein Datenformat, das oft für den Austausch strukturierter Informationen zwischen einem Server und einem Webbrowser verwendet wird.

* XML (Extensible Markup Language): Ein weiteres Format für den Austausch strukturierter Informationen, häufig in der Webentwicklung und Datenübertragung verwendet.

* Tensor: In der maschinellen Lern- und neuronalen Netzwerktechnik repräsentiert ein Tensor eine mehrdimensionale Datenstruktur, die in diesem Kontext für das Speichern und Verarbeiten von Daten verwendet wird.

* **Datenframes**: In der Datenanalyse, insbesondere mit Bibliotheken wie Pandas in Python, repräsentieren Datenframes tabellenartige Datenstrukturen mit Zeilen und Spalten, ähnlich wie in Datenbanktabellen.

* Byte-Arrays: Eine sequenzielle Anordnung von Bytes, die in der Programmierung für die Arbeit mit Binärdaten verwendet wird.



---



---


Einzelne Daten werden zu Datensätzen zusammengefasst.

Dabei werden Messungen/Personen/... immer in Zeilen (rows/index) und die verschiedenen Messgrößen in Spalten (columns) angezeigt.

Excel ist ein handliches Werkzeug um kleinere Datensätze zu untersuchen. Bei größeren Datensätzen ist es allerdings handlicher, diese mit Tools wie Python zu analysieren.



---



---


Neues Paket: Pandas - Grundlagen der Datenmanipulation in Python

Pandas ist eine leistungsstarke Bibliothek für Datenmanipulation und -analyse in Python.
Mit Pandas können wir sogenannte "Dataframes" erstellen, vergleichbar mit einer Excel-Tabelle.

Hier ein Cheatsheet dazu: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

Bevor wir beginnen, stellt sicher, dass Pandas installiert ist. Falls nicht, kannst du es mit dem folgenden Befehl installieren (nicht nötig in Colab):

In [None]:
pip install pandas

In [None]:
# DataFrames erstellen
# ... aus einer Liste
import pandas as pd

data = [['Alice', 25], ['Bob', 30], ['Charlie', 35]]
df = pd.DataFrame(data, columns=['Name', 'Age'])
df

# Resultat: eine Tabelle mit Zwei Spalten (columns) und drei Zeilen (index)

In [None]:
# ... aus einem dictionary
import numpy as np

data = {'Name': ['Alice', 'Bob', 'Charlie',"Marie","Frank","Horst"],
        'Age': [30, 30, 35, 54, 89, 51],
        'Salary': [50000, 60000, 45000, np.nan, 47000, 30000]}
df = pd.DataFrame(data)
df

In [None]:
df.head() # nur die ersten 5 Zeilen anzeigen lassen

In [None]:
# Generelle Infos über Datendatz

print(df.info())
#print(df.dtypes)
#print(df.describe())

In [None]:
# indexing & slicing
df[2:4]           # rows-index
df.iloc[2:4,1:]   # .iloc = index location - [rows,columns]
df["Age"]         # column name
df.loc[3:,"Age"]  # .loc = aufruf über Name - [row name, column name]

In [None]:
# Subsets
df[df.Age >= 50]
df[(df.Age >= 50) & (df.Salary <= 50000)]
f = df.loc[df["Age"] >= 50, ["Name"]]         # Ergebnis als pandas DF
df.Name[df["Age"] >= 50]                      # Ergebnis als pandas Series

In [None]:
# einfache Berechnungen
df.Age.mean()      # Mittelwert
#df.Salary.max()    # Maximum
#df.Name.count()    # Anzahl
#df.Salary.count()  # Anzahl
#df.Salary.std()    # Standardabweichung

#...

In [None]:
# Neue Spalte hinzufügen
df["Holidays"] = [30,25,54,21,35,23]
df

# Neuen Eintrag/Person einfügen
df = df.append({"Name":"Caren","Age":62,"Salary":75000,"Holidays":60}, ignore_index=True)
df

In [None]:
# Nach NaNs suchen und Werte ändern
# NaN = Not a Number
df.isnull()
df.Salary.isnull()
df[df.Salary.isnull()]

df.loc[3,"Salary"] = 70000
df

In [None]:
# Index ändern
df2 = df.copy()
df2 = df2.set_index("Name")
df2
#df2.loc["Bob","Salary"]
#df2.iloc[1,1]

In [None]:
# Transpose
df2_t = df2.T
df2_t

In [None]:
# Zeitreihen-Datensatz erstellen
import pandas as pd
import numpy as np
from datetime import datetime    # Kleine Erklärunge zu "datetime" am Ende des Skripts

start_date = datetime(2023, 1, 1) # Jahr, Monat, Tag
end_date = datetime(2023, 12, 31)
date_range = pd.date_range(start=start_date, end=end_date, freq='D' ) # D = Täglich, M = Monatlich, Y = Jährlich, h = stündlich,...
time_series_data = np.random.rand(len(date_range))                    # np.random.rand() generiert Zufallszahlen in einer bestimmten Form
print(date_range[:10], time_series_data[:10])

In [None]:
time_series_df = pd.DataFrame({'Date': date_range, 'Value': time_series_data})
time_series_df

In [None]:
# Kategorische Daten
categories = ['Category A', 'Category B', 'Category C', 'Category D']
num_samples = 100

categorical_df = pd.DataFrame({'Category': np.random.choice(categories, num_samples),
                                  'Value': np.random.rand(num_samples).round(1),
                                'Value2': np.random.rand(num_samples).round(1)})
categorical_df

#grouped_data = categorical_df.groupby('Category').agg({'Value': ["count",'mean',"min","max"],'Value2': ['mean',"min","max"]})
#grouped_data

In [None]:
# Shapefiles (Geo-Daten)
import geopandas as gpd
from shapely.geometry import Point

# Erstelle Punkte für Städte
cities = {'City': ['Berlin', 'Paris', 'New York', 'Tokyo'],
          'Latitude': [52.5200, 48.8566, 40.7128, 35.6895],
          'Longitude': [13.4050, 2.3522, -74.0060, 139.6917]}

cities_df = pd.DataFrame( cities)
geometry = [Point(xy) for xy in zip(cities_df['Longitude'], cities_df['Latitude'])]
# Eine weitere Art strings zu formulieren
# zip verschmelzt mehrere Dinge
# Point würde in ArcGIS ein Punkt-Shape erstellen
geo_data = gpd.GeoDataFrame(cities_df, geometry=geometry, crs='EPSG:4326') # Projektions auswählen
geo_data

#### Zusammenfassung
* Mit dem Paket Pandas können wir Excel-ähnliche Listen erstellen
* Diese nennt man in der Programmierumgebung "Dataframes"
* Dataframes können unterschiedliche Datentypen enthalten
* über .loc und .iloc kann ich auf die einzelnen Inhalte filtern
* Filtern geht so: [Zeilen, Spalten]
* Es gibt eine vielzahl von Funktionen, die dafür da sind die DFs auf unterschiedliche Aspekte zu überprüfen ->https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html

### Übung 3.1.

1. Erstelle ein DF aus den vorgegebenen Daten
2. Wähle nur die Spalte 'Name' aus dem Datenrahmen aus.
3. Filtere die Zeilen, in denen das Alter größer als 25 ist.
4. Füge eine neue Spalte 'Department' hinzu, die die Werte 'HR', 'IT', 'Marketing', 'Finance','HR', 'IT', 'Marketing', 'Finance','IT' für die entsprechenden Personen enthält.
5. Aktualisiere das Gehalt von Alice auf 65000.
6. Gruppiere Nach "Department", gebe die Anzahl (und die einzelen Namen) der Mitarbeiter sowie das durchschnittliche Gehalt aus

In [None]:
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', "Franz" , "Lisbeth", "Caro", "Darius", "Idris"],
        'Age': [25, 30, 22, 35, 65, 80, 45, 26, 48 ],
        'Salary': [50000, 60000, 45000, 70000,94000,66500,66200,23000,42000]}


## 3.2. Datenanalyse Verlauf

* Datensätze können als unterschiedliches Dateiformat vorliegen:
  * .xlsx/.xls (Excel-Dateiformat): Binäres Dateiformat für Microsoft Excel.
    * Vorteile: Unterstützt mehrere Tabellenblätter.
        Speichert Formatierungen, Formeln und Diagramme.
        Wird von vielen Tabellenkalkulationsprogrammen unterstützt.
    * Nachteile:
        Nicht einfach als Textdatei lesbar.
        Größere Dateigröße im Vergleich zu .csv.

  * .csv (Comma-Separated Values):Textbasiertes Dateiformat, bei dem Daten durch Kommata getrennt sind.
    * Vorteile:
        Einfaches Textformat, leicht lesbar und editierbar.
        Kompakt in der Größe.
        Weit verbreitet und von vielen Anwendungen unterstützt.
    * Nachteile:
        Begrenzte Unterstützung für komplexe Datentypen.
        Keine Möglichkeit zur Speicherung von Formatierungen oder Mehrfachblättern.

  * .txt (Textdatei): Einfache Textdatei, die nur Textdaten enthält.
    * Vorteile:
        Plattformunabhängig und einfach lesbar.
        Unterstützt von nahezu allen Texteditoren und Programmiersprachen.
    * Nachteile:
        Keine Strukturierung von Daten, es sei denn, sie wird manuell definiert.
        Nicht für komplexe Datensätze geeignet.

  * ... und viele mehr

- Plattformunabhängigkeit: .csv und .txt sind plattformunabhängig und können von verschiedenen Systemen gelesen werden.
- Lesbarkeit: .xlsx-Dateien können aufgrund ihres binären Formats schwer lesbar sein, während .csv und .txt menschenlesbar sind.
- Datenstruktur: .xlsx ermöglicht die Strukturierung von Daten in verschiedenen Blättern, während .csv und .txt einfache lineare Datensätze sind.
- Anwendungsbereich: .xlsx eignet sich gut für komplexe Tabellenkalkulationen, während .csv und .txt für den Austausch einfacher Datensätze verwendet werden können.

---



### Daten import
Datensätze zu importieren kann anfangs etwas Zeit kosten, manchmal sogar die längste Zeit einer Analyse. Schaut euch vorher immer die Datei genauer an, die ihr imporieren wollt.

Pandas können wir auch benutzen, um Datensätze zu importieren, bzw. exportieren.

Lade die Beispieldatensätze für Tag 3 herunter und packe diese in einen eigenen Ordner (z.B. "Beispieldatensätze")

Schauen wir uns die Daten erst Mal an

In [None]:
# Wenn du mir Google Colab arbeitest:
# Drive muss verbunden werden
#Reference: https://colab.research.google.com/notebooks/io.ipynb#scrollTo=u22w3BFiOveAå
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Excel-Datein

# Colab: Navigiere über die Leiste Link bist zur Datei und kopiere den Pfad
# Local: Kopiere den Datei-Pfad und ersetze die Zeile "path"
import pandas as pd

path = '/content/drive/MyDrive/Colab Notebooks/Python_Kurs/Beispieldatensätze/'
df = pd.read_excel(path+"Beispiel_Excel.xlsx")
df

# HINWEIS: Falls du local arbeitest könnte es sein, dass hinter "path" noch ", engine="openpyxl"" folgen muss

In [None]:
# Excel-Datein 2

# Erstes Datenblatt wird automatisch importiert
# Aber jetzt möchten wir das zweite Datenblatt importieren
# sheet_name=""
path = '/content/drive/MyDrive/Colab Notebooks/Python_Kurs/Beispieldatensätze/'
df2 = pd.read_excel(path+"Beispiel_Excel.xlsx", sheet_name="Sheet2")
df2

In [None]:
# Comma Seperated files
df3 = pd.read_csv(path+"Beispiel_CSV1.csv")
df3

In [None]:
# Comma Seperated files 2
df4 = pd.read_csv(path+"Beispiel_CSV2.csv")
df4
# was ist falsch? Auch erkennabr, bei Sichtungüber Editor
# Semikolon statt Komma


In [None]:
# Comma Seperated files 2
df4 = pd.read_csv(path+"Beispiel_CSV2.csv", sep=";")
df4
# was ist falsch? Auch erkennabr, bei Sichtungüber Editor
# Semikolon statt Komma

In [None]:
# Text files

df5 = pd.read_csv(path+"Beispiel_TXT.txt", sep=";")
df5
# was ist falsch? Auch erkennabr, bei Sichtungüber Editor
# Tabs zwischen den Values und Kopfzeilen erst in der dritten Zeile

In [None]:
# Text files

df5 = pd.read_csv(path+"Beispiel_TXT.txt", sep="\t", header= 2)
df5

# Tabs zwischen den Values und Kopfzeilen erst in der dritten Zeile

# Beispiel Movies
Movies Datensatz von:

F. Maxwell Harper and Joseph A. Konstan. 2015. The MovieLens Datasets: History and Context. ACM Transactions on Interactive Intelligent Systems (TiiS) 5, 4: 19:1–19:19. https://doi.org/10.1145/2827872

1. Dateien findet ihr auf: https://grouplens.org/datasets/movielens/

2. Download der ml-latest-small.zip (unter: recommended for education and development)

3. Entpacken und in den Ordner "Beispieldatensätze" hinzufügen

4. README Datein anschauen

In [None]:
# Wenn du mir Google Colab arbeitest
# Drive muss verbunden werden
#Reference: https://colab.research.google.com/notebooks/io.ipynb#scrollTo=u22w3BFiOveAå
from google.colab import drive
drive.mount('/content/drive')

In [None]:
## .csv importieren
import pandas as pd
path = '/content/drive/MyDrive/Colab Notebooks/Python_Kurs/Beispieldatensätze/'
df_movie = pd.read_csv(path+"movies.csv")
df_movie

In [None]:
df_rating = pd.read_csv(path+"ratings.csv")
df_rating

In [None]:
df_rating = pd.read_csv(path+"ratings.csv")
df_rating

In [None]:
df_tag = pd.read_csv(path+"tags.csv")
df_tag

 ### Daten sichten & bearbeiten
 Jetzt haben wir 3 DataFrames importiert

 Jetzt wollen wir aus df_movie und df_rating ein DF machen um die Filmnamen direkt neben den Bewertungen zu haben

 Schauen wir uns dafür erst mal df_movie genauer an

In [None]:
# indexing & slicing
df_movie.head()
#df_movie.info()
#df_movie.dtypes
#df_movie[:10] # bezieht sich nur auf Zeilen/rows/index
#df_movie.iloc[5:10,:2] # iloc = index location, bezieht isch auf [Zeilen, Columns]
#df_movie.loc[:10,"title"] # .loc = location, bezieht sich auf [Zeilen, column_name]
#df_movie.loc[[1,3,5],["movieId","title"]]


In [None]:
df_rating.head()
#df_rating.dtypes
#df_rating["movieId"].unique()
#df_rating[df_rating["movieId"] == 306]
#df_movie[df_movie["movieId"] == 306]
#df_rating[df_rating["userId"] == 25]
#df_rating["rating"][df_rating["userId"] == 25]
#df_rating["rating"][df_rating["userId"] == 25].mean()

In [None]:
# Datensätze zusammenfügen
# merge
# https://realpython.com/pandas-merge-join-and-concat/
# auch im Cheat-sheet beschrieben

DF = pd.merge(df_movie, df_rating, how="left", on="movieId")  # "how" = wir wollen die rechte Df auf die linke übertragen
DF                                                            # basierend auf "movieId"

In [None]:
# Daten nach Usern sortieren
DF.sort_values(by="userId")

# Daten nach Filmen ohne ratings durchsuchen
#DF[DF.rating.isnull()]  # Nach Leeren Zeilen suchen (Gegenteil wäre .notnull())
#DF = DF.dropna().copy() # Unbewertete Filme aus der Liste löschen

#DF[DF.duplicated()]     # Nach Duplikaten suchen
DF

In [None]:
grouped_DF = DF.groupby("title").agg({"rating":"mean","userId":"count"})
grouped_DF

#grouped_DF = grouped_DF.sort_values("rating", ascending=False)
#grouped_DF
# beste Filme mit vielen Bewertungen?
#grouped_DF[(grouped_DF.rating>=4) & (grouped_DF.userId >= 150)]

In [None]:
# Nach Pulp Fiction suchen
pulp_df = DF[DF["title"].str.contains("Pulp Fiction")]
pulp_df

# Welche Bewertung hat Pulp Fiction im durchschnitt bekommen?
#print("Pulp Fiction Bewertung ist:",pulp_df.rating.mean().round(2))

# Nur 4.2?? Wer hat den Film bitte schlechter als 3 Sterne gegeben?
#pulp_df[pulp_df.rating <= 3]

# Idioten! Die haben keine Ahnung. Die Idioten-User wollen wir auf den DF rausschneiden
#idiot_list = pulp_df.userId[pulp_df.rating <= 3].to_list()            # Alle User identifiezien
#print("Die ersten 5 Idioten sind:", idiot_list[:5])

#idiot_idx = DF.index[DF.userId.isin(idiot_list)]                     # Alle indices (Reihennummern) mit diesen Usern raussuchen
#print("die ersten 5 Indices der idioten sind:",idiot_idx[:5])

#no_idiots_DF = DF.drop(index = idiot_idx).copy()                      # indices der idioten löschen

#Idioten wirklich raus?
#print("Länge DF vorher:",len(DF)," -- Länge DF nachher:",len(no_idiots_DF))
#no_idiots_DF[:10]
#no_idiots_DF[no_idiots_DF.userId == idiot_list[0]]

# Welche Bewertung hat Pulp Fiction jetzt?
#new_rating = no_idiots_DF.rating[no_idiots_DF["title"].str.contains("Pulp Fiction")].mean()
#print("Die neue Pulp Fiction Bewertung ist:", round(new_rating,2))

#### Übung 3.2.

Hinweise zu dieser Übung gibt es am Ende des Skripts.
Versucht es aber erst Mal ohne, nutzt z.B. die Funktions-Hilfe oder Google

1. Erstelle ein DF2, in dem df_tag dem DF Datensatz hinzugefügt wird, gruppiere nach "movieId".

2. In der "tag" Spalte gibt es jetzt viele NaNs, da nicht jeder User jeden Film getagged hat. Lösche diese Zeilen.

3. Finde alle Filme die mit "Alien" getagged sind. Beachte auch, dass unterschiedliche Schreibweisen vorkommen (Groß/Klein, Einzahl/Mehrzahl, Wortteil)

4. Filtere nur die am besten bewerteten (>=4.5) Alien-Filme. Erstelle eine Liste mit den Film Namen, nenne die Liste "best_alien_list"

5. Nutze die neue Liste um alle Bewertungen für diese besten Alien-Filme anzeigen zu lassen. Mache daraus ein DF (Name: best_alien_df).

6. Kannst du die Mittelwerte für jede Filmbewertung berechnen? Und wie viele Bewertungen es pro Film gibt? Welcher ist der Beste Alien Film mit über 150 Bewertungen? (Name: best_alien_grouped_df)

### Dataframes & Loops

In [None]:
# Dataframe aus Loop erstellen
Alien = []
for i,x in enumerate(best_alien_list):
  print(i,x)
  #Mean = DF2.rating[(DF2.title == x)].mean()
  #Anzahl =  len(DF2[(DF2.title == x)])
  #Anzahl5 = len(DF2[(DF2.title == x) & (DF2.rating == 5)])
  #print(Mean, Anzahl, Anzahl5)
  #Alien.append({"Movie": x,"Mittlere Bewertung": Mean,"Anzahl Bewertungen": Anzahl, "Anzahl 5*": Anzahl5})

#df_best_alien = pd.DataFrame(Alien)
#df_best_alien["% 5 Sterne"] = round((df_best_alien["Anzahl 5*"]/df_best_alien["Anzahl Bewertungen"])*100,2)
#df_best_alien

In [None]:
# Loop durch DataFrames
import numpy as np
df_best_alien["% 5"] = np.nan
df_best_alien
#for i in df_best_alien.index:
#  df_best_alien.loc[i,"% 5"] = round((df_best_alien.loc[i,"Anzahl 5*"]/df_best_alien.loc[i,"Anzahl Bewertungen"])*100,2)
#df_best_alien

In [None]:
for i in df_best_alien[:10].index:
  for j in df_best_alien[:10].columns:
    print(i,j, df_best_alien.loc[i,j])


### Daten export

In [None]:
path

In [None]:
# DF2 exporieren

df_best_alien.to_excel(path+"df_best_alien.xlsx")

# oder

df_best_alien.to_csv(path+"df_best_alien.csv",index=False)

## 3.3. Freie Übung
Benutze folgende Seite als Hilfe: https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html


In [None]:
# Import
pd.set_option('display.max_columns', None) # Um sich alle columns anzeigen zu lassen
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv', usecols=[*range(0,26)])
df

2. Stelle selbst Fragen an den Datensatz und versuche sie zu beantworten. Evtl. musst du nach einigen Funktionen googlen

Diese Fragen könnten z.B. sein:
  * Welche Marken sind in dieser Liste?
  * Welche Marke hat den höchsten Preis?
  * Was ist die row bzw. column number der Zelle mit dem höchsten Preis ?(Hinweis: np.where()-funktion, .was können .iat[] oder .at[] Funktionen?, .get_value())
  * Gibt es fehlende Einträge?
  * Wie kann ich eine Spalte hinzufügen die Marke und Modellname vereint?
  * ...

  Für nicht-Auto-Experten wie mich:
  
    Model: Der Modellname des Autos.
    Type: Der Typ des Autos (z.B., Limousine, Kombi, etc.).
    Min.Price: Der minimale Preis des Autos.
    Price: Der Preis des Autos.
    Max.Price: Der maximale Preis des Autos.
    MPG.city: Der Kraftstoffverbrauch in Meilen pro Gallone in der Stadt.
    MPG.highway: Der Kraftstoffverbrauch in Meilen pro Gallone auf der Autobahn.
    AirBags: Informationen über die Airbag-Ausstattung des Autos.
    DriveTrain: Der Antrieb des Autos (z.B., Vorderradantrieb, Hinterradantrieb).
    Cylinders: Die Anzahl der Zylinder im Motor.
    EngineSize: Die Größe des Motors.
    Horsepower: Die Pferdestärken des Motors.
    RPM: Die Umdrehungen pro Minute des Motors.
    Rev.per.mile: Die Motorumdrehungen pro Meile.
    Man.trans.avail: Die Verfügbarkeit eines manuellen Getriebes.
    Fuel.tank.capacity: Die Tankkapazität des Autos.
    Passengers: Die Anzahl der Passagiere, die das Auto aufnehmen kann.
    Length: Die Länge des Autos.
    Wheelbase: Der Radstand des Autos.
    Width: Die Breite des Autos.
    Turn.circle: Der Wendekreis des Autos.
    Rear.seat.room: Der Platz im hinteren Sitzbereich.
    Luggage.room: Der Stauraum im Kofferraum.
    Weight: Das Gewicht des Autos.
    Origin: Die Herkunft des Autos.

Stöbere selbst auf der Seite etwas rum und versuche ein paar Dinge umzusetzen:
https://www.machinelearningplus.com/python/101-pandas-exercises-python/

## Zusatz: 3.4. Exkurs datetime

In [None]:
# Zeitreihen erstellen
# Datetime
from datetime import datetime
now = datetime.now()
print("Aktuelles Datum und Uhrzeit:", now)

In [None]:
year = now.year
month = now.month
day = now.day
hour = now.hour
minute = now.minute
second = now.second

print("Jahr:", year)
print("Monat:", month)
print("Tag:", day)
print("Stunde:", hour)
print("Minute:", minute)
print("Sekunde:", second)

In [None]:
# mit Strings formatieren
formatted_date = now.strftime("%Y-%m-%d %H:%M:%S")
print("Formatiertes Datum:", formatted_date)

# oder z.B.:
formatted_date = now.strftime("%Y-%d-%m: %H Uhr")
print("Formatiertes Datum:", formatted_date)

Hinweise für Übung 3.2.: (probiert es erst Mal ohne, viele Wege führen nach Rom)

1. merge()
2. notnull(), dropna()
3. isin & "Alien","alien","Aliens","aliens" oder: .str.contains(..., regex=?, case=?)
4. [(...) & (...)], unique() & tolist()
5. .isin()
6. .groupby & .agg
