# Nützliche Datentypen in Python

## Collections (Arrays)

In Python werden vier Arten von Kollektionen unterschieden. Die Art der Kollektion lässt sich am besten anhand der verwendeten Klammern erkennen.

| Art der Kollektion | Klammern | Veränderbar | Sortiert | Zugriff | Beispiel |
| :--- | :--- | :--- | :--- | :--- | :-- |
| `tuple` (Tupel) | `( )` | nein | ja | Position | `('Hans', 'Peter', 'Ursula')` |
| `list` (Liste) | `[ ]` | ja | ja | Position | `[2.5, 3.0, 4.2, 6.0, 7.42]` |
| `dict` (Wörterbuch) | `{ }` | ja | nein | Schlüssel | `{'Name': 'Müller', 'Vorname': 'Klaus', 'Tel': '01234 5678'}` |
| `set` (Menge) | `{ }` | teilweise | nein | Schleife | `{'alpha', 'beta', 'gamma'}` |

Jede Art hat ihre eigenen Vor- und Nachteile. Die Wahl einer Kollektion hängt daher vom Anwendungskontext ab.

Für die später folgende Datenauswertung benötigen wir lediglich die Typen `list` und `dict`. Wir werden uns daher im Folgdendem auf diese beiden Typen beschränken.

## Die Liste `list`

**Listen** haben anders als **Tupel** keine feste Länge und können dynamisch modifiziert werden.

Die Elemente einer Liste liegen **sortiert** vor. Anhand ihrer Position (*index*) können wir auf sie zugreifen. 

### Erstellen einer Liste

In [None]:
# Erstellen der Liste
l = ['Japan', 'Frankreich', 'Niederlande', 'Norwegen', 'Spanien', 'Mexico']

# Ausgabe
print(l)

# Die Länge einer Liste
print(len(l))

### Zugriff auf einzelne Elemente der Liste (*slicing*)

In [None]:
# Das Element an der Stelle 0
print(l[0])

# Die Elemente an den Stellen 2 (inklusive) bis 5 (exklusive)
# Beachte: das Ergebnis ist wieder eine Liste
print(l[2:5])

# Alle Elemente ab der Stelle 3 (inklusive)
print(l[3:])

# Von rechts nach links das zweite Element (vorletzes Element)
print(l[-2])

# Alle Elemente bis zum letzen Element (exclusive)
print(l[:-1])

# Jedes zweite Element (Schrittweite 2)
print(l[::2])

# Die Liste rückwärts (Schrittweite -1)
print(l[::-1])

### Elemente ändern

In [None]:
# Setze den Wert an der Stelle 1 auf 'Kolumbien'
l[1] = 'Kolumbien'
print(l)

Die Elemente einer Liste sind nicht an einen **festen Typen** gebunden.

In [None]:
l[1] = 4
print(l)

### Elemente hinzufügen

In [None]:
# Ein Element zur Liste hinzufügen
l.append('Russland')
print(l)

# Eine Liste an die bestehende Liste anhängen
l = l + ['Deutschland', 'Italien']
print(l)

# Alternativ das Schlüsselwort extend
l.extend(['Griechenland', 'Uganda'])
print(l)

### Durch eine Liste iterieren

In [None]:
# Für jedes Element x in der Liste l...
for x in l:
  print(x) 

### Prüfen, ob Element in der Liste enthalten ist

In [None]:
print('Iran' in l)

# Verwendung in einer if Bedingung
if 'Mexico' in l:
    print("Mexiko ist in der Liste enthalten") 

### List Comprehension

Die Verwendung einer **List Comprehension** ist eine Möglichkeit aus einer bestehenden Liste eine neue zu konstruieren. Dabei ersetzt man quasi jedes Element aus der alten Liste durch einen Ausdruck, der üblicherweise vom alten Element abhängt.

In [None]:
# Erzeuge aus der Liste numbers die Liste sqrs, indem jedes Element quadiert wird
numbers = [3, 4, 1, 2, 5, 3, 8]
sqrs = [x**2 for x in numbers]
print(sqrs)

### Zip, Map und Filter


In [None]:
# --- Zip ---
# Überführt die Listen kurs und note paarweise in eine gemeinsame Liste
kurs = ['Mathematik', 'Deutsch', 'Sport', 'Chemie']
note = [2, 1, 3, 2]
gezippte_liste = list(zip(kurs, note))
print(gezippte_liste)

In [None]:
# --- Map ---
# Wendet die Funktion lohnerhoehung auf die Elemente der Liste loehne an
loehne = [2350, 3010, 2400, 2600]

def lohnerhoehung(lohn):
    return lohn + 100

neue_loehne = list(map(lohnerhoehung, loehne))
print(neue_loehne)

In [None]:
# --- Filter ---
# Filtert alle loehne die groesser als 2500 sind
gut_verdiener = list(filter(lambda lohn: lohn > 2500, loehne))
print(gut_verdiener)

<div style="background-color: lightblue; padding: 5px 20px 20px">
    
### Aufgabe (Geschwindigkeitskontrolle)

Die Polizei misst an einer gefährlichen Straße die Geschwindigkeit der vorbeifahrenden Autos.

| Messung (km/h) |
| :--- |
| 97 |
| 103 |
| 75 |
| 112 |
| 102 |
| 104 |
| 97 |

Überführen sie die Tabelle in eine Liste mit Namen `vel`.

</div>

In [None]:
# Hier ist Platz für deinen Code

<div style="background-color: lightblue; padding: 5px 20px 20px">
Da die Messungen nicht immer ganz genau sind, wird ein Toleranzabzug gewährt. Dabei werden von der gemessen Geschwindigkeit 3% abgezogen. Berechnenen sie die Geschwindigkeiten nach abzug der Toleranz.

Tipp: Verwende entweder eine List Comprehension oder die `map`-Funktion
<div>

In [None]:
# Hier ist  Platz für deinen Code

<div style="background-color: lightblue; padding: 5px 20px 20px">
Geben Sie nun alle Geschwindigkeiten aus (nach Abzug der Toleranz), die über der Höchstgeschwindigkeit von 100 km/h liegen.
</div>

In [None]:
# Hier ist Platz für deinen Code

In [None]:
# Musterloesung
zu_hoch = list(filter(lambda x: x > 100, vel_neu))
print(zu_hoch)

## Das Dictionary `dict`

Ein `Dictionary` (dt. Wörterbuch) ist eine **unsortierte**, **veränderbare** Kollektion, in der sich jedes Element aus einem **Schlüssel (Key)** und einem dazugehörigen **Wert (Value)** zusammensetzt. Wir bezeichnen daher die Elemente des <code>Dictionaries</code> auch als **Schlüssel-Wert-Paare**.

Der Zugriff auf die Werte geschieht über die Schlüssel. Ein Schlüssel ist in der Regel eine Zeichenketten, die das Schlüssel-Wert-Paar **eindeutig** identifiziert. Jeder Schlüssel darf daher nur einmalig im <code>Dictionary</code> auftreten.

### Erstellen eines Dictionaries

Die Syntax eines **Dictionaries** ähnelt der einer Liste. Für ein Dictionary werden geschwungene Klammern `{ }` verwendet. Die Schlüssel-Wert-Paare werden mit Kommata getrennt. Der Schlüssel (links) und der Wert (rechts) werden jeweils durch einen `:` getrennt.

`{<Key1>: <Value1>, <Key2>: <Value2>}`

In [None]:
car = {
    'brand': 'Ford',
    'model': 'Mustang',
    'year': 1964
}

print(car)

### Zugriff auf die Werte des Dictionaries

Der Zugriff auf einen Wert des Dictionaries geschieht über die Angabe des entsprechenden Schlüssels in eckigen Klammern.

`<Dictionary>[<Key>]`.

In [None]:
x = car['model']
print(x)

### Werte zuweisen

Auf die selbe Weise können Werte neu zugewiesen werden. Wenn der angegebene Schlüssel noch nicht existiert, wird er als neuer Eintrag zum Dictionary hinzugefügt.

In [None]:
# Wert mit dem Schlüssel year wird auf 2018 gesetzt
car['year'] = 2018
print(car)

# Schlüssel-Wert-Paar 'color': 'red' wird hinzugefügt
car['color'] = 'red'
print(car)

### Ein Schlüssel/Wert Paar löschen

In [None]:
# Loesche den Eintrag mit dem Schluessel model
del car['model']
print(car) 

### Prüfen, ob  Schlüssel im Dictionary enthalten

Mit der bereits bekannten `in`-Funktion kann man im Dictionary abfragen, ob ein bestimmter Schlüssel in der Datenstruktur enthalten ist: 

In [None]:
if 'brand' in car:
    print("Ja, der Schlüssel 'brand' ist enthalten") 

### Durch ein Dictionary iterieren

Beim Dictionary ergeben sich jetzt mehrere Möglichkeiten durch die Datenstruktur zu iterieren. 

- man kann durch alle **Schlüssel** iterieren und in dieser Iteration natürlich auf alle **Schlüssel** und/oder **Werte** zugreifen
- man kann durch die `Dictionary.values()` iterieren und durchstreift dabei nur die **Werte** der Datenstruktur
- man kann durch die `Dictionary.items()` iterieren und durchstreift dabei alle **Schlüssel/Werte** Paare

In [None]:
# Iteriere über alle Schluessel
for x in car:
    print(x) 

In [None]:
# Gebe jeweils den zum Schlüssel gehörigen Wert aus
for x in car:
    print(car[x]) 

In [None]:
# Iteriere über die Werte
for x in car.values():
    print(x) 

In [None]:
# Iteriere über alle Schluessel-Wert-Paare
for x, y in car.items():
    print(x, y) 

<div style="background-color: lightblue; padding: 5px 20px 20px">

### Aufgabe (Personaldaten)

Verwende ein Dictionary, um Informationen über eine Person zu speichern. Speichere ihren Vornamen, Nachnamen, Alter und die Stadt, in der sie lebt. Du solltest Schlüssel wie `name`, `surname`, `dob`, `residence` haben.

Die Person heißt **James Newton**, lebt in **Los Angeles** und ist **1974** geboren.

</div>

In [None]:
# Hier ist Platz für deinen Code

<div style="background-color: lightblue; padding: 5px 20px 20px">
Gebe jetzt die Daten der Person in der Form

    Schlüssel: Wert
    
aus.
</div>

In [None]:
# Hier ist Platz fuer deinen Code

<div style="background-color: lightblue; padding: 5px 20px 20px">
Füge Deiner Personenbeschreibung zwei weitere Merkmale hinzu: `university` und `pet`

Die besagte Person besucht die **Universität Paderborn** und hat einen **Hund** als Haustier.
</div>

In [None]:
# Hier ist Platz fuer deinen Code

<div style="background-color: lightblue; padding: 5px 20px 20px">
Ergänze die folgende Funktion so, dass sie die Werte des übergebenen Dictionaries ausließt und folgende Ausgabe macht:

Die Person heißt **James Newton**, lebt in **Los Angeles** und ist **1974** geboren.  
Die besagte Person besucht die **Universität Paderborn** und hat einen **Hund** als Haustier.
</div>

In [None]:
def print_person(person):
    # Hier ist Platz fuer deinen Code
    pass

print_person(person)

## `pandas`-Datentypen (`Series`, `DataFrame`)

`pandas` ist eine Bibliothek in Python, die uns eine Vielzahl nützlicher Datenstrukturen und Funktionen zur Datenauswertung zur Verfügung stellt.

Unter Anderem bietet `pandas` Werkzeuge zur Speicherung, Manipulation, Analyse und Visualisierung **großer Datenmengen** (BigData). 

Die wichtigste Datenstruktur in `pandas` ist der so genannte `DataFrame`. Dieser ist vergleichbar mit einer Tabelle, wie du sie bereits aus Excel kennst.

Ein `DataFrame` wiederum setzt sich auch Spalten zusammen, die `Series` genannt werden.

Zunächst müssen wir die `pandas`-Bibliothek importieren. Wir verwenden den Alias `pd`.

In [None]:
import pandas as pd

**Tipp:** In Jupyter Notebook gibt es die Möglichkeit, den Inhalt eines Pakets (mit Hilfe der Tab-Vervollständigung), sowie die Dokumentation verschiedener Funktionen (durch Anfügen eines Fragezeichens ?) anzeigen zu lassen.

So erhälst du durch die Eingabe von
```python
pd.
```
und anschließendes Drücken der **Tab-Taste** eine Auflistung aller Attribute und Funktionen, die in `pandas`-Namensbereich bereitgestellt werden.

In [None]:
# Probiere hier die Autovervollstaendigung aus
#pd.

Durch Anfügen eines Fragezeichens `?` erhälst du eine vollständige Dokumentation des jeweiligen Objekts.

In [None]:
# Beispiel: Dokumentation der Klasse DataFrame
pd.DataFrame?

### Die `Series`

Grundlage für die Arbeit mit `DataFrames` ist die pandas `Series`, die ein indiziertes eindimensionales Array darstellt. In der Ausgabe des Python Notebooks steht dieses Array senkrecht und sieht aus, wie eine einspaltige Tabelle, die zusätzlich mit einem Index versehen ist.

#### Anlegen einer Series aus einem Array

Eine Möglichkeit eine `Series` zu erzeugen ist die Übergabe einer Liste an den Konstruktor. Der Index wird dabei automatisch anhand der Postition des Elements in der Liste erzeugt.

In [None]:
data_series = pd.Series([0.25, 0.5, 0.75, 1.0])
data_series

Alternativ können wir selbst einen Index vergeben.

In [None]:
data_series.index = [4, 7, 1, 3]
data_series

#### Anlegen einer Series aus einem Dictionary

Man kann sich eine Pandas-Serie aber auch wie eine Spezialisierung eines `Dictionary` vorstellen:

Genau wie bei einem `Dictionary` bildet eine `Series` eine Menge von Schlüsseln (Index) auf eine Menge von Werten ab. Anders als bei einem `Dictionary` haben bei einer `Series` sowohl die Indizes (Schlüssel), als auch die Werte einen festen Typ.

Diese Typisierung ist wichtig, da die `Series` dadurch bei bestimmte Operationen wesentlich effizienter arbeiten kann als ein `Dictionary`.

Wir können diese Analogie noch deutlicher machen, indem wir eine `Series` direkt aus einem `Dictionary` konstruieren:

In [None]:
population_dict = {
    'California': 38332521,
    'Texas': 26448193,
    'New York': 19651127,
    'Florida': 19552860,
    'Illinois': 12882135
}

population_series = pd.Series(population_dict)
population_series

#### Zugriff auf Werte der Series

Wie wir festgestellt haben, umschließt die `Series` sowohl eine Folge von Werten als auch eine Folge von Indizes, auf die wir mit den Attributen `values` beziehungsweise `index` zugreifen können. Die Werte liegen intern in Form eines `numpy`-Arrays vor.

In [None]:
data_series.values

Der Index ist ein Array-ähnliches Objekt:

In [None]:
data_series.index

Genau wie bei einem Dictionary können wir durch Angabe des Index in eckigen Klammern auf den entsprechenden Wert zugreifen.

Besser ist jedoch, die Verwendung der Funktion `loc[]`. Damit gehen wir sicher, dass der Zugriff über den Index und nicht über die Position geschieht. Das spielt immer dann eine Rolle, wenn wir einen numerischen Index verwenden.

In [None]:
data_series[1]

In [None]:
# Besser
data_series.loc[1]

In [None]:
population_series['California']

Genau wie bei einer Liste können wir durch *Slicing* einen ganzen Ausschnitt auswählen.

**Vorsicht:** An dieser Stelle macht sich die Verwendung von `loc` bemerkbar.

**Beachte:** Als Ausgabe erhalten wir wieder eine `Series`.

In [None]:
# Hier wird anhand der Position selektiert
data_series[1:3]

In [None]:
# Hier unterscheidet sich die Ausgabe
data_series.loc[1:3]

In [None]:
population_series['Texas':'Florida']

In [None]:
# Hier macht es keinen Unterschied
population_series.loc['Texas':'Florida']

#### Apply

Die `apply`-Funktion funktioniert im Wesentlichen genau wie die bereits bekannte `map`-Funktion bei Listen. Sie ermöglich uns die Gesamtheit der Daten zu manipulieren.

**Beachte:** `apply` liefert eine `Series` als Rückgabewert. Die Änderungen werden nicht automatisch in der ursprünglichen `Series` übernommen.

In [None]:
# Erhoeht einen Wert um 1
def add_one(value):
    result = value + 1
    return result

# Wende die Funktion add_one auf data_series an
data_series.apply(add_one)

Um die Änderungen zu übernehmen müssen wir den Rückgabewert in einer (neuen) Variable speichern.

In [None]:
data_series = data_series.apply(add_one)
data_series

<div style="background-color: lightblue; padding: 5px 20px 20px">

#### Aufgabe (Alter)

Gegeben sind die Egebnisse einer Matheklausur einer zehnten Klasse.

| Name | Punkte |
| :--- | :--- |
| Marie | 95 |
| Sophie | 87 |
| Maximilian | 75 |
| Paul | 65 |
| Alexander | 90 |
| Luis | 77 |
| Ana | 91 |
| Peter | 83 |

Lege eine `Series` mit dem Namen `mathe_klausur` an, in der die obigen Daten abgebildet sind.
</div>

In [None]:
# Hier ist Platz fuer deinen Code

<div style="background-color: lightblue; padding: 5px 20px 20px">
Bei der Korrektur der Klausur von Luis ist ein Fehler unterlaufen. Erhöhe die Anzahl seiner Punkte um 5.
</div>

In [None]:
# Hier ist Platz fuer deinen Code

<div style="background-color: lightblue; padding: 5px 20px 20px">
Gegeben ist folgende Umrechnungstabelle.

| Punkte | Note |
| :--- | :--- |
| 50-63 | 4 |
| 64-76 | 3 |
| 77-89 | 2 |
| 90-100 | 1 |

Überführen sie die Liste der Punkte mit Hilfe der `apply`-Funktion in eine Liste von Noten.

**Tipp:** Schreibe eine Funktion `transform_points(points)`, die für gebene Anzahl an Punkten, die jeweilige Note zurückgibt.
</div>

In [None]:
# Hier ist Platz fuer deinen Code

### Der `DataFrame`

Ein `DataFrame` repräsentiert eine tabellarische Datenstruktur. Er stellt für uns die grundlegende Datenstruktur dar. Jede Spalte des `DataFrames` ist eine `Series`.

#### Anlegen eines DataFrame aus einem Dictionary

Eine Möglichkeit einen `DataFrame` anzulegen ist die Verwendung eines `Dictionaries`.

Jeder Wert des `Dictionaries` enthält **alle** Werte der jeweiligen Spalte in Form einer `Series`. Die Schlüssel wiederum sind die Namen (engl. *label*) der Spalten.

In [None]:
grades = {
    'year': [2000, 2001, 2002, 2003, 2004, 2005],
    'math': [1, 2, 2.3, 2.7, 2, 2],
    'english': [2, 2.3, 2, 1.7, 1.3, 1.7],
    'biology': [2, 2.3, 2.7, 2.7, 2.7, 2]
}

df = pd.DataFrame(grades)
df

#### Zeilenweises Anlegen eines DataFrames

Wir können einen `DataFrame` auch zeilenweise anlegen. Dabei übergeben wir eine Liste von Datensätzen (Zeilen).

Zusätzlich definieren wir noch die Namen der Spalten mit dem Parameter `columns`.

In [None]:
students = [
    [356, 'Peter', 'Schubert', 17, 'Schlossstraße 7', 12342678],
    [357, 'Jonas', 'Kuhnke', 18, 'Heideweg 2', 12345642],
    [358, 'Mareike', 'Müller', 16, 'Talstraße 8', 12343311],
    [360, 'Dieter', 'Brenner', 17, 'Marktweg 3', 12342316],
]

df = pd.DataFrame(data=students, columns=['sid', 'name', 'surname', 'age', 'adress', 'tel'])
df

Oft sind Datenstrukturen so aufgebaut, dass eine Spalte der Identifikation der Datensätze dient. In unserem Fall ist das die Spalte `sid` (Schüler-ID). Anhand dieser lassen sich alle Schüler eindeutig identifizieren.

Diese Eigenschaft nutzen wir aus, indem wir die Spalte `sid` als Index für unsere Daten wählen.

In [None]:
df = df.set_index('sid')
df

Nun können wir mit Hilfe der Funktion `loc` (*locate*) wie schon bei der `Series` über die Angabe des Index auf die Zeilen zugreifen.

In [None]:
df.loc[356:358]

#### Spalten aus dem DataFrame selektieren

Das Attribut `columns` liefert einen Überblick über die Namen der Spalten.

In [None]:
df.columns

Wir können eine oder mehrere Spalten durch Angabe des Spaltennamens beziehungsweise eine Liste der Spaltennamen selektieren.

In [None]:
df['name']

In [None]:
df[['name', 'surname']]

Wenn wie uns den Typ einer Spalte ansehen, stellen wir fest, dass es sich dabei tatsächlich um eine `Series` handelt.

In [None]:
type(df['name'])

#### Spalten zum DataFrame hinzufügen

Auf die selbe Weise können wir auch eine neue Spalte hinzufügen

Dazu wählen wir entweder eine Default-Wert oder wir weisen ihr eine `Series` zu.

In [None]:
# Setze Default Wert 12
df['level'] = 12
df

In [None]:
# Setze die Werte entsprechend der Liste
df['level'] = [12, 12, 11, 12]
df

#### Spalten aus dem DataFrame löschen

Manchmal möchten wir auch Daten aus einem `DataFrame` löschen.

Das Entfernen von Spalten kann mittels der Methode `drop()` erfolgen. Als Parameter übergeben wir einfach einen oder mehrer Spaltennamen.

In der Doku zum Befehl findet Ihr noch weitere Parameter wie z.B.:

| Parameter | Erklärung |
| :--- | :--- |
| **axis** | int or axis name - Whether to drop labels from the index (0 / ‘index’) or columns (1 / ‘columns’) |
| **inplace** | bool, default False - If True, do operation inplace and return None |


Der `axis` Parameters entscheidet also darüber ob wir Zeilen (`axis=0`) oder Spalten (`axis=1`) löschen.

Der `inplace` Parameter entscheidet, ob der `drop()` Befehl uns einen neuen `DataFrame` zurückliefert (`inplace=False`) oder ob das Löschen der Daten sich auf das gegebene DataFrame auswirkt (`inplace=True`).

In [None]:
# Dieser Befehl hat keine Auswirkung auf das urspruengliche DataFrame
df.drop('tel', axis=1)

In [None]:
# Dieser Befehl hat Auswirkung auf das urspruengliche DataFrame
df.drop(['tel'], axis=1, inplace=True)
df

#### Zeilen des DataFrame selektieren

Wir haben schon den Befehl `loc` kennengelernt, mit dem wir auf einzelne Zeilen des `DataFrames` zugreifen können.

Oft möchte man nur die Daten herausfiltern, die eine bestimmte Bedingung erfüllen.

Wir können mit `Series` operieren als seien sie Vektoren. Wir können eine `Series` mit einer Konstanten durch einen Operatoren wie zum Beispiel `+`, `<=` oder `==` verknüpfen und erhalten als Ergebnis wieder eine `Series`.

Wir können Beispielsweise die Spalte `name` mit der Konstanten `'Peter'` durch einen `==` Operator verknüpfen. Dabei wird für jeden Wert aus der `Series` abgefragt ob er gleich der Konstanten `'Peter'` ist.

In [None]:
df['name'] == 'Peter'

Solch ein Ergebnis können wir dann als Selektionsbedingung verwenden. Steht in der enstpechenden Zeile der Wert `True` wird die Zeile selektiert, ansonsten nicht.

Die folgende Abfrage liefert uns alle Zeilen, in denen in der Spalte `name` der Wert `'Peter'` steht.

In [None]:
df[df['name'] == 'Peter']

Wir können Selektionsbedingungen auch durch logische Operatoren miteinander Verknüpfen.

| Operator | Funktion |
| :--- | :--- |
| `&` | UND-Verknüpfung |
| `\|` | ODER-Verknüpfung |
| `~` | Negation |

In [None]:
# Waehle alle Personen, die mit Vornamen Peter und mit Nachnamen Schubert heißen aus
df[(df['name'] == 'Peter') & (df['surname'] == 'Schubert')]

In [None]:
# Waehle alle Personen, die nicht Peter heißen
df[~(df['name'] == 'Peter')]

<div style="background-color: lightblue; padding: 5px 20px 20px">

#### Aufgabe (Selektion)

Selektiere alle Personen, die Jonas heißen (Vorname) oder deren `sid` kleiner als 360 ist.

**Tipp:** Mit dem Befehl
```python
df.index
```
kannst du auf die (Index-)Spalte `sid` zugreifen.
</div>

In [None]:
# Hier ist Platz fuer deinen Code

### Einlesen von großen Datenmengen

In der Regel geben wir große Datenmengen nicht von Hand ein, sondern lesen sie aus einer externen Datei ein. Für diesen Zweck hält die Bibliothek pandas eine Importfunktion bereit, um Daten einzulesen, die beispielsweise in einem Tabellenkalkulationsprogramm (z. B. Excel) vorliegen.

#### Format der Eingabedaten

Es gibt verschiedene Wege Daten einzulesen und im Folgenden wird einer davon präzise beschrieben. Um diesen Weg exakt so nutzen zu können, müssen die Daten in einer bestimmten Struktur vorliegen. 

#### Darstellung in einer Tabellenkalkulation

Wir betrachten Daten, die in einer zweidimensionalen Tabelle vorliegen, das heißt die Tabelle besteht aus Zeilen und Spalten. Als Beispiel verwenden wir einen Teil der Daten aus der JIM-Studie zur Nutzung von digitalen Medien durch Schülerinnen und Schüler.
Ein Ausschnitt davon sieht wie folgt aus:

![Auszug aus den JIM Daten - Excel Tabelle](Ressourcen/Jim_Excel.png)

In der ersten Zeile der Tabelle stehen die **Merkmalsnamen**. Somit ist jede **Spalte** mit einem Merkmal versehen. In unserem Beispiel sind das die Merkmale nach denen die Jugendlichen befragt wurden. 

Jede weitere **Zeile** enthält einen  **Fall**, also in unserem Beispiel jeweils die Antworten eines Schülers. Die Indizes der einzelnen Zeilen werden NICHT in einer extra Spalte aufgeführt.

#### Darstellung im CSV-Format

Damit eine Datei mit den zuvor gezeigten Daten in `pandas` eingelesen werden kann, muss sie in einem speziellen Format gespeichert werden. Es gibt dafür verschiedene Möglichkeiten, aber wir nutzen im Folgenden das CSV-Format (comma-seperated-values). 
Eine Datei im CSV-Format kann man neben einer Tabellenkalkulation ebenfalls in einem Editor-Programm aufrufen, wo sie ihre unverarbeitete Gestalt zeigt und wie folgt aussieht:

![Auszug aus den JIM Daten - CSV im Editor](Ressourcen\Jim_CSV_Editor.png)

Die Zeilen sehen hier unterschiedlich lang aus, allerdings werden die gleichen Daten repräsentiert, wie im ersten Bild. Jede Zeile im Editor entspricht auch einer Zeile in Excel. Die Inhalte der einzelnen Excel-Zellen werden jeweils durch ein **Trennzeichen** getrennt, welches hier das **Semikolon** (`;`) ist. Jede Zeile enthält also identisch viele Trennzeichen. Das CSV-Format ist nicht immer einheitlich, sodass es sein kann, dass andere Programme beim Speichern z. B. Kommata als Trennzeichen verwenden. 

Am **Ende jeder Zeile** ist ein **Zeilenumbruch**, der durch die Enter-/Return-Taste erzeugt wird. Dies ist eindeutig festgelegt und nicht wie beim Trennzeichen optional.

**Fehlende Werte**, die in Excel durch leere Zellen dargestellt sind...

![Fehlende Werte im Excel](Ressourcen/Fehlende_Werte_Excel.png)

... werden im CSV Format durch zwei aufeinanderfolgende Trennzeichen (**;;**) ohne Leerstelle dazwischen dargestellt.

![Fehlende Werte im Editor](Ressourcen/Fehlende_Werte_Editor_markiert.png)

#### Standardvorgehen

Bevor eine CSV-Datei eingelesen wird speichern wir sie im selben Ordner, in dem auch das Python-Notebook gespeichert ist. 

Der **Befehl**, um die Datei einzulesen lautet:

    df = pd.read_csv('DATEINAME.csv', sep =';')
    
Der Parameter `sep` gibt an, welches Trennzeichen verwendet wurde, um die einzelnen Einträge zu trennen. In unserem Fall wurde ein Semikolon verwendet.

In [None]:
# Einlesen der vorbereiteten CSV-Datei JIM_Daten_Auszug.csv in ein DataFrame
dfJim = pd.read_csv('Daten/JIM_Daten_Auszug.csv', sep =';')

# Ausgabe
dfJim