In [1]:
import pandas as pd
import numpy as np # numpy wird oft für numerische Operationen gebraucht, hier für NaN

# Daten für Studierende
daten = {
    'Name': ['Anna', 'Mark', 'Julia', 'Tom', 'Laura', 'Peter', 'Sofia'],
    'Studiengang': ['Informatik', 'BWL', 'Maschinenbau', 'Informatik', 'BWL', 'Informatik', 'Medizin'],
    'Semester': [4, 6, 2, 4, 8, 2, 10],
    'Note': [1.7, 2.3, 1.0, 2.7, np.nan, 2.0, 1.3] # np.nan repräsentiert einen fehlenden Wert
}

# Index mit Matrikelnummern erstellen
matrikelnummern = [12345, 67890, 13579, 24680, 55555, 77777, 99999]
df = pd.DataFrame(daten, index=matrikelnummern)

print("Umfangreicherer Beispiel-DataFrame:")
print(df)

Umfangreicherer Beispiel-DataFrame:
        Name   Studiengang  Semester  Note
12345   Anna    Informatik         4   1.7
67890   Mark           BWL         6   2.3
13579  Julia  Maschinenbau         2   1.0
24680    Tom    Informatik         4   2.7
55555  Laura           BWL         8   NaN
77777  Peter    Informatik         2   2.0
99999  Sofia       Medizin        10   1.3


In [3]:
# Eine einzelne Spalte auswählen (Ergebnis ist eine Series)
namen = df['Name']
print("--- Einzelne Spalte 'Name' (Typ: Series) ---")
print(namen)
print(type(namen))


# Mehrere Spalten auswählen (Ergebnis ist ein DataFrame)
# Wichtig: doppelte eckige Klammern!
studiengang_und_note = df[['Studiengang', 'Note']]
print("\n--- Mehrere Spalten 'Studiengang' und 'Note' (Typ: DataFrame) ---")
print(studiengang_und_note)

--- Einzelne Spalte 'Name' (Typ: Series) ---
12345     Anna
67890     Mark
13579    Julia
24680      Tom
55555    Laura
77777    Peter
99999    Sofia
Name: Name, dtype: object
<class 'pandas.core.series.Series'>

--- Mehrere Spalten 'Studiengang' und 'Note' (Typ: DataFrame) ---
        Studiengang  Note
12345    Informatik   1.7
67890           BWL   2.3
13579  Maschinenbau   1.0
24680    Informatik   2.7
55555           BWL   NaN
77777    Informatik   2.0
99999       Medizin   1.3


___

### 3. Zeilen auswählen mit .loc und .iloc
Das ist eine der wichtigsten Unterscheidungen in Pandas:

- .loc: Wählt Daten anhand des Labels (z.B. der Matrikelnummer) aus.
- .iloc: Wählt Daten anhand der numerischen Position (Integer-Index, beginnend bei 0) aus.

In [4]:
# .loc
# Einzelne Zeile anhand des Index-Labels auswählen
student_mark = df.loc[67890]
print("--- Daten für Matrikelnummer 67890 (loc) ---")
print(student_mark)


# Mehrere Zeilen anhand von Labels auswählen
print("\n--- Daten für Matrikelnummern 12345 und 55555 (loc) ---")
print(df.loc[[12345, 55555]])


# Einen bestimmten Wert auswählen: Zeilenlabel und Spaltenlabel
note_julia = df.loc[13579, 'Note']
print(f"\n--- Julias Note (loc): {note_julia} ---")

--- Daten für Matrikelnummer 67890 (loc) ---
Name           Mark
Studiengang     BWL
Semester          6
Note            2.3
Name: 67890, dtype: object

--- Daten für Matrikelnummern 12345 und 55555 (loc) ---
        Name Studiengang  Semester  Note
12345   Anna  Informatik         4   1.7
55555  Laura         BWL         8   NaN

--- Julias Note (loc): 1.0 ---


In [5]:
# Einzelne Zeile an der Position 2 (die dritte Zeile) auswählen
student_pos_2 = df.iloc[2]
print("--- Daten der 3. Zeile (Position 2) (iloc) ---")
print(student_pos_2) # Entspricht Julia


# Die ersten drei Zeilen auswählen (Slicing)
print("\n--- Die ersten drei Zeilen (iloc) ---")
print(df.iloc[0:3]) # Position 0, 1, 2 (die 3 ist exklusiv)


# Einen bestimmten Wert auswählen: Zeilenposition und Spaltenposition
note_peter = df.iloc[5, 3] # 6. Zeile (Pos 5), 4. Spalte (Pos 3)
print(f"\n--- Peters Note (iloc): {note_peter} ---")

--- Daten der 3. Zeile (Position 2) (iloc) ---
Name                  Julia
Studiengang    Maschinenbau
Semester                  2
Note                    1.0
Name: 13579, dtype: object

--- Die ersten drei Zeilen (iloc) ---
        Name   Studiengang  Semester  Note
12345   Anna    Informatik         4   1.7
67890   Mark           BWL         6   2.3
13579  Julia  Maschinenbau         2   1.0

--- Peters Note (iloc): 2.0 ---
