In [11]:
%timeit sum([i for i in range(1000)])

57.5 µs ± 4.55 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


# Python Crash Course



### 🧠 Technische Einführung in Jupyter Notebook

#### ⚙️ Was ist Jupyter?

Ein webbasierter **Notebook-Editor**, mit dem man **Python-Code ausführen**, **Markdown schreiben**, und **Visualisierungen interaktiv darstellen** kann.
Unterstützt viele Sprachen über sog. *Kernels* (z. B. `ipykernel` für Python).

---

#### 💡 Warum Jupyter?

| Vorteil               | Beschreibung                                                      |
| --------------------- | ----------------------------------------------------------------- |
| 🔁 Reproduzierbarkeit | Code, Output & Erklärung im selben Dokument                       |
| 🧪 Experimentieren    | Änderungen an einzelnen Zellen ohne Neustart des gesamten Skripts |
| 📊 Visualisierung     | Direktes Plotting mit `matplotlib`, `seaborn`, `plotly`, etc.     |
| 📚 Dokumentation      | Unterstützung für Markdown, LaTeX, Code-Kommentare                |

---

#### ⌨️ Wichtige Shortcuts

| Modus            | Taste           | Funktion                                 |
| ---------------- | --------------- | ---------------------------------------- |
| **Edit Mode**    | `Enter`         | Zelle bearbeiten                         |
| **Command Mode** | `Esc`           | Zelle auswählen (blau)                   |
|                  | `A`             | Zelle **oberhalb** einfügen              |
|                  | `B`             | Zelle **unterhalb** einfügen             |
|                  | `D, D`          | Zelle löschen                            |
|                  | `M`             | Zelle in **Markdown** umwandeln          |
|                  | `Y`             | Zelle in **Code** umwandeln              |
|                  | `Shift + Enter` | Zelle ausführen + nächste auswählen      |
|                  | `Ctrl + Enter`  | Zelle ausführen, Auswahl behalten        |
|                  | `Alt + Enter`   | Zelle ausführen + neue darunter einfügen |

---

#### 🧪 Nützliche Magic-Commands

| Befehl               | Zweck                                |
| -------------------- | ------------------------------------ |
| `%timeit`            | Zeitmessung einer Anweisung          |
| `%who` / `%whos`     | Zeigt aktuell definierte Variablen   |
| `%matplotlib inline` | Plots direkt im Notebook anzeigen    |
| `%%time`             | Gesamtzeit einer ganzen Zelle messen |
| `%debug`             | Nach Fehler interaktiver Debug-Modus |

---

#### 🧰 Beispiel-Workflow in Data Engineering

```python
# 1. Daten lesen
import pandas as pd
df = pd.read_csv("data.csv")

# 2. Übersicht anzeigen
df.info()

# 3. Plot erzeugen
import avon eine PDF, eine Folienversion, oder das Ganze als Jupyter Notebook?


---
---
---

Hier ist eine kleine **2-Minuten-Übung** 

---
#
### ⏱️ 2-Minuten-Challenge: Erste Schritte im Notebook

> Ziel: Tastenkürzel testen, Markdown & Code mischen, Plot erzeugen

#### 🧪 Aufgabe

1. **Füge eine neue Zelle ein** (Shortcut: `B`)
2. **Wechsle zu Markdown-Modus** (`M`) und schreibe eine Überschrift:

   ```markdown
   ## Mein erstes Notebook 🚀
   ```
3. **Füge darunter eine Code-Zelle ein** (`B` → `Y`) und führe folgenden Code aus:

   ```python
   import matplotlib.pyplot as plt
   plt.plot([1, 4, 2, 5, 3])
   plt.title("Mini-Testplot")
   plt.grid(True)
   plt.show()
   ```
4. Optional: Miss mit `%timeit` die Geschwindigkeit folgender Zeile:

   ```python
   %timeit sum([i for i in range(1000)])
   ```

---

💡 **Bonus:** Wer fertig ist, testet `A`, `D,D`, und `Shift+Enter` gezielt aus.
Ziel: sich sicher dur-Wordcount oder DataFrame mit Pandas).


# PYTHON

### 🧠 Syntax‑Primer
- Literale • Zuweisung • f‑Strings
- `if / for / while / match-case`
- List‑ & Dict‑Comprehension (wichtig für RDD Transforms)

In [59]:
# Ganzzahlen, Fließkommazahlen, Strings, Listen, Dictionaries
x = 42
pi = 3.14
name = "Arga"
liste = [1, 2, 3]
d = {"key": "value"}


### 🧪 Übung:

Was ist der Datentyp von folgenden Werten?

In [21]:
print(type(100))
print(type(3.5))
print(type("hello"))
print(type([1, 2, 3]))
print(type((1, 2)))
print(type({"a": 1}))

<class 'int'>
<class 'float'>
<class 'str'>
<class 'list'>
<class 'tuple'>
<class 'dict'>


### 

### ⚙️ f-String

Ein formatierter String in Python ab Version 3.6, der Ausdrücke direkt im String interpoliert.

In [29]:
name = "Arga"
alter = 31

print(f"{name} ist {alter} Jahre alt.")


Arga ist 31 Jahre alt.


### ⚙️ Kontrollstrukturen: if / for / while / match-case

In [31]:
x = 10

if x > 5:
    print("x ist größer als 5")
else:
    print("x ist klein")

x ist größer als 5


#### ⚙️ Einfache Zählschleife 

In [32]:
for i in range(3):
    print("Schleife:", i)

Schleife: 0
Schleife: 1
Schleife: 2


####  ⚙️ Nested for (verschachtelt)

In [43]:
for x in range(3):
    for y in range(3):
        print(f"x={x}, y={y}")

x=0, y=0
x=0, y=1
x=0, y=2
x=1, y=0
x=1, y=1
x=1, y=2
x=2, y=0
x=2, y=1
x=2, y=2


#### ⚙️ Über eine Liste iterieren

In [41]:
namen = ["Anna", "Ben", "Clara"]

for name in namen:
    print(f"Hallo, {name}!")

Hallo, Anna!
Hallo, Ben!
Hallo, Clara!


#### ⚙️ Mit range(start, stop, step)

In [40]:
for zahl in range(10, 0, -2):
    print("Runterzählen:", zahl)

Runterzählen: 10
Runterzählen: 8
Runterzählen: 6
Runterzählen: 4
Runterzählen: 2


In [33]:
n = 0
while n < 3:
    print("While:", n)
    n += 1


While: 0
While: 1
While: 2


In [37]:
lang = "de"

match lang:
    case "en":
        print("Hello")
    case "de":
        print("Hallo")
    case "fr":
        print("Salut")
    case _:
        print("Language not supported")


Hallo


#### 🧪 Übung:
Gib alle ungeraden Zahlen zwischen 1 und 20 aus

In [44]:
for zahl in range(1, 21):
    if zahl % 2 != 0:
        print(zahl)


1
3
5
7
9
11
13
15
17
19


In [45]:
for zahl in range(1, 21, 2):
    print(zahl)

1
3
5
7
9
11
13
15
17
19


### ---

#### 🧪 Extra Übung : FizzBuzz (1 bis 100)
| Zahl                   | Ausgabe         |
| ---------------------- | --------------- |
| Vielfaches von 3       | `Fizz`          |
| Vielfaches von 5       | `Buzz`          |
| Vielfaches von 3 und 5 | `FizzBuzz`      |
| sonst                  | die Zahl selbst |


In [48]:
for i in range(1, 101):
    if i % 3 == 0 and i % 5 == 0:
        print("FizzBuzz")
    elif i % 3 == 0:
        print("Fizz")
    elif i % 5 == 0:
        print("Buzz")
    else:
        print(i)


1
2
Fizz
4
Buzz
Fizz
7
8
Fizz
Buzz
11
Fizz
13
14
FizzBuzz
16
17
Fizz
19
Buzz
Fizz
22
23
Fizz
Buzz
26
Fizz
28
29
FizzBuzz
31
32
Fizz
34
Buzz
Fizz
37
38
Fizz
Buzz
41
Fizz
43
44
FizzBuzz
46
47
Fizz
49
Buzz
Fizz
52
53
Fizz
Buzz
56
Fizz
58
59
FizzBuzz
61
62
Fizz
64
Buzz
Fizz
67
68
Fizz
Buzz
71
Fizz
73
74
FizzBuzz
76
77
Fizz
79
Buzz
Fizz
82
83
Fizz
Buzz
86
Fizz
88
89
FizzBuzz
91
92
Fizz
94
Buzz
Fizz
97
98
Fizz
Buzz


In [3]:
# Beispiele zum Nachtippen
name = "Arga"
for i in range(3):
    print(f"Hallo {name}, Runde {i}")

Hallo Arga, Runde 0
Hallo Arga, Runde 1
Hallo Arga, Runde 2


In [6]:
# Comprehension‑Kurzform
squares = [n**2 for n in range(10)]
squares

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

## 🧠 String Methoden

| **Python-Konstrukt**    | **Beschreibung**                                            | 💡 **Beispiel**           |
| ----------------------- | ----------------------------------------------------------- | ------------------------- |
| `.strip()`              | Entfernt Leerzeichen am Anfang und Ende eines Strings       | `"  data  ".strip()`      |
| `.lower()` / `.upper()` | Wandelt einen String in Klein- oder Großbuchstaben um       | `"Email@x.com".lower()`   |
| `.split()`              | Teilt einen String anhand eines Trennzeichens in Teile      | `"a@b.com".split("@")[1]` |
| `in`                    | Prüft, ob eine Teilzeichenkette im String enthalten ist     | `'abc' in "alphabet"`     |
| `f-Strings`             | Formatiert und kombiniert Variablen innerhalb eines Strings | `f"{vorname} {nachname}"` |


In [61]:
"       arga      ".strip()

'arga'

In [62]:
"MAX.MUSTERMANN@GMAIL.COM".lower()

'max.mustermann@gmail.com'

In [63]:
"a@b.com".split("@")[1]

'b.com'

In [65]:
"a@b.com".split("@")[0]

'a'

In [66]:
'abc' in "alphabet"

False

In [67]:
'abc' in "bababababababcbababababa"

True

## 🧠 Funktionen & Module
- `def`, `return`, `*args`, `**kwargs`
- Imports (z. B. `os`, `sys`, `pathlib`, `pandas`)

#### ⚙️ Was ist eine Funktion in Python?

Eine Funktion ist ein benannter, wiederverwendbarer Block aus Code, der eine bestimmte Aufgabe ausführt.

Du kannst sie einmal definieren und beliebig oft aufrufen – oft mit Parametern und Rückgabewert.

In [49]:
def fahrenheit_to_celsius(f):
    """Convert °F to °C"""
    return (f - 32) * 5/9

In [50]:
fahrenheit_to_celsius(77)

25.0

In [53]:
fahrenheit_to_celsius(99)

37.22222222222222

#### ⚙️ Was ist *args in Python?

*args erlaubt dir, eine flexible Anzahl von Positionsargumenten an eine Funktion zu übergeben.
Du musst vorher nicht wissen, wie viele Argumente die Nutzer:innen beim Aufruf übergeben werden.

In [54]:
def funktion_name(*args):
    for wert in args:
        print(wert)

In [55]:
funktion_name("Arga", "Hendrik", "Sheikh", "Tilo", "Jan", "Ralf-Uwe","Julian")

Arga
Hendrik
Sheikh
Tilo
Jan
Ralf-Uwe
Julian


#### ⚙️ Was ist **kwargs in Python?

**kwargs steht für "keyword arguments" – es erlaubt dir, beliebig viele benannte Parameter (z. B. name=wert) in einer Funktion zu übergeben, ohne sie vorher definieren zu müssen.

In [57]:
def benutzerdaten(**kwargs):
    for key, value in kwargs.items():
        print(f"{key}: {value}")

In [58]:
benutzerdaten(name="Arga", alter=31, beruf="Data Engineer")

name: Arga
alter: 31
beruf: Data Engineer


#### Import
Der Befehl import wird verwendet, um externe Module oder Bibliotheken in dein Python-Programm zu laden, damit du deren Funktionen, Klassen oder Konstanten nutzen kannst.

In [77]:
from math import pi, sin
print(sin(pi / 2))

1.0


In [78]:
import math
print(math.sqrt(16))

4.0


In [79]:
#help('modules')

### 🐍 ✅ Python-Standardbibliothek

> Alle diese Module kannst du mit `import xyz` verwenden – **ohne `pip install`!**

Hier die wichtigsten:

---

#### 🔢 **Mathematik & Zahlen**

| Modul        | Funktion                                          |
| ------------ | ------------------------------------------------- |
| `math`       | Mathematische Funktionen (`sqrt`, `floor`, `sin`) |
| `random`     | Zufallszahlen (`randint`, `choice`)               |
| `statistics` | Mittelwert, Median, Standardabweichung            |

---

#### 🕒 **Datum & Zeit**

| Modul      | Funktion                    |
| ---------- | --------------------------- |
| `datetime` | Zeitstempel, Datumsrechnung |
| `time`     | Zeitmessung, Sleep          |
| `calendar` | Monats-/Kalenderfunktionen  |

---

#### 📂 **Dateisystem & Pfade**

| Modul     | Funktion                             |
| --------- | ------------------------------------ |
| `os`      | Dateisystem, Umgebungsvariablen      |
| `pathlib` | Objektorientierter Dateipfad-Zugriff |
| `shutil`  | Kopieren, Verschieben, Archivieren   |
| `glob`    | Files per Wildcards finden           |

---

#### 🛠️ **System, Tools & Debugging**

| Modul       | Funktion                        |
| ----------- | ------------------------------- |
| `sys`       | Systempfade, Argumente, Version |
| `argparse`  | Kommandozeilen-Argumente        |
| `pdb`       | Debugger                        |
| `traceback` | Stack-Traces analysieren        |

---

#### 🧵 **Concurrency (Nebenläufigkeit)**

| Modul                | Funktion           |
| -------------------- | ------------------ |
| `threading`          | Threads            |
| `multiprocessing`    | Parallele Prozesse |
| `concurrent.futures` | Executor API       |

---

#### 🔤 **Text & Zeichenketten**

| Modul      | Funktion                              |
| ---------- | ------------------------------------- |
| `string`   | Zeichenklassen, z. B. `ascii_letters` |
| `re`       | Reguläre Ausdrücke                    |
| `textwrap` | Zeilenumbruch & Formatierung          |

---

#### 🧪 **Testen & Mocken**

| Modul      | Funktion                        |
| ---------- | ------------------------------- |
| `unittest` | Unit-Tests                      |
| `doctest`  | Tests in Docstrings             |
| `timeit`   | Code-Messung (z. B. Laufzeiten) |

---

#### 🧩 **Datenformate & Serialisierung**

| Modul     | Funktion                 |
| --------- | ------------------------ |
| `json`    | JSON lesen/schreiben     |
| `csv`     | CSV-Dateien verarbeiten  |
| `pickle`  | Python-Objekte speichern |
| `sqlite3` | Leichte lokale Datenbank |

---

#### 🔒 **Security & Hashes**

| Modul     | Funktion                       |
| --------- | ------------------------------ |
| `hashlib` | MD5, SHA-Hashes                |
| `secrets` | Kryptografisch sicherer Zufall |

---


## 35 – 45 min: Datensammlungen
- Listen • Tupel • Dicts • Sets
- Mapping auf Spark RDD / DataFrame

### Mini‑Kata
Zähle die Häufigkeit von Wörtern in `word_list`.

In [None]:
word_list = ["spark", "python", "spark", "data"]
freq = {}
for w in word_list:
    freq[w] = freq.get(w, 0) + 1
freq

## 45 – 52 min: Error‑Handling & Debugging
- `try / except`, `raise`, `assert`
- `breakpoint()` (ehem. `pdb`)


In [5]:
try:
    int("abc")
except ValueError as e:
    print("Fehler gefangen:", e)

Fehler gefangen: invalid literal for int() with base 10: 'abc'


## 52 – 60 min: Brücke zu PySpark
Starte eine lokale Spark‑Session, lade eine CSV als DataFrame, zeig die ersten Zeilen.

In [None]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local[*]").appName("demo").getOrCreate()
df = spark.read.csv("path/to/your.csv", header=True, inferSchema=True)
df.show(3)
spark.stop()

## Anhang: Cheat‑Sheet & Links
- [PEP 8](https://peps.python.org/pep-0008/)
- [pandas Cheat Sheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)
- [Spark UDF Guide](https://spark.apache.org/docs/latest/sql-pyspark-pandas-with-arrow.html)
