### Kleiner Exkurs: Jupyter Notebook

<img src="../images/jupyter_logo.png" width="200" height="220">

Jupyter Notebook ist ein web-basierte, interaktive Entwicklungsumgebung für das Schreiben von Code, das Erstellen von Visualisierungen und das Einbinden von Text-Elementen mit Hilfe der Auszeichnungssprache Markdown. 

In einem Notebook lassen sich schnell kleine und größere Code-Blöcke entwickeln und direkt ausführen. 

Im Rahmen der ersten Hausaufgabe haben Sie bereits: 
- den Jupyter Notebook Server gestartet
- ein neues Notebook erstellt
- Code-Zeilen erstellt und ausgeführt

Notebooks erlauben auch das Einfügen von Text mit Markdown-Zellen. 

Hierfür: 
- Klicken Sie oben in der Menüleiste auf das Plus-Symbol, um eine neue Zeile einzufügen. 
- Klicken Sie in die Zeile und wechseln Sie dann über das Dropwon-Menü oben von Zeilentyp von 'Code' auf 'Markdown'.
- Fügen Sie etwas Text ein. Formatierungsoptionen sind z.B. eines oder mehrere \# für Überschriften, \* für kursiv, \** für fett, sowie \`...` für Code-Zeilen und \```...``` für Code-Blöcke. 
- Hier finden Sie eine Übersicht der wichtigsten Formatierungsoptionen: [Markdown Guide](https://www.markdownguide.org/basic-syntax/)


# Einführung in Python
![Python Logo](../images/python_logo.png "Python Logo")

Python ist eine Programmiersprache, die 1998 von dem niederländischen Softwareentwickler Guido van Rossum entwickelt wurde: 

> "Vor über sechs Jahren, im Dezember 1989, suchte ich nach einem Programmierprojekt, das mich über die Weihnachtswoche beschäftigen würde. 
Mein Büro würde geschlossen bleiben, aber ich hatte auch zu Hause einen PC und sonst nicht viel zu tun. Ich entschied mich, einen Interpreter für die Skriptsprache zu schreiben, über die ich kürzlich nachdachte: Ein Nachfolger von ABC, der auch Unix- und C-Hacker ansprechen würde. Ich wählte Python als Arbeitstitel für das Projekt, weil ich in einer leicht respektlosen Stimmung (und ein großer Fan des Monty Python’s Flying Circus) war."

Ziel war es, eine einfach zu erlernende, intuitive Sprache zu entwickeln, die zudem Open Source ist, sodass sich jede*r an ihrer Weiterentwicklung beteiligen kann. 

`Python` ist heute sehr beliebt als Programmiersprache für wissenschaftliche Zwecke, Data Science, Machine Learning und auch für Natural Language Processing. 

Es gibt eine Vielzahl an Bibliotheken für `Python`wie z.B. `pandas` für Datenanalyse oder `scikit-learn` für Machine Learning. 

Eine große Community aus Entwickler\*innen und Nutzer\*innen ist rund um `Python` entstanden, darunter auch die "PyLadies", die Mentoring für Menschen mit marginalisiertem Gender unterstützt.

Es gibt auch eine [PyLadies Berlin Section](https://berlin.pyladies.com/en/).

In der heutigen Übungen schauen wir uns wichtige Aspekte von Python an, von Datentypen über Kontrollstrukturen bis hin zu Funktionen und Klassen und natürlich dem Arbeiten mit `Strings`.

### `pandas` installieren

Wenn noch genug Zeit ist, machen wir heute auch erste Schritte mit `pandas`. 

Um `pandas` nutzen zu können, müssen Sie die Bibliothek zuerst installieren. 

Im Terminal - innerhalb der aktivierten virtuellen Umgebung - führen Sie folgenden Befehl aus: 

`pip install pandas`

Danach müssen Sie den Kernel Ihres Jupyter Servers neu starten (im Notebook oben auf `Kernel` -> `Restart Kernel` klicken.)

## IDEs für Python

Python-Skripte lassen sich mit einem einfachen Texteditor schreiben, z.B. `nano` im Terminal oder `Sublime Text`.

Zudem können Sie auch über Jupyter Python-Skripte erstellen (`New File` und mit Endung `.py` abspeichern). 

Für eine möglichst komfortable und effiziente Entwicklung Ihres RAG-Projekts empfehle ich Ihnen jedoch, sich eine geeignete IDE zu installieren, sofern Sie dies nicht ohnehin schon haben. 

Für `Python` eignen sich z.B. [PyCharm](https://www.jetbrains.com/pycharm/) oder [Visual Studio Code](https://code.visualstudio.com/). Für beide können Sie eine Studierendenlizenz bekommen. 

Beide IDEs ermöglichen auch die Integration von Jupyter Notebooks, sodass Sie bequem zwischen Coden im Notebook und in Python-Skripten wechseln können. 

## 1. Variablen

Die Erzeugung von Variablen geschieht gleichzeitig mit der Zuweisung eines konkreten Werts. 

In [2]:
x = 42
s = "Was ist der Sinn des Lebens?"
print(s)
print("Antwort:", x)

Was ist der Sinn des Lebens?
Antwort: 42


Variablen muss bei der Erzeugung kein bestimmter Datentyp zugewiesen werden, dies geschieht automatisch durch den zugewiesenen Wert. 

Der Datentyp einer Variable kann sich nach ihrer Erzeugung auch ändern. 

In [13]:
x = 4 # x hat den Datentyp int (integer)
s = "Was ist der Sinn des Lebens?" # s hat den Datentyp str (String)
type(x), type(s) # mit type() können wir uns den Datentyp einer Variable ausgeben lassen

(int, str)

In [3]:
s = 5 
type(s)

int

**1.1. Aufgabe:** Lassen Sie sich den Datentyp von `s` erneut ausgeben. Welchen Datentyp hat die Variable jetzt? 

**Antwort:** 

## 2. Typecasting
Mit Hilfe von Typecasting können wir einen expliziten Datentyp festlegen:

In [6]:
x = str(42)    # x will be '42'
y = int(42)    # y will be 42
z = float(42)  # z will be 42.0

**2.1 Aufgabe:** Lassen Sie sich x, y, z mit Hilfe des `print()`-Befehls ausgeben. 

In [1]:
# Ihre Lösung: 

## 3. Datentypen

Übersicht von Datentypen, die für uns besonders relevant sind: 

- Text: `str`
- Numeric: `int`, `float`
- Sequence: `list`, `tuple`, `set`
- Mapping: `dict`
- Boolean: `bool`
- None: `NoneType`

#### Beispiele:

In [172]:
first_name = "Elisabeth" # string
age = 39  # int
height = 170.0 # float
hobbies = ['cycling', 'gardening', 'cooking'] # Liste
eye_colors = ('green', 'blue') # Tupel

# Dictionary, key-value Paare, keys müssen einzigartig sein
profile = {
    'id': 1,
    'first_name': 'Ada',
    'email': 'ada@example.com',
    'has_subscribed': True # boolean
}

colors = {'red', 'blue', 'yellow'} # Set, besteht aus einzigartigen Elementen, nicht veränderbar

**3.1 Aufgabe:** Betrachten Sie die folgenden zwei Code-Zeilen. Was geschieht mit den Elementen aus der Liste `fruits` im zweiten Schritt?

**Antwort:** 

In [None]:
fruits = ['apple', 'banana', 'orange', 'raspberry', 'apple', 'lemon']
fruits = set(fruits)
fruits

**3.2 Aufgabe:** Und was geschieht hier? 

**Antwort:**

In [None]:
fruits = ['apple', 'banana', 1, True, 'apple', 'lemon']
fruits = set(fruits)
fruits

**3.3 Aufgabe:**

Erstellen Sie ein `dict` drei Ihrer Lieblingsbücher, -serien oder filme. 

Die `keys` sollen einstellige Integer-Werte von 1 bis 3 sein, die `values` die Titel als Strings. 

In [2]:
# Ihre Lösung: 

## 4. `print()` + f-Strings

Die `print()`-Funktion haben Sie bereits kennengelernt. 

Mit f-Strings können Sie Variablen in print-Ausgaben integrieren und diese formatieren:

In [180]:
first_name = "Alice"
age = 42

print(f"My name is {first_name} and I'm {age} years old.")

percentage = 99.999
adjective = 'nice'
print(f"I believe that {percentage: .2f} of people are {adjective.upper()}")

My name is Alice and I'm 42 years old.
I believe that  100.00 of people are NICE


**4.1 Aufgabe:** 

Passen Sie den Code aus der vorherigen Zelle so an, dass die Prozentzahl mit 3 Nachkommastellen ausgegeben wird. 

Wählen Sie außerdem ein anderes Adjektiv, um die Satzbedeutung zu verändern. 

In [3]:
# Ihre Lösung: 

first_name = "Alice"
age = 42

print(f"My name is {first_name} and I'm {age} years old.")

percentage = 99.999
adjective = 'nice'
print(f"I believe that {percentage: .2f} of people are {adjective.upper()}")

My name is Alice and I'm 42 years old.
I believe that  100.00 of people are NICE


## 5. Indentation

Indentation (Einrückungen) sind ein zentrales Konzept in `Python`.
Damit werden Code-Blöcke definiert, ggf. auch durch Mehrfacheinrückungen. 

Einrückungen werden laut Python-Styleguide mit vier Leerzeichen gesetzt, nicht mit der Tabulator-Taste. 

**5.1 Aufgabe:**  
- Führen Sie den untenstehenden Code aus - was passiert? 
- Korrigieren Sie den Code, sodass er funktioniert. 

In [None]:
gummi_bear_count = 10

while gummi_bear_count > 0: 
print(f"{gummi_bear_count} gummi bears left.")
print("Eating a gummi bear...")
gummi_bear_count -= 1
print("Oh no! No more gummi bears left :(")

## 6. Operatoren

### Arithmetische Operatoren

In [53]:
5 + 3 # Addition
5 - 3 # Subtraktion
5 * 3 # Multiplikation
15 / 3 # Division
100 % 2 # Modulus = Rest aus Division
10 ** 2 # Potenzieren
99 // 2 # Ganzzahlige Division

49

### Zuweisungsoperatoren

In [None]:
x = 3
x += 3 # das Gleiche wie x = x + 3
x -= 3 # das Gleiche wie x = x - 3
# Funnktioniert auch mit den anderen arithmetischen Operatoren, z.B. x %= 2 usw. 

**6.1 Aufgabe:**
- Erzeugen Sie eine Variable `word1` mit dem Wert 'Joseph'. 
- Nutzen Sie einen geeigneten Zuweisungsoperator, um den Wert der Variable in 'Joseph Weizenbaum' zu ändern. 
- Kontrollieren Sie das Ergebnis mit der `print()`-Funktion.

In [184]:
# Ihre Lösung:

### Vergleichsoperatoren

In [None]:
x = 1
x = 1000

x == y # gleich
x != y # nicht gleich
x > y # größer als
x < y # kleiner als 
x >= y # größer-gleich
x <= y # kleiner-gleich

False

### Logische Operatoren

In [185]:
x < 5 and x < 10 # True falls beide Statements True ergeben
x < 5 or x < 4 # True falls eines der beiden Statements True ist
not(x < 5 and x < 10) # Umkehrung des Ergebnisses, gibt False zurück wenn das Ergebnis True ist

False

### Zugehörigkeitsoperatoren
Zum überprüfen, ob eine Sequenz in einem Objekt enthalten ist.


In [None]:
pets = ['cat', 'dog', 'pony']
x = 'dog'
y = 'sloth'
print(x in pets)

True


**6.2 Aufgabe:** Schreiben Sie einen Ausdruck, der zurückgibt, ob sich die Variable `y` nicht in der Liste `pets` befindet. 

In [187]:
# Ihre Lösung:

### Reihenfolge, Klammersetzung

In [64]:
(1 - 1) + (10  - 10) # Ausdrücke in Klammern werden zuerst ausgewertet

0

In [68]:
3 - 10 * 5 # Multiplikation wird vor Subtraktion ausgeführt

-47

**6.3 Aufgabe**: Verändern Sie die vorherige Zeile so, dass zuerst die Subtraktion ausgeführt wird, dann die Multiplikation.

## 7. Kontrollstrukturen

### Bedingte Anweisungen: `if`, `elif`, `else`

In [188]:
is_raining = True
is_sunny = False

if is_raining: 
    print("Don't forget to take your umbrella!")
elif is_sunny:
    print("Don't forget to take your sun glasses!")
else: 
    print("Have a nice day!")

Don't forget to take your umbrella!


**7.1 Aufgabe:** 
- Fügen Sie dem obigen Code eine weitere Boolesche Variable für wechselhaftes Wetter hinzu. 
- Passen Sie den Code so an, dass er für den Fall von wechselhaftem Wetter ebenfalls eine passende Aufforderung ausgibt. 

## 8. Schleifen

#### `for`-Schleifen

In [70]:
for word in ['the', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog']:
    print(word)

the
brown
fox
jumps
over
the
lazy
dog


#### `for`-Schleife in Kombination mit `range()`

In [189]:
# Beachten Sie: Der obere Wert wird exkludiert. 
for x in range(4): 
    print(x)

0
1
2
3


#### Iterieren über die `key-value` Paare eines Dictionaries

In [73]:
colors = {
    1: 'blue',
    2: 'red',
    3: 'yellow'
}

for key, value in colors.items():
    print(key, value)

1 blue
2 red
3 yellow


### List comprehension

In [191]:
# Ermöglicht kurze, elegante Syntax für Iteration über eine Liste
characters = ['f', 'o', 'x']
print([c for c in characters])

['f', 'o', 'x']


#### `while`-Schleifen

In [192]:
i = 0

while i < 5:
    print(i)
    i += 1

0
1
2
3
4


## 9. Funktionen
Funktionen werden in `Python`mit dem Schlüsselwort `def` definiert, gefolgt vom Namen der Funktion mit Klammern `()` und einem Doppelpunkt `:`

In [4]:
def get_char_count(s):
    """
    Print and return how many characters string 's' has.
    """
    char_count = len(s) # Wir nutzen hier die bereits existierende Funktion len()
    print(f"String '{s}' has {char_count} characters.")
    return char_count

Funktionen können mit Hilfe des `return` Schlüsselworts Werte zurückgeben, die wir Variablen zuweisen können, um dann damit weiter zu arbeiten.

In [7]:
# Hier wird der Variable c_count der Wert zurückgegeben, die die Funktion char_count() für den Eingabewert 'fox' zurückgibt. 
c_count = get_char_count("fox")
c_count

String 'fox' has 3 characters.


3

### Default-Argumente in Funktionen
Mit Hilfe von Default-Argumenten können wir Standard-Werte für bestimmte Parameter festlegen. 

Beim Aufruf der Funktion muss dieser Wert nicht übergeben werden. 

Wir können ihn aber durch explizite Zuweisung überschreiben. 

In [None]:
def calculate_total(item_prices, discount=False, discount_rate=0.2):
    """
    Calculate total of order purchases, apply discount if applicable.
    """
    # Hier nutzen wir die bereits existierende Funktion sum(), um alle Preise zu addieren
    total = sum(item_prices)
    if discount: 
        total = total - total * discount_rate
    return total

In [107]:
item_prices = [10, 20, 70]
calculate_total(item_prices)

100

**9.1 Aufgabe:** 
- Rufen Sie die Funktion `calculate_total()` so auf, dass ein Rabatt gewährt wird.
- Als nächstes verändern Sie den Rabatt so, dass 30% Rabatt gewährt werden. 

In [195]:
# Ihre Lösung: 


**9.2 Aufgabe:** 

- Schreiben Sie eine eigene Funktion, die überprüft, ob ein Wort `w` in einer Liste von Tokens `tokens` enthalten ist. 

- Das Wort ebenso wie die Token-Liste werden der Funktion als Parameter übergeben. 

- Die Funktion soll als Rückgabewert True geben, wenn das Wort in der Token-Liste enthalten ist, sonst False. 

- Zudem soll die Funktion eine entsprechende `print()`-Ausgabe liefern, wenn der Parameter `print_result` `True` ist.

- Der Default-Wert des Parameters `print_result` soll `False` sein. 

- Denken Sie daran, einen Docstring hinzuzufügen. 

- Rufen Sie die Funktion mit Beispielwerten auf. 



## 10. Klassen
`Python` ermöglicht auch die Arbeit mit Klassen. 

Für unseren Kurs benötigen wir dies erstmal nicht, bei Bedarf schauen wir uns das zu einem späteren Zeitpunkt an. 

Hier ein kleines Beispiel:

In [90]:
class Person:
  def __init__(self, name, age):
    self.name = name
    self.age = age

  def print_name(self):
    print("Hello my name is " + self.name)

p1 = Person("Ada", 36)
p1.print_name()

Hello my name is Ada


## 11. Arbeiten mit Listen

### Listen

Mit Hilfe von Listen können wir mehrere Items innerhalb einer Variable speichern. 

Listen sind geordnet (d.h. die enthaltenen Elemente haben eine bestimmte Reihenfolge). 

Listen sind veränderbar und es können Duplikate darin vorkommen.  

Listen können Elemente verschiedener Datentypen beinhalten. 

### Indexing


In [113]:
colors = ['red', 'yellow', 'blue']

# Mit Hilfe von [index] können wir auf bestimmte Elemente einer Liste zugreifen. 
# z.B. colors[1]

**11.1 Aufgabe:** Lassen sie sich das Element am Index 1 und am Index -1 der Liste `colors` ausgeben. Was passiert? 

In [196]:
# Ihre Lösung: 

**Antwort:** 

### Index-Slicing
Index-Bereiche können mit `[start:stop:step]` Syntax aufgerufen werden. Dabei müssen nicht immer alle Werte definiert werden. 

**11.2 Aufgabe:** Beschreiben Sie mit eigenen Worten, was in den folgenden Zeilen passiert, *bevor* Sie sie ausführen. 

In [None]:
colors[:3]

**Antwort:**

In [None]:
colors[1:3:2]

**Antwort:**

In [None]:
colors[3]

**Antwort:**

In [None]:
colors[::-1]

**Antwort:**

#### Elemente zu einer Liste hinzufügen mit `insert()`, `append()`

In [151]:
colors = ['red', 'blue', 'yellow']
colors.insert(0, 'apricot') # 0 = Index, an dem das neue Element hinzugefügt werden soll
print(colors)

['apricot', 'red', 'blue', 'yellow']


In [152]:
colors = ['red', 'blue', 'yellow']
colors.append('apricot')
print(colors)

['red', 'blue', 'yellow', 'apricot']


### Listen joinen

In [157]:
numbers = [4, 1, 5]
numbers2 = [4, 2, 3]
numbers + numbers2

[4, 1, 5, 4, 2, 3]

### Listen sortieren

In [159]:
sorted(numbers + numbers2)

[1, 2, 3, 4, 4, 5]

## 12. Arbeiten mit Dictionaries

In Dictionaries können wir key-value Paare speichern. 

Dictionaries sind ebenso wie Listen geordnetund veränderbar. 

Aber anders als Listen erlauben Dictionaries keine Duplikate - die `keys` eines Dictionaries können also nicht doppelt vorkommen. 

In [161]:
post = {
    'post_id': 123456,
    'creator': 'user95',
    'text': 'Having such a great time here in Italy!',
    'likes': 30
}

#### Zugriff auf keys, values, items

In [166]:
post.keys()

dict_keys(['post_id', 'creator', 'text', 'likes', 'toxicity_score'])

In [167]:
post.values()

dict_values([123456, 'user95', 'Having such a great time here in Italy!', 30, 0.3])

In [168]:
post.items()

dict_items([('post_id', 123456), ('creator', 'user95'), ('text', 'Having such a great time here in Italy!'), ('likes', 30), ('toxicity_score', 0.3)])

#### Zugriff auf einzelne Einträge

In [162]:
post['creator']

'user95'

#### Hinzufügen neuer Werte

In [None]:
post['toxicity_score'] =  0.3

## 13. Coding Style

Für Python hat sich PEP8 als Style-Guide entwickelt. Dieser beinhaltet u.a. die folgenden Best Practices - diese haben keinen Einfluss auf die Funktionalität des Codes, aber Sie verbessern damit die Lesbarkeit Ihres Codes, für sich selbst und für andere: 

- Nutzen Sie 4-Leerzeichen zur Einrückung, nicht den Tabulator. 
- Code-Zeilen sollten nicht länger als 79 Zeichen sein (die meisten IDEs zeigen es an, wenn eine Zeile zu lang ist.)
- Nutzen Sie Leerzeichen, um Funktionen, Klassen und größere Code-Blöcke innerhalb von Funktionen abzusetzen.
- Wenn möglich, sollten Kommentare in einer eigenen Zeile stehen. 
- Verwenden Sie Docstrings.
- Verwenden Sie Leerzeichen rund um Operatoren und nach Kommata, aber nicht direkt nach einer Klammer:  `a = f(1, 2) + g(3, 4)`
- Benennen Sie Klassen und Funktionen einheitlich; üblich sind UpperCamelCase für Klassen und lowercase_with_underscores for für Funktionen.

## 14. Arbeiten mit Strings

Ein String ist eine Folge von Zeichen, die in Anführungszeichen geschrieben wird.  
Sie können sowohl einfache (`'...'`) als auch doppelte (`"..."`) Anführungszeichen verwenden – beides ist gültig.

Strings sind unveränderlich (*immutable*), das heißt:  
Man kann einzelne Zeichen nicht direkt ändern, sondern muss einen neuen String erstellen.

### Indexing und Slicing

Strings verhalten sich wie Listen – jedes Zeichen hat einen Index, beginnend bei `0`.

Mit Indexing greift man du auf einzelne Zeichen zu,  mit Slicing kannst man Teilstrings ausschneiden.


In [202]:
word = "Python"

print(word[0])    # erstes Zeichen
print(word[-1])   # letztes Zeichen
print(word[0:3])  # Zeichen von Index 0 bis (aber ohne) 3
print(word[2:])   # ab Index 2 bis zum Ende

P
n
Pyt
thon


**14.1 Aufgabe:**

Verwenden Sie den gegebenen Satz, um folgende Teilaufgaben zu lösen:

- Geben Sie die ersten 4 Zeichen aus.  
- Geben Sie die letzten 2 Zeichen aus.  
- Geben Sie den String rückwärts aus.  

Satz: `"Maschinensprache oder Menschensprache, das ist hier die Frage!"`

In [222]:
# Ihre Lösung: 

**14.2 Aufgabe**: 

Ein Palindrom ist ein Wort, das vorwärts und rückwärts gleich ist, z. B. *Anna* oder *Rentner*.

Schreiben Sie eine Funktion, die überprüft, ob ein eingegebenes Wort ein Palindrom ist.

In [221]:
# Ihre Lösung: 

### Wichtige String-Methoden

Python bietet viele eingebaute Methoden, um Strings zu verändern oder zu analysieren.  
Hier sind einige der wichtigsten:

In [198]:
text = "   python makes DATA analysis easy  "

print(text.upper())          # alles in Großbuchstaben
print(text.lower())          # alles in Kleinbuchstaben
print(text.title())          # jedes Wort beginnt mit Großbuchstaben
print(text.replace("DATA", "data"))  # ersetzt ein Wort
print(text.count("a"))       # zählt, wie oft 'a' vorkommt
print(text.strip())          # entfernt Leerzeichen am Anfang/Ende


   PYTHON MAKES DATA ANALYSIS EASY  
   python makes data analysis easy  
   Python Makes Data Analysis Easy  
   python makes data analysis easy  
4
python makes DATA analysis easy


### Strings verbinden und wiederholen

Strings können mit `+` verbunden oder mit `*` wiederholt werden.

In [199]:
name = "Zeynep"
print("Hallo, " + name + "!")
print("Hi! " * 3)


Hallo, Zeynep!
Hi! Hi! Hi! 


### Strings bereinigen und verarbeiten

Texte enthalten oft unnötige Leerzeichen oder Sonderzeichen.  

Mit Methoden wie `strip()`, `split()` und `join()` kann man sie bereinigen oder aufteilen.

In [None]:
raw_text = "   ...Data Science...   "

cleaned_text = raw_text.strip(" .")
print(cleaned_text)

words = cleaned_text.split()
print(words)

sentence = " ".join(words)
print(sentence)

Data Science
Python
Data Science


**14.2 Aufgabe:** 
Der folgende Text enthält viele unnötige Zeichen.  

Bereinigen Sie ihn mit Hilfe von String-Methoden.

- Entfernen Sie überflüssige Kommas und Leerzeichen.  
- Alle Wörter sollen kleingeschrieben sein. 
- Teilen Sie den bereinigten Text in Wörter auf.  
- Fügen Sie die Wörter wieder zu einem sauberen Satz zusammen.

In [220]:
text = "  ,,,Data,Science,,ist,toll!!!   "

# Ihre Lösung: 

### Überprüfen von Teilstrings

Mit den Operatoren `in` und `not in` lässt sich prüfen,  ob ein bestimmter Teilstring in einem anderen String vorkommt.

In [201]:
text = "Python Programmierung"

print("Python" in text)       # True
print("Java" not in text)     # True

True
True


## 15. Daten einlesen und bearbeiten mit `pandas`

In [None]:
# Alternativ zur oben beschriebenen Installation von pandas über das Terminal 
%pip install pandas

In [228]:
# pandas importieren, um es nutzen zu können
import pandas as pd 

In [252]:
# Funktion, um Text zu bereinigen und zu tokenisieren
def clean_and_tokenize(text): 
    cleaned_text = text.replace('?', ' ').strip()
    cleaned_text = cleaned_text.lower().split()
    return cleaned_text

In [264]:
# Beispieldaten erzeugen
faq_data = {
    'id': [1,2,3,4,5,6,7,8],
    'question': [
        'Wie kann ich mein Passwort zurücksetzen?',
        'Wo finde ich meine Bestellhistorie?',
        'Wie kann ich meine Lieferadresse ändern?',
        'Wie kontaktiere ich den Kundendienst?',
        'Welche Zahlungsmethoden werden akzeptiert?',
        'Wie kann ich meine Bestellung stornieren?',
        'Wie lange dauert der Versand?',
        'Kann ich Artikel nach der Bestellung noch ändern?'
    ]
}
# Dataframe aus Daten erzeugen
df = pd.DataFrame(faq_data)

# Neue Spalte 'tokens' erzeugen
# Text aus der Spalte 'question' bereinigen und tokenisieren
# Der gecleante Text 
df['tokens'] = df['question'].apply(clean_and_tokenize)

# Die ersten fünf rows des DataFrames anzeigen
df.head()

Unnamed: 0,id,question,tokens
0,1,Wie kann ich mein Passwort zurücksetzen?,"[wie, kann, ich, mein, passwort, zurücksetzen]"
1,2,Wo finde ich meine Bestellhistorie?,"[wo, finde, ich, meine, bestellhistorie]"
2,3,Wie kann ich meine Lieferadresse ändern?,"[wie, kann, ich, meine, lieferadresse, ändern]"
3,4,Wie kontaktiere ich den Kundendienst?,"[wie, kontaktiere, ich, den, kundendienst]"
4,5,Welche Zahlungsmethoden werden akzeptiert?,"[welche, zahlungsmethoden, werden, akzeptiert]"


In [265]:
# Dataframe als CSV speichern
# Erzeugen Sie vorher einen Ordner `data/` auf der obersten Ebene Ihres Repositories
df.to_csv('../data/faq_cleaned.csv', index=False)

In [270]:
# Daten wieder einlesen
import ast

df = pd.read_csv('../data/faq_cleaned.csv')

# Stellt korrektes Einlesen der Spalte als Liste von Strings sicher
df['tokens'] = df['tokens'].apply(ast.literal_eval)

**15.1 Aufgabe:**
- Fügen Sie dem DataFrame eine neue Spalte `token_count` hinzu, in der Sie die Anzahl an Tokens speichern. 
- Fügen Sie eine weitere Spalte `tokens_sorted` hinzu, die die sortierten Tokens beinhaltet. 


## Weiterführende Ressourcen

* http://www.python.org - Offizielle Python Webseite. 
* http://www.python.org/dev/peps/pep-0008 - PEP8 Pythonn Styleguide. 
* http://www.greenteapress.com/thinkpython/ - Frei zugängliche Python Einführung. 
* https://www.w3schools.com/python/default.asp - W3 School Python Tutorial. 