# wdb - Prüfungsvorbereitung

## LE1 - RegEx

Regex, kurz für reguläre Ausdrücke, ist eine Sprache, mit der man Muster in Texten beschreiben und gezielt suchen kann. Sie ermöglicht es, nach bestimmten Zeichen, Wörtern oder Zahlenfolgen zu suchen, indem man verschiedene Optionen wie Wiederholungen, Gruppen oder Alternativen definiert. Dadurch lassen sich Texte effizient durchsuchen, überprüfen oder verändern. Reguläre Ausdrücke sind in vielen Programmen und Programmiersprachen ein wichtiges Werkzeug, etwa bei der Validierung von Eingaben oder beim Ersetzen von Textstellen. Trotz ihrer grossen Flexibilität und Leistungsfähigkeit können komplexe Regex-Ausdrücke allerdings schnell unübersichtlich und schwer lesbar werden.

![image.png](attachment:image.png)

In [1]:
import re








### Übungsaufgaben von Dozenten

Exercise: Extract the first and last name from an email address using groups, 

assuming the email address has the format firstname.lastname@domain.com.

In [2]:
mail_adress = 'firstname.lastname@domain.com'

text = 'From firstname.lastname@domain.com Sat Jan 5 09:14:16 2008'

In [3]:
first = re.findall(r'^(\S+)@', mail_adress)
second = re.findall(r'@(\S+)$', mail_adress)
test = re.findall(r'^From .*@([^ ]*)', text)


first, second, test

(['firstname.lastname'], ['domain.com'], ['domain.com'])

In [4]:
mail_adress = 'firstname.lastname@domain.com'
mail_adresses_l = ['firstname.lastname@domain.com', 'hp.ht@domain.com', 'luk.lak@domain.com']



result = re.findall(r'^[\w.]+', mail_adress)




usernames = []
for email in mail_adresses_l:
    match = re.search(r'^([\w.]+)', email)
    if match:
        usernames.append(match.group(1))

# print(usernames)



result, usernames


(['firstname.lastname'], ['firstname.lastname', 'hp.ht', 'luk.lak'])

### selber erstelle Aufgaben

***Exercise 1:***

Extract the username and domain separately from an email address using groups, assuming the email address has the format username@domain.com.

(Example: For user123@example.com, extract user123 and example.com as separate groups.)



In [5]:
email = 'username.user@domain.com'


In [6]:
username = re.findall(r'^[\w.]+', email)
domain = re.findall(r'[\w.]+$', email)

print(f'Username:\n{username}')
print(f'Domain:\n{domain}')

Username:
['username.user']
Domain:
['domain.com']


In [7]:
email = 'username.user@domain.com'

username = re.findall(r'^[\w\.-]+', email)
domain = re.findall(r'[\w]+.com$', email)


username, domain



match = re.search(r'^([\w\.-]+)@([\w\.-]+)$', email)
if match:
    username, domain = match.groups()
    print("Username:", username)
    print("Domain:", domain)

Username: username.user
Domain: domain.com


***Exercise 2:***

Extract all digits from a string that contains a mix of letters, digits, and special characters.

In [8]:
text = "abc123!@#456xyz"


In [9]:
text = "abc123!@#456xyz"


digits = re.findall(r'\d+', text)
digits

['123', '456']


***Exercise 3:***

Check if a string is a valid German postal code (exactly 5 digits).



In [10]:
postcode = "12345"


In [11]:
checker = bool(re.findall(r'^\d{5}$', postcode))




In [12]:
postcode = "12345"


checker = bool(re.findall(r'^\d{5}$', postcode))


print(f'Postcode {postcode} is correct') if checker==1 else print('Wrong lenght!')

Postcode 12345 is correct



***Exercise 4:***

Extract all valid phone numbers from a text. Assume a phone number starts with a '+' followed by 9 to 15 digits.



In [13]:
text = "Call +491234567890 or +441234567890123"


In [14]:
text = "Call +491234567890 or +441234567890123"


phone_nr = re.findall(r'\+\d+', text)
phone_nr

['+491234567890', '+441234567890123']

***Exercise 5:***

Extract the domain part (after the '@') from an email address.

In [15]:
email = 'username.user@domain.com'


In [16]:
# mail

domain = re.findall(r'@(\S+)', email)
domain

['domain.com']


***Exercise 6:***

Find all occurrences of dates in the format DD.MM.YYYY in a text.


In [17]:
text = "Start 01.01.2023, end 31.12.2023. Danchach starben 900 Personen am 02.04.1908."


In [18]:
re.findall(r'\d{2}\.\d{2}\.\d{4}', text)

['01.01.2023', '31.12.2023', '02.04.1908']

In [19]:
text = "Start 01.01.2023, end 31.12.2023."


dates = re.findall(r'\d{2}.\d{2}.\d{4}', text)
dates

['01.01.2023', '31.12.2023']


***Exercise 7:***

Extract all words that start with a capital letter from a given sentence.



In [20]:
sentence = "Python is Fun and Regex is Powerful, PIZZA."


In [21]:
re.findall(r'\b[A-Z][a-z]*\b', sentence)

['Python', 'Fun', 'Regex', 'Powerful']

In [22]:
sentence = "Python is Fun and Regex is Powerful, PIZZA."


capital_l = re.findall(r'\b[A-Z][a-z]*\b', sentence)
capital_l

['Python', 'Fun', 'Regex', 'Powerful']

***Exercise 8:***

Check if a password meets the following criteria: at least 8 characters, at least one uppercase letter, one lowercase letter, and one digit.



In [23]:
password = "Passw0rd"


In [24]:
checker = bool(re.fullmatch(r'^(?=.*[A-Z])(?=.*[a-z])(?=.*\d).{8}$', password))

print('Password is sufficient.') if checker==1 else print('Check the neede cirteria.')

Password is sufficient.


In [25]:
password = "Passw0rd"


checker = bool(re.fullmatch(r'^(?=.*[A-Z])(?=.*[a-z])(?=.*\d).{8,}$', password))
print('Password is sufficient') if checker == 1 else print('Your Password is not strong enough. Make sure to have 8character, at least one uppercase letter, one lowercase letter, and one digit.')


Password is sufficient


***Exercise 9:***

Extract all hashtags (words starting with '#') from a social media post.


In [26]:
post = "#Python #regex #coding is fun!"


In [27]:
re.findall(r'\#(\w+)', post)

['Python', 'regex', 'coding']

In [28]:
post = "#Python #regex #coding is fun!"


hashtags = re.findall(r'#(\w+)', post)
hashtags

['Python', 'regex', 'coding']


***Exercise 10:***

Replace all occurrences of the word "Python" (case-insensitive) with "Python Programming" in a given text.

In [29]:
text = "Python is fun. python is powerful."


In [30]:
re.sub(r'python', r'Python', text)

'Python is fun. Python is powerful.'

In [31]:
text = "Python is fun. python is powerful."


cor_text = re.sub(r'python', 'Python Programming', text, flags=re.IGNORECASE)
cor_text

'Python Programming is fun. Python Programming is powerful.'

## Network Data

### TCP - Transport Control Protocol

![image.png](attachment:image.png)

### HTTP - HyperText Transfer Protocol

- Invented for Webpages
- invented url (Uniform Recours Locator)
![image.png](attachment:image.png)


request respons cicle:![image-2.png](attachment:image-2.png)

## LE2 - XPath/JSONPath

XPath und JSONPath sind Ausdruckssprachen, mit denen gezielt Daten aus XML- bzw. JSON-Strukturen abgefragt werden koennen. In Python nutzt man XPath, um bestimmte Elemente oder Attribute innerhalb von XML-Dokumenten zu finden, waehrend JSONPath fuer den gezielten Zugriff auf Werte in komplexen JSON-Objekten verwendet wird. Beide Methoden erleichtern es, grosse oder verschachtelte Datenssaetze effizient und speichersparend nach relevanten Informationen zu durchsuchen, ohne jedes Mal die gesamte Datei laden oder manuell durchlaufen zu müen.




### Übungsaufgaben von Dozenten
Exercise: Extract the name of every employee who has a salary of over 90k from the following JSON structure 

(using Python with the jsonpath_ng library):

In [32]:
from jsonpath_ng.ext import parse
import json

import time

In [33]:
data= '''    {
    "company": {
        "name": "TechNova",
        "location": "Zurich",
        "departments": [
        {
            "name": "Engineering",
            "manager": "Alice",
            "employees": [
            {
                "id": 1,
                "name": "Bob",
                "role": "Backend Developer",
                "skills": ["Python", "Docker", "PostgreSQL"],
                "salary": 95000,
                "active": true
            },
            {
                "id": 2,
                "name": "Carol",
                "role": "Data Scientist",
                "skills": ["Python", "Scikit-learn", "Pandas"],
                "salary": 98000,
                "active": false
            }
            ]
        },
        {
            "name": "Marketing",
            "manager": "David",
            "employees": [
            {
                "id": 3,
                "name": "Eve",
                "role": "SEO Specialist",
                "skills": ["SEO", "Google Analytics"],
                "salary": 72000,
                "active": true
            }
            ]
        }
        ]
    }
    }'''

In [35]:
info = json.loads(data)


start = time.time()
# get the names of the employees with 90k1 salary using json package
for department in info['company']['departments']:
    for employee in department['employees']:
         if employee['salary'] >= 90000:
            print('Name:', employee['name'], ', Salary:', employee['salary'] )
dauer1 = time.time() - start
print('Zeit fuer Schleife:', dauer1,'\n\n')



start = time.time()
# get the names of the employees with 90k1 salary using jsonpath_ng package
expr = parse('$.company.departments[*].employees[?(@.salary > 90000)].name')
names = [match.value for match in expr.find(info)]

print(names)
dauer2 = time.time() - start
print('Zeit fuer Schleife:', dauer2)


verhaeltnis = dauer1 / dauer2 if dauer2 > 0 else float('inf')
print(f'\n\nDie Schleife ist etwa {verhaeltnis:.2f} mal schneller als jsonpath-ng.')



Name: Bob , Salary: 95000
Name: Carol , Salary: 98000
Zeit fuer Schleife: 0.0006310939788818359 


['Bob', 'Carol']
Zeit fuer Schleife: 0.023254871368408203


Die Schleife ist etwa 0.03 mal schneller als jsonpath-ng.


### selber erstelle Aufgaben

Exercise 1:

a) Extract the name of every employee who has a salary of over 90k from the following XML structure 

b) Extract the count of people with a salary over 90k

c) Extract a list of the skils for each employee


In [None]:
import xml.etree.ElementTree as ET

In [None]:
xml_data = '''
<company>
    <name>TechNova</name>
    <location>Zurich</location>
    <departments>
        <department>
            <name>Engineering</name>
            <manager>Alice</manager>
            <employees>
                <employee>
                    <id>1</id>
                    <name>Bob</name>
                    <role>Backend Developer</role>
                    <skills>
                        <skill>Python</skill>
                        <skill>Docker</skill>
                        <skill>PostgreSQL</skill>
                    </skills>
                    <salary>95000</salary>
                    <active>true</active>
                </employee>
                <employee>
                    <id>2</id>
                    <name>Carol</name>
                    <role>Data Scientist</role>
                    <skills>
                        <skill>Python</skill>
                        <skill>Scikit-learn</skill>
                        <skill>Pandas</skill>
                    </skills>
                    <salary>98000</salary>
                    <active>false</active>
                </employee>
            </employees>
        </department>
        <department>
            <name>Marketing</name>
            <manager>David</manager>
            <employees>
                <employee>
                    <id>3</id>
                    <name>Eve</name>
                    <role>SEO Specialist</role>
                    <skills>
                        <skill>SEO</skill>
                        <skill>Google Analytics</skill>
                    </skills>
                    <salary>72000</salary>
                    <active>true</active>
                </employee>
            </employees>
        </department>
    </departments>
</company>
'''


In [None]:
company = ET.fromstring(xml_data)
lst = company.findall('departments/department/employees/employee')
print('department count: ', len(lst))

# a)
lst_names= []
for item in lst:
    salary = int(item.find('salary').text)
    name = item.find('name').text
    if salary >= 90000:
        lst_names.append(name)

print(f'\nMitarbeiter mit Gehalt über 90k: \n{lst_names}\n')


#b)
count = 0

for item in lst:
    salary = int(item.find('salary').text)
    if salary >= 90000:
        count += 1

print('Anzahl Mitarbeitende mit Gehalt über 90k:', count)


# c)
lst_skills = []

for item in lst:
    name = item.find('name').text
    skills = []
    skill_element = item.find('skills')
    if skill_element is not None:
        for skill in skill_element.findall('skill'):
            skills.append(skill.text)

    lst_skills.append([name, skills])

print('Skills der Mitarbeitenden:', lst_skills)


department count:  3

Mitarbeiter mit Gehalt über 90k: 
['Bob', 'Carol']

Anzahl Mitarbeitende mit Gehalt über 90k: 2
Skills der Mitarbeitenden: [['Bob', ['Python', 'Docker', 'PostgreSQL']], ['Carol', ['Python', 'Scikit-learn', 'Pandas']], ['Eve', ['SEO', 'Google Analytics']]]


**Was du wissen musst:**

- Grundlagen von XML (extensible markup language) und JSON:
  - Verstehe, wie Daten in XML (hierarchisch, mit Elementen und Attributen) und JSON (Objekte, Arrays, Schlüssel-Wert-Paare) strukturiert sind.

- XPath:
  - XPath ist eine Abfragesprache, um gezielt Knoten (Elemente, Attribute, Texte) in XML-Dokumenten zu adressieren und auszulesen
  - XPath-Ausdrücke navigieren durch den XML-Baum, z.B. /store/book/title findet alle Titel von Büchern.
  - XPath kann einzelne oder mehrere Knoten gleichzeitig selektieren.
  - Praktische Anwendung z.B. in XSLT, Web Scraping, API-Tests, Multi-step Monitoring.

- JSONPath:
  - JSONPath ist das Pendant zu XPath für JSON-Daten.
  - Mit JSONPath kannst du gezielt auf Werte oder Strukturen in JSON zugreifen, z.B. $.store.books[*].title für alle Buchtitel.
  - JSONPath verwendet eine eigene Syntax, ähnlich wie bei der Navigation durch Objekte in Programmiersprachen.
  - JSONPath ist nützlich, um grosse oder verschachtelte JSON-Daten gezielt zu filtern und auszuwerten.

- Vergleich XPath vs. JSONPath:
  - Eigenschaft	XPath (XML)	JSONPath (JSON)
  - Zielt auf	XML-Knoten/Attribute	JSON-Objekte/Werte
  - Syntax	/pfad/zu/knoten	$.pfad.zu.knoten
  - Anwendung	XML-Transformation, Datenextraktion	Datenfilterung, API-Analyse



**Praktische Tools:**

- Online Evaluatoren (z.B. Freeformatter, JSONPath Online Evaluator) zum Testen und Üben von XPath- und JSONPath-Ausdrücken.
- Browser-Inspector: XPath für Webelemente direkt im Browser finden und testen.


**Welche Materialien du dir genauer anschauen solltest:**

- XPath Tutorial (W3schools, Coursera, Altova, homepage-webhilfe):
  - Für ein grundlegendes und fortgeschrittenes Verständnis der XPath-Syntax, Navigation und typischer Anwendungsfälle.
- JSONPath Online Evaluator & Freeformatter:
  - Zum Üben und Testen von JSONPath-Ausdrücken an eigenen oder Beispiel-JSON-Daten.
- Stack Overflow & Browser-Tools:
  - Für Praxisbeispiele, Problemlösungen und Tipps zur Anwendung von XPath/JSONPath in echten Projekten.
- Kapitel zu XML und JSON in Coursera:
  - Für den Gesamtüberblick über die Datenformate und deren praktische Nutzung in Web Services.


## LE3 - Web API / API Consumption

### Übersicht

**RESTful - Representational State Transfer**

schauen: https://www.youtube.com/watch?v=xpeQz7Hsfz0 , https://www.youtube.com/watch?v=lsMQRaeKNDk

***→ Kommunikation zwischen dem Client und dem Server***

Weitverbreiteter standartisierter Weg zum austauschen von Daten.
- Stadartisiert
- Skalierbar (im Code und in Achitektur gut skalierbar)
- stateless (gleicher Input gibt immer denselben Output, da nichts in Variablen gespeichert wird, verschiedene Container geben denselben output)

***Die 6 Constraints:***
- Client-Server: Klare Trennung zwischen Client (Nutzeroberflaeche) und Server (Daten/Logik).
- Stateless: Jeder Request enthaelt alle notwendigen Infos; der Server speichert keinen Sitzungszustand.
- Cacheable: Antworten müssen angeben, ob sie zwischengespeichert werden dürfen, um Effizienz zu steigern.
- Uniform Interface: Einheitliche, standardisierte Schnittstelle (z.B. HTTP-Methoden, Ressourcen per URI, HATEOAS).
- Layered System: Das System kann aus mehreren Schichten bestehen, z.B. mit Proxies oder Load-Balancern; Client kennt interne Struktur nicht.
- Code on Demand (optional): Server kann auf Wunsch Code (z.B. Skripte) an den Client schicken, der dort ausgefuehrt wird.

***→ Merksatz: Trennung, Zustandslos, cache, Einheitlich, Schichten, (optional) Code senden.***

Die sechs REST-Constraints in kurzen Worten zusammengefasst:
- Warum ist die "Uniform Interface" das wichtigste Constraint bei REST
- Wie beeinflusst die "Stateless"-Eigenschaft die Skalierbarkeit von REST APIs
- Was bedeutet "HATEOAS" und warum ist es für REST wichtig
- Welche Rolle spielt das Layered System in der Flexibilität von RESTarchitekturen

→ Problem API: Overfetching und underfetching

***Requesttypen***

Bsp. ein Webshop der Soft- und Hardware verkauft → was kann nun abgefragt werden:
- Ceate → POST → neu Artikel erfassen 
- Read → GET → inforamtionen holen
- Update → PUT → Inforamtionen (preis; Name) updaten
- Delete → DELETE → Artikel löschen
- → quadaplikation

![image.png](attachment:image.png)


***Aufbau eines Requests:***

![image-2.png](attachment:image-2.png)

***GET - Request***
import requests

url = "https://jsonplaceholder.typicode.com/posts/1"

response = requests.get(url)

print(response.status_code)   # z.B. 200

print(response.json())        # Antwort als Dictionary

---

***POST - Request***
import requests

api_url = "https://jsonplaceholder.typicode.com/todos"

todo = {"userId": 1, "title": "Buy milk", "completed": False}

response = requests.post(api_url, json=todo

print(response.status_code)   # z.B. 201

print(response.json())        # Antwort mit neuer Ressource

---

***PUT - Request***
import requests

url = "https://jsonplaceholder.typicode.com/posts/1"

updated_data = {
    "id": 1,
    "title": "Neuer Titel",
    "body": "Aktualisierter Inhalt",
    "userId": 1
}

response = requests.put(url, json=updated_data)

print(response.status_code)   # z.B. 200

print(response.json())        # Antwort mit aktualisierter Ressource

---


***DELETE - Request***
import requests

url = "https://jsonplaceholder.typicode.com/posts/1"

response = requests.delete(url)

print(response.status_code)   # z.B. 200 oder 204

print(response.text)          # Meist leer

---
***Aufbau Response:***

bei einem GET Daten meist als JSON
bei den anderen meist bloss der Statusupdate ob der Request erfolgreich war.


***Status***

- Status: 2XX - Request war erfolgreich
- Status: 4XX - Request hat einen Error beim Client
- Status: 5XX - Request hat einen Error beim Server


- Client-Fehler (4xx):
  - 400 Bad Request: Anfrage ist fehlerhaft oder unvollstaendig.
  - 401 Unauthorized: Authentifizierung fehlt oder ist ungueltig.
  - 403 Forbidden: Zugriff verweigert, obwohl Authentifizierung vorliegt (keine Berechtigung).
  - 404 Not Found: Ressource existiert nicht oder falsche URL.
  - 405 Method Not Allowed: HTTP-Methode (z.B. POST, GET) ist fuer diese Ressource nicht erlaubt.
  - 409 Conflict: Konflikt mit aktuellem Zustand der Ressource (z.B. doppelter Eintrag).
  - 422 Unprocessable Entity: Anfrage ist syntaktisch korrekt, aber enthaelt semantische Fehler.
  - 429 Too Many Requests: Zu viele Anfragen in kurzer Zeit (Rate-Limit erreicht).
- Server-Fehler (5xx):
  - 500 Internal Server Error: Allgemeiner Serverfehler.
  - 502 Bad Gateway: Fehler bei der Weiterleitung durch einen Gateway/Proxy.
  - 503 Service Unavailable: Dienst ist aktuell nicht verfuegbar (z.B. Wartung).
  - 504 Gateway Timeout: Zeitueberschreitung bei der Serverantwort


![image-3.png](attachment:image-3.png)

***GraphQL***

schauen: https://www.youtube.com/watch?v=eIQh02xuVw4

- GraphQL ist eine Abfragesprache (Query Language) und ein Laufzeitsystem fuer APIs, das es Clients erlaubt, genau die Daten anzufordern, die sie benoetigen – nicht mehr und nicht weniger.
- Das loest das typische REST-Problem des Overfetching (zu viele Daten) und Underfetching (zu wenige Daten), weil bei REST die Serverantworten meist fest vorgegeben sind und oft mehrere Endpunkte abgefragt werden muessen, um alle benoetigten Informationen zu bekommen.
- Bei GraphQL erfolgt der Zugriff immer ueber einen einzigen Endpunkt. Die Abfrage beschreibt exakt, welche Felder und Strukturen benoetigt werden. Die Antwort kommt als JSON zurueck, das nur die angeforderten Daten enthaelt.
- Die Struktur und Moeglichkeiten der Abfrage werden durch ein Schema festgelegt, das stark typisiert ist und sowohl vom Server als auch vom Client verstanden wird.


### selber erstellte Aufgaben

1. What is the difference between HTTP status codes 401 and 403?

2. How can you authenticate to a REST API using Bearer tokens?

3. What is a RESTful API and what are its main principles?

4. How do you handle authentication errors in a REST API?

5. What does the HTTP 404 status code mean?

6. When might a server return a 500 error for an API request?

7. What is the purpose of the HTTP OPTIONS method in a REST API?

8. How do you test a REST API endpoint using Python’s Requests library?

9. What is the role of the .htaccess file in web server configuration?

10. What are some common causes of a 403 Forbidden error in web applications?

11. How do you secure a REST API to prevent unauthorized access?

12. What is the difference between GET and POST methods in HTTP?

13. How can you debug a 403 error when calling a REST API?

14. What is the difference between REST and GraphQL?

15. How do you set up authentication for a Flask-based REST API?

16. What is the purpose of the Authorization header in HTTP requests?

17. How do you write unit tests for a Flask REST API?

18. What is the role of middleware in API security?

19. How do you document a REST API using Swagger/OpenAPI?

20. What are some best practices for error handling in REST APIs?

---

1. What is the difference between HTTP status codes 401 and 403?

401 Unauthorized means the request lacks valid authentication credentials for the requested resource.
403 Forbidden means the server understood the request but refuses to authorize it, even if the user is authenticated.

2. How can you authenticate to a REST API using Bearer tokens?

You add an Authorization header to your HTTP request with the value Bearer <token>, where <token> is your authentication token.

3. What is a RESTful API and what are its main principles?
A RESTful API (Representational State Transfer) is an architecture style for networked applications. Its main principles are:

Client-Server separation

Statelessness (each request contains all necessary information)

Cacheability

Uniform interface (resources identified in requests, manipulation through representations, self-descriptive messages, hypermedia as the engine of application state)

Layered system

Code on demand (optional)

4. How do you handle authentication errors in a REST API?
Return a 401 Unauthorized or 403 Forbidden status code with a clear error message in the response body.

5. What does the HTTP 404 status code mean?
404 Not Found means the requested resource could not be found on the server.

6. When might a server return a 500 error for an API request?
A 500 Internal Server Error is returned when the server encounters an unexpected condition that prevents it from fulfilling the request.

7. What is the purpose of the HTTP OPTIONS method in a REST API?
The OPTIONS method is used to describe the communication options for the target resource, such as allowed HTTP methods.

8. How do you test a REST API endpoint using Python’s Requests library?
You use the requests module to send HTTP requests and check responses, for example:

python

import requests

response = requests.get('https://api.example.com/resource')

print(response.status_code)



9. What is the role of the .htaccess file in web server configuration?
The .htaccess file is used to configure directory-level settings on Apache web servers, such as URL rewriting, authentication, and access control.

10. What are some common causes of a 403 Forbidden error in web applications?
- Insufficient permissions for the authenticated user
- IP address blocking
- Directory listing disabled
- Access control rules in server configuration

11. How do you secure a REST API to prevent unauthorized access?
Use authentication (e.g., API keys, OAuth), authorization (e.g., role-based access), HTTPS, input validation, and rate limiting.

12. What is the difference between GET and POST methods in HTTP?
GET requests retrieve data from the server and should be idempotent.

POST requests send data to the server to create or update a resource, often with side effects.

13. How can you debug a 403 error when calling a REST API?
- Check authentication credentials
- Verify user permissions
- Review server logs
- Check for IP restrictions or firewall rules

14. What is the difference between REST and GraphQL?
- REST uses predefined endpoints and standard HTTP methods.
- GraphQL allows clients to query exactly the data they need using a single endpoint and a flexible query language.

(15. How do you set up authentication for a Flask-based REST API?
Use Flask extensions like Flask-JWT, Flask-HTTPAuth, or OAuth libraries to implement token-based or session-based authentication.)

16. What is the purpose of the Authorization header in HTTP requests?
The Authorization header is used to send credentials (such as tokens or basic auth) to authenticate the client to the server.

17. How do you write unit tests for a Flask REST API?
Use testing frameworks like pytest with Flask’s test client to simulate HTTP requests and check responses, for example:

python
def test_api_endpoint(client):
    response = client.get('/api/resource')
    assert response.status_code == 200


18. What is the role of middleware in API security?
Middleware processes requests before they reach the main application logic, enabling tasks like authentication, logging, and input validation.

19. How do you document a REST API using Swagger/OpenAPI?
You write an OpenAPI specification (YAML or JSON file) describing endpoints, methods, parameters, and responses, then use tools like Swagger UI for interactive documentation.

20. What are some best practices for error handling in REST APIs?
- Return appropriate HTTP status codes
- Provide clear, consistent error messages
- Include error details in the response body
- Log errors for debugging
- Use standard error formats



## LE4 -  Web Crawling / Web Scraping Web Scraping

### Übersicht
**Web Scraping:**

- Du verstehst den Aufbau von HTML-Seiten und kannst gezielt Elemente und Texte extrahieren.
- Typische Tools: Python mit Libraries wie BeautifulSoup, Requests, Selenium.
- Anwendungsfall: z.B. Google-Suchergebnisse automatisch auslesen.

**Web Crawling:**
- Du kannst programmatisch Links auf Webseiten folgen, um Daten aus mehreren Seiten oder Domains zu sammeln.
- Notwendig, wenn du grosse Mengen an Daten aus unstrukturierten Quellen brauchst (z.B. Nachrichtenartikel verschiedener Zeitungen).
- Crawler sind oft komplexer, weil sie Navigation, Zustandsverwaltung und Fehlerbehandlung abdecken müssen.

**Wichtige Themen:**
- robots.txt:
  - Eine Textdatei im Root-Verzeichnis einer Website, die angibt, welche Bereiche von Bots gecrawlt werden duerfen und welche nicht.
  - Sie enthaelt Regeln wie User-agent, Disallow, Allow, und ggf. Crawl-delay.
  - Sie ist ein Hinweis an Bots, kein technischer Schutz – das Ignorieren ist technisch moeglich, aber oft unethisch.
  - Sie hilft, Serverlast zu steuern und sensible Bereiche auszuschliessen.
  - ![image.png](attachment:image.png) 
  - https://www.youtube.com/watch?v=v6EjwLZikME
- Fehlerbehandlung:
  - Webseiten koennen sich aendern, Scraping kann blockiert werden, Captchas und Bot-Detection sind typische Herausforderungen.
  - Gute Scraper pruefen auf Fehler, passen sich an und respektieren robots.txt.
- Testing:
  - Scraper und Crawler sollten automatisiert getestet werden, z.B. mit Unit-Tests oder Mock-Seiten.
- Bot-Erkennung umgehen:
  - User-Agent wechseln, Pausen einbauen (Crawl-delay respektieren), Proxies nutzen – aber immer rechtliche und ethische Aspekte beachten.


***Was solltest du noch genauer nachschlagen?***
- robots.txt im Detail: Syntax, typische Direktiven, wie du sie ausliest und beachtest.
- Selenium: Wie du dynamische Seiten (mit JavaScript) automatisiert ausliest.
- Fehlerbehandlung und Anti-Bot-Strategien: Typische Fehlerquellen (Captchas, Rate-Limits, IP-Blocking) und wie du damit umgehst.
- Testing von Scraping-Tools: Wie du Scraper automatisiert testest (z.B. mit Mock-Servern oder Testseiten).

***Empfohlene Lernmaterialien:***
- Medium: Learn how to scrape the web
- DEV Community: Introduction to web scraping with python
- YouTube: Web Scraping in Python (Part 1): Getting started
- YouTube: Building a news crawler and web scraper with Python
- Python Scrapy Tutorial
- Selenium Tutorials (YouTube, BrowserStack)


10 Lernfragen
1. Was ist der Unterschied zwischen Web Scraping und Web Crawling?
2. Wie ist eine typische HTML-Seite aufgebaut und wie findest du gezielt Elemente darin?
3. Welche Rolle spielt die robots.txt-Datei beim Web Scraping und wie liest du sie aus?
4. Was bedeutet die Direktive Disallow in einer robots.txt?
5. Wie kannst du mit Python eine Website crawlen und dabei Links automatisch folgen?
6. Was sind typische Herausforderungen beim Scraping dynamischer Webseiten (z.B. mit JavaScript)?
7. Wie kannst du Bot-Erkennung durch Webseiten erkennen und umgehen?
8. Welche ethischen und rechtlichen Aspekte musst du beim Web Scraping beachten?
9. Wie testest du, ob dein Scraper oder Crawler robust gegen Aenderungen auf der Zielseite ist?
10. Wie kannst du mit Selenium eine Seite automatisiert oeffnen und Inhalte extrahieren?

---


1. Was ist der Unterschied zwischen Web Scraping und Web Crawling?

Web Scraping bedeutet, gezielt Inhalte (z.B. Text, Tabellen, Bilder) von einer oder mehreren Webseiten zu extrahieren.
Web Crawling bezeichnet das automatische Navigieren durch Webseiten, indem Links verfolgt werden, um grosse Mengen an Daten aus vielen Seiten zu sammeln.


2. Wie ist eine typische HTML-Seite aufgebaut und wie findest du gezielt Elemente darin?

Eine HTML-Seite besteht aus verschachtelten Tags (z.B.' .<_html>, <_body>, <_div>, <_a>, <_p>').
Elemente findest du mit Selektoren wie Tag-Name, Klassen (class), IDs (id) oder CSS-Selektoren, z.B. mit BeautifulSoup: soup.find('div', class_='headline').


3. Welche Rolle spielt die robots.txt-Datei beim Web Scraping und wie liest du sie aus?

Die robots.txt gibt an, welche Bereiche einer Website von Bots gecrawlt werden duerfen und welche nicht.
Sie wird im Root-Verzeichnis einer Seite abgelegt und kann mit Tools oder Python (z.B. urllib.robotparser) ausgelesen werden.


4. Was bedeutet die Direktive Disallow in einer robots.txt?

Disallow gibt an, welche Pfade oder Bereiche fuer Bots gesperrt sind. Beispiel: Disallow: /private/ verbietet das Crawlen von /private/.


5. Wie kannst du mit Python eine Website crawlen und dabei Links automatisch folgen?

Mit Requests/BeautifulSoup kannst du Seiten laden und Links extrahieren (soup.find_all('a')).
Ein Crawler besucht jede gefundene URL, speichert besuchte Seiten und folgt neuen Links rekursiv.


6. Was sind typische Herausforderungen beim Scraping dynamischer Webseiten (z.B. mit JavaScript)?

Viele Inhalte werden erst durch JavaScript nachgeladen und sind im HTML-Quelltext nicht sichtbar.
Loesung: Tools wie Selenium oder Playwright nutzen, die einen echten Browser steuern und das gerenderte DOM auslesen.


7. Wie kannst du Bot-Erkennung durch Webseiten erkennen und umgehen?

Anzeichen: Captchas, ungewoehnliche Fehlermeldungen, IP-Blocking, verlangsamte Antworten.
Umgehen: User-Agent setzen, Pausen einbauen, Proxies verwenden, Cookies speichern – aber immer ethisch und legal bleiben.


8. Welche ethischen und rechtlichen Aspekte musst du beim Web Scraping beachten?

Die Nutzungsbedingungen der Website beachten, robots.txt respektieren, keine Server ueberlasten, keine geschuetzten Daten extrahieren.
Scraping kann rechtlich problematisch sein, wenn Urheberrechte oder Datenschutz verletzt werden.


9. Wie testest du, ob dein Scraper oder Crawler robust gegen Aenderungen auf der Zielseite ist?

Schreibe Unit-Tests, die HTML-Beispiele simulieren.
Nutze Mock-Server oder Testdaten.
Ueberpruefe regelmaessig, ob Selektoren noch funktionieren, und baue Fehlerbehandlung ein.

 10. Wie kannst du mit Selenium eine Seite automatisiert oeffnen und Inhalte extrahieren?

Mit Selenium startest du einen Browser (z.B. Chrome), laedst die Seite, wartest auf das Laden von Elementen und liest dann Inhalte aus, z.B. mit driver.find_element_by_xpath() oder driver.find_elements_by_css_selector().

## LE5 - Webfeed

**Wesentliche Inhalte:**

- Webfeeds sind standardisierte Formate, mit denen Websites aktuelle Inhalte (z.B. News, Blogposts) maschinenlesbar bereitstellen.
- Die beiden wichtigsten Formate sind RSS und Atom. Beide basieren auf XML und strukturieren Inhalte in klar definierten Tags.
- Ein RSS-Feed besteht meist aus einem <channel> mit Metadaten (Titel, Link, Beschreibung) und mehreren <item>-Elementen (je ein Beitrag mit Titel, Link, Beschreibung, Datum, ggf. Autor und Bild).
- Atom ist moderner und präziser spezifiziert als RSS, ebenfalls XML-basiert, aber mit klareren Vorgaben für Datentypen, Namensräume und Struktur. Atom ist ein offizieller IETF-Standard und kann verschiedene Inhaltstypen (Text, HTML, Multimedia) eindeutig kennzeichnen., Beide Feeds können von Feedreadern, Browsern oder Programmen (z.B. Python mit feedparser) ausgelesen werden.

**Was solltest du noch vertiefen?**
- Unterschiede zwischen RSS und Atom: Strukturelle Details, Vorteile/Nachteile, Einsatzbereiche.
- ![image.png](attachment:image.png)
- https://www.youtube.com/watch?v=wdZ_96-yR6I
- XML-Grundlagen: Syntax, Namensräume, wie du XML programmatisch analysierst.
- Feedparser in Python: Wie du Feeds ausliest, Einträge filterst und Metadaten nutzt.
- Feed-Validierung: Wie du prüfst, ob ein Feed korrekt aufgebaut ist.
- Erweiterte Feed-Nutzung: z.B. ETag/Last-Modified für effizientes Abrufen.


**Empfohlene Lernmaterialien:**
- Wikipedia: RSS
- data2type: XML-Technologien | Newsfeeds mit RSS und Atom
- jcutrer.com: Python Tutorial: How to Parse and Combine RSS News headlines using feedparsed
- Pythonhosted: ETag and Last-Modified Headers — feedparser
---
10 Lernfragen und Antworten
1. Was ist ein Webfeed?
Ein Webfeed ist ein maschinenlesbares Format (meist XML), das aktuelle Inhalte einer Website in strukturierter Form bereitstellt.

2. Welche beiden Hauptformate gibt es für Webfeeds?
RSS und Atom.

3. Auf welchem technischen Format basieren RSS und Atom?
Beide basieren auf XML.

4. Wie ist ein typischer RSS-Feed aufgebaut?
Ein <rss>-Element mit <channel> (Metadaten) und mehreren <item>-Elementen (je ein Beitrag mit Titel, Link, Beschreibung, Datum usw.).

5. Was ist der Unterschied zwischen RSS und Atom?
Atom ist moderner, präziser spezifiziert, erlaubt verschiedene Datentypen und ist ein offizieller Standard. RSS ist älter, weniger streng und weiter verbreitet.

6. Wie werden Feeds meist genutzt?
Sie werden von Feedreadern, Browsern oder Programmen abonniert, um automatisch über neue Inhalte informiert zu werden.

7. Wie kannst du einen RSS- oder Atom-Feed programmatisch auslesen?
Mit Python z.B. mit dem Modul feedparser, das die XML-Struktur analysiert und die Einträge als Objekte bereitstellt.

8. Welche typischen Elemente enthält ein RSS-Feed-Item?

<_title>, <_description>, <l_ink>, <_author>, <_guid>, <_pubDate>, ggf. <_image>[6].


9. Was ist der MIME-Type für Atom-Feeds?
application/atom+xml.

10. Warum ist Atom für Entwickler oft attraktiver als RSS?
Weil Atom sauberer spezifiziert, flexibler und offiziell standardisiert ist und verschiedene Inhaltstypen eindeutig unterstützt