# Crawling des österreichischen Volleyballteams - Kader Damen

## Einführung
Im 1. Assignment werden wir Informationen über die Volleyballspielerinnen des österreichischen Nationalteams sammeln. Es existiert eine Liste des Kaders sowie Detailseiten zu jeder Person, in denen die folgenden Daten enthalten sind:
- Name
- Körpergröße
- Dressnummer
- Position
  
Als Ergebnis präsentieren wir ein CSV-File mit den o.g. Datenpunkten und Informationen zu jeder Spielerin des Kaders.

Die Umsetzung erfolgt, wie im Assignment vorgegeben, mithilfe der Python-Libraries <i>Selenium</i> und <i>Beautiful Soup 4</i>.

### 1. Installation und Importieren der benötigten Libraries

In [None]:
!pip install selenium beautifulsoup4 requests pandas


In [None]:
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
import pandas as pd
from bs4 import BeautifulSoup

### 2. Selenium-Crawler auf die Haupt- und Damenkaderseite

In [None]:
# Chrome im Headless-Modus starten, da sonst Browser-Fenster aufpoppt
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument("--headless")

# WebDriver starten
driver = webdriver.Chrome(options=chrome_options)

try:
    driver.get("https://www.volleynet.at")
    # Warten, bis die Seite vollständig geladen ist und Definieren von explizitem Wait
    sleep_long = time.sleep(5)
    
    sleep_long
    wait = WebDriverWait(driver, 10)

    # Zuerst das Cookie-Banner schließen
    try:
        cookie_close_button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "div.cmplz-close")))
        cookie_close_button.click()
        print("✅ Cookie-Banner geschlossen")
    except Exception as e:
        print(f"\033[91m ❌ Cookie-Banner nicht gefunden oder konnte nicht geschlossen werden: {e}\033[0m")

    # Warte kurz nach dem Schließen des Cookie-Banners
    sleep_short = time.sleep(2)
    sleep_short

    # Navigiere zum Nationalteams-Menü
    try:
        nationalteams_menu = wait.until(EC.element_to_be_clickable((By.ID, 'menu-item-4424')))
        print(f"✅ Nationalteams Menü gefunden (\033[94m{nationalteams_menu.text}\033[0m)")
        
        action = ActionChains(driver)
        action.move_to_element(nationalteams_menu).perform()
        nationalteams_menu.click()
        sleep_short
        
    except Exception as e:
        print(f"\033[91m ❌ Fehler beim Navigieren zum Nationalteams-Menü: {e}\033[0m")

    # Navigiere zum Damenkader-Menü
    try:
        damen_menu = wait.until(EC.element_to_be_clickable((By.ID, 'menu-item-4434')))
        print(f"✅ Damenkader-Menü gefunden (\033[94m{damen_menu.text}\033[0m)")
        sleep_short
        
    except Exception as e:
        print(f"\033[91m ❌ Fehler beim Finden des Damenkader-Menüs: {e}\033[0m")

    # Selenium soll nun den Kader-Link anklicken
    try:
        kader_link = wait.until(EC.element_to_be_clickable((By.ID, 'menu-item-4471')))
        print(f"✅ Kader-Link gefunden (\033[94m{kader_link.text}\033[0m)")
        
        action.move_to_element(kader_link).perform()
        kader_link.click()

        sleep_long
        print(f"✅ Aktuelle URL nach dem Klick: \033[94m{driver.current_url}\033[0m")
        
    except Exception as e:
        print(f"\033[91m ❌ Fehler beim Finden oder Klicken auf den Kader-Link: {e}\033[0m")

except Exception as e:
    print(f"\033[91m ❌ Ein allgemeiner Fehler ist aufgetreten: {e}\033[0m")

### 3. Laden von Spielerinnen-Daten in einen DataFrame (BeautifulSoup4)

In [None]:
# Der Selenium-Webdriver befindet sich mit driver.current_url auf der Seite "https://www.volleynet.at/nationalteams/damen/kader/
# Dadurch können wir hier direkt mit BeautifulSoup weitermachen und die Daten aus der Tabelle, die auf der Webseite ist, holen


try:
    # BeautifulSoup für die Hauptseite + Kaderseite
    
    except Exception as e:
        print(f"Fehler beim Extrahieren der Spielerinnenliste: {e}")


# Ausgabe des DataFrames




### 4. Crawlen und Datenextraktion auf Detailseite der Spielerinnen

In [None]:
# Um die Daten später miteinander abgleichen und Veränderungen, Unstimmigkeiten o.ä. zu finden, wird ein zweiter df erstellt
df_details = pd.DataFrame(columns=["Name", "Größe", "Dressnummer", "Position"])

# Im vorherigen Schritt wurden die URLs zu den Detailseiten in eine separate Spalte des DFs gespeichert
# Nun wird mittels For-Schleife die URL entnommen, Daten aus den Detailseiten extrahiert und in einen weiteren DataFrame geladen,
# um die Daten aus beiden DFs anschließend miteinander vergleichen zu können

for index, player in df_kader_information.iterrows():
    try:
        # Crawling auf die jeweiligen Detailseiten
        driver.get(player['detail_URL'])
        sleep_short
        
        # Ab hier werden Daten mithilfe von BeautifulSoup gemappt und in ein DF geladen
       
        
    except AttributeError as e:
        print(f"❌ Fehler beim Abrufen von Spielerinnen-Informationen auf der Seite {player['detail_URL']}: {e}")
    except Exception as e:
        print(f"❌ Ein unerwarteter Fehler ist aufgetreten bei {player['detail_URL']}: {e}")
        raise


# Ausgabe des DataFrames

### 5. Abgleich der DFs und Bereinigen der Daten

In [None]:
# Schließen des Selenium Browsers am Ende
driver.quit()

# Ressourcen & Source-Docs

## Selenium
1. [WebDriver](https://www.geeksforgeeks.org/selenium-webdriver-commands/)
2. [Implizites und explizites Warten](https://www.geeksforgeeks.org/explicit-waits-in-selenium-python/)
3. [ActionChains](https://www.geeksforgeeks.org/action-chains-in-selenium-python/)
4. [element_to_be_clickable](https://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.support.expected_conditions)
5. [move_to_element](https://www.geeksforgeeks.org/move_to_element-method-action-chains-in-selenium-python/?ref=rp)

## Beautiful Soup 4
1. a
2. b

## Cleanup Code
1. a
2. b

# Challenges bei der Implementierung


#### Cesar Laura
-
-


#### Dilly Julian
-
-

#### Ecker Annina, Implementierung von Selenium:
- Zunächst hatte ich Probleme mit dem WebDriver, da ich nicht die `headless`-Variante kannte. Da ich dann zusätzlich wegen dem Cookie-Banner etwas unsicher war, und ob der WebDriver damit immer gut umgehen würde, habe ich mich auch bei der `headless`-Option dazu entschieden, den Cookie-Banner wegklicken zu lassen.
- Die Navigation zu den Menü-Items war grundsätzlich kein Problem, aber es gab einige Eigenschaften bei `element_to_be_clickable` wie das _implicite_ oder _explicite Wait_, wo ich mich einlesen musste.