In der Aufgabenstellung bezieht sich der Begriff **"Bericht"** auf eine **zusammenfassende Dokumentation** eurer Analyse, die folgende Elemente enthalten sollte:

---

### **Was genau ist mit "Bericht" gemeint?**  
Es handelt sich um ein **Dokument**, das eure Arbeitsschritte, Ergebnisse und Erkenntnisse strukturiert präsentiert – kein Essay, sondern eine **technisch-analytische Zusammenfassung**.  

#### **1. Typische Bestandteile**  
- **Kurze Einleitung**:  
  - Ziel des Projekts, verwendete Datenquellen (inkl. Links).  
- **Methodik**:  
  - Wie habt ihr die Daten analysiert? (Tools: Python, Bibliotheken, Bereinigungsschritte).  
- **Ergebnisse**:  
  - Die **10 geforderten Visualisierungen** mit kurzen Interpretationen (z. B.: *"Rasse X hat höhere Aggressivität, korreliert mit Krankheit Y"*).  
- **Fazit**:  
  - Wichtigste Erkenntnisse, Limitationen (z. B. Datenlücken).  

#### **2. Mögliche Formate**  
- **Jupyter Notebook**: Ideal, da Code, Grafiken und Text kombiniert werden können.  
  - Beispielstruktur:  
    ```markdown
    # Projektanalyse: Hunderassen  
    ## 1. Einleitung  
    Datensatz: [Link], Fragestellung: Zusammenhang Größe ↔ Persönlichkeit.  
    ## 2. Methodik  
    Genutzte Bibliotheken: Pandas, Seaborn. Datenbereinigung: Fehlende Werte entfernt.  
    ## 3. Ergebnisse  
    ### Grafik 1: Verteilung der Größen  
    ![Grafik](plot1.png)  
    *Interpretation: 60% der Rassen sind mittelgroß.*  
    ```  
- **PowerPoint**: Falls gefordert, aber weniger detailliert (nur Kernpunkte).  
- **Dashboard** (z. B. mit Plotly Dash): Interaktiv, aber aufwändiger.  

#### **3. Abgrenzung zur "Dokumentation"**  
- **Bericht**: Fokus auf **Ergebnisse** (nicht jeder Code-Schritt).  
- **Dokumentation**: Würde zusätzlich jeden Arbeitsschritt detailliert erklären (z. B. warum `df.dropna()` genutzt wurde).  
  → In eurem Projekt reicht der **Bericht** (sofern nicht explizit "Dokumentation" verlangt ist).  

---

### **Beispiel-Aufbau für euren Bericht**  
1. **Titelblatt**: Projektname, Teammitglieder, Datum.  
2. **Einleitung** (½ Seite):  
   - *"Wir analysierten den Zusammenhang zwischen Größe und Persönlichkeit bei Hunderassen."*  
3. **Daten & Methoden** (1 Seite):  
   - *"Datenquelle: Kaggle-Datensatz + AKC-Statistiken. Genutzte Tools: Pandas für Bereinigung, Seaborn für Visualisierungen."*  
4. **Ergebnisse** (Hauptteil):  
   - Pro Grafik 2–3 Sätze (z. B.: *"Grafik 3 zeigt: Kleine Rassen sind tendenziell ängstlicher (p=0.02)."*).  
5. **Anhang**: Code-Snippets (nur relevante Ausschnitte) oder Screenshots.  

---

### **Was NICHT im Bericht steht**  
- Unnötige Code-Blöcke (z. B. `import pandas as pd`).  
- Rohdaten-Tabellen (nur aussagekräftige Ausschnitte).  
- Theoretische Hintergründe (außer kurz zur Einordnung).  

---

### **Tipps für Top-Bewertung**  
✅ **Klare Struktur**: Überschriften, Nummerierung der Grafiken.  
✅ **Visuelle Konsistenz**: Einheitliche Farben/Schriftarten in Grafiken.  
✅ **Quellenangaben**: Für externe Daten (AKC, VDH etc.).  

🚀 **Bonus**: Fügt eine **Zusammenfassung (Abstract)** von 3–4 Sätzen am Anfang ein!  

Beispiel:  
> *"Dieser Bericht analysiert 120 Hunderassen hinsichtlich Größe und Persönlichkeit. Die Ergebnisse zeigen, dass große Rassen signifikant trainierbarer sind (p<0.05), jedoch anfälliger für Hüftdysplasie. Datenquellen: Kaggle, OFA."*  

Falls ihr ein **Jupyter Notebook** nutzt, exportiert es zusätzlich als PDF (über `File → Download as → PDF`).


---
---
---

![image.png](attachment:image.png)

# EINLEITUNG

Hunderassen unterscheiden sich nicht nur äußerlich, sondern auch in ihrem Temperament, ihrer Energie und ihrer Eignung für verschiedene Lebensweisen. Doch welche Faktoren beeinflussen eigentlich die Beliebtheit einer Hunderasse? Sind Rassen aus bestimmten Ursprungsländern durchschnittlich gesünder? Und wirkt sich die Größe des Hundes auf entstehende Kosten aus?

Grundlage bilden der Datensatz: „Dog Breeds Ranking - Best to Worst“ (Kaggle, https://www.kaggle.com/datasets/jainaru/dog-breeds-ranking-best-to-worst) sowie ergänzendes Webscraping der Ursprungsländer (Wikipedia API) 
Mit Python-basierten Analysemethoden (Pandas, Matplotlib, Seaborn) werden die Daten aufbereitet, ausgewertet und in aussagekräftigen Visualisierungen dargestellt.

Ziel der Analyse ist es, Muster und Trends zu identifizieren, die Aufschluss darüber geben, warum manche Hunderassen beliebter sind als andere und welche Eigenschaften besonders prägend für ihre Einstufung sind. Die Ergebnisse können nicht nur für angehende Hundebesitzer interessant sein, sondern auch für Züchter, Tierheime und Hundetrainer relevante Einblicke liefern.

Im Folgenden werden die methodische Vorgehensweise, die wichtigsten Erkenntnisse und mögliche Anwendungsbereiche der Analyse detailliert vorgestellt.

---

# METHODIK

## Projektmanagement
- GitHub-Repository mit klarer Ordnerstruktur 
```bash
project/  
├── data/                  # Rohdaten und bereinigte Datensätze  
├── analysis/              # Jupyter Notebooks mit Code (Analyse & Visualisierung)  
├── docs/                  # Bericht (Notebook/PPT), Präsentationsslides  
├── README.md              # Kurze Zusammenfassung des Projekts
└── requirements.txt       # Python-Abhängigkeiten  
```
(https://github.com/PiniPinella/TheDogFiles)

- Teamkommunikation: Agile Workflow-Steuerung via Slack mit Canva für Designentscheidungen  
- Projektplanung: Tagesplanung mit Meilensteinen

## Technische Umsetzung 
### - Datenaufbereitung  
#### Währungsspalten von string zu float konvertieren
```python
def convert_money_columns(df, currency_pattern=r"\$"):
    # Spaltennamen mit $ erkennen
    name_mask = df.columns.str.contains(currency_pattern)

    # Spaltenwerte mit $ erkennen (nur object-Spalten)
    object_cols = df.select_dtypes("object")
    value_mask_obj = object_cols.apply(lambda s: s.str.contains(currency_pattern, na=False)).any()

    # value_mask auf alle Spalten ausweiten (False bei anderen)
    value_mask_full = df.columns.isin(value_mask_obj[value_mask_obj].index)

    # Kombinieren
    money_cols = df.columns[name_mask | value_mask_full]

    # Umwandlung
    df[money_cols] = (
        df[money_cols]
        .apply(lambda s: (
            s.astype(str)
             .str.replace(r"[^\d.\-]", "", regex=True)
             .replace("", np.nan)
             .astype(float)
        ))
    )
    return df
```
#### Herkunftsländer über WIKI-API ermitteln (kleiner Ausschnitt)
```python
origin_cache = {}                           # Cache: speichert bereits ermittelte Länder pro Rasse, um doppelte API‑Aufrufe zu vermeiden

def fetch_origin(breed):
    """Ermittelt das Herkunftsland einer Rasse (String oder None) und nutzt einen Cache, um Mehrfachanfragen zu vermeiden."""
    if breed in origin_cache:               # falls der Rassenname bereits in origin_cache vorhanden ist:
        return origin_cache[breed]          # gebe das dort gespeicherte Land zurück
    
    qid = get_qid(breed)                    # hole die Q-ID
    country = get_countries_from_qid(qid)   # hole das Herkunftsland

    origin_cache[breed] = country           # Cache aktualisieren (auch wenn country None ist)
    time.sleep(0.3)                         # kleine Pause um nicht zu viele Anfragen zu schicken
    return country                          # Herkunftsland (oder None) zurückgeben
```
### - Kernanalysen  
- Feature-Engineering:  
  ```python
  # Krankheitsdaten bereinigen
  def simplify_ailments(text):
      return text.split('(')[0].strip() if pd.notna(text) else 'Unknown'
  ```
- Statistische Tests: Korrelationsanalysen mit `df.corr()`  

### - Visualisierungen  
| Zweck | Visualisierungstyp | Codebeispiel |  
|-------|-------------------|--------------|  
| Rankings | Interaktive Scatterplots | `px.scatter(data, x='LONGEVITY(YEARS)', y='popularity ranking')` |  
| Größenvergleich | Boxplots | `xxxx` |  


---

# ERGEBNISSE

## 1. Zusammenhang Lebenserwartung und Popularität
+++ hier interaktive grafik einfügen ---> irgendwie im html-format ++
+++ 2-3 beschreibende Sätze dazu


## 2. Zusammenhang x vs y

## 3. Zusammenhang von 42

---

# FAZIT

keine ahnung, xyz


---