# Mini Challenge DLBS Oliver - Fabian
## Zuverlässige Lokalisierung von Hunden in Überwachungs- und Alltagsaufnahmen
 
Im Rahmen dieser Untersuchung steht die präzise und robuste Lokalisierung von **Hunden** im Vordergrund, wobei Bilddaten aus **Überwachungskameras** (sowohl Indoor als auch Outdoor) und **„normalen“ Fotoaufnahmen** herangezogen werden. Ziel ist es, ein auf Hunde spezialisiertes Convolutional Neural Network (CNN) zu trainieren und systematisch zu evaluieren, wie zuverlässig es Hunde in unterschiedlich komplexen und realistischen Szenarien erkennen und lokalisieren kann.  
 
## 1. Eingrenzung des Anwendungsbereichs  
Wir fokussieren uns ausschliesslich auf die Klasse **Hund** und betrachten keine weiteren Heimtiere wie Katzen oder Kleintiere. Untersucht werden zwei Hauptquellen für Bilddaten:  
- **Überwachungskameras**: stationäre Video- oder Fotokameras, installiert in Innen- (z. B. Flure, Wohnzimmer) und Aussenbereichen (z. B. Hof, Garten).  
- **Normale Fotoaufnahmen**: manuell oder automatisch erstellte Bilder, welche Hunde frontal, seitlich oder von hinten zeigen, sowohl in Innenräumen als auch unter freiem Himmel.  
 
## 2. Vielfalt der Aufnahmeszenarien  
Um ein breites Spektrum typischer Anwendungssituationen abzudecken, werden folgende Aufnahmetypen in den Datensatz aufgenommen:  
1. **Überwachungskameras – Indoor**  
2. **Überwachungskameras – Outdoor**  
3. **Normale Fotos – Indoor** (Front-, Seiten-, Heckansicht)  
4. **Normale Fotos – Outdoor** (Front-, Seiten-, Heckansicht)  
5. **Komplexe Szenen** mit mehreren Hunden in einem Bild  
6. **Interaktive Szenen** mit Hunden in Anwesenheit von Menschen  
7. **Teilverdeckungen** durch Möbel, Decken oder andere Objekte (z. B. Sofa)  
 
Diese Diversität soll sicherstellen, dass das Modell nicht nur typische Überwachungsbilder lernt, sondern auch alle Facetten der Hundeform in unterschiedlichsten Kontexteinflüssen erfasst.
 
## 3. Zu untersuchende Einflussfaktoren  
Wir analysieren systematisch, wie die folgenden Störgrössen die Lokalisierungsgenauigkeit beeinflussen:  
- **Teilweise Verdeckung** (z. B. Hund unter einer Decke oder hinter Möbeln)  
- **Mehrfachüberlappung** (z. B. zwei oder mehr Hunde in engem Kontakt)  
- **Unruhiger Hintergrund** (komplexe Texturen oder visuelle Ablenkungen)  
- **Beleuchtungsschwankungen** (Tag-/Nachtbetrieb, Schattenwurf, künstliche Lichtquellen)  
- **Variable Bildqualität** (Auflösung, Kompressionsartefakte, Bildrauschen)  
- **Anwesenheit von Menschen** als potenzielle Interaktions- oder Störfaktoren  
 
Jeder dieser Faktoren wird in kontrollierten Testsets abgebildet, um ihren isolierten und kombinierten Einfluss auf die Performance zu bewerten.
 
## 4. Forschungsfrage und Hypothese  
**Forschungsfrage:**  
> In welchem Ausmass kann ein auf Hunde spezialisiertes CNN Hunde in den genannten Indoor- und Outdoor-Szenarien zuverlässig lokalisieren und welche der beschriebenen Einflussfaktoren beeinträchtigen die Lokalisierungsgenauigkeit am stärksten?  
 
**Hypothese:**  
> Wir erwarten, dass insbesondere **teilweise Verdeckungen** (z. B. durch Möbel oder andere Hunde) und **Mehrfachüberlappungen** zu einer signifikanten Verschlechterung der Erkennungsleistung führen, während moderate Hintergrundkomplexität und Beleuchtungsschwankungen weniger kritische Einbussen bewirken.

## Aktuelle Datenlage

Auf Basis der explorativen Analyse von vier Datensätzen mit unterschiedlichen Strukturen liegen folgende Kernergebnisse vor:

### 1. Datensatz- und Bildübersicht
- **Anzahl Datensätze:** 4 (Dataset 1–4)  
- **Strukturen:**  
  - Dataset 1: „annotations/images“  
  - Dataset 2–4: „train/test/valid“ im VOC-Format  
- **Einzigartige Bilder:** 5 299  
- **Annotationen (XML-Dateien):** 5 304  

### 2. Bounding-Box-Statistiken
- **Gesamtanzahl Objekte:** 6 216 Bounding-Boxen  
- **Mittlere Abmessungen (px):**  
  - Breite 156 ± 109  
  - Höhe 161 ± 110  
  - Fläche ca. 34 971 ± 55 421  
- **Verteilung (50%-Quartile):**  
  - Breite 130 px  
  - Höhe 134 px  
  - Fläche 15 480 px²  
- **Extremwerte:**  
  - Breiteste Box: 640 px  
  - Schmalste Box: 16 px  
  - Max. Flächenanteil: 409 600 px²  
  - Min. Flächenanteil: 496 px²  

### 3. Klassenverteilung
| Klasse    | Count | Anteil (%) |
|-----------|------:|-----------:|
| dog       | 3 416 |      54.96 |
| bird      | 1 223 |      19.67 |
| cat       | 1 190 |      19.14 |
| Abrador   |   128 |       2.06 |
| Shiba-Inu |   121 |       1.95 |
| Chihuahua |   113 |       1.82 |
| persons   |    16 |       0.26 |
| car       |     9 |       0.14 |
*Summe: 6 216 Objects*

### 4. Bildauflösungen
- **Breite (px):** 114 – 640 (M = 490 ± 126; Q1 = 375; Q3 = 640)  
- **Höhe (px):** 108 – 640 (M = 457 ± 142; Q1 = 333; Q3 = 640)  
- **Seitenverhältnis (w/h):** stark konzentriert um 1:1, Ausreißer bis 6.7  

### 5. Genutzte Datensätze & Links
- **Oxford-IIIT Pet Dataset** (Primärdatensatz): pixelgenaue Trimap-Annotationen, Kopf-ROI, Rassenlabels  
  – Link: https://www.robots.ox.ac.uk/~vgg/data/pets/  
- **Kaggle “Dog and Cat Detection”**: Indoor-/Outdoor-Mischung  
  – Link: https://www.kaggle.com/datasets/andrewmvd/dog-and-cat-detection?resource=download  
- **Roboflow Universe – Dogs OVDDC**: Überwachungskamera-Szenarien  
  – Link: https://universe.roboflow.com/wu-yuxuan-ovddc/dogs-5ulz9  
- **Roboflow Universe – AIVLE5-WORF0 ASDF-T4TSD**: komplexe Indoor-/Outdoor-Hintergründe  
  – Link: https://universe.roboflow.com/aivle5-worf0/asdf-t4tsd  
- **Roboflow Universe – Max-EVO5Q Dog UXSTE**: Hunde mit Mensch- und Möbelinteraktionen  
  – Link: https://universe.roboflow.com/max-evo5q/dog-uxste/browse?queryText=&pageSize=50&startingIndex=0&browseQuery=true  

---

## Empfehlungen für das weitere Vorgehen

1. **Fokussierung auf „dog“**  
   Entfernen aller Nicht-Dog-Annotationen, um ein reines Hunde-Detektionsproblem zu erhalten.

2. **Vereinheitlichung & Formatkonvertierung**  
   - Gemeinsame `train/val/test`-Aufteilung  
   - Konvertierung aller Annotationen in ein einheitliches Format (z. B. COCO JSON oder YOLO TXT)

3. **Ausgleich der Klassen- und Objektgrößenverteilung**  
   - (Under-/Over-)Sampling nach Bounding-Box-Flächenklassen

4. **Bildnormalisierung & Augmentation**  
   - Resize auf eine Standardgröße (z. B. 640 × 640 px)  
   - Simulierte Occlusions und Beleuchtungsvariationen

5. **Szenario-Metadaten markieren**  
   Labeln nach Indoor/Outdoor, Einzelhund/Mehrfachhund und Anwesenheit von Menschen für Subset-Analysen

6. **Challenge-Set für robuste Evaluation**  
   Separates Testset mit harten Fällen (starke Verdeckung, Überlappung, komplexe Hintergründe) zur gezielten Prüfung unserer Hypothese.
