# Projektdokumentation: West Nile Virus Prediction

## 1. Einleitung
West Nile Virus (WNV) ist ein durch Mücken übertragenes Virus, das Menschen, Vögel und andere Tiere infizieren kann. Ziel dieses Projekts ist die Entwicklung eines Vorhersagemodells, das basierend auf Umwelt- und Wetterdaten die Wahrscheinlichkeit eines WNV-Ausbruchs vorhersagt. Das Vorgehen orientiert sich am CRISP-DM Prozess, der in sechs Schritte gegliedert ist: Project Understanding, Data Understanding, Data Preparation, Modeling, Evaluation und Deployment.

## 2. CRISP-DM: Project Understanding

### 2.1 Content
WNV ist ein bedeutendes Gesundheitsproblem in vielen Teilen der Welt. In diesem Projekt nutzen wir historische Daten, um ein Modell zu entwickeln, das das Auftreten von WNV in Mückenproben vorhersagen kann.

### 2.2 Project Goal
Das Ziel ist es, ein Vorhersagemodell zu erstellen, das die Wahrscheinlichkeit des Auftretens von WNV basierend auf verschiedenen Faktoren wie Wetterbedingungen und Mückenpopulationen vorhersagen kann. Die Vorhersage sollte besser als der Major Classifier mit 55% Genauigkeit sein.

### 2.3 Domain Knowledge
Faktoren wie Temperatur, Niederschlag und Mückenpopulationen beeinflussen die Verbreitung von WNV. Historische Daten zeigen, dass bestimmte Umweltbedingungen die Wahrscheinlichkeit eines WNV-Ausbruchs erhöhen.

## 3. CRISP-DM: Data Understanding

### 3.1 Data Description
Die Daten umfassen historische Wetterdaten, Mückenpopulationen und Berichte über WNV in den USA. Insgesamt stehen mehrere tausend Einträge zur Verfügung, die verschiedene Attribute wie Temperatur, Niederschlag, Anzahl der Mücken und positive WNV-Befunde umfassen.

### 3.2 Attribute Understanding
Jedes Attribut wird detailliert beschrieben, um die Dimension und Bedeutung der Daten zu verstehen. Beispielsweise sind Temperatur und Niederschlag kontinuierliche Variablen, während WNV-Berichte binäre Variablen sind.

### 3.3 Data Quality
Die Daten werden auf Vollständigkeit, Richtigkeit und Relevanz überprüft. Fehlende oder fehlerhafte Werte werden identifiziert und entsprechend behandelt.

### 3.4 Data Visualization
Verschiedene Diagramme und Plots werden verwendet, um die Verteilung und Korrelation der Daten zu visualisieren. Beispielsweise kann die Beziehung zwischen Temperatur und der Anzahl der WNV-Fälle dargestellt werden.

## 4. CRISP-DM: Data Preparation

### 4.1 Data Selection
Relevante Attribute werden ausgewählt und irrelevante entfernt. Dies umfasst die Auswahl von Wetterdaten, Mückenpopulationen und historischen WNV-Berichten.

### 4.2 Data Cleaning
Fehlende und fehlerhafte Werte werden bereinigt. Tupel mit fehlenden Werten werden entfernt oder durch plausible Werte ersetzt.

### 4.3 Data Transformation and Integration
Die Daten werden transformiert und in ein für die Modellierung geeignetes Format gebracht. Dies umfasst die Normalisierung kontinuierlicher Variablen und die Erstellung binärer Dummy-Variablen für kategorische Attribute.

## 5. CRISP-DM: Modeling

### 5.1 Model Selection
Zwei Modelle werden zur Vorhersage verwendet: ein Entscheidungsbaum und eine logistische Regression. Beide Modelle werden trainiert und validiert, um die beste Leistung zu erzielen.

### 5.2 Logistic Regression
Die logistische Regression wird mit verschiedenen Datensätzen trainiert. Die Performance wird durch Kreuzvalidierung und Testdatensätze bewertet.

### 5.3 Decision Tree
Ein Entscheidungsbaum wird mit den gleichen Datensätzen wie die logistische Regression trainiert. Die Parameter des Baums werden optimiert, um Overfitting zu vermeiden und die Genauigkeit zu maximieren.

### 5.4 Random Forest
Ein Random Forest wird verwendet, um die Leistung des Entscheidungsbaums zu vergleichen. Die Ergebnisse werden anhand der Genauigkeit und Robustheit der Modelle bewertet.


## 6. CRISP-DM: Evaluation

### 6.1 Confusion-Matrix
Die Confusion-Matrix wird verwendet, um die Leistung der Modelle zu bewerten. Treffer und Fehlalarme werden analysiert, um die Genauigkeit der Vorhersagen zu beurteilen.


### 6.2 Comparison and Assessment
Die Ergebnisse der verschiedenen Modelle werden verglichen. Die beste Genauigkeit wird durch den Entscheidungsbaum mit detaillierten Daten erzielt. Die Modelle zeigen eine Verbesserung von 10% gegenüber dem Major Classifier.

## 7. Abschluss und Fazit

### 7.1 Reflexion des Vorgehens
Die Datenaufbereitung war entscheidend für die Modellierung. Fehlende und fehlerhafte Daten wurden erfolgreich bereinigt, und die Modellparametrisierung führte zu einer deutlichen Verbesserung der Vorhersagegenauigkeit.

### 7.2 Ausblick
Zukünftige Arbeiten könnten zusätzliche Datenquellen einbeziehen und komplexere Modelle wie neuronale Netze verwenden, um die Vorhersagegenauigkeit weiter zu verbessern.