# 4.1
In Bezug auf die Zentrale Fragestellung sind die wichtigesten Felder:
* year
* population scaled
* NetMigration scaled

Die ersten beiden Felder sind essenziell, da sie wesentliche Einflussfaktoren auf die Netto-Migration darstellen:

* **year** repräsentiert den zeitlichen Verlauf und zeigt Trends oder Muster über die Jahre hinweg.
* **population** scaled spiegelt die Grösse der Bevölkerung wider, die direkt mit der Netto-Migration zusammenhängt (grössere Länder tendieren zu höheren Wanderungsbewegungen).

Das zuletzt genannte Feld, **netMigration** scaled, ist die Zielvariable, die vorhergesagt werden soll. Ohne dieses "Ziel" wäre es nicht möglich, die Fragestellung zu beantworten oder eine sinnvolle Analyse durchzuführen.

# 4.2
Diese Aufgabe habe ich schon beim vergeleichen der Modelle in **3.2** gemacht. Nochmals zum wiederholen habe ich folgende Messmetriken verwendet:
* Mean Squared Error (MSE)
* R² Score
* Score

Meine Wahl nochmals begründet:
Ich habe mich für den Random Forest Algorithmus entschieden, da er mit einem Mean Squared Error (MSE) von 0.000116, einem R²-Wert von 0.442980 und einem Score von 0.579 die besten Ergebnisse liefert. Diese Metriken zeigen, dass Random Forest die Datenstruktur effektiv modelliert und eine hohe Vorhersagegenauigkeit bietet. Alternativen wie Gradient Boosting oder lineare Regression erreichen zwar respektable Werte, schneiden jedoch schlechter ab. Random Forest ist zudem robust gegenüber Überanpassung und eignet sich gut für nicht-lineare Zusammenhänge. Das Modell wurde auf den Trainingsdaten trainiert und evaluiert, um optimale Ergebnisse zu gewährleisten.

# 4.3

In [23]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import confusion_matrix, recall_score, precision_score

# Load the dataset
data = pd.read_csv("./world_pop_mig_186_countries_scaled.csv")

# Prepare the data for the USA
usa_data = data

# Define features (X) and target variable (y)
X = usa_data[['year', 'population scaled']]
y = usa_data['netMigration scaled']

# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Train the Random Forest Regressor
model = RandomForestRegressor(random_state=42, n_estimators=100, max_depth=10)
model.fit(X_train, y_train)

# Generate predictions for the test set
y_pred = model.predict(X_test)

# Set a threshold using the median of y_test
threshold = y_test.median()

# Convert predictions and actual values into classes based on the threshold
y_pred_classes = (y_pred >= threshold).astype(int)
y_test_classes = (y_test >= threshold).astype(int)

# Calculate the confusion matrix
conf_matrix = confusion_matrix(y_test_classes, y_pred_classes, labels=[0, 1])
print("Confusion Matrix:")
print(conf_matrix)

# Calculate sensitivity (recall) and specificity (precision)
sensitivity = recall_score(y_test_classes, y_pred_classes)
specificity = precision_score(y_test_classes, y_pred_classes)

# Print the results
print(f"Sensitivity (Recall): {sensitivity:.2f}")
print(f"Specificity (Precision): {specificity:.2f}")


Confusion Matrix:
[[892 298]
 [842 349]]
Sensitivity (Recall): 0.29
Specificity (Precision): 0.54


In [26]:
from sklearn.metrics import classification_report

# Generate the classification report
report = classification_report(y_test_classes, y_pred_classes)
print("Classification Report:")
print(report)


Classification Report:
              precision    recall  f1-score   support

           0       0.51      0.75      0.61      1190
           1       0.54      0.29      0.38      1191

    accuracy                           0.52      2381
   macro avg       0.53      0.52      0.49      2381
weighted avg       0.53      0.52      0.49      2381



Ich habe diesen Classification Report aus dem Auftrag LA_1670 übernommen, da er die Ergebnisse der Wahrheitsmatrix noch detaillierter beschreibt und zusätzliche Metriken liefert.

# 4.4

### **Hypothese auf die schwache Leistung des Models**
Anfangs zeigte das Modell eine schwache Leistung, was vermutlich an der geringen Anzahl an Trainingsdaten (nur USA-Daten mit 63 Zeilen) und den kleinen Unterschieden in den skalierten Werten lag. Nach dem erneuten Training mit allen Daten des Datensatzes verbesserte sich die Modellleistung, insbesondere bei grösseren Differenzen in der Bevölkerung. Dennoch wurde deutlich, dass selbst mit mehr Daten nur bei extrem grossen Datensprüngen in den Eingabewerten signifikante Veränderungen in den Vorhersagen erzwungen werden konnten. Dies weist darauf hin, dass die Datenmenge und Variabilität der Features entscheidend für die Modellleistung sind, aber möglicherweise weitere Optimierungen erforderlich sind.