# **Modelle zur Zeitreihenanalyse zur Vorhersage von Waldbränden in den USA**
## **Zeitreihenbericht**
### **Datenzeitraum**: 1992-2015
### **Erstellt von**: **Gruppe B**
#### Verantwortlich: F. Salinas

## **Zusammenfassung:** 

Da die Häufigkeit von Waldbränden in den USA stark saisonal ist, treten Waldbrände im Sommer exponentiell häufiger auf als im Winter. Temperatur, Luftfeuchtigkeit, Windgeschwindigkeit und die O₂-Gaskonzentration sind entscheidende Variablen, die die Varianz der Waldbrände zwischen verschiedenen Jahren erklären könnten. 

Hinsichtlich der Modelle wurden bereits eine Vielzahl unterschiedlicher Modelle mit verschiedenen Waldbrand-Datensätzen verwendet. Daher haben wir drei Modelltypen ausgewählt, die völlig unterschiedliche Ansätze und Komplexitätsstufen aufweisen: ARIMA, lineare Regression und das neuronale Netzwerk Long-Short-Term-Memory (LSTM). 

Da das LSTM-Modell weitaus komplexer ist als ARIMA- und lineare Regressionsmodelle, erwarten wir, dass dieses LSTM-Modell die niedrigeren Werte in den Fehlerindizes aufweist. Unsere Ergebnisse unterstützen das LSTM-Modell als dasjenige mit der besseren Fähigkeit zur Generalisierung. Darüber hinaus zeigt der Vergleich der Fehlerergebnisse nach Modelltyp, dass die monatlichen Daten stets die niedrigsten Fehlerwerte aufweisen. Daher wurde das LSTM-Modell mit monatlichen Daten als Eingabe verwendet, um das Jahr 2015 vorherzusagen, wobei die Daten von 1992 bis 2014 als Trainingsdaten dienten. Die Ergebnisse der Vorhersage für das Jahr 2015 sind vergleichsweise gut.

## **Ziel:** 

*Verwendung von täglich und monatlich registrierten Feuerereignissen in den USA von 1992 bis 2015, um ARIMA-, Regressions- und neuronale Netzwerkmodelle anzupassen. Das Modell mit den geringsten Fehlern in der Kreuzvalidierung wird für einen Vorhersagetest ausgewählt.*

## Referenzen 

### Kursmaterial
**Brockhaus, S. (2024).** *Angewandte Zeitreihenanalyse*. Hochschule München, Fakultät 07. [https://moodle.hm.edu](https://moodle.hm.edu) (eingeschränkter Zugriff)

**Hyndman, R.J., & Athanasopoulos, G. (2021).** *Forecasting: Principles and Practice* (3. Auflage).[https://otexts.com/fpp3/](https://otexts.com/fpp3/)


# **Inhaltsverzeichnis**

| Abschnitt                           | Unterabschnitte                                                                                      |
|-------------------------------------|------------------------------------------------------------------------------------------------------|
| **1. Datenbeschreibung**            | **1.1 Tägliche Daten**<br>**1.1.1 Tägliche Feuerhäufigkeit**<br>**1.1.2 Verteilung (nicht transformiert)**<br>**1.1.3 Verteilung (log-transformiert)**<br>**1.1.4 Zeitreihenzerlegung (täglich)**<br>**1.2 Monatliche Daten**<br>**1.2.1 Monatliche Feuerhäufigkeiten**<br>**1.2.2 Zeitreihenzerlegung (monatlich)**<br>**1.3 Atmosphärische Variablen** |
| **2. ARIMA-Modell**                | **2.1 Täglich**<br>**2.1.1 Automatische Modellauswahl**<br>**2.1.2 Stationaritätstest**<br>**2.1.3 Kreuzvalidierungs-Fehlerwerte**<br>**2.2 Monatlich**<br>**2.2.1 Automatische Modellauswahl**<br>**2.2.2 Stationaritätstest**<br>**2.2.3 Kreuzvalidierungs-Fehlerwerte** |
| **3. Regressionsmodell**           | **3.1 Täglich**<br>**3.1.1 Modell mit Zeitverzögerungen**<br>**3.1.2 Kreuzvalidierungs-Fehlerwerte**<br>**3.2 Monatlich**<br>**3.2.1 Modell nur mit Umweltvariablen**<br>**3.2.2 Kreuzvalidierungs-Fehlerwerte** |
| **4. Long Short-Term Memory Modell**| **4.1 Täglich**<br>**4.1.1 LSTM-Modell mit Verzögerungen**<br>**4.1.2 Kreuzvalidierungs-Fehlerwerte**<br>**4.2 Monatlich**<br>**4.2.1 LSTM-Modell mit Verzögerungen**<br>**4.2.2 Kreuzvalidierungs-Fehlerwerte** |
| **5. Modellvergleich und Auswahl**  | **5.1 Modellvergleich**                                                                              |
| **6. Prognose für 2015**            | **6.1 LSTM-Modell für monatliche Daten**                                                             |
| **7. Fazit**                        | **7.1 Optimierungsmöglichkeiten**                                                                   |
| **8. Datengenerierung**             | **8.1 Methodik für tägliche Daten**<br>**8.2 Atmosphärische Variablen**<br>**8.3 Ausgabedateien**<br>**8.4 Zusammenführung täglicher Daten mit externen Variablen**<br>**8.5 Datei mit täglichen Durchschnitten**<br>**8.6 Monatliche Daten** |


# **1. Datenbeschreibung**
<span id="datenbeschreibung"></span>
Die Daten wurden von [Kaggle: 1.88 Million US Wildfires](https://www.kaggle.com/datasets/rtatman/188-million-us-wildfires/data) bezogen. Dieser Datensatz enthält Zeilen, die das Entdeckungsdatum (JJ.MM.TT) von Waldbränden, Koordinatenvariablen und andere Details darstellen. Die wichtigsten Variablen in dieser Waldbrand-Zeitreihe sind das Datum, die geografische Breite und Länge. Das Entdeckungsdatum wird verwendet, um Zeilen nach spezifischen Daten zu gruppieren, unabhängig von den Koordinaten, wodurch die Variable **Tägliche Feuerzählungen** entsteht. Geografische Breite und Länge werden zusammen mit dem Entdeckungsdatum verwendet, um den nächstgelegenen Wert von Umweltvariablen aus anderen Datenbanken zuzuordnen. Dazu gehören Temperatur, Windgeschwindigkeit, Niederschlag und für monatliche Daten atmosphärische Gase wie CO₂ und O₂ (Quellen in Abschnitt 8.2). Dadurch können die relevanten Variablen in einer einzigen CSV-Datei konsolidiert werden.

Zwei Haupt-Datenframes wurden erstellt:
1. Tägliche Daten (1992–2015), die die Anzahl der Brände und geschätzte tägliche Mittelwerte der Umweltvariablen enthalten.
2. Monatliche Daten, die durch Gruppierung der täglichen Daten nach Monat und Jahr abgeleitet wurden, einschließlich monatlicher Mittelwerte der Umweltvariablen. Zusätzlich wurden monatliche Gasdaten hinzugefügt.

## **1.1 Tägliche Daten**
<span id="taegliche-daten"></span>

### **1.1.1 Tägliche Feuerhäufigkeit**
<span id="taegliche-feuerhaeufigkeit"></span>
Die Grafik zeigt, dass die Feuerhäufigkeit in den USA eine deutliche Saisonalität aufweist. Spitzenwerte der Waldbrandhäufigkeit treten in den wärmeren Monaten (März bis September, gelb markiert) auf. Eine zyklische Komponente könnte existieren, ist jedoch im ausgewählten Zeitraum nicht eindeutig.

![Tägliche Feuerhäufigkeit](Abbildungen/daily_fire_frequency.png)  
*Abbildung 1: Tägliche Häufigkeit von Waldbränden in den USA (1992–2015). Spitzenwerte entsprechen den wärmeren Monaten.*

### **1.1.2 Verteilung der Feuerzählungen (Täglich, nicht transformiert)**
<span id="verteilung-taeglich-nicht-transformiert"></span>
Die Verteilung der täglichen Gesamtanzahl von Waldbränden ist rechtsschief, da es viele Tage mit null Waldbränden gibt. Um dies zu beheben, wurden die Waldbrandzahlen transformiert.

![Verteilung der täglichen Feuerzählungen](Abbildungen/not_transformed_fire_counts_distribution.png)  
*Abbildung 2: Verteilung der täglichen Waldbrandzählungen vor der Transformation.*

### **1.1.3 Verteilung der Feuerzählungen (Täglich, logarithmisch transformiert)**
<span id="verteilung-taeglich-logarithmisch-transformiert"></span>
Die Waldbrandzahlen wurden mit dem natürlichen Logarithmus transformiert. Diese Transformation verbesserte die Verteilung, indem sie die Schiefe und den abrupten linken Rand adressierte. Alle Modelle in diesem Projekt verwenden logarithmisch transformierte Waldbrandzählungen als abhängige Variable.

![Logarithmische Verteilung der täglichen Feuerzählungen](Abbildungen/log_fire_counts_distribution.png)  
*Abbildung 3: Verteilung der logarithmisch transformierten täglichen Waldbrandzählungen.*

### **1.1.4 Zeitreihenzerlegung der logarithmisch transformierten täglichen Waldbrandzählungen**
<span id="zeitreihenzerlegung-taeglich"></span>
Die Zerlegung der täglichen Waldbranddaten hebt saisonale Komponenten hervor. Zyklische Komponenten können aus den Daten nicht eindeutig identifiziert werden.

![Zeitreihenzerlegung der logarithmisch transformierten täglichen Waldbrandzählungen](Abbildungen/daily_fire_count_stl_log_decomposition.png)  
*Abbildung 4: Zerlegung der logarithmisch transformierten täglichen Waldbrandzählungen in Trend-, saisonale und Restkomponenten.*

## **1.2 Monatliche Daten**
<span id="monatliche-daten"></span>
Dieser Datensatz wurde aus den täglichen Daten erstellt und mit monatlichen Gasdaten kombiniert (siehe erster Absatz von Abschnitt 1). Die starken linearen Trends in den Gasvariablen [Abbildung 7](#abbildung-7) E und F wurden mit einer Detrending-Transformation entfernt, um saisonale Varianz zu isolieren.

### **1.2.1 Monatliche Feuerhäufigkeiten nach Jahr**
<span id="monatliche-feuerhaeufigkeiten"></span>
Diese Grafik zeigt die Anzahl der Waldbrände pro Monat für jedes Jahr und offenbart ein bimodales saisonales Muster. Der Rückgang zwischen Mai und Juni erzeugt die bimodale Form in den Daten.

![Monatliche Feuerhäufigkeit nach Jahr](Abbildungen/monthly_fire_frequency_by_year.png)  
*Abbildung 5: Monatliche Waldbrandhäufigkeiten nach Jahr mit bimodalen saisonalen Mustern.*

### **1.2.2 Zeitreihenzerlegung der logarithmisch transformierten monatlichen Waldbrandanzahl**
<span id="zeitreihenzerlegung-monatlich"></span>
Die Zerlegung der monatlichen Waldbranddaten (log-transformiert) verbessert die Sichtbarkeit von Trends und saisonalen Mustern.

![Zeitreihenzerlegung der logarithmisch transformierten monatlichen Waldbrandanzahl](Abbildungen/monthly_fire_count_stl_log_decomposition.png)  
*Abbildung 6: Zerlegung der logarithmisch transformierten monatlichen Waldbrandanzahl in Trend-, saisonale und Restkomponenten.*

## **1.3 Beschreibung der atmosphärischen Variablen-Zeitreihen**
<span id="atmosphaerische-variablen"></span>
Die in den Datensätzen enthaltenen Umweltvariablen weisen starke saisonale Komponenten auf [Abbildung 7](#abbildung-7). Da die Häufigkeit von Waldbränden saisonal ist, sollten auch die potenziell relevanten Variablen für die Waldbrandhäufigkeit ein saisonales Muster aufweisen. Waldbrände treten häufiger in wärmeren und trockeneren Monaten auf. Die höheren Spitzen der Waldbrandhäufigkeit [Abbildung 7, rote Linie](#abbildung-7) steigen synchron mit den maximalen und minimalen Temperaturen über die Zeit an (Abbildung 7 A und B, blaue Linien). Variablen wie Windgeschwindigkeit, Niederschlag und Gase scheinen weniger synchron mit der Waldbrandhäufigkeit zu sein (Abbildung 7 C, D, E und F). Atmosphärische Gase (CO₂ und O₂) zeigen starke Trends (Abbildung 7 E und F). Um dies zu adressieren, wurden die Gaswerte durch Detrending transformiert.

![Zeitreihen der atmosphärischen Variablen](Abbildungen/Environmental_variables_time_series.png)  
*Abbildung 7: Zeitreihen der atmosphärischen Variablen im Vergleich zur Waldbrandhäufigkeit, einschließlich Temperatur, Windgeschwindigkeit und Niederschlag, mit entfernten Trends für Gase (CO₂, O₂).* Die monatlichen Daten werden dargestellt, da das saisonale Muster so leichter zu erkennen ist. A) Durchschnittliche monatliche Minimaltemperatur in °C. B) Durchschnittliche monatliche Maximaltemperatur in °C. C) Durchschnittliche monatliche Windgeschwindigkeit in m/s. D) Durchschnittlicher monatlicher Niederschlag in mm. E) Eine Messung pro Monat der O₂-Konzentration in Per-Meg-Einheiten. F) Eine Messung pro Monat der CO₂-Konzentration in Per-Meg-Einheiten.  
<span id="abbildung-7"></span>


# **2. ARIMA-Modell**
<span id="arima-modell"></span>
ARIMA-Modelle sind eine Kombination aus autoregressiven Modellen, gleitenden Durchschnittsmodellen und einem Differenzierungsverfahren. ARIMA-Modelle werden als ARIMA(p,d,q)(P,D,Q)[m] dargestellt. Das Symbol "m" steht für die Länge des saisonalen Zyklus.

Das autoregressive Modell ist ein multiples Regressionsmodell mit verzögerten Werten der Waldbrandhäufigkeit. Die Anzahl der Verzögerungen in einem Modell wird durch "p" und "P" dargestellt, für die nicht-saisonalen und saisonalen autoregressiven Parameter.

Die gleitende Durchschnittskomponente ist ein multiples Regressionsmodell, das vergangene Fehler als Prädiktoren für die Waldbrandhäufigkeit verwendet. Die Anzahl der Verzögerungen in einem Modell wird durch "q" und "Q" dargestellt, für die nicht-saisonalen und saisonalen Fehler der gleitenden Durchschnitte.

Die Differenzierung wird verwendet, um eine Differenzbildung auf die Daten anzuwenden. Dies dient als alternative Transformation, um komplexe Zeitreihenmuster stationär zu machen. Die Ordnung der Differenzierung in diesem Modell wird durch "d" und "D" dargestellt, für die nicht-saisonalen und saisonalen Differenzierungsparameter.

Die Stationarität der Daten ist erforderlich, um zuverlässige Prognosen zu erstellen. Wenn die Residuen (Abstände/Fehler) zwischen den Werten einer vorhergesagten Variable und den Werten eines Modells zeitunabhängig sind, hat das angepasste Modell die saisonale Varianz des Datensatzes erfasst. Dies bedeutet, dass der Fehler einer Prognose mit diesem Modell nur durch Zufallseffekte erklärt wird. Die Hauptprädiktoren für die Zukunft sollten genügen, um einen vorhergesagten Wert mit geringem Fehler zu erhalten.

Der Fehler zwischen der Vorhersage und den beobachteten Werten wurde durch folgende Indizes gemessen: Mittlerer quadratischer Fehler (MSE), Mittlerer absoluter Fehler (MAE) und Wurzel des mittleren quadratischen Fehlers (RMSE). Der mittlere quadratische Fehler ist der Durchschnitt der quadrierten Differenzen zwischen vorhergesagten und beobachteten Werten. Der mittlere absolute Fehler ist der Durchschnitt der absoluten Differenzen zwischen vorhergesagten und beobachteten Werten. Die Wurzel des mittleren quadratischen Fehlers ist die Quadratwurzel des mittleren quadratischen Fehlers, die den Vorteil hat, die Fehlerwerte in derselben Skala wie die Eingaben (logarithmische Waldbrandhäufigkeiten) zu liefern. Aufgrund dieser Eigenschaft konzentrieren wir uns auf den RMSE-Index, aber die Werte der anderen Indizes wurden als Ergänzung hinzugefügt ([siehe Abbildung 10](#abbildung-10)).

Die Stationarität kann visuell anhand verschiedener Darstellungen der Residuen beurteilt werden, die nach der Anpassung des Modells erzeugt wurden ([siehe beispielsweise Abbildung 8](#abbildung-8)). Plot A stellt die Residuen über die Zeit dar, die idealerweise wie ein weißes Rauschen aussehen sollten (eine Art Zufallsfunktion). Plot B ist das Häufigkeitshistogramm der Residuen. Dieses Diagramm sollte einer Standardnormalverteilung mit einem Erwartungswert von 0 ähneln. Plot C zeigt die Autokorrelation zwischen einem Residuenwert und allen vergangenen Residuenwerten derselben Variablen (Verzögerungen). Im Idealfall sollten Residuen nicht autokorreliert sein. In der Grafik sollten alle Korrelationswerte innerhalb des hellblauen Bereichs liegen, unabhängig von negativen oder positiven Korrelationswerten. 

Alle hier getesteten Modelle erreichten dieses ideale Szenario nicht. Zum Beispiel zeigt ([Abbildung 8C](#abbildung-8)) eine hohe Autokorrelation für die erste Verzögerung (Tag zuvor, Verzögerung = 1) und keine Autokorrelation mit den anderen 50 Verzögerungen, was nicht ideal ist. Dies bedeutet, dass die Modellvorhersagen fast vollständig auf der Anzahl der Waldbrände vom Vortag basieren. Diese Art von Vorhersagemodell überanpasst sehr gut, zeigt jedoch bei der Kreuzvalidierung geringe Prognosefähigkeiten ([siehe Abbildung 10](#abbildung-10)). Plot D ist die partielle Autokorrelation der Residuen. Dieses Diagramm ist ähnlich wie das Autokorrelationsdiagramm, verwendet jedoch stattdessen eine Anpassung der Verzögerungen. Diese Eigenschaft ist nützlich, um zu überprüfen, ob ein autoregressives Modell die Stationarität der Residuen des aktuellen angepassten Modells verbessern könnte. In ([Abbildung 8D](#abbildung-8)) betrug die Ordnung des verwendeten autoregressiven Modells 3. Es ist wichtig zu erwähnen, dass die Ordnungen der ARIMA-Modelle für tägliche und monatliche Daten mit einer Auto-ARIMA-Funktion ermittelt wurden, die die Eingabe-Waldbrandzahlen (logarithmiert) verwendet und verschiedene Kombinationen von Werten für die Parameterordnungen (p,d,q)(S,Q,D)[m] testet.

## **2.1 Täglich**
<span id="arima-taeglich"></span>

### **2.1.1 Automatische ARIMA-Modellauswahl mit `auto_arima` in Python**
<span id="arima-automatische-auswahl"></span>
Das ausgewählte ARIMA-Modell mit dem niedrigsten AIC-Wert ist: ARIMA(3,1,5)(0,0,0)[0].

### Gleichung:

Δyₜ = φ₁Δyₜ₋₁ + φ₂Δyₜ₋₂ + φ₃Δyₜ₋₃ − θ₁ϵₜ₋₁ − θ₂ϵₜ₋₂ − θ₃ϵₜ₋₃ − θ₄ϵₜ₋₄ − θ₅ϵₜ₋₅ + ϵₜ

### Legende:
- **Δyₜ**: Der differenzierte Wert von \(y\) zum Zeitpunkt \(t\)
- **φ₁, φ₂, φ₃**: Autoregressive (AR)-Koeffizienten
- **Δyₜ₋₁, Δyₜ₋₂, Δyₜ₋₃**: Differenzierte Werte von \(y\) bei Verzögerung 1, 2 und 3
- **θ₁, θ₂, θ₃, θ₄, θ₅**: Koeffizienten des gleitenden Durchschnitts (MA)
- **ϵₜ₋₁, ϵₜ₋₂, ϵₜ₋₃, ϵₜ₋₄, ϵₜ₋₅**: Residuale Fehler (weißes Rauschen) bei Verzögerung 1, 2, 3, 4 und 5
- **ϵₜ**: Residualer Fehler (weißes Rauschen) zum Zeitpunkt \(t\)

Hier wurden nur die Daten der Waldbrandhäufigkeit (log-transformiert) verwendet, d.h. es wurden keine Umweltvariablen als erklärende Variablen in dieses Modell aufgenommen. Daher basiert das Modell vollständig auf der Autokorrelation zwischen den Werten selbst. Da die Beschreibung der Residuen dieses Modells in Abschnitt 2 erfolgt ist, wird hier eine kurze Zusammenfassung gegeben. Die Residuenanalyse zeigt keine Stationarität. Die Residuen-Zeitreihe sieht wie ein weißes Rauschen mit einem Mittelwert nahe 0 und einem regulären Variationsmuster aus (A). Die Residuen erscheinen normal verteilt (B) und weisen eine hohe Autokorrelation (Wert von 1) für die erste Verzögerung auf ([Abbildung 8C und D](#abbildung-8)). Diese starke Autokorrelation reicht aus, um dieses Modell als nicht ideal für Prognosen zu identifizieren. Dieses Modell schätzt die Waldbrandzahlen (logarithmiert) stark basierend auf den Waldbrandzahlen (logarithmiert) des Vortages. Dies ist in der Zusammenfassung der ARIMA-Modellparameter und -Tests ([Abbildung 9](#abbildung-9)) ersichtlich. Dort hat die Verzögerung von 1 Tag die höchsten Werte für die Koeffizienten AR(1) und MA(1). 

### **2.1.2 Stationaritätstest für ARIMA(3,1,5)(0,0,0)[0]**
<span id="abbildung-8"></span>
![ARIMA (3,1,5) Residuen](Abbildungen/daily_arima_residual_analysis.png)  
**Abbildung 8:** Residuenanalyse für ARIMA(3,1,5)(0,0,0)[0]. Plot A zeigt die Residuen über die Zeit, Plot B das Histogramm der Residuen, Plot C die Autokorrelationsfunktion und Plot D die partielle Autokorrelationsfunktion.


<span id="abbildung-9"></span>
![ARIMA (3,1,5) Koeffizienten](Abbildungen/ARIMA_daily_Summary.png)  
**Abbildung 9:** Zusammenfassung der Koeffizienten und statistischen Tests für ARIMA(3,1,5)(0,0,0)[0], einschließlich der geschätzten AR- und MA-Parameter sowie Diagnosetests zur Residuenanalyse.


### **2.1.3 Kreuzvalidierungs-Fehlerwerte**
<span id="abbildung-10"></span>
Die Modellfehlerindizes als Mittelwerte der Kreuzvalidierung (5 Folds) zeigen hohe Fehlerquoten für dieses Modell.
![Tägliche ARIMA-Vorhersagefehlerindizes](Abbildungen/arima_daily_averaged_scores_table.png)  
**Abbildung 10:** Kreuzvalidierungs-Fehlerindizes (MSE, MAE und RMSE) für das Modell ARIMA(3,1,5)(0,0,0)[0].


## **2.2 Monatlich**
### **2.2.1 Automatische ARIMA-Modellauswahl mit `auto_arima` in Python**
Das ARIMA(3,0,2)(0,0,0)[0]-Modell mit Interzept wurde von der Funktion "auto_arima" aufgrund seines niedrigen AIC-Werts ausgewählt.

### Gleichung:

Δyₜ = μ + φ₁Δyₜ₋₁ + φ₂Δyₜ₋₂ + φ₃Δyₜ₋₃ − θ₁ϵₜ₋₁ − θ₂ϵₜ₋₂ + ϵₜ

### Legende:
- **Δyₜ**: Der differenzierte Wert von \(y\) zum Zeitpunkt \(t\)
- **μ**: Mittelwert oder Interzept des Modells
- **φ₁, φ₂, φ₃**: Autoregressive (AR)-Koeffizienten
- **Δyₜ₋₁, Δyₜ₋₂, Δyₜ₋₃**: Differenzierte Werte von \(y\) bei Verzögerung 1, 2 und 3
- **θ₁, θ₂**: Koeffizienten des gleitenden Durchschnitts (MA)
- **ϵₜ₋₁, ϵₜ₋₂**: Residuale Fehler (weißes Rauschen) bei Verzögerung 1 und 2
- **ϵₜ**: Residualer Fehler (weißes Rauschen) zum Zeitpunkt \(t\)

Die Zusammenfassung der Modellparameter und Autokorrelationstests [Abbildung 10](#abbildung-10) zeigt eine bessere Verteilung der Gewichte auf die AR(1-2-3)- und MA(1-2)-Verzögerungen. Darüber hinaus weist der Ljung-Box-Test einen Wert <<< 0,05 auf, was darauf hinweist, dass keine Autokorrelation zwischen den Residuenverzögerungen besteht. All dies deutet auf Stationarität hin. 

<span id="abbildung-10"></span>  
![ARIMA (3,0,2) Residuen](Abbildungen/ARIMA_monthly_Summary.png)  
**Abbildung 10:** Zusammenfassung des ARIMA(3,0,2)(0,0,0)[0]-Modells mit Interzept, einschließlich Parameter, Residuen-Diagnostik und Autokorrelationstests.  


### **2.2.2 Stationaritätstest für ARIMA(3,0,2)(0,0,0)[0] mit Interzept**
Die Residuenanalyse unterstützt ebenfalls die Stationarität der Residuen [Abbildung 11](#abbildung-11). Die Zeitreihe der Residuen (Plot A) sieht aus wie ein weißes Rauschen und zeigt eine normale Verteilung mit einem Mittelwert von 0 für die meisten Residuen (Plot B). Es gibt jedoch eine gewisse Autokorrelation alle 12 Monate (Plots C und D), was darauf hindeutet, dass das Modell die saisonale Komponente noch nicht vollständig erfasst.

Die Unit-Root-Tests ADF und KPSS bestätigten ebenfalls, dass die Residuen für dieses Modell stationär sind und daher für Vorhersagen verwendet werden können (siehe Jupyter Notebook 9 für Details). Der RMSE-Index zeigt einen mittleren Fehler von e^0.57 ≈ 1.77 Einheitenfaktor bei der Waldbrandhäufigkeit. Das bedeutet, dass bei 100 beobachteten Waldbränden der geschätzte Wertebereich zwischen 56 und 177 Waldbränden liegt. 

<span id="abbildung-11"></span>  
![ARIMA (3,0,2) Residuen](Abbildungen/monthly_arima_residual_analysis.png)  
**Abbildung 11:** Residuenanalyse für das ARIMA(3,0,2)(0,0,0)[0]-Modell mit Interzept. Plot A zeigt die Residuen über die Zeit, Plot B das Histogramm der Residuen, Plot C die Autokorrelationsfunktion und Plot D die partielle Autokorrelationsfunktion. Die Analyse hebt einige verbleibende Autokorrelationen bei einem saisonalen Lag von 12 Monaten hervor.


### **2.2.3 Kreuzvalidierungs-Fehlerwerte**
Die Fehlerindizes der Kreuzvalidierung (5 Folds) sind niedriger als beim ARIMA-Modell mit täglichen Daten, bleiben jedoch hoch.
<span id="abbildung-12"></span>  
![Monatliche ARIMA-Vorhersagefehlerindizes](Abbildungen/arima_monthly_averaged_scores_table.png)  
**Abbildung 12:** Kreuzvalidierungs-Fehlerindizes (MSE, MAE und RMSE) für das ARIMA(3,0,2)(0,0,0)[0)-Modell mit Interzept, gemittelt über 5 Folds.


# **3. Regressionsmodell**

## **3.1 Täglich**

### **3.1.1 Modell mit Zeitverzögerungen und Umweltvariablen als Prädiktoren**
Das Regressionsmodell für die täglichen Waldbrandhäufigkeiten (log-transformiert) wurde mit Verzögerungs- und Umweltvariablen erstellt. 

### Gleichung:

Log_Fire_Counts = β0 + β1⋅Time_Trend + β2⋅Lag_1 + β3⋅Lag_2 + β4⋅Precipitation + β5⋅Wind_Speed + β6⋅MaxTemperature + β7⋅MinTemperature + ε

### Legende:
- **Log_Fire_Counts**: Log-transformierte Waldbrandhäufigkeit (abhängige Variable)
- **β0**: Achsenabschnitt des Regressionsmodells
- **β1**: Koeffizient für den Zeittrend
- **Time_Trend**: Zeittrendvariable
- **β2, β3**: Koeffizienten für Verzögerungsvariablen
- **Lag_1, Lag_2**: Waldbrandhäufigkeiten der 1 und 2 vorhergehenden Zeitschritte
- **β4, β5, β6, β7**: Koeffizienten für Umweltvariablen
- **Precipitation**: Niederschlagsmenge
- **Wind_Speed**: Windgeschwindigkeit
- **MaxTemperature**: Maximale Temperatur
- **MinTemperature**: Minimale Temperatur
- **ε**: Residualfehler (weißes Rauschen)

Die Zusammenfassung des Modells ([Abbildung 13](#abbildung-13)) zeigt einen R-squared-Wert von 0,464, was bedeutet, dass das Modell ungefähr 46,4 % der Gesamtvarianz erklärt. Dies liegt jedoch hauptsächlich an der hohen Autokorrelation der Verzögerungsvariablen Lag 1 und Lag 2, die die höchsten Koeffizientenwerte aufweisen. Die Umweltvariablen haben niedrige Koeffizientenwerte, was darauf hinweist, dass sie nicht wesentlich zur Erklärung der Varianz in diesem linearen Modell beitragen.  

Ein Modell, das nur Umweltdaten verwendet, wurde ebenfalls getestet, um den Einfluss der Verzögerungsvariablen zu isolieren. Die Umweltvariablen zeigten jedoch weiterhin eine geringe Erklärungskraft (Daten nicht gezeigt, können jedoch in Jupyter Notebook 11 konfiguriert werden).  

Die Residuenanalyse ([Abbildung 14](#abbildung-14)) zeigt die wöchentlich aggregierten Residuen (zur besseren Visualisierung aggregiert), die als weißes Rauschen (A) und ungefähr normalverteilt (B) beschrieben werden. Es gibt eine hohe Autokorrelation (C und E), wie aufgrund der Verzögerungsvariablen zu erwarten ist. Dies deutet darauf hin, dass das Modell die Komplexität der Daten nicht vollständig erfassen kann.

<span id="abbildung-13"></span>  
![Tägliche TSLM-Modellzusammenfassung](Abbildungen/TSLM_model_summary.png)  
**Abbildung 13:** Zusammenfassung des täglichen Regressionsmodells mit Zeitverzögerungen und Umweltvariablen als Prädiktoren. Der hohe R-squared-Wert wird hauptsächlich durch Verzögerungsvariablen bestimmt.

  

<span id="abbildung-14"></span>  
![Residuen tägliches TSRM](Abbildungen/aggregated_tslm_residual_analysis.png)  
**Abbildung 14:** Residuenanalyse für das tägliche Regressionsmodell. Plot A zeigt die Residuen-Zeitreihe, Plot B das Histogramm der Residuen, Plot C die Autokorrelation und Plot E die partielle Autokorrelation.

---

### **3.1.2 Kreuzvalidierungs-Fehlerwerte**
Das Regressionsmodell für die täglichen Daten zeigt eine geringe Vorhersagekraft aufgrund der hohen Fehlerwerte, die aus einer 5-fachen Kreuzvalidierung erhalten wurden ([Abbildung 15](#abbildung-15)).

<span id="abbildung-15"></span>  
![Fehlerindizes tägliches TSLM](Abbildungen/TSLM_averaged_scores_table.png)  
**Abbildung 15:** Fehlerindizes der Kreuzvalidierung (MSE, MAE und RMSE) für das tägliche Regressionsmodell. Hohe Fehlerwerte weisen auf eine geringe Vorhersagegenauigkeit hin.

---

## **3.2 Monatlich**

### **3.2.1 Modell nur mit Umweltvariablen als Prädiktoren**
Im monatlichen Regressionsmodell wurden nur Zeittrends und Umweltvariablen einbezogen.

### Gleichung:

Log_Fire_Counts = β0 + β1⋅Time_Trend + β2⋅Precipitation + β3⋅Inferred_Wind_Speed + β4⋅MaxTemperature + β5⋅Detrended_CO₂ + β6⋅Detrended_O₂ + ε

### Legende:
- **Log_Fire_Counts**: Log-transformierte Waldbrandhäufigkeit (abhängige Variable)
- **β0**: Achsenabschnitt des Regressionsmodells
- **β1**: Koeffizient für den Zeittrend
- **Time_Trend**: Zeittrendvariable
- **β2**: Koeffizient für Niederschlag
- **Precipitation**: Niederschlagsmenge
- **β3**: Koeffizient für geschätzte Windgeschwindigkeit
- **Inferred_Wind_Speed**: Geschätzte oder modellierte Windgeschwindigkeit
- **β4**: Koeffizient für maximale Temperatur
- **MaxTemperature**: Maximale Temperatur
- **β5**: Koeffizient für detrendierte CO₂-Werte
- **Detrended_CO₂**: CO₂-Werte nach Entfernung langfristiger Trends
- **β6**: Koeffizient für detrendierte O₂-Werte
- **Detrended_O₂**: O₂-Werte nach Entfernung langfristiger Trends
- **ε**: Residualfehler (weißes Rauschen)


Das Modell erklärt fast die Hälfte der Varianz (R-squared = 0,494) unter Verwendung von Umweltvariablen. Die Umweltvariablen sind nach abnehmender Koeffizientengewichtung geordnet: Niederschlag, Windgeschwindigkeit, maximale Temperatur, CO₂ und O₂.  

<span id="abbildung-16"></span>  
![Zusammenfassung des monatlichen TSLM-Modells](Abbildungen/TSLM_monthly_model_summary.png)  
**Abbildung 16:** Zusammenfassung des monatlichen Regressionsmodells mit nur Umweltvariablen. Niederschlag ist der einflussreichste Prädiktor, gefolgt von Windgeschwindigkeit, maximaler Temperatur, CO₂ und O₂.

Die Analyse der Residuen zeigt, dass diese wie ein weißes Rauschen aussehen (A), fast normalverteilt sind (B) und Autokorrelation bei 11 und 12 Monaten aufweisen (C und D).  

<span id="abbildung-17"></span>  
![Residuen monatliches TSRM](Abbildungen/TSRM_monthly_residual_analysis.png)  
**Abbildung 17:** Residuenanalyse für das monatliche Regressionsmodell. Plot A zeigt die Residuen-Zeitreihe, Plot B das Histogramm der Residuen, Plot C die Autokorrelation und Plot D die partielle Autokorrelation.

---

### **3.2.2 Kreuzvalidierungs-Fehlerwerte**
Die Fehlerindizes für das monatliche Modell zeigen ebenfalls hohe Fehlerwerte, die durch eine 5-fache Kreuzvalidierung erhalten wurden.  

<span id="abbildung-18"></span>  
![Zusammenfassung der Fehler des monatlichen TSLM](Abbildungen/TSLM_Monthly_averaged_scores_table.png)  
**Abbildung 18:** Fehlerindizes der Kreuzvalidierung (MSE, MAE und RMSE) für das monatliche Regressionsmodell.


# **4. Long Short-Term Memory, Rekurrentes Neuronales Netzwerkmodell (LSTM)**

LSTM (Long Short-Term Memory) ist ein neuronales Netzwerktyp, der Zeitreihen als Eingabe verwenden kann. Es merkt sich Muster über die Zeit hinweg, was hilft, Vorhersagen basierend auf vergangenen Werten zu treffen. Die hier verwendete Architektur bestand aus zwei LSTM-Schichten (100 und 80 Neuronen) mit zwei dichten Schichten (50 Einheiten), wobei die letzte Schicht eine einzelne Vorhersage ausgibt.

## **4.1 Täglich**

### **4.1.1 LSTM-Modell mit Verzögerungen und Umweltvariablen als Prädiktoren**
Für das LSTM-Modell mit täglichen Daten wurden mehr Variablen einbezogen:

- 20 Verzögerungen
- Umweltvariablen
- Geodaten (Breitengrad, Längengrad)

Die Residuen ähneln aufgrund einer Änderung der Varianz am Ende der Serie nicht einem weißen Rauschen (A). Die Residuen erscheinen normal verteilt (B), weisen jedoch eine hohe Autokorrelation auf (C und D). [Abbildung 19](#abbildung-19)  

<span id="abbildung-19"></span>  
![Tägliches LSTM-Modell](Abbildungen/lstm_residual_analysis_weekly.png)  
**Abbildung 19:** Residuenanalyse für das tägliche LSTM-Modell. Plot A zeigt die Residuen über die Zeit, Plot B das Histogramm der Residuen, Plot C die Autokorrelation und Plot D die partielle Autokorrelation. 

---

### **4.1.2 Kreuzvalidierungs-Fehlerwerte**
Die Fehlerindizes der Vorhersagen zeigen eine erhebliche Fehlerreduktion im Vergleich zu vorherigen Modellen. Dies weist auf eine bessere Generalisierung der Daten hin und macht es zu einem potenziellen Vorhersagemodell. Die große Anzahl von Variablen macht Vorhersagen jedoch schwieriger, insbesondere da Umweltvariablen geschätzt werden müssen. [Abbildung 20](#abbildung-20)  

<span id="abbildung-20"></span>  
![Fehlerübersicht tägliches LSTM-Modell](Abbildungen/NNR_daily_cross_validation_scores.png)  
**Abbildung 20:** Fehlerindizes der Kreuzvalidierung für das tägliche LSTM-Modell. 
---

## **4.2 Monatlich**

### **4.2.1 LSTM-Modell mit Verzögerungen und Umweltvariablen als Prädiktoren**
Aufgrund der geringeren Datenmenge im monatlichen Format zeigen die Residuen eine schwache Verteilung als weißes Rauschen über die Zeit (A), eine schwache Normalverteilung (B) und geringe Autokorrelation. Einige saisonale Komponenten verbleiben in den Residuen (C und D). Der Trend deutet jedoch darauf hin, dass eine Erhöhung der Daten die Stationarität verbessern könnte. [Abbildung 21](#abbildung-21)  

<span id="abbildung-21"></span>  
![Monatliches LSTM-Modell](Abbildungen/lstm_monthly_residual_analysis.png)  
**Abbildung 21:** Residuenanalyse für das monatliche LSTM-Modell. Plot A zeigt die Residuen über die Zeit, Plot B das Histogramm der Residuen, Plot C die Autokorrelation und Plot D die partielle Autokorrelation.

---

### **4.2.2 Kreuzvalidierungs-Fehlerwerte**
Dieses Modell weist die geringsten Vorhersagefehler unter den Modellen auf, wie durch die Fehlerindizes angezeigt wird. Der RMSE hat einen Wert von 0,2937, was darauf hinweist, dass bei 100 beobachteten Waldbränden die Vorhersagewerte zwischen 75 und 134 liegen würden. [Abbildung 22](#abbildung-22)  

<span id="abbildung-22"></span>  
![Fehlerübersicht monatliches LSTM-Modell](Abbildungen/NNR_monthly_cross_validation_scores.png)  
**Abbildung 22:** Fehlerindizes der Kreuzvalidierung für das monatliche LSTM-Modell.



# **5. Modellvergleich und Auswahl**

Aufgrund der niedrigeren Vorhersagefehlerwerte wurde das neuronale Netzwerkmodell mit monatlichen Daten für die Prognose ausgewählt [Abbildung 23](#abbildung-23). Die Differenzen zwischen den Test- und Vorhersagewerten sind in [Abbildung 24](#abbildung-24) dargestellt. Dies zeigt, dass das Modell bessere Vorhersagen macht, wenn die Anzahl der Waldbrände im Bereich von 7,5-9,5 logarithmischen Zählungen liegt. Außerhalb dieses Intervalls unterschätzt der vorhergesagte Wert die beobachteten Werte. Daher erfasst das Modell einen wichtigen Teil der Varianz nicht.


<span id="abbildung-23"></span>  
![Zusammenfassung der Fehlerindizes](Abbildungen/tabelle_lstm_hervorgehoben.png)  
**Abbildung 23:** Zusammenfassung der Fehlerindizes für den Modellvergleich, für jedes Modell und die jeweiligen Zeitdaten.

<span id="abbildung-24"></span>  
![Vorhersage gegenüber Testdaten Monatliches LSTM](Abbildungen/lstm_monthly_test_vs_predictions.png)  
**Abbildung 24:** Beobachtete versus vorhergesagte Waldbrandhäufigkeiten für das monatliche LSTM-Modell.


# **6. Vorhersage des Jahres 2015 mit LSTM-Modell für monatliche Daten (Bessere Überlappungswerte)**

Die Vorhersage für das Jahr 2015 wurde unter Verwendung der restlichen Jahre (1992-2014) als Trainingsdaten durchgeführt. Um die Prognose zu erstellen, wurde das Modell erneut konstruiert (nicht geladen), um das Jahr, das vorhergesagt werden soll, auszuschließen. Das Modell wurde ähnlich wie oben beschrieben mit denselben Verzögerungen und den entsprechenden Umweltwerten (LSTM mit monatlichen Daten) aufgebaut. Anschließend wurde das trainierte Modell verwendet, um das Jahr 2015 unter Verwendung der Umweltwerte von 2015 vorherzusagen.

Die beobachteten Werte für Waldbrandhäufigkeiten (log) liegen größtenteils innerhalb des Intervalls, in dem das Modell am besten abgeschnitten hat (7,5-9,5) [Abbildung 25](#abbildung-25). Daher sind die vorhergesagten Werte vermutlich nahe an den beobachteten Werten. Die Schätzung für Dezember weist den größten Fehler auf, was jedoch erwartet wird, da der beobachtete Wert außerhalb des Intervalls liegt (<7,5 Waldbrandzählungen (log)).
 

<span id="abbildung-25"></span>  
![Vorhersage](Abbildungen/forecast_vs_actual_2015.png)  
**Abbildung 25:** Vorhersage im Vergleich zu den tatsächlichen Waldbrandhäufigkeiten für das Jahr 2015 unter Verwendung des monatlichen LSTM-Modells.



# **7. Fazit**


Das neuronale Netzwerkmodell Long Short-Term Memory (LSTM) hatte die geringsten Fehlerwerte bei der Vorhersage und prognostizierte das Jahr 2015 mit vergleichsweise geringem Fehler. Dennoch können einige Optimierungen durchgeführt werden:

- **Erweiterung der Datengrundlage:** Zusätzliche relevante Datenvariablen wie Landnutzung, Feiertage oder Gewichtung nach Bundesstaaten mit extremen Werten sollten integriert werden.
- **Optimierung bestehender Modelle:** Alle hier verwendeten Modelle bieten Raum für Verbesserungen. Beispielsweise könnten die ARIMA-Modelle differenziert werden, um Stationarität zu erreichen, oder die Anzahl der Epochen in den neuronalen Netzwerkmodellen könnte erhöht werden, um eine bessere Anpassung zu erzielen.
- **Berücksichtigung externer Variablen:** Modelle, die externe erklärende Variablen verwenden, benötigen Vorhersagen dieser Variablen, um Prognosen zu erstellen. Dies stellt ein Problem dar, da sich Fehler anhäufen können, wenn Werte mit einer erheblichen Fehlerwahrscheinlichkeit verwendet werden. Dennoch ist es sinnvoll, die Varianz zu erkennen, die durch Faktoren außerhalb der erklärenden Variablen verursacht wird.
- **Einsatz von Transformer-Modellen:** Transformer-basierte neuronale Netzwerke sollten getestet werden, da sie möglicherweise bessere Ergebnisse liefern könnten.


# **8. Datengenerierung**

## **8.1 Methodik für tägliche Daten**
Die Originaldaten, genannt "FPA_FOD_20170508.sqlite," enthalten mehrere miteinander verbundene Tabellen zu Brandereignissen, die in den USA zwischen 1992 und 2015 registriert wurden.

Aus dieser Datei wurde nur die Tabelle extrahiert, die Informationen zu Brandereignissen, das Registrierungsdatum und Geodaten enthält. Diese Daten wurden verwendet, um den Datensatz "Wildfires in the USA" (1992–2015) als `.csv`-Datei zu erstellen: **"fires_data.csv"**. Jede Zeile dieser Datei stellt ein registriertes Feuer in den USA mit beschreibenden Variablen für das Ereignis dar:

Spalten (beschreibende Variablen): 
- `OBJECTID`, `FIRE_YEAR`, `DISCOVERY_DATE`, `CONT_DATE`, `LATITUDE`, `LONGITUDE`, `FIRE_SIZE`, `FIRE_SIZE_CLASS`, `STAT_CAUSE_DESCR`, `FIRE_NAME`

Die relevanten Spalten für dieses Projekt sind:
- `FIRE_YEAR`, `DISCOVERY_DATE`, `LATITUDE`, `LONGITUDE`

---

## **8.2 Atmosphärische Variablen**
Die atmosphärischen Variablen, die in der täglichen Analyse verwendet wurden, sind: **Wind, Temperatur und Niederschlag**. Die Daten wurden für jeden Tag extrahiert, begrenzt durch Breiten- und Längengrad (USA) sowie das Tagesdatum (`yyyy-mm-dd`). Für jede atmosphärische Variable wurde eine Untervariable aus der **National Oceanic and Atmospheric Administration (NOAA)** extrahiert:

### Dateien mit Werten atmosphärischer Variablen innerhalb der geografischen Grenzen der USA (24°–49° Breitengrad, 235°–294° Längengrad) und Tagen zwischen 1992 und 2015:
- Geodaten wurden von Julianischen Daten in das Standarddatumsformat umgewandelt.

### Generierte Dateien:
- **Windgeschwindigkeit**: `Data_Waldbrand_Zeitreihen\Wind\wind_speed_1992_2015.csv` (m/s)
- **Maximale Temperatur**: Code optimiert für geografische Filterung in einem nächsten Verarbeitungsschritt (°C)
- **Minimale Temperatur**: Wie maximale Temperatur (°C)
- **Niederschlag**: `Data_Waldbrand_Zeitreihen\Prazipitation\final_output_precipitation_data.csv` (mm)

Das endgültige Ergebnis ist eine Zusammenführung von Unterdateien im **Bulk-Ordner**, um Zeit zu sparen, indem Abschnitte der gesamten Ausgabedatei erstellt werden. Diese zusammengefügte Ausgabe wird aufgrund der großen Dateigröße der `.nc`- und `.csv`-Dateien im Bulk-Ordner nicht in GitLab gehostet.

Für jede Untervariable, basierend auf täglichem Datum, Breiten- und Längengrad, wurden Werte aus den `.csv`-Dateien der Datei `fires_data.csv` (Brandregistrierungsdaten) zugewiesen. Die Zuweisung erfolgte durch Übereinstimmung von Datum und Geodaten mittels des nächstgelegenen gültigen Indexwerts ([Quelle](https://docs.xarray.dev/en/stable/generated/xarray.DataArray.sel.html)).

---

## **8.3 Ausgabedateien**

- **Windgeschwindigkeit**: `Data_Waldbrand_Zeitreihen\Wind\fire_wind_speed_inferred.csv` (m/s)
- **Maximale Temperatur**: `Data_Waldbrand_Zeitreihen\Temp\final_output_Max_temperature_data.csv` (°C)
- **Minimale Temperatur**: `Data_Waldbrand_Zeitreihen\Temp\final_output_Min_temperature_data.csv` (°C)
- **Niederschlag**: `Data_Waldbrand_Zeitreihen\Prazipitation\final_output_precipitation_data.csv` (mm)

---

## **8.4 Zusammenführung täglicher Daten mit externen Variablen**
Alle Ausgabedateien der atmosphärischen Variablen wurden nach Datum und geografischen Informationen zusammengeführt zu:
**"final_combined_environment_fire_data.csv"**.

Ein Validierungsschritt wurde durchgeführt, um:
- Zeilen in `fires_data.csv` zu identifizieren, die möglicherweise in `final_combined_environment_fire_data.csv` fehlen.

Dieser Schritt stellte sicher, dass für jede Zeile mindestens eine Übereinstimmung von Datum und Geodaten existiert. Einige Zeilen können jedoch `NA`-Werte für atmosphärische Variablen enthalten, was zu folgender Datei führte:
**"final_combined_environment_fire_data_cleaned.csv"**.

---

## **8.5 Datei mit täglichen Durchschnitten**
Die Ausgabedatei **"daily_averages.csv"** enthält die Durchschnittswerte der numerischen Spalten aus **"final_combined_environment_fire_data_cleaned.csv"**:

Jede Zeile stellt den täglichen Mittelwert für `LATITUDE`, `LONGITUDE`, `FIRE_SIZE`, `Precipitation`, `Inferred_Wind_Speed`, `MaxTemperature`, `MinTemperature` für alle Waldbrände zwischen dem 01.01.1992 und dem 31.12.2015 dar.

- Die tägliche Waldbrandanzahl wurde als mittlere Zeilenanzahl gruppiert nach Datum geschätzt. Dieses Ergebnis wurde als **"daily_fire_counts.csv"** gespeichert.

Schließlich wurden **"daily_averages.csv"** und **"daily_fire_counts.csv"** nach Datum zusammengeführt und als **"merged_with_daily_fire_counts.csv"** gespeichert.

---

## **8.6 Monatliche Daten**
Aus **"final_combined_environment_fire_data_cleaned.csv"** wurde der Mittelwert für jeden Monat berechnet, um die erwarteten monatlichen Werte für Temperatur, Windgeschwindigkeit und Niederschlag zu erhalten. Die Ausgabedatei ist **"monthly_averages.csv"**.

### Zusätzliche atmosphärische Variablen:
- **O₂- und CO₂-Werte** wurden hinzugefügt, basierend auf Daten von "La Jolla Pier" in Kalifornien, da sie mit den monatlichen Brandzahlen übereinstimmen. Datenlücken wurden durch Interpolation geschlossen. Die enttrendeten Werte der Gase (durch Differenz gebildet) wurden ebenfalls als neue Spaltenvariable hinzugefügt, um zu prüfen, ob sie einen Teil der Varianz erklären können. Diese Variablen wurden in den Modellen mit täglichen Daten nicht verwendet, da nur monatliche Daten als frei verfügbare Quelle gefunden wurden.

Die vollständigen monatlichen Daten wurden gespeichert als:
**"merged_monthly_with_o2_co2_fire_counts.csv"**.

Sie enthalten die folgenden Spalten als Variablen: 
 `YearMonth`, `MinTemperature`, `MaxTemperature`, `Inferred_Wind_Speed`, `Precipitation`, `O2_Value`, `O2_seasonally`, `CO2_Value`, `CO2_seasonally`, `DISCOVERY_DATE`, `Monthly Fire Counts`, `Detrended_CO2`, `Detrended_O2`, und `Month`. 

**Quelle für CO₂- und O₂-Daten**: [La Jolla Pier](https://scrippso2.ucsd.edu/)
