# Übersicht

Dieses Notebook führt eine Analyse und Bereinigung von Geodaten durch, die in einer GeoJSON-Datei gespeichert sind.

### Nutzung von Jupyter Notebooks in Visual Studio Code

Um die `venv` - Umgebung als neuen Kernel in VS Code hinzuzufügen, bitte in deiner aktivierten Umgebung ausführen:

```
python -m ipykernel install --user --name=venv --display-name "Python (venv)"
```

Danach solltest du im VS Code Interface diesen neuen Kernel auswählen können.

### Benötigte Bibliotheken importieren

In [None]:
import geopandas as gpd
import os

### Laden der GeoJSON-Daten in ein GeoDataFrame

**Annahme:** Die zu analysierende GeoJSON-Datei liegt in `../input` und wurde als `trees.geojson` benannt.


In [None]:
# Basispfad zum aktuellen Ordner (`data_analysis`)
BASE_DIR = os.getcwd()

# Pfad zur GeoJSON-Datei im 'data'-Ordner
DATA_DIR = os.path.abspath(os.path.join(BASE_DIR, '..', 'input'))
DATA_PATH = os.path.join(DATA_DIR, 'trees.geojson')
print(DATA_PATH)

In [None]:
# Laden der GeoJSON-Daten in ein GeoDataFrame
gdf = gpd.read_file(DATA_PATH)

# Anzeigen der ersten fünf Zeilen des GeoDataFrame
gdf.head()

### Analysiere die Koordinaten, um Outlier bei den X- und Y-Werten zu finden

In [None]:
# Extrahiere die Koordinaten aus der GeoDataFrame
x_values = gdf.geometry.x
y_values = gdf.geometry.y

# Berechne deskriptive Statistik für die X- und Y-Koordinaten
x_stats = x_values.describe()
y_stats = y_values.describe()

print("Deskriptive Statistik für X-Koordinaten:")
print(x_stats)
print("\nDeskriptive Statistik für Y-Koordinaten:")
print(y_stats)

Sieht soweit alles gut aus! 

In [None]:
# # Anzeigen der ersten 5 niedrigsten X-Werte
# lowest_x_values = x_values.nsmallest(5)
# print("Erste 5 niedrigste X-Werte:")
# print(lowest_x_values)

# # Anzeigen der ersten 5 niedrigsten Y-Werte
# lowest_y_values = y_values.nsmallest(5)
# print("\nErste 5 niedrigste Y-Werte:")
# print(lowest_y_values)


### Bereinigung von fehlerhaften Werten in den X- und Y-Koordinaten


In [None]:
# # Entfernen von fehlerhaften Werten in den X- und Y-Koordinaten
# valid_x_values = x_values[x_values > 0]
# valid_y_values = y_values[y_values > 0]

# # Berechne deskriptive Statistik für die bereinigten X- und Y-Koordinaten
# valid_x_stats = valid_x_values.describe()
# valid_y_stats = valid_y_values.describe()

# print("Deskriptive Statistik für X-Koordinaten:")
# print(valid_x_stats)
# print("\nDeskriptive Statistik für Y-Koordinaten:")
# print(valid_y_stats)

In [None]:
# # Erstelle Histogramme für die bereinigten X- und Y-Koordinaten
# fig, ax = plt.subplots(1, 2, figsize=(14, 6))

# ax[0].hist(valid_x_values, bins=100, color='blue', edgecolor='black')
# ax[0].set_title('Verteilung der X-Koordinaten (bereinigt)')
# ax[0].set_xlabel('X-Koordinaten')
# ax[0].set_ylabel('Häufigkeit')

# ax[1].hist(valid_y_values, bins=100, color='green', edgecolor='black')
# ax[1].set_title('Verteilung der Y-Koordinaten (bereinigt)')
# ax[1].set_xlabel('Y-Koordinaten')
# ax[1].set_ylabel('Häufigkeit')

# plt.tight_layout()
# plt.show()

### Speichern der bereinigten Daten in einer neuen GeoJSON-Datei

In [None]:
# # Erstellen einer Kopie des ursprünglichen GeoDataFrames
# gdf_cleaned = gdf.copy()

# # Entfernen von Zeilen mit fehlerhaften X- oder Y-Werten
# gdf_cleaned = gdf_cleaned[(gdf_cleaned.geometry.x > 0) & (gdf_cleaned.geometry.y > 0)]

# # Definieren des Pfads für die neue GeoJSON-Datei
# cleaned_data_path = os.path.join(DATA_DIR, 'trees_cleaned.geojson')

# # Speichern des bereinigten GeoDataFrames als neue GeoJSON-Datei
# gdf_cleaned.to_file(cleaned_data_path, driver='GeoJSON')