# Big Data Infrastructure Project

In diesem Projekt werden wir uns mit den Grundlagen der Durchführung von Data-Science-Projekten mit dem Fokus auf  Big Data. Besonders im Mittelpunkt stehen infrastrukturelle Herausforderungen, die bei der Arbeit mit großen Datenmengen auftreten. Ziel ist es, die notwendigen Methoden anzuwenden und eine passende Infrastruktur zu organisieren, um Daten zu verarbeiten und zu analysieren. 

**Projektablauf:**
1. Wählen Sie ein Thema, das Sie interessiert.
2. Beschaffen Sie sich die notwendigen Daten, die anschließend verarbeitet werden müssen (z.B. fertige Datensätze oder Zugang zu Daten über APIs).
3. Analysieren Sie die Daten.
4. Präsentieren und visualisieren Sie Ihre Ergebnisse.

**Projektgruppe:**
- Blazevic Ivan
- Prager Lukas
- Sidi Mammar Omar
- Zelimchanow Chamberg

## Thema: Zusammenhang der Lebenserwartung mit anderen Faktoren

Im Rahmen dieses Projekts wird die **Lebenserwartung** als zentrales Thema untersucht. Dabei sollen Zusammenhänge zwischen der Lebenserwartung und verschiedenen sozialen, wirtschaftlichen sowie gesundheitlichen Faktoren beleuchtet werden. Die verwendeten Daten beinhalten verschiedene Variablen, die Einfluss auf die Lebenserwartung haben könnten, wie zum Beispiel das **Bruttoinlandsprodukt (BIP) pro Kopf**, **Alkoholkonsum**, **Übergewicht** und **Raucherprävalenz**. Ziel ist es, Muster zu erkennen und mögliche Korrelationen zwischen diesen Variablen und der Lebenserwartung zu identifizieren.

### Datenquellen und Überblick:

1. **WHO Life Expectancy at Birth (Years)**:
   - **Datenquelle:** Weltgesundheitsorganisation (WHO) - https://www.who.int/data/gho/data/indicators/indicator-details/GHO/life-expectancy-at-birth-(years) / blob:null/f8604b1b-a3cc-4cb7-93e6-577957c33777
   - **Daten:** Lebenserwartung bei der Geburt , aufgeteilt nach Geschlecht (männlich/weiblich).
   - **Zeitraum:** 2000 bis 2021.
   - **Format:** CSV

2. **GDP per capita, current prices**:
   - **Datenquelle:** Internationaler Währungsfonds (IWF) - https://www.imf.org/external/datamapper/NGDPDPC@WEO/OEMDC/ADVEC/WEOWORLD
   - **Daten:** BIP pro Kopf für verschiedene Länder.
   - **Zeitraum:** Ab 1980 bis 2024
   - **Format:** Excel

3. **WHO Alcohol Consumption (Recorded per capita, 15+, in litres of pure alcohol)**:
   - **Datenquelle:** Weltgesundheitsorganisation (WHO) - https://www.who.int/data/gho/data/indicators/indicator-details/GHO/alcohol-recorded-per-capita-(15-)-consumption-(in-litres-of-pure-alcohol) / blob:null/9c8e921d-4054-49e8-8a80-67fe22ded349
   - **Daten:** Aufgezeichneter Alkoholkonsum pro Kopf (ab 15 Jahren) in Litern reinem Alkohol.
   - **Zeitraum:** 1960 bis 2019.
   - **Format:** CSV

4. **WHO Prevalence of Obesity among Adults**:
   - **Datenquelle:** Weltgesundheitsorganisation (WHO) - https://www.who.int/data/gho/data/indicators/indicator-details/GHO/prevalence-of-obesity-among-adults-bmi-=-30-(age-standardized-estimate)-(-) / blob:null/2f4b0ec0-8723-49e6-8703-8c7093d448e0
   - **Daten:** Prävalenz von Übergewicht unter Erwachsenen (18+), aufgeteilt nach Geschlecht (m/w).
   - **Zeitraum:** 1990 bis 2021.
   - **Format:** CSV

5. **OECD Daily Smokers (15+)**:
   - **Datenquelle:** Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD) - https://www.oecd.org/en/data/indicators/daily-smokers.html?oecdcontrol-31056b3eeb-var6=_T%7CM%7CF&oecdcontrol-b84ba0ecd2-var3=2020
   - **Daten:** Anteil täglicher Raucher unter Erwachsenen (ab 15 Jahren) in OECD-Ländern.
   - **Zeitraum:** 1960 bis 2023 (Daten für jedes Jahr einzeln).
   - **Format:** CSV

Durch die Analyse dieser Daten wird es möglich sein, den Einfluss von ökonomischen und gesundheitlichen Faktoren auf die Lebenserwartung zu untersuchen und mögliche Trends und Zusammenhänge zu erkennen.

### Wahl der DB: MongoDB

Für dieses Projekt haben wir uns entschieden, **MongoDB** als Datenbanklösung zu verwenden, da es mehrere Vorteile bietet, die es ideal für die Verarbeitung großer und unterschiedlich strukturierter Datensätze machen. Hier sind die Hauptgründe, warum MongoDB eine hervorragende Wahl für unser Projekt ist:

1. **Flexible Datenstruktur (schemafrei)**  
   Die Daten, die wir verwenden, kommen in verschiedenen Formaten (z.B. CSV und Excel) und beinhalten unterschiedliche Arten von Informationen (Länder, Jahre, Geschlecht, etc.). MongoDB nutzt eine dokumentenorientierte Struktur, bei der die Daten in JSON-ähnlichen BSON-Dokumenten gespeichert werden. Diese Flexibilität ermöglicht es uns, verschiedene Datentypen und -strukturen ohne ein festes Schema zu integrieren, was besonders wichtig ist, wenn wir Daten aus unterschiedlichen Quellen zusammenführen.

2. **Skalierbarkeit und Performance**  
   MongoDB ist auf horizontale Skalierung ausgelegt und kann große Datenmengen effizient verarbeiten. Da wir mit „Big Data“ arbeiten, ist es wichtig, dass die Datenbank in der Lage ist, mit wachsendem Datenvolumen problemlos umzugehen, ohne dass die Performance leidet. MongoDB ermöglicht es, Daten auf mehrere Server zu verteilen, wodurch eine hohe Performance auch bei großen Datensätzen gewährleistet wird.

3. **Einfache Integration von CSV- und Excel-Daten**  
   MongoDB bietet eine einfache Möglichkeit, Daten aus CSV-Dateien zu importieren. Da ein großer Teil unserer Daten als CSV-Dateien vorliegt (z.B. WHO- und OECD-Daten), ist dies ein wichtiger Vorteil. Für Excel-Dateien können wir mit Python und Pandas die Daten einlesen und problemlos in MongoDB speichern.

4. **Aggregation und MapReduce**  
   MongoDB verfügt über ein leistungsstarkes Aggregations-Framework und unterstützt MapReduce-Operationen. Diese Funktionen sind besonders nützlich für die Durchführung komplexer Datenanalysen. Wir können Aggregationen für verschiedene Kennzahlen wie Lebenserwartung, BIP oder Übergewicht basierend auf Kriterien wie Jahr oder Geschlecht durchführen.

5. **Geografische und zeitliche Analyse**  
   Viele unserer Datensätze erfordern geografische Zuordnung und zeitliche Analysen, z.B. Lebenserwartung nach Land und Jahr. MongoDB unterstützt geospatiale Abfragen und Zeitstempel, was uns dabei hilft, regionale Trends und zeitabhängige Entwicklungen zu analysieren.

6. **Verfügbarkeit von MapReduce**  
   Da wir auch mit großen Datenmengen arbeiten, benötigen wir die Möglichkeit, komplexe Berechnungen über Jahre und Länder hinweg durchzuführen. MongoDB unterstützt MapReduce-Operationen, die uns helfen, parallele Berechnungen effizient auf großen Datensätzen durchzuführen.

Durch die Verwendung von **MongoDB** in Kombination mit Python-Bibliotheken wie **pymongo** können wir die Daten laden, Aggregationen durchführen und komplexe Datenanalysen auf einer skalierbaren Plattform durchführen.

### Docker-Infrastruktur

Die Infrastruktur besteht aus zwei Containern:

1. **MongoDB-Container** – für die Datenbank.

2. **Jupyter-Notebook-Container** – für die Python-Umgebung zur Analyse und Visualisierung.

Hier ist die docker-compose.yml-Datei, die die MongoDB-Instanz und den Jupyter-Notebook-Container definiert.

In [12]:
# version: '3.7'

# services:
#   mongodb:
#     image: mongo:latest
#     container_name: mongodb
#     ports:
#       - "27017:27017"  # MongoDB Standard-Port
#     volumes:
#       - ./data/db:/data/db  # Daten werden auf deinem lokalen System gespeichert
#     environment:
#       - MONGO_INITDB_ROOT_USERNAME=root
#       - MONGO_INITDB_ROOT_PASSWORD=example

#   jupyter:
#     image: jupyter/scipy-notebook:latest
#     container_name: jupyter-notebook
#     ports:
#       - "8888:8888"  # Jupyter Notebook-Standard-Port
#     volumes:
#       - ./notebooks:/home/jovyan/work  # Notebook-Daten werden auf deinem lokalen System gespeichert
#     environment:
#       - JUPYTER_TOKEN=mytoken  # Authentifizierungstoken für Jupyter Notebook
#     depends_on:
#       - mongodb

In [13]:
# Starten der Container
# docker-compose up -d

In [1]:
# Installation notwendiger Bibliotheken
!pip install pymongo pandas openpyxl matplotlib seaborn



In [5]:
# Import von Bibliotheken
import pymongo
import pandas as pd

# Verbindung zur MongoDB
client = pymongo.MongoClient("mongodb://root:example@mongodb:27017/")
db = client['bigdata']
collection = db['life_expectancy']

# Laden der CSV-Dateien
df_life_expectancy = pd.read_csv("/home/jovyan/files/life_expectancy_at_birth_years.csv")
df_alcohol_per_capita = pd.read_csv("/home/jovyan/files/alcohol_recorded_per_capita_in_litres.csv")
df_prevalence_obesity = pd.read_csv("/home/jovyan/files/prevalence_of_obesity_among_adults.csv")

file_paths = [
    ("/home/jovyan/files/daily_smokers_2005.csv", 2005),
    ("/home/jovyan/files/daily_smokers_2010.csv", 2010),
    ("/home/jovyan/files/daily_smokers_2015.csv", 2015),
    ("/home/jovyan/files/daily_smokers_2020.csv", 2020)
]
dfs = []
for file_path, year in file_paths:
    df = pd.read_csv(file_path, skiprows=2, header=0, sep=';', decimal=',')
    df['Year'] = year
    dfs.append(df)
df_daily_smokers = pd.concat(dfs, ignore_index=True)

# Laden der Excel-Datei
df_gdp_per_capita = pd.read_excel("/home/jovyan/files/gpd_per_capita.xls")

# CSV-Daten in MongoDB importieren
data = df_life_expectancy.to_dict(orient='records')
collection.insert_many(data)

InsertManyResult([ObjectId('67f971e7a30ba7cc75ee580b'), ObjectId('67f971e7a30ba7cc75ee580c'), ObjectId('67f971e7a30ba7cc75ee580d'), ObjectId('67f971e7a30ba7cc75ee580e'), ObjectId('67f971e7a30ba7cc75ee580f'), ObjectId('67f971e7a30ba7cc75ee5810'), ObjectId('67f971e7a30ba7cc75ee5811'), ObjectId('67f971e7a30ba7cc75ee5812'), ObjectId('67f971e7a30ba7cc75ee5813'), ObjectId('67f971e7a30ba7cc75ee5814'), ObjectId('67f971e7a30ba7cc75ee5815'), ObjectId('67f971e7a30ba7cc75ee5816'), ObjectId('67f971e7a30ba7cc75ee5817'), ObjectId('67f971e7a30ba7cc75ee5818'), ObjectId('67f971e7a30ba7cc75ee5819'), ObjectId('67f971e7a30ba7cc75ee581a'), ObjectId('67f971e7a30ba7cc75ee581b'), ObjectId('67f971e7a30ba7cc75ee581c'), ObjectId('67f971e7a30ba7cc75ee581d'), ObjectId('67f971e7a30ba7cc75ee581e'), ObjectId('67f971e7a30ba7cc75ee581f'), ObjectId('67f971e7a30ba7cc75ee5820'), ObjectId('67f971e7a30ba7cc75ee5821'), ObjectId('67f971e7a30ba7cc75ee5822'), ObjectId('67f971e7a30ba7cc75ee5823'), ObjectId('67f971e7a30ba7cc75ee58

In [3]:
# Abrufen der Daten aus der DB
data_from_db = collection.find()

# In DataFrame umwandeln
df_mongo = pd.DataFrame(list(data_from_db))

# Erste Zeilen des DataFrames anzeigen
df_mongo.head()

Unnamed: 0,_id,IndicatorCode,Indicator,ValueType,ParentLocationCode,ParentLocation,Location type,SpatialDimValueCode,Location,Period type,...,FactValueUoM,FactValueNumericLowPrefix,FactValueNumericLow,FactValueNumericHighPrefix,FactValueNumericHigh,Value,FactValueTranslationID,FactComments,Language,DateModified
0,67f7d8e9440bdd65fc0cac67,WHOSIS_000001,Life expectancy at birth (years),text,AFR,Africa,Country,LSO,Lesotho,Year,...,,,50.49,,52.57,51.5 [50.5-52.6],,,EN,2024-08-01T22:00:00.000Z
1,67f7d8e9440bdd65fc0cac68,WHOSIS_000001,Life expectancy at birth (years),text,AFR,Africa,Country,CAF,Central African Republic,Year,...,,,51.06,,53.36,52.3 [51.1-53.4],,,EN,2024-08-01T22:00:00.000Z
2,67f7d8e9440bdd65fc0cac69,WHOSIS_000001,Life expectancy at birth (years),text,EMR,Eastern Mediterranean,Country,SOM,Somalia,Year,...,,,52.92,,55.11,54.0 [52.9-55.1],,,EN,2024-08-01T22:00:00.000Z
3,67f7d8e9440bdd65fc0cac6a,WHOSIS_000001,Life expectancy at birth (years),text,AFR,Africa,Country,SWZ,Eswatini,Year,...,,,53.49,,55.87,54.6 [53.5-55.9],,,EN,2024-08-01T22:00:00.000Z
4,67f7d8e9440bdd65fc0cac6b,WHOSIS_000001,Life expectancy at birth (years),text,AFR,Africa,Country,MOZ,Mozambique,Year,...,,,56.64,,58.77,57.7 [56.6-58.8],,,EN,2024-08-01T22:00:00.000Z


In [4]:
# Anzeige der Lebenserwartung
df_life_expectancy.head()

Unnamed: 0,IndicatorCode,Indicator,ValueType,ParentLocationCode,ParentLocation,Location type,SpatialDimValueCode,Location,Period type,Period,...,FactValueUoM,FactValueNumericLowPrefix,FactValueNumericLow,FactValueNumericHighPrefix,FactValueNumericHigh,Value,FactValueTranslationID,FactComments,Language,DateModified
0,WHOSIS_000001,Life expectancy at birth (years),text,AFR,Africa,Country,LSO,Lesotho,Year,2021,...,,,50.49,,52.57,51.5 [50.5-52.6],,,EN,2024-08-01T22:00:00.000Z
1,WHOSIS_000001,Life expectancy at birth (years),text,AFR,Africa,Country,CAF,Central African Republic,Year,2021,...,,,51.06,,53.36,52.3 [51.1-53.4],,,EN,2024-08-01T22:00:00.000Z
2,WHOSIS_000001,Life expectancy at birth (years),text,EMR,Eastern Mediterranean,Country,SOM,Somalia,Year,2021,...,,,52.92,,55.11,54.0 [52.9-55.1],,,EN,2024-08-01T22:00:00.000Z
3,WHOSIS_000001,Life expectancy at birth (years),text,AFR,Africa,Country,SWZ,Eswatini,Year,2021,...,,,53.49,,55.87,54.6 [53.5-55.9],,,EN,2024-08-01T22:00:00.000Z
4,WHOSIS_000001,Life expectancy at birth (years),text,AFR,Africa,Country,MOZ,Mozambique,Year,2021,...,,,56.64,,58.77,57.7 [56.6-58.8],,,EN,2024-08-01T22:00:00.000Z


In [5]:
# Anzeige des Alkoholkosnums
df_alcohol_per_capita.head()

Unnamed: 0,IndicatorCode,Indicator,ValueType,ParentLocationCode,ParentLocation,Location type,SpatialDimValueCode,Location,Period type,Period,...,FactValueUoM,FactValueNumericLowPrefix,FactValueNumericLow,FactValueNumericHighPrefix,FactValueNumericHigh,Value,FactValueTranslationID,FactComments,Language,DateModified
0,SA_0000001400,"Alcohol, recorded per capita (15+) consumption...",numeric,EMR,Eastern Mediterranean,Country,AFG,Afghanistan,Year,2020,...,,,,,,0.0,,,EN,2024-08-11T22:00:00.000Z
1,SA_0000001400,"Alcohol, recorded per capita (15+) consumption...",numeric,EMR,Eastern Mediterranean,Country,KWT,Kuwait,Year,2020,...,,,,,,0.0,,,EN,2024-08-11T22:00:00.000Z
2,SA_0000001400,"Alcohol, recorded per capita (15+) consumption...",numeric,EMR,Eastern Mediterranean,Country,LBY,Libya,Year,2020,...,,,,,,0.0,,,EN,2024-08-11T22:00:00.000Z
3,SA_0000001400,"Alcohol, recorded per capita (15+) consumption...",numeric,AFR,Africa,Country,MRT,Mauritania,Year,2020,...,,,,,,0.0,,,EN,2024-08-11T22:00:00.000Z
4,SA_0000001400,"Alcohol, recorded per capita (15+) consumption...",numeric,EMR,Eastern Mediterranean,Country,PAK,Pakistan,Year,2020,...,,,,,,0.0,,,EN,2024-08-11T22:00:00.000Z


In [6]:
# Anzeige übergewichtiger Personen
df_prevalence_obesity.head()

Unnamed: 0,IndicatorCode,Indicator,ValueType,ParentLocationCode,ParentLocation,Location type,SpatialDimValueCode,Location,Period type,Period,...,FactValueUoM,FactValueNumericLowPrefix,FactValueNumericLow,FactValueNumericHighPrefix,FactValueNumericHigh,Value,FactValueTranslationID,FactComments,Language,DateModified
0,NCD_BMI_30A,"Prevalence of obesity among adults, BMI &Great...",numeric,AFR,Africa,Country,SEN,Senegal,Year,2022,...,,,8.01,,12.59,10.2 [8.0-12.6],,,EN,2024-02-28T23:00:00.000Z
1,NCD_BMI_30A,"Prevalence of obesity among adults, BMI &Great...",numeric,AFR,Africa,Country,MOZ,Mozambique,Year,2022,...,,,7.93,,12.97,10.3 [7.9-13.0],,,EN,2024-02-28T23:00:00.000Z
2,NCD_BMI_30A,"Prevalence of obesity among adults, BMI &Great...",numeric,SEAR,South-East Asia,Country,LKA,Sri Lanka,Year,2022,...,,,8.99,,12.28,10.6 [9.0-12.3],,,EN,2024-02-28T23:00:00.000Z
3,NCD_BMI_30A,"Prevalence of obesity among adults, BMI &Great...",numeric,AMR,Americas,Country,HTI,Haiti,Year,2022,...,,,8.37,,13.33,10.7 [8.4-13.3],,,EN,2024-02-28T23:00:00.000Z
4,NCD_BMI_30A,"Prevalence of obesity among adults, BMI &Great...",numeric,SEAR,South-East Asia,Country,PRK,Democratic People's Republic of Korea,Year,2022,...,,,5.64,,17.52,10.8 [5.6-17.5],,,EN,2024-02-28T23:00:00.000Z


In [20]:
# Anzeige der täglichen Raucher
df_daily_smokers.head()

Unnamed: 0,Category,Total,Women,Men,Year
0,France,27.5,23.2,32.0,2005
1,Denmark,26.0,24.0,28.0,2005
2,Korea,25.9,4.7,47.3,2005
3,Netherlands,25.2,22.1,28.4,2005
4,Norway,25.0,24.0,26.0,2005


In [7]:
# Anzeige Bruttoinlandsprodukt
df_gdp_per_capita.head()

Unnamed: 0,"GDP per capita, current prices\n (U.S. dollars per capita)",1980,1981,1982,1983,1984,1985,1986,1987,1988,...,2020,2021,2022,2023,2024,2025,2026,2027,2028,2029
0,,,,,,,,,,,...,,,,,,,,,,
1,Afghanistan,no data,no data,no data,no data,no data,no data,no data,no data,no data,...,516.664,356.063,352.456,410.933,no data,no data,no data,no data,no data,no data
2,Albania,728.359,817.734,824.542,815.529,788.332,788.801,855.724,832.245,805.046,...,5353.303,6396.166,6870.21,8299.278,9598.191,10386.312,11211.431,11937.672,12713.803,13543.306
3,Algeria,2462.085,2502.13,2446.588,2514.256,2640.191,2988.545,2929.092,2935.816,2326.571,...,3757.585,4169.984,4981.822,5221.813,5579.128,5592.852,5645.511,5680.587,5705.771,5733.606
4,Andorra,no data,no data,no data,no data,no data,no data,no data,no data,no data,...,36973.845,41806.876,41378.881,43809.726,45278.52,45994.879,46819.401,47330.444,47873.433,48458.183


# Bewertung unserer Daten anhand des 5V-Modells (Big Data Kriterien)
## Velocity
Velocity beschreibt die Geschwindigkeit, mit der Daten erstellt werden und wie schnell sie sich bewegen.
In unserem Projekt ändern sich die Daten nur sehr langsam. Die von uns verwendeten Datensätze (z.B. von WHO, IMF und OECD) werden nur periodisch aktualisiert — zum Beispiel jährlich oder alle paar Jahre. Es handelt sich um statische Daten ohne Echtzeitbezug. Daher ist die Velocity in unserem Projekt sehr gering.

## Volume
Volume beschreibt die Datenmenge, die als Big Data qualifiziert.
Das Datenvolumen in unserem Projekt ist im Vergleich zu klassischen Big Data Anwendungen relativ klein. Obwohl wir mehrere Datensätze (Lebenserwartung, GDP pro Kopf, Alkoholkonsum, Fettleibigkeit, Raucherquote) verwenden, bleibt die Gesamtgröße überschaubar und beträgt nur wenige Megabyte.

## Value
Value bezeichnet den Mehrwert, den die Daten liefern.
Die in unserem Projekt verwendeten Daten haben einen sehr hohen Analysewert. Durch die Kombination von Lebenserwartung mit GDP pro Kopf, Alkoholkonsum, Fettleibigkeit und Raucherverhalten lassen sich interessante Zusammenhänge erkennen und aussagekräftige Analysen durchführen.

## Variety
Variety steht für die Vielfalt der Datentypen und -quellen.
Variety spielt in unserem Projekt eine wichtige Rolle. Wir nutzen verschiedene Datenquellen (WHO, IMF, OECD) und unterschiedliche Dateiformate wie CSV, Excel, JSON und XML. Die Daten liegen zudem in unterschiedlichen Strukturen vor, weshalb eine Datenvorverarbeitung und Harmonisierung notwendig ist.

## Veracity
Veracity beschreibt die Qualität und Vertrauenswürdigkeit der Daten.
In unserem Projekt ist die Datenqualität sehr hoch. Alle verwendeten Datensätze stammen von vertrauenswürdigen und offiziellen Organisationen wie der World Health Organization (WHO), dem Internationalen Währungsfonds (IMF) und der Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD). Es handelt sich um geprüfte und öffentlich zugängliche Daten, die auch in der Forschung und Analyse weit verbreitet sind.

# Einordnung unseres Projektes anhand der 4 Levels of Data Handling in Data Science
## Data Source
Data Source beschreibt die Herkunft der verwendeten Daten.
In unserem Projekt stammen die Daten aus verschiedenen öffentlich zugänglichen Quellen wie der WHO (World Health Organization), dem IMF (International Monetary Fund) und der OECD (Organisation for Economic Co-operation and Development). Diese Quellen stellen geprüfte und vertrauenswürdige Datensätze bereit. Die Daten liegen in unterschiedlichen Formaten vor (CSV, Excel, JSON, XML) und müssen daher zunächst gesammelt und für die weitere Verarbeitung vorbereitet werden.

## Data Storage
Data Storage beschreibt, wie und wo die Daten gespeichert werden.
In unserem Projekt speichern wir die gesammelten und vorbereiteten Daten in einer MongoDB-Datenbank. Wir haben uns für eine NoSQL-Datenbank entschieden, da unsere Daten unterschiedliche Strukturen aufweisen und eine flexible Speicherung ermöglichen müssen. MongoDB bietet sich besonders für semi-strukturierte Daten an und ist gut geeignet, um verschiedene Datensätze aus unterschiedlichen Quellen in einer gemeinsamen Datenbank abzulegen.

## Data Analysis
Die Datenanalyse erfolgt in unserem Projekt mit Python unter Verwendung der Bibliotheken Pandas und Streamlit. Pandas dient der effizienten Verarbeitung, Filterung und Kombination der Daten, während Streamlit eine benutzerfreundliche Oberfläche zur interaktiven Darstellung der Analyseergebnisse bietet. Die Daten stammen aus einer MongoDB-Datenbank und werden über Pymongo abgerufen. Ziel der Analyse ist es, mögliche Zusammenhänge zwischen verschiedenen Indikatoren wie Lebenserwartung, BIP, Alkoholkonsum, Raucherquote und Fettleibigkeit sichtbar zu machen. Zusätzlich kommen einfache MapReduce-Operationen zum Einsatz, um aggregierte Kennzahlen und Auswertungen zu berechnen.

## Data Output
Data Output beschreibt, wie die Ergebnisse der Datenanalyse dargestellt und bereitgestellt werden.
In unserem Projekt erfolgt die Ausgabe der Ergebnisse in Form von Visualisierungen in Jupyter Notebook (z.B. mit Matplotlib oder Seaborn). Zusätzlich planen wir die Erstellung einer interaktiven Web-Oberfläche mit Streamlit, um die Ergebnisse benutzerfreundlich und anschaulich darzustellen. Damit können beispielsweise Dashboards erstellt werden, die bestimmte Kennzahlen visualisieren oder Zusammenhänge zwischen den Daten zeigen.

# Architecture
![image.png](attachment:565642bf-7e43-4c0b-9012-b75e80c3cca3.png)