# Big Data Infrastructure Projekt

### GitHub: https://github.com/wi22b085/big-data

## Zusammenhang zwischen positiven Covid19-Testungen und Impfungen

In diesem Big Data Infrastructure-Projekt geht es darum  die Anzahl der positiven Testungen sowie die Impfungen in Österreich bzw. in den jeweiligen Bundesländern/Gemeinden zu analysieren, zu visualisieren und miteinander in Zusammenhang zu setzen. 

In diesem Jupiter-Notebook werden alle relevanten Schritte (sowie Erklärungen dazu) dokumentiert.

## Neo4J

Neo4J ist eine NoSQL-Graph-Database. Sie wurde aus folgenden Gründen für dieses Projekt gewählt:

- Flexibilität
- ACID-Transaktionen werden unterstützt
- Daten sind eng miteinander verbunden
- Einfache Darstellung der Daten

BILD für letzten beiden punkte
BILD
BILD
BILD??????????

# Big Data Criteria

## 5 V's

### Volume:

- Fallen die Daten in großen Mengen an?

Es ist wichtig anzumerken, dass die Größe der Datenmenge relativ ist. Dennoch fallen in diesem Projekt eindeutig keine großen Datenmengen an. Daher ist dieser Punkt hier wenig Big-Data-relevant. Die Daten wurden zu Übungszwecken in der NoSQL-Graph-Database "Neo4J" gespeichert.

Alle genutzten Daten (4 CSV-Files) haben eine gemeinsame Größe von:
- ~ 13 000 Datensätzen
- ~ 900 KB

### Velocity:

- Fallen die Daten in einer großen Geschwindigkeit an?
- In welcher Geschwindigkeit werden die Daten verarbeitet?

Da in diesem Projekt keine neuen Daten anfallen und sie auch nur einmalig verarbeitet werden, ist Velocity hier wenig relevant.

Neo4J speichert die eigentlichen Daten auf der Festplatte. Jedoch lädt Neo4J Daten in den Arbeitsspeicher, um sie schneller verarbeiten zu können. In diesem Projekt wird nur Batch processing angewandt. Die Daten werden batchweise eingelesen, verarbeitet, in die Datenbank geladen und analysiert.

Lese-Zeit für ~ 900 KB:
- HDD: ~ 0,009 Sekunden bei 100 MB/s
- SSD: ~ 0,002 Sekunden bei 450 MB/s

Transfer-Zeit über Netzwertk für ~ 900 KB:
- ~ 0,009 Sekunden bei 100 MB/s

### Variety:

- Fallen die Daten in Großer Vielfalt an (Datentyp, Datenstruktur)?

Alle genutzten Daten dieses Projekts sind vom TYP CSV und strukturiert. Daher sind sie auch vollständig und folgen einem klaren Schema. Die Daten könnten daher auch in einer relationalen Datenbank mit Reihen und Spalten gespeichert werden.

### Veracity:

- Sind die daten von hoher Qualität (Glaubwürdigkeit, Gültigkeit, Wahrhaftigkeit)?

Alle Daten dieses Projekts stammen aus glaubwürdigen Quellen:
- https://info.gesundheitsministerium.at/
- https://www.data.gv.at/

Zusätzlich wurden die Daten auf Unstimmigkeiten (Ausreißer, Widersprüche, Fehlende Werte) geprüft. Hierfür wurde manuell vorgegangen und Python-Funktionen der Pandas-Library genutzt. Zusätzlich wurden die Ergebnisse mit anderen Quellen verglichen. Ein weiterer guter Indikator ist, dass die Impfzahlen für einen Ort nie kleiner sind als aus einem vorherigen Jahr. Aus diesen Gründen kann davon ausgegangen werden, dass die Daten von hoher Qualität sind.

### Value:

- Haben die Daten einen Mehrwert?

Die genutzten Daten haben einen großen Mehrwert. Durch ihre Analyse wird ein möglicher Zusammenhang zwischen den positiven Covid19-Testungen und den Impfungen festgestellt. ??????????

## 4 Levels of Data Processing

### Data Sources (Data Source Layer):

Für dieses Projekt sind keine Tools zur Datengewinnung notwendig. Die Daten wurden einmalig aus Quellen des Internets lokal abgespeichert.

Daten:
- Typ: Strukturiert
- Velocity und Volume: Die Daten fallen einamlig in geringer Menge an
- Externe Datenquelle: https://info.gesundheitsministerium.at/ und https://www.data.gv.at/
- Daten-Typ: CSV

### Data Messaging and Store Layer (Data Storage Layer):

Die Daten wurden über Docker in der NoSQL-Graph-Database "Neo4J" gespeichert. ??????????????
ETL (Extract, Transform, Load): In diesem Ansatz werden Daten zuerst aus einer oder mehreren Quellen extrahiert, dann transformiert oder umgewandelt, um sie an die Anforderungen des Zielsystems anzupassen, und schließlich in das Zielsystem geladen.
ELT (Extract, Load, Transform): Im ELT-Ansatz werden Daten zuerst extrahiert und dann direkt in das Zielsystem geladen. Die Transformation oder Umwandlung findet dann innerhalb des Zielsystems statt.

CAP:
- Consistency: Neo4J bietet ACID-Transaktionen
- Availability: Noe4J bietet Mechanismen für teilweisen Systemausfall
- Partition Tolerance: Wenig relevant, da die Datenbank nur auf einem System ist

### Analysis Layer (Processing Layer):

Die Daten wurden mit verschiedenen Pandas Funktionen analysiert. Zudem wurde eine MapReduce-Calculation durchgeführt. Hiefür wurde ausschließlich Python genutzt. ???????????

### Consumption Layer (Data Output Layer):

Die Ergebnisse der Analyse und deren Value wurden mithilfe von Visualisierungen dargestellt. Hierzu wurden die Python-Libraries "Matplotlib" und "Seaborn" verwendet. ??????????

Folgende Diagrammtypen wurden eingesetzt:
- Barplots
- Histogramme
- Kreisdiagramme
- Boxplots                    ???????????????
- Streudiagramme
- Choroplethenkarten

Es wurden außerdem die Datenbank-Visualisierungen von Neo4J genutzt.

Zielgruppe der Visualisierungen:
- Fachkolleg*innen

In diesem Projekt mussten keine ?????? Ergebnisse zurück ins System gespeist werden. Kein Ergebnis ist von einem anderen Ergebnis abhängig.

# Data Source and Storage

Zuerst wird ein Docker Container erstellt. Dieser enthällt einen Container, ein neo4j Image, auf welches durch die Ports 7474 und 7687 zugegriffen wird, sowie auch ein Volume und die Verbindung mit neo4j mit Username und Passwort.

In [4]:
!docker-compose -p completx_sql up -d

 Network completx_sql_default  Creating
 Network completx_sql_default  Created
 Volume "completx_sql_neo4j-data"  Creating
 Volume "completx_sql_neo4j-data"  Created
 Container neo4j-container  Creating
 Container neo4j-container  Created
 Container neo4j-container  Starting
 Container neo4j-container  Started


Um Neo4j zu verwenden, müssen Sie es und seinen Python-Treiber installieren. Darüber hinaus erleichtert die Installation der Bibliothek py2neo die Verbindungen und Interaktionen mit der Neo4j-Datenbank.

In [5]:
pip install neo4j

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.3.2 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


In [6]:
pip install py2neo

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.3.2 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


In [7]:
pip install requests





[notice] A new release of pip is available: 23.3.2 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


In [8]:
pip install matplotlib

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.3.2 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


In [9]:
pip install plotly

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.3.2 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


In [10]:
pip install nbformat>=4.20

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.3.2 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


Die folgende Python-Version wurde genutzt:

In [11]:
import sys
print(sys.version)

3.10.6 (tags/v3.10.6:9c7b4bd, Aug  1 2022, 21:53:49) [MSC v.1932 64 bit (AMD64)]


In [None]:
Um die restlichen Komponenten aufzulisten wurde die Library "pkg_resouces" genutzt:

In [12]:
import pkg_resources
for d in pkg_resources.working_set:
    print(d.project_name, d.version)

pywin32 306
pyzmq 25.1.2
ipython 8.22.2
jupyter-client 8.6.0
ipykernel 6.29.3
tornado 6.4
traitlets 5.14.1
psutil 5.9.8
jupyter-core 5.7.1
decorator 5.1.1
platformdirs 4.2.0
prompt-toolkit 3.0.43
pygments 2.17.2
asttokens 2.4.1
executing 2.0.1
debugpy 1.8.1
nest-asyncio 1.6.0
exceptiongroup 1.2.0
jedi 0.19.1
parso 0.8.3
stack-data 0.6.3
colorama 0.4.6
wcwidth 0.2.13
pure-eval 0.2.2
comm 0.2.1
matplotlib-inline 0.1.6
certifi 2024.2.2
jsonschema-specifications 2023.12.1
pytz 2022.7.1
youtube-dl 2021.12.17
py2neo 2021.2.4
interchange 2021.0.4
pansi 2020.7.3
setuptools 63.2.0
pip 23.3.2
attrs 23.2.0
packaging 23.0
Pillow 9.4.0
mysql-connector-python 8.3.0
tenacity 8.2.3
multidict 6.0.2
plotly 5.21.0
neo4j 5.19.0
nbformat 5.10.4
fonttools 4.38.0
jsonschema 4.21.1
typing-extensions 4.3.0
chardet 4.0.0
aiohttp 3.7.4.post0
matplotlib 3.7.0
charset-normalizer 3.3.2
idna 3.3
pyparsing 3.0.9
async-timeout 3.0.1
requests 2.31.0
pycparser 2.21
fastjsonschema 2.19.1
psycopg2 2.9.9
python-dateutil 2.

Pandas, CSV, Requests und verschiedene Modules von Py2Neo werden importiert:

In [13]:
from py2neo import Graph, Node, Relationship
import csv
import pandas as pd
import requests

Die benötigten CSV-Dateien werden mithilfe von pdf.read_csv eingelesen.
Ingesamt gibt es vier CSV-Dateien. Drei davon enthalten Informationen über die Impfungen für die Jahre 2021, 2022 und 2023. Die vierte Datei gibt Information über die Testungen pro Bundesland in den Jahren 2021 bis Ende 2022.  

In [14]:
faelle = pd.read_csv('timeline-faelle-bundeslaender.csv',delimiter=';')
vaccines_2021_cumulated = pd.read_csv('impfungen_2021.csv',delimiter=';')
vaccines_2022_cumulated = pd.read_csv('impfungen_2022.csv',delimiter=';')
vaccines_2023_cumulated = pd.read_csv('impfungen_2023.csv',delimiter=';')

Im folgenden ein paar allgemeine Informationen über Struktur und Inhalt der CSV-Dateien.

Alle genutzten CSV-Files verfügen über folgende Metadaten:
- Spaltenüberschriften
- Dateiformat
- Dateiname
- Dateigröße
- Erstellungsdatum
- Letzte Änderungsdatum
- Semikolons als Trennzeichen

In [None]:
faelle.head()

In [None]:
faelle.tail()

In [None]:
vaccines_2021_cumulated.head()

In [None]:
vaccines_2022_cumulated.head()

In [None]:
vaccines_2023_cumulated.head()

In [None]:
vaccines_2021_cumulated.tail()

In [None]:
vaccines_2022_cumulated.tail()

In [None]:
vaccines_2023_cumulated.tail()

In [None]:
faelle.shape

In [None]:
vaccines_2021_cumulated.shape

In [None]:
vaccines_2022_cumulated.shape

In [None]:
vaccines_2023_cumulated.shape

Wie unten ersichtlich, besteht der Datensatz aus einem Datum, welches mit Uhrzeit angegeben ist, der BundeslandID, dem Namen des jeweiligen Bundesland sowie der Anzahl der durchgeführten Coronatests. Diese werden dann wieder aufgeteilt in PCR- und Antigentests.

In [None]:
faelle.columns.tolist()

Der Impfungsdatensatz besteht, wie durch die Form ersichtlich ist, aus 8 Spalten. Diese beinhalten, wie oben erwähnt, das Datum mit Uhrzeit, die ID des Bezirks (diese sind nach der ersten Zahl auch dem jeweiligen Bundesland zuordenbar), den Namen des Bezirks, die Bevölkerung und dann die Anzahl der Personen, die die jeweilige Impfungsanzahl erhalten haben.

In [None]:
vaccines_2022_cumulated.columns.tolist()

Es wird noch überprüft, ob einige Datensätze unvollständig sind oder fehlende Werte aufweisen.

In [None]:
faelle.isnull().sum()

In [None]:
vaccines_2021_cumulated.isnull().sum()

In [None]:
vaccines_2022_cumulated.isnull().sum()

In [None]:
vaccines_2023_cumulated.isnull().sum()

In diesem Fall sind alle Datensätze vollständig. Abschließend werden noch die allgemeinen Eigenschaften des Datensatzes angezeigt:

In [None]:
faelle.info()

In [None]:
vaccines_2023_cumulated.info()

* Es ist ein DataFrame.
* Es gibt 6600 Einträge, d.h. 6600 Zeilen.
* Jede Zeile hat eine Zeilenbeschriftung (auch bekannt als index) mit Werten von 0 bis 6599.
* Die Tabelle hat 6 Spalten. Alle Spalten haben einen Wert für jede der Zeilen (alle 6600 Werte sind non-null).
* Die Spalten Datum und Name bestehen aus Textdaten (Strings, auch bekannt als object). Die anderen Spalten sind numerische Daten, von denen alle ganze Zahlen (aka integer) sind.
* Die Art der Daten (Zeichen, Ganzzahlen,…) in den verschiedenen Spalten werden durch Auflisten der dtypes dargestellt.
* Die ungefähre Menge an RAM, die zum Halten des DataFrame verwendet wird, wird ebenfalls angegeben. Das ist in dem Fall ~310 kb

In [None]:
# vaccines.info()

* Es ist ein DataFrame.
* Es gibt 2115 Einträge, d.h. 2115 Zeilen.
* Jede Zeile hat eine Zeilenbeschriftung (auch bekannt als index) mit Werten von 0 bis 2114.
* Die Tabelle hat 8 Spalten. Alle Spalten haben einen Wert für jede der Zeilen (alle 6600 Werte sind non-null).
* Die Spalten Date und Bezirks-name bestehen aus Textdaten (Strings, auch bekannt als object). Die anderen Spalten sind numerische Daten, von denen alle ganze Zahlen (aka integer) sind.
* Die Art der Daten (Zeichen, Ganzzahlen,…) in den verschiedenen Spalten werden durch Auflisten der dtypes dargestellt.
* Die ungefähre Menge an RAM, die zum Halten des DataFrame verwendet wird, wird ebenfalls angegeben. Das ist in dem Fall ~133 kb

In [15]:
from neo4j import GraphDatabase

uri = "neo4j://localhost:7687"
username = "neo4j"
password = "aveQho9yf6tx29vgW3kv"

graph = Graph(uri, auth=(username, password))
driver=GraphDatabase.driver(uri, auth=(username, password))


In [16]:
url = "http://localhost:7474/browser/"
response = requests.get(url)

if response.status_code == 200:
    print("Website is accessible.")
else:
    print("Failed to access website.")



Website is accessible.


Im Folgenden werden die vier CSV-Dateien in die Datenbank eingespeichert.

In [17]:
with open('impfungen_2023.csv', 'r') as csvfile:
    csvreader = csv.DictReader(csvfile, delimiter=';')
    
    for row in csvreader:
            stripped_row = {key.replace('ï»¿', ''): value for key, value in row.items()}
            # Create a Node for each row in the CSV file
            impfPatient_node = Node("Impf_Patient",
                                    datum=row['date'],
                                    bezirkId=row['municipality_id'],
                                    bezirksName=row['municipality_name'],
                                    ersteImpfung=int(stripped_row['vaccination_1']),
                                    zweiteImpfung=int(stripped_row['vaccination_2']),
                                    dritteImpfung=int(stripped_row['vaccination_3']),
                                    mehrAls3=int(stripped_row['vaccination_4+']))
            
            # Add the Node to the graph
            graph.create(impfPatient_node)

In [18]:
with open('impfungen_2021.csv', 'r') as csvfile:
    csvreader = csv.DictReader(csvfile, delimiter=';')
    
    for row in csvreader:
            stripped_row = {key.replace('ï»¿', ''): value for key, value in row.items()}
            # Create a Node for each row in the CSV file
            impfPatient_node = Node("Impf_Patient",
                                    datum=stripped_row['Datum'],
                                    bezirkId=row['Gemeindecode'],
                                    population=row['Einwohner'],
                                    ersteImpfung=int(stripped_row['Teilgeimpfte']),
                                    zweiteImpfung=int(stripped_row['Vollimmunisierte']))
            
            # Add the Node to the graph
            graph.create(impfPatient_node)

In [19]:
with open('impfungen_2022.csv', 'r') as csvfile:
    csvreader = csv.DictReader(csvfile, delimiter=';')
    
    for row in csvreader:
            stripped_row = {key.replace('ï»¿', ''): value for key, value in row.items()}
            # Create a Node for each row in the CSV file
            impfPatient_node = Node("Impf_Patient",
                                    datum=stripped_row['date'],
                                    bezirkId=row['municipality_id'],
                                    bezirksName=row['municipality_name'],
                                    ersteImpfung=int(stripped_row['dose_1']),
                                    zweiteImpfung=int(stripped_row['dose_2']),
                                    dritteImpfung=int(stripped_row['dose_3']),
                                    vierteImpfung=int(stripped_row['dose_4']),
                                    mehrAlsVier=int(stripped_row['dose_5+']))
            
            # Add the Node to the graph
            graph.create(impfPatient_node)

In [25]:
with open('timeline-faelle-bundeslaender.csv', 'r') as csvfile:
    csvreader = csv.DictReader(csvfile, delimiter=';')
    
    for row in csvreader:
            stripped_row = {key.replace('ï»¿', ''): value for key, value in row.items()}
            tests_value = stripped_row['Testungen']
            tests_value = int(tests_value) if tests_value.isdigit() else None
            # Create a Node for each row in the CSV file
            tests_node = Node("Tests",
                                datum=stripped_row['Datum'],
                                BundeslandID=row['BundeslandID'],
                                BundeslandName=row['Name'],
                                Tests=int(tests_value),
                                PCR=row['TestungenPCR'],
                                Antigen=row['TestungenAntigen'],
                                fällePositiv = int(stripped_row.get('Fälle', '0'))
                               )
            
            # Add the Node to the graph
            graph.create(tests_node)

In [22]:
def create_relationships_with_limit(graph, node1_label, node2_label, relationship_type, limit):
    # Query that matches nodes, creates a limited number of relationships, and ensures no duplicate relationships
    query = f"""
    MATCH (n1:{node1_label}), (n2:{node2_label})
    WHERE n1.datum = n2.datum AND NOT EXISTS((n1)-[:{relationship_type}]->(n2))
    WITH n1, n2 LIMIT {limit}
    CREATE (n1)-[r:{relationship_type}]->(n2)
    RETURN count(r) as created_count
    """
    # Running the query
    result = graph.run(query).single().value()
    print(f"{result} relationships created")
    return result

In [None]:
query = f"""

MATCH (t:Tests), (i:Impf_Patient)
WHERE t.datum = i.datum
WITH t, i LIMIT 100000 
CREATE (t)-[r:RELATIONSHIP_TYPE]->(i)
RETURN count(r)

MATCH (t:Tests)-[r:RELATIONSHIP_TYPE]->(i:Impf_Patient)
RETURN t, r, i LIMIT 25
"""

Um eine Verbindung zur Datenbank herzustellen, muss eine URL eingeben, über die die Verbindung hergestellt wird, sowie Authentifizierungsdaten, bestehend aus Benutzername und Passwort. Mit py2neo kann dann die Verbindung mithilfe von Graph hergestellt werden. Dies ist auch mit GraphDatabase von Neo4J möglich.

Um zu überprüfen, ob die Seite aktiv ist, kann diese Funktion verwendet werden:

# Visualizations

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
from neo4j import GraphDatabase
import numpy as np  # Import numpy for array operations

# Run Cypher query
result = graph.run("""
MATCH (t:Tests) where t.BundeslandName <> 'Österreich'AND t.BundeslandName <> 'Ã–sterreich'
RETURN t.BundeslandName, t.Tests
ORDER BY t.Tests DESC
""")

# Convert result to DataFrame
df = pd.DataFrame([r.values() for r in result], columns=result.keys())

# Replace None values with np.nan (NaN) or a default value
df['t.BundeslandName'].replace({None: 'Unknown'}, inplace=True)
df['t.Tests'].replace({None: 0}, inplace=True)  # Replace with 0 or np.nan based on your preference

# Convert 't.Tests' column to numeric (in case it's not already)
df['t.Tests'] = pd.to_numeric(df['t.Tests'])

# Create bar chart
plt.figure(figsize=(10, 6))
plt.bar(df['t.BundeslandName'], df['t.Tests'])
plt.xlabel('State')
plt.ylabel('Number of Tests')
plt.title('Number of Tests')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()


In [None]:
cypher_query = """
MATCH (n)
RETURN n.datum AS Year, sum(n.Tests) AS tests, sum(n.ersteImpfung) AS Vaccinations
ORDER BY Year
"""

with driver.session() as session:
    result = session.run(cypher_query)
    df = pd.DataFrame([dict(record) for record in result])

# Create subplots
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Diagram for Tests
ax1.bar(df['Year'], df['tests'], color='b', edgecolor='black', label='tests')
ax1.set_xlabel("Year")
ax1.set_ylabel("Count")
ax1.set_title("Number of people tested each year")
ax1.set_xticks(df['Year'])
ax1.legend()

# Diagram for Vaccinations
ax2.bar(df['Year'], df['Vaccinations'], color='g', edgecolor='black', label='Vaccinations')
ax2.set_xlabel("Year")
ax2.set_ylabel("Count")
ax2.set_title("Number of people vaccinated each year")
ax2.set_xticks(df['Year'])
ax2.legend()

# Adjust layout
plt.tight_layout()

# Show plots
plt.show()

In [None]:
cypher_query = """
MATCH (t:Tests)
WHERE t.BundeslandName <> 'Österreich' AND t.BundeslandName <> 'Ã–sterreich'
RETURN t.BundeslandName, sum(t.Tests) as Tests
"""

result = graph.run(cypher_query)

# Convert result to DataFrame
df = pd.DataFrame([dict(r) for r in result], columns=['t.BundeslandName', 'Tests'])

# Replace None values with 'Unknown' for BundeslandName and 0 for Tests
df['t.BundeslandName'].replace({None: 'Unknown'}, inplace=True)
df['Tests'].replace({None: 0}, inplace=True)

# Convert 'Tests' column to numeric (in case it's not already)
df['Tests'] = pd.to_numeric(df['Tests'], errors='coerce')

# Remove rows with non-finite 'Tests' values
df = df[np.isfinite(df['Tests'])]

# Create pie chart
plt.figure(figsize=(10, 6))
plt.pie(df['Tests'], labels=df['t.BundeslandName'], autopct='%1.1f%%')
plt.title('Distribution of Tests by State')
plt.tight_layout()
plt.show()



In [None]:
print(df.columns)

In [None]:
# Cypher query to retrieve vaccination data
cypher_query = """
MATCH (i:Impf_Patient)
RETURN i.BundeslandName AS BundeslandName, i.datum AS Year, sum(i.ersteImpfung+i.zweiteImpfung) AS Vaccinations
ORDER BY Year
"""

with driver.session() as session:
    result = session.run(cypher_query)
    df = pd.DataFrame([dict(record) for record in result])

# Pivot the DataFrame to have Years as columns
df_pivot = df.pivot(index='BundeslandName', columns='Year', values='Vaccinations')

# Plotting
plt.figure(figsize=(12, 6))
df_pivot.plot(kind='line', marker='o')
plt.title('Change in Vaccinations Over Years by State')
plt.xlabel('State')
plt.ylabel('Number of Vaccinations')
plt.grid(True)
plt.tight_layout()
plt.show()



In [None]:
cypher_query = """
MATCH (i:Impf_Patient)
RETURN i.datum AS Year,i.bezirkId AS opt,sum(i.ersteImpfung) as Vaccinations
"""

with driver.session() as session:
    result = session.run(cypher_query)
    df = pd.DataFrame([dict(record) for record in result])



# Pivot the DataFrame to have Years as columns
df_pivot = df.pivot(index='opt', columns='Year', values='Vaccinations')

# Plotting
plt.figure(figsize=(12, 6))
df_pivot.plot(kind='bar', figsize=(12, 6), stacked=True)
plt.title('Total Vaccinations Over Years by District')
plt.xlabel('District (bezirk)')
plt.ylabel('Number of Vaccinations')
plt.legend(title='Year')
plt.tight_layout()
plt.show()

In [None]:
# Define the Cypher query
cypher_query = """
MATCH (n:nodes)
RETURN n.datum AS Year, sum(n.ersteImpfung) as Vaccinations
"""

# Execute the Cypher query
with driver.session() as session:
    result = session.run(cypher_query)
    df = pd.DataFrame([dict(record) for record in result])

# Convert the result to pandas DataFrame
df = pd.DataFrame(result)

# Pivot the DataFrame to have Years as columns
df_pivot = df.pivot(columns='Year', values='Vaccinations')

# Plotting
plt.figure(figsize=(10, 6))

# Define bar positions and widths
bar_width = 0.35
r1 = range(len(df_pivot))
r2 = [x + bar_width for x in r1]

# Create bars
plt.bar(r1, df_pivot.iloc[:, 0], width=bar_width, label='Vaccinations')

# Add labels, title, and legend
plt.xlabel('Year', fontweight='bold')
plt.ylabel('Count', fontweight='bold')
plt.title('Vaccinations Per Year from Neo4j')
plt.xticks([r + bar_width/2 for r in range(len(df_pivot.columns))], df_pivot.columns)
plt.legend()

# Show plot
plt.tight_layout()
plt.show()


In [None]:
# Cypher-Abfrage definieren
cypher_query = """
MATCH (i:Impf_Patient)
RETURN i.datum AS Year, i.bezirkId AS opt,
       CASE WHEN i.datum CONTAINS '2021' THEN sum(i.ersteImpfung) + sum(i.zweiteImpfung)
            WHEN i.datum CONTAINS '2022' THEN sum(i.ersteImpfung) + sum(i.zweiteImpfung) + sum(i.dritteImpfung) + sum(i.vierteImpfung) + sum(i.mehrAlsVier)
            WHEN i.datum CONTAINS '2024' THEN sum(i.ersteImpfung) + sum(i.zweiteImpfung) + sum(i.dritteImpfung) + sum(i.mehrAls3)
       END as Vaccinations
"""

# Ergebnisse aus der Datenbank abrufen
with driver.session() as session:
    result = session.run(cypher_query)
    df = pd.DataFrame([dict(record) for record in result])

# Bundesland aus der Bezirks-ID extrahieren
df['bundesland'] = df['opt'].apply(lambda x: int(str(x)[0]))

# DataFrame pivotieren, um Jahre als Spalten zu haben
df_pivot = df.pivot_table(index='bundesland', columns='Year', values='Vaccinations', aggfunc='sum')

# Plot erstellen
fig, ax = plt.subplots(figsize=(12, 6))

colors = ['#1f77b4', '#ff7f0e', '#2ca02c']  # Farben für Jahre

bar_width = 0.2
for i, year in enumerate(df_pivot.columns):
    x = df_pivot.index + i * bar_width  # x-Koordinaten für Balken
    ax.bar(x, df_pivot[year], width=bar_width, label=year, color=colors[i % len(colors)])

ax.set_title('Gesamtimpfungen über Jahre nach Bundesland')
ax.set_xlabel('Bundesland')
ax.set_ylabel('Anzahl der Impfungen')
ax.set_xticks(df_pivot.index + (len(df_pivot.columns) - 1) * bar_width / 2)
ax.set_xticklabels(['Burgenland', 'Kärnten', 'Niederösterreich', 'Oberösterreich',
                    'Salzburg', 'Steiermark', 'Tirol', 'Vorarlberg', 'Wien'])
ax.legend(title='Jahr')
plt.tight_layout()
plt.show()


In [None]:
import plotly.graph_objs as go
import pandas as pd
import json


austria_geojson_path = 'laender_999_geo.json'


with open(austria_geojson_path) as f:
    austria_geojson = json.load(f)


bundeslander = ['Wien', 'Niederoesterreich', 'Oberoesterreich', 'Steiermark', 'Kaernten', 
                'Salzburg', 'Tirol', 'Vorarlberg', 'Burgenland']


anzahl_befragte = [100, 200, 150, 250, 80, 90, 120, 60, 30]

austriamap = go.Choropleth(
    geojson=austria_geojson,  # Verweise auf die GeoJSON-Datei
    featureidkey="properties.name",  # Pfad zum Attribut im GeoJSON Feature, das den Namen des Bundeslandes enthält
    locations=bundeslander,  # Namen der Bundesländer aus deiner Liste
    z=anzahl_befragte,  # Numerische Werte, die du darstellen möchtest
    colorscale="Blues",
    reversescale=True,
    marker_line_width=0.5,
    colorbar_title="Anzahl der Befragten"
)

layout = go.Layout(
    title_text="Anzahl der Befragten in Österreich nach Bundesländern",
    geo=dict(
        scope="europe",  # Begrenzt die Ansicht auf Europa
        showlakes=True,
        lakecolor="rgb(255, 255, 255)",
        center={"lat": 47.6965, "lon": 13.3457},  # Zentriere die Karte auf Österreich
        lataxis={"range": [46, 49]},  # Begrenzt den Breitengradbereich
        lonaxis={"range": [9, 17]},  # Begrenzt den Längengradbereich
        countrycolor="DarkBlue",
        landcolor="White",
        showcountries=True,
        countrywidth=1.0
    )
)

fig = go.Figure(data=austriamap, layout=layout)
fig.show()

In [None]:
import plotly.graph_objs as go
import pandas as pd
import json


with open('laender_999_geo.json', 'r') as f:
    austria_geojson = json.load(f)

Impf = graph.run("""
MATCH (i:Impf_Patient)
WHERE i.datum STARTS WITH '2021'
WITH i, substring(i.bezirkId, 0, 1) AS bundeslandId
RETURN bundeslandId AS bezirkId, sum(i.zweiteImpfung) AS TotalImpfungen
ORDER BY TotalImpfungen DESC

""")


df = pd.DataFrame([dict(r) for r in Impf], columns=['bezirkId', 'TotalImpfungen'])


df['TotalImpfungen'] = pd.to_numeric(df['TotalImpfungen'])

# Create Choropleth Map
austriamap = [go.Choropleth(
    geojson=austria_geojson,  # Reference to your GeoJSON file
    featureidkey="properties.iso",  # Path to the 'iso' property in the GeoJSON that matches 'bezirkId'
    locations=df['bezirkId'],  # Names of the regions (make sure these match the GeoJSON)
    z=df['TotalImpfungen'],  # Data to be mapped
    colorscale="Blues",
    marker_line_width=0.5,
    colorbar_title="Anzahl der Geimpften"
)]

layout = go.Layout(
    title_text="Anzahl der Geimpften 2021 in Österreich nach Bundesländern",
    geo=dict(
        scope="europe",
        showcountries=True,
        showlakes=True,
        lakecolor="rgb(255, 255, 255)",
        countrycolor="DarkBlue"
    )
)

fig = go.Figure(data=austriamap, layout=layout)
fig.show()


In [None]:
import plotly.graph_objs as go
import pandas as pd
import json


with open('laender_999_geo.json', 'r') as f:
    austria_geojson = json.load(f)

Impf = graph.run("""
MATCH (i:Impf_Patient)
WHERE i.datum STARTS WITH '2022'
WITH i, substring(i.bezirkId, 0, 1) AS bundeslandId
RETURN bundeslandId AS bezirkId, sum(i.zweiteImpfung) AS TotalImpfungen
ORDER BY TotalImpfungen DESC
""")


df = pd.DataFrame([dict(r) for r in Impf], columns=['bezirkId', 'TotalImpfungen'])


df['TotalImpfungen'] = pd.to_numeric(df['TotalImpfungen'])

# Create Choropleth Map
austriamap = [go.Choropleth(
    geojson=austria_geojson,  # Reference to your GeoJSON file
    featureidkey="properties.iso",  # Path to the 'iso' property in the GeoJSON that matches 'bezirkId'
    locations=df['bezirkId'],  # Names of the regions (make sure these match the GeoJSON)
    z=df['TotalImpfungen'],  # Data to be mapped
    colorscale="Blues",
    marker_line_width=0.5,
    colorbar_title="Anzahl der Geimpften"
)]

layout = go.Layout(
    title_text="Anzahl der Geimpften 2022 in Österreich nach Bundesländern",
    geo=dict(
        scope="europe",
        showcountries=True,
        showlakes=True,
        lakecolor="rgb(255, 255, 255)",
        countrycolor="DarkBlue"
    )
)

fig = go.Figure(data=austriamap, layout=layout)
fig.show()


In [None]:
import plotly.graph_objs as go
import pandas as pd
import json


with open('laender_999_geo.json', 'r') as f:
    austria_geojson = json.load(f)

Impf = graph.run("""
MATCH (i:Impf_Patient)
WHERE i.datum STARTS WITH '2023'
WITH i, substring(i.bezirkId, 0, 1) AS bundeslandId
RETURN bundeslandId AS bezirkId, sum(i.zweiteImpfung) AS TotalImpfungen
ORDER BY TotalImpfungen DESC

""")


df = pd.DataFrame([dict(r) for r in Impf], columns=['bezirkId', 'TotalImpfungen'])


df['TotalImpfungen'] = pd.to_numeric(df['TotalImpfungen'])

# Create Choropleth Map
austriamap = [go.Choropleth(
    geojson=austria_geojson,  # Reference to your GeoJSON file
    featureidkey="properties.iso",  # Path to the 'iso' property in the GeoJSON that matches 'bezirkId'
    locations=df['bezirkId'],  # Names of the regions (make sure these match the GeoJSON)
    z=df['TotalImpfungen'],  # Data to be mapped
    colorscale="Blues",
    marker_line_width=0.5,
    colorbar_title="Anzahl der Geimpften"
)]

layout = go.Layout(
    title_text="Anzahl der Geimpften 2023 in Österreich nach Bundesländern",
    geo=dict(
        scope="europe",
        showcountries=True,
        showlakes=True,
        lakecolor="rgb(255, 255, 255)",
        countrycolor="DarkBlue"
    )
)

fig = go.Figure(data=austriamap, layout=layout)
fig.show()


In [None]:
Test = graph.run("""
MATCH (t:Tests)
WHERE t.BundeslandName <> 'Österreich' AND t.BundeslandName <> 'Ã–sterreich'
WITH t.BundeslandID as BundeslandID, toInteger(t.Tests) as TotalTestungen, t.BundeslandName as Name
ORDER BY t.datum DESC
RETURN BundeslandID, Name, TotalTestungen
LIMIT 9
""")

for record in Test:
    print(record)

In [None]:
import plotly.graph_objs as go
import pandas as pd
import json


with open('laender_999_geo.json', 'r') as f:
    austria_geojson = json.load(f)


Test = graph.run("""
MATCH (t:Tests)
WHERE t.BundeslandName <> 'Österreich' AND t.BundeslandName <> 'Ã–sterreich'
WITH t.BundeslandID as BundeslandID, toInteger(t.fällePositiv) as TotalCases, t.BundeslandName as Name
ORDER BY t.datum DESC
RETURN BundeslandID, Name, TotalTestungen
LIMIT 9
""")

df = pd.DataFrame([dict(r) for r in Test], columns=['BundeslandID', 'TotalCases'])

austriamap = [go.Choropleth(
    geojson=austria_geojson,  
    featureidkey="properties.iso",  
    locations=df['BundeslandID'],  
    z=df['TotalCases'],  
    colorscale="Blues",
    marker_line_width=0.5,
    colorbar_title="Anzahl der positiven Fälle"
)]

layout = go.Layout(
    title_text="Anzahl der positiven Fälle in Österreich nach Bundesländern",
    geo=dict(
        scope="europe",
        showcountries=True,
        showlakes=True,
        lataxis={"range": [46, 49]},  # Begrenzt den Breitengradbereich
        lonaxis={"range": [9, 17]},
        lakecolor="rgb(255, 255, 255)",
        countrycolor="DarkBlue"
    )
)

fig = go.Figure(data=austriamap, layout=layout)
fig.show()

In [None]:
cypher_query = """
MATCH (i:Impf_Patient)
WITH i, substring(i.bezirkId, 0, 1) AS bundeslandId
RETURN  bundeslandId AS bezirkId, i.datum AS Year, sum(i.ersteImpfung) AS Vaccinations
ORDER BY bezirkId, Year
"""

with driver.session() as session:
    result = session.run(cypher_query)
    df = pd.DataFrame([dict(record) for record in result])

# Print DataFrame columns to verify
print(df.columns)

# Pivot the DataFrame to have Years as columns
df_pivot = df.pivot(index='bezirkId', columns='Year', values='Vaccinations')

# Plotting
plt.figure(figsize=(12, 6))
df_pivot.plot(kind='bar', figsize=(12, 6), stacked=True)
plt.title('Total Vaccinations Over Years by District')
plt.xlabel('District (bezirk)')
plt.ylabel('Number of Vaccinations')
plt.legend(title='Year')
plt.tight_layout()
plt.show()

In [None]:
cypher_query = """
MATCH (i:Impf_Patient)
WITH i, substring(i.bezirkId, 0, 1) AS bundeslandId
RETURN  bundeslandId AS bezirkId, i.datum AS Year, sum(i.ersteImpfung) AS Vaccinations
ORDER BY bezirkId, Year
"""

with driver.session() as session:
    result = session.run(cypher_query)
    df = pd.DataFrame([dict(record) for record in result])

# Print DataFrame columns to verify
print(df.columns)

bundeslaender = np.array([
    "Burgenland",
    "Kärnten",
    "Niederösterreich",
    "Oberösterreich",
    "Salzburg",
    "Steiermark",
    "Tirol",
    "Vorarlberg",
    "Wien"
])

# Pivot the DataFrame to have Years as columns
df_pivot = df.pivot(index='bezirkId', columns='Year', values='Vaccinations')

# Plotting
plt.figure(figsize=(12, 6))
ax = df_pivot.plot(kind='bar', figsize=(12, 6), stacked=True)

# Set x-ticks and labels
ax.set_xticks(np.arange(len(bundeslaender)))
ax.set_xticklabels(bundeslaender)

plt.title('Total Vaccinations Over Years by Bundesland')
plt.xlabel('Bundesland')
plt.ylabel('Number of Vaccinations')
plt.legend(title='Year')
plt.tight_layout()
plt.show()

In [None]:
import plotly.graph_objs as go

import json


austria_geojson_path = 'laender_999_geo.json'


with open(austria_geojson_path,  'r') as f:
    austria_geojson = json.load(f)

Impf = graph.run("""
MATCH (i:Impf_Patient2021)
RETURN i.bezirkId, i.zweiteImpfung
ORDER BY i.Vollimmuiniserte DESC
""")

df = pd.DataFrame([dict(r) for r in Impf], columns=['i.bezirkId', 'i.zweiteImpfung'])

df['bundesland'] = df['i.bezirkId'].apply(lambda x: int(str(x)[0]))

df['i.zweiteImpfung'] = pd.to_numeric(df['i.zweiteImpfung'])



austriamap = [go.Choropleth(
    geojson=austria_geojson,  # Verweise auf die GeoJSON-Datei
    featureidkey="properties.iso",  # Pfad zum Attribut im GeoJSON Feature, das den Namen des Bundeslandes enthält
    locations=df['bundesland'],  # Hier die Namen der Bundesländer
    z=df['i.zweiteImpfung'],  # Hier die Anzahl der Befragten
    colorscale="Blues",
    reversescale=True,
    marker=dict(line=dict(width=0.5)),
    colorbar=dict(title='Anzahl der Befragten')  # Entferne autotick, da es nicht unterstützt wird
)]

layout = go.Layout(
    title_text="Anzahl der Befragten in Österreich nach Bundesländern",
    geo=dict(
        scope="europe",  # Begrenzt die Ansicht auf Europa
        showlakes=True,
        lakecolor="rgb(255, 255, 255)",
        center={"lat": 47.6965, "lon": 13.3457},  # Zentriere die Karte auf Österreich
        lataxis={"range": [46, 49]},  # Begrenzt den Breitengradbereich
        lonaxis={"range": [9, 17]},  # Begrenzt den Längengradbereich
        countrycolor="DarkBlue",
        landcolor="LightGreen",
        showcountries=True,
        countrywidth=1.0
    )
)


fig = go.Figure(data=austriamap)
fig.show()

Über den localhost:7687 kann man Neo4J im Browser starten und sich die Nodes und Edges ansehen:

Die Daten können dann mit hilfe von csv, was vorher importiert wurde, einglesen werden und nachdem die Nodes deklariert wurden, kann der Graph erstellt werden mit py2neo.

Um abzufragen wie viele Nodes in Der Tabelle sind, kann diese Query verwendet werden:

In [None]:
with driver.session() as session:
    result = session.run("MATCH (n) RETURN count(n) AS node_count")
    for record in result:
        print(record["node_count"])

In Neo4j wird as Sprache "Cypher" verwendet. In dieser Sprache sind die Nodes mit () dargestellt und die Edges mit [] dargestellt. Hier werden alle Patienten die Covid gehabt haben ausgegeben:

In [None]:
cypher_query = """
MATCH (i:Impf_Patient)
RETURN i.datum AS Year, sum(i.ersteImpfung) AS Vaccinations
"""

result = graph.run(cypher_query)

# Fetch all records
records = result.data()

# Print the result
for record in records:
    print(record)


Dies kann auch mit panda dargestellt werden:

In [None]:
import pandas as pd

# Assuming you have already executed the cypher_query and stored the result in 'result'
cypher_query = """
MATCH (p:Patient) WHERE p.covid='1'
RETURN p.kalenderWoche, p.wohnort, p.Geschlecht, p.covid, p.influenza, p.rsv, p.sonstige, p.aufnahmen, p.bev_zahl

"""

result = graph.run(cypher_query)

# Extract data from result
data = [dict(record) for record in result]

# Convert the result to a DataFrame
df = pd.DataFrame(data)

# Print the DataFrame
print(df)


Danach wird der Container wieder geschlossen:

In [None]:
!docker ps

In [2]:
!docker-compose down

In [1]:
!docker-compose -p completx_sql down

 Container neo4j-container  Stopping
 Container neo4j-container  Stopped
 Container neo4j-container  Removing
 Container neo4j-container  Removed
 Network completx_sql_default  Removing
 Network completx_sql_default  Removed


In [None]:
!docker volume ls

Um ein Volume zu löschen, kann man wieder folgenden Befehl verwenden:

In [3]:
!docker volume rm completx_sql_neo4j-data

completx_sql_neo4j-data


Anbei ist ein GitHub-Repository zu finden, in dem einige Queries sowie Videos verlinkt sind, die Ihnen helfen können, Cypher und Neo4j besser zu verstehen:
https://github.com/cj2001/bite_sized_data_science/tree/main

Ebenfalls sind in der Dokumentation von Neo4j viele hilfreiche Hinweise zu finden, zum Beispiel zum Import von CSV-Dateien über Python:
https://neo4j.com/docs/getting-started/data-import/csv-import/

Zuletzt noch ein Cheatsheet für Cypher: https://neo4j.com/docs/cypher-cheat-sheet/5/auradb-enterprise/