# import and read

In [320]:
import pandas as pd
import os
import sqlalchemy as sql
import numpy as np
import sqlite3
import psycopg2
from sqlalchemy import create_engine

In [321]:
# Deine Datenbankverbindungseinstellungen
db_user = 'postgres'
db_password = 'neues_passwort'
db_host = 'localhost'
db_port = '5432'
db_name = 'postgres'

# Verbindung zur PostgreSQL-Datenbank herstellen
engine = create_engine(f'postgresql+psycopg2://{db_user}:{db_password}@{db_host}:{db_port}/{db_name}')


# Pfad zur Excel-Datei
file_path = 'C:\\Users\\hp\\OneDrive\\Desktop\\DBU\\SP3-1.Dateninfrastrukturen\\Pruefung\\Zensus\\input\\Zensus.xlsx'
# Lese die Excel-Datei ein und speichere die Blätter als einzelne DataFrames
sheets = pd.read_excel(file_path, sheet_name=None)
data_frames = {sheet_name: data for sheet_name, data in sheets.items() if sheet_name.startswith('CSV')}

# check
print("Dateninfrastruktur aufgesetzt und Excel-Daten geladen.")

Dateninfrastruktur aufgesetzt und Excel-Daten geladen.


# Transform

In [322]:
# Speichern der DataFrames in separaten Variablen mit angepassten Namen
created_dfs = {}
for sheet_name, data in data_frames.items():
    # Ersetzen von '-' und '/' durch '_' in den Tabellenblätternamen
    new_sheet_name = sheet_name.replace('-', '_').replace('/', '_')
    
    # Ersetzen von '.', '/', '-' und '–' durch 0 in den Daten
    df = data.apply(lambda x: x.map(lambda y: 0 if y in ['.', '/', '-', '–'] else y))
    
    # Bereinigung der 'Regionalebene'-Spalte (Kreise)
    if 'Regionalebene' in df.columns:
        df['Regionalebene'] = df['Regionalebene'].str.replace('/', '')
        df['Regionalebene'] = df['Regionalebene'].str.replace(' ', '')
    # Umwandlung in numerische Typen für Spalten ab der 5.
    for col in df.columns[4:]:
        df[col] = pd.to_numeric(df[col], errors='coerce').fillna(0).astype(int)
    
    # Spaltennamen in Kleinbuchstaben ändern
    df.columns = [col.lower() for col in df.columns]

    globals()[new_sheet_name] = df
    created_dfs[new_sheet_name] = df

# Anzeigen der neuen Namen der erstellten DataFrames
print("Erstellte DataFrames:")
for df_name in created_dfs.keys():
    print(df_name)

Erstellte DataFrames:
CSV_Klassenstufe
CSV_Schulform
CSV_Hoechster_Schulabschluss
CSV_Hoechster_berufl_Abschluss
CSV_Erwerbsstatus
CSV_ET_Alter
CSV_ET_Hoechst_berufl_Abschl
CSV_ET_Stellung_im_Beruf
CSV_ET_Beruf_Hauptgr_ISCO08
CSV_ET_Wirtschaftszweig


In [323]:
CSV_Klassenstufe.groupby('regionalebene')['schueler_klss_stp'].sum()

regionalebene
Bund                                  8903780
Gemeinde                              6631640
Gemeindeverband                       1310750
Land                                  8903780
Regierungsbezirk                      7013880
StadtkreiskreisfreieStadtLandkreis    8903770
Name: schueler_klss_stp, dtype: int64

In [324]:
# Neue Tabelle für stadt-Typen erstellen
stadt_typen = pd.DataFrame(columns=['schluessel', 'typ'])

# Bereinigung der DataFrames und Auslagern der stadt-Typen
for name, df in created_dfs.items():
    # Extrahieren des Stadtnamens und Typs
    df['stadt'] = df['name'].str.split(',').str[0]
    df['typ'] = df['name'].str.split(',').str[1].str.strip()
    
    # Kombinieren in die neue Tabelle
    temp_df = df[['_rs', 'typ']].drop_duplicates().rename(columns={'_rs': 'schluessel'})
    stadt_typen = pd.concat([stadt_typen, temp_df])
    
    # Bereinigen der 'name'-Spalte
    df['name'] = df['stadt']
    
    # Entfernen der temporären Spalten
    df = df.drop(columns=['stadt', 'typ'])
    
    # Aktualisieren des DataFrames im Dictionary
    created_dfs[name] = df

# Entfernen von Duplikaten und NaN-Werten in der neuen Tabelle
stadt_typen = stadt_typen.drop_duplicates().dropna().reset_index(drop=True)
stadt_typen['schluessel'] = stadt_typen['schluessel'].astype('int64')  # 
# Neue Tabelle und bereinigte DataFrames anzeigen
print("stadt-Typen Tabelle:")
print(stadt_typen.head())

print("Bereinigte DataFrames:")
for name, df in created_dfs.items():
    print(f"{name}:")
    print(df.head())

stadt-Typen Tabelle:
    schluessel               typ
0         1001             Stadt
1  10010000000             Stadt
2         1002  Landeshauptstadt
3  10020000000  Landeshauptstadt
4         1003        Hansestadt
Bereinigte DataFrames:
CSV_Klassenstufe:
   berichtszeitpunkt          _rs                name  \
0           20220515            0         Deutschland   
1           20220515            1  Schleswig-Holstein   
2           20220515         1001           Flensburg   
3           20220515  10010000000           Flensburg   
4           20220515         1002                Kiel   

                        regionalebene  schueler_klss_stp  \
0                                Bund            8903780   
1                                Land             320060   
2  StadtkreiskreisfreieStadtLandkreis              10380   
3                            Gemeinde              10380   
4  StadtkreiskreisfreieStadtLandkreis              24340   

   schueler_klss_stp__m  schueler_kl

## regionalebenen

In [325]:
# Definieren der Regionalebenen
liste = [
    'Bund',
    'Gemeinde',
    'Gemeindeverband',
    'Land',
    'Regierungsbezirk',
    'StadtkreiskreisfreieStadtLandkreis'
]

In [326]:

# Erstellen der Tabellen für alle Regionalebenen
regionalebenen = {}
for ebene in liste:
    regionalebenen[ebene] = pd.DataFrame()
    for df in created_dfs.values():
        if 'regionalebene' in df.columns:
            filtered_df = df[df['regionalebene'] == ebene][['_rs', 'name']]
            regionalebenen[ebene] = pd.concat([regionalebenen[ebene], filtered_df], ignore_index=True)
    regionalebenen[ebene] = regionalebenen[ebene].drop_duplicates().reset_index(drop=True)

    # check
    print(f"Tabelle für {ebene} wurde erfolgreich erstellt.")
    print(regionalebenen[ebene].head())

Tabelle für Bund wurde erfolgreich erstellt.
   _rs         name
0    0  Deutschland
Tabelle für Gemeinde wurde erfolgreich erstellt.
           _rs         name
0  10010000000    Flensburg
1  10020000000         Kiel
2  10030000000       Lübeck
3  10040000000   Neumünster
4  10510011011  Brunsbüttel
Tabelle für Gemeindeverband wurde erfolgreich erstellt.
        _rs                    name
0  10515163  Burg-St. Michaelisdonn
1  10515166           Marne-Nordsee
2  10515169                   Eider
3  10515172           Heider Umland
4  10515175      Mitteldithmarschen
Tabelle für Land wurde erfolgreich erstellt.
   _rs                 name
0    1   Schleswig-Holstein
1    2              Hamburg
2    3        Niedersachsen
3    4               Bremen
4    5  Nordrhein-Westfalen
Tabelle für Regierungsbezirk wurde erfolgreich erstellt.
   _rs                              name
0   31  Statistische Region Braunschweig
1   32      Statistische Region Hannover
2   33      Statistische Region L

In [327]:
# Erstellen der Spalten für Gemeindeverbandsschlüssel (erste 8 Stellen)
for ebene in ['Gemeinde', 'Gemeindeverband']:
    regionalebenen[ebene]['gemeindeverbandsschluessel'] = regionalebenen[ebene]['_rs'].astype(str).str[:9].astype(int)

# Erstellen der Spalten für Kreisschlüssel (erste 4 Stellen)
for ebene in ['Gemeindeverband', 'StadtkreiskreisfreieStadtLandkreis']:
    regionalebenen[ebene]['kreisschluessel'] = regionalebenen[ebene]['_rs'].astype(str).str[:5].astype(int)

# Erstellen der Spalten für Landesschlüssel (erste 2 Stellen)
for ebene in ['StadtkreiskreisfreieStadtLandkreis', 'Regierungsbezirk']:
    regionalebenen[ebene]['regbezirkschluessel'] = regionalebenen[ebene]['_rs'].astype(str).str[:3].astype(int)

# Erstellen der Spalten für Landesschlüssel (erste 2 Stellen)
for ebene in ['Regierungsbezirk', 'Land']:
    regionalebenen[ebene]['landesschluessel'] = regionalebenen[ebene]['_rs'].astype(str).str[:2].astype(int)

# Erstellen der Spalten für Landesschlüssel (erste 2 Stellen)
for ebene in ['Land', 'Bund']:
    regionalebenen[ebene]['bundschluessel'] = regionalebenen[ebene]['_rs'].astype(str).str[:1].astype(int)

# Alle Tabellen ohne die Spalte '_rs' speichern (ausser Gemeinde)
for ebene, df in regionalebenen.items():
    if ebene != 'Gemeinde':
        regionalebenen[ebene] = df.drop('_rs', axis=1)

# _rs in Gemeindeschlüssel umbenennen
regionalebenen['Gemeinde'] = regionalebenen['Gemeinde'].rename(columns={'_rs': 'gemeindeschluessel'})


In [328]:
regionalebenen['StadtkreiskreisfreieStadtLandkreis']

Unnamed: 0,name,kreisschluessel,regbezirkschluessel
0,Flensburg,1001,100
1,Kiel,1002,100
2,Lübeck,1003,100
3,Neumünster,1004,100
4,Dithmarschen,1051,105
...,...,...,...
395,Saalfeld-Rudolstadt,16073,160
396,Saale-Holzland-Kreis,16074,160
397,Saale-Orla-Kreis,16075,160
398,Greiz,16076,160


In [329]:
# Überprüfen der ersten Zeilen der Tabellen

print("Gemeindetabelle:")
print(regionalebenen['Gemeinde'].head())

print("\nGemeindeverbandstabelle:")
print(regionalebenen['Gemeindeverband'].head())

print("\nKreis:")
print(regionalebenen['StadtkreiskreisfreieStadtLandkreis'].head())

print("\nRegBezirk:")
print(regionalebenen['Regierungsbezirk'].head())

print("\nLändertabelle:")
print(regionalebenen['Land'].head())

Gemeindetabelle:
   gemeindeschluessel         name  gemeindeverbandsschluessel
0         10010000000    Flensburg                   100100000
1         10020000000         Kiel                   100200000
2         10030000000       Lübeck                   100300000
3         10040000000   Neumünster                   100400000
4         10510011011  Brunsbüttel                   105100110

Gemeindeverbandstabelle:
                     name  gemeindeverbandsschluessel  kreisschluessel
0  Burg-St. Michaelisdonn                    10515163            10515
1           Marne-Nordsee                    10515166            10515
2                   Eider                    10515169            10515
3           Heider Umland                    10515172            10515
4      Mitteldithmarschen                    10515175            10515

Kreis:
           name  kreisschluessel  regbezirkschluessel
0     Flensburg             1001                  100
1          Kiel             1002     

## restliche tabellen 

In [330]:
# Liste erstellen fuer die uebrigen dfs
tabellen_liste = [
    'CSV_Klassenstufe',
    'CSV_Schulform',
    'CSV_Hoechster_Schulabschluss',
    'CSV_Hoechster_berufl_Abschluss',
    'CSV_Erwerbsstatus',
    'CSV_ET_Alter',
    'CSV_ET_Hoechst_berufl_Abschl',
    'CSV_ET_Stellung_im_Beruf',
    'CSV_ET_Beruf_Hauptgr_ISCO08',
    'CSV_ET_Wirtschaftszweig'
]

In [331]:

# Erstellen der Tabellen für alle definierten Tabellen und Konvertieren der Spalten
# Liste für die DataFrames
andere_tabellen = {}
# Iteration über die Liste der Tabellen
for tabelle in tabellen_liste:
    tabelle_name = tabelle.replace('CSV_', '').lower()  # Ersetzen von 'CSV_' durch '' und Umwandlung in Kleinbuchstaben
    df = created_dfs[tabelle].drop(columns=['berichtszeitpunkt', 'name', 'regionalebene']).drop_duplicates().reset_index(drop=True)  # Entfernen der Spalten
    df['schluessel'] = df['_rs'].astype(int)  # Erstellen einer schluessel-Spalte aus der '_rs'-Spalte zu Integer
    df = df.drop(columns=['_rs'])
    df = df.fillna(0)  # NA-Werte durch 0 ersetzen
    # Konvertieren der Spalten in numerische Typen
    for col in df.columns:
        if df[col].dtype == object:
            df[col] = df[col].apply(lambda x: int(x) if str(x).isdigit() else 0)
        else:
            df[col] = df[col].astype(int)
    # Verschieben der schluessel-Spalte an die erste Position
    cols = ['schluessel'] + [col for col in df if col != 'schluessel']
    df = df[cols]
    andere_tabellen[tabelle_name] = df  # Verwendung von tabelle_name statt tabelle

# Anzeigen aller Tabellennamen in andere_tabellen
print("Alle Tabellennamen in andere_tabellen:")
for table_name in andere_tabellen.keys():
    print(table_name)

Alle Tabellennamen in andere_tabellen:
klassenstufe
schulform
hoechster_schulabschluss
hoechster_berufl_abschluss
erwerbsstatus
et_alter
et_hoechst_berufl_abschl
et_stellung_im_beruf
et_beruf_hauptgr_isco08
et_wirtschaftszweig


# Ueberpruefen

In [332]:
# Alle Spalten in allen Tabellen auf int32 ändern
for table_name, df in andere_tabellen.items():
    # Alle Spalten auf int32 ändern
    df = df.astype('int32')
    # Änderungen zurück in das Dictionary speichern
    andere_tabellen[table_name] = df

# Überprüfen der Datentypen der Spalten nach der Änderung
for table_name, df in andere_tabellen.items():
    print(f"Datentypen für Tabelle '{table_name}':")
    print(df.dtypes)
    print("\n")

Datentypen für Tabelle 'klassenstufe':
schluessel                int32
schueler_klss_stp         int32
schueler_klss_stp__m      int32
schueler_klss_stp__w      int32
schueler_klss_stp__1      int32
schueler_klss_stp__1_m    int32
schueler_klss_stp__1_w    int32
schueler_klss_stp__2      int32
schueler_klss_stp__2_m    int32
schueler_klss_stp__2_w    int32
schueler_klss_stp__3      int32
schueler_klss_stp__3_m    int32
schueler_klss_stp__3_w    int32
dtype: object


Datentypen für Tabelle 'schulform':
schluessel               int32
schueler_sch_stp         int32
schueler_sch_stp__m      int32
schueler_sch_stp__w      int32
schueler_sch_stp__1      int32
schueler_sch_stp__1_m    int32
schueler_sch_stp__1_w    int32
schueler_sch_stp__2      int32
schueler_sch_stp__2_m    int32
schueler_sch_stp__2_w    int32
schueler_sch_stp__3      int32
schueler_sch_stp__3_m    int32
schueler_sch_stp__3_w    int32
schueler_sch_stp__4      int32
schueler_sch_stp__4_m    int32
schueler_sch_stp__4_w    int

In [333]:
print(stadt_typen.dtypes)

schluessel     int64
typ           object
dtype: object


# export

In [334]:

# Andere Tabellen in die PostgreSQL-Datenbank übertragen
for tabelle, df in andere_tabellen.items():
    df = ensure_utf8(df)  # Sicherstellen, dass alle Zeichenketten in UTF-8 codiert sind
    df.to_sql(f'dim_{tabelle.lower()}', engine, if_exists='replace', index=False, chunksize=1000)

# Regionalebenen in die PostgreSQL-Datenbank übertragen
for ebene, df in regionalebenen.items():
    df = ensure_utf8(df)  # Sicherstellen, dass alle Zeichenketten in UTF-8 codiert sind
    df.to_sql(f'dim_{ebene.lower()}', engine, if_exists='replace', index=False, chunksize=1000)

# Stadt_Typen in die PostgreSQL-Datenbank übertragen
stadt_typen = ensure_utf8(stadt_typen)  # Sicherstellen, dass alle Zeichenketten in UTF-8 codiert sind
stadt_typen.to_sql('dim_stadt_typen', engine, if_exists='replace', index=False, chunksize=1000)

print("DataFrames erfolgreich in die PostgreSQL-Datenbank übertragen.")

DataFrames erfolgreich in die PostgreSQL-Datenbank übertragen.


In [335]:
# Code fuer die Sqlite-Datenbank
# # Verbindung zur SQLite-Datenbank herstellen
# db_path = r'C:\Users\hp\OneDrive\Desktop\DBU\SP3-1.Dateninfrastrukturen\Pruefung\Zensus\temp\zensusdb'
# if not os.path.exists(os.path.dirname(db_path)):
#     raise FileNotFoundError(f"Der Pfad {os.path.dirname(db_path)} existiert nicht.")
# conn = sqlite3.connect(db_path)
# cursor = conn.cursor()
# # Alle vorhandenen Tabellen droppen
# tables = cursor.execute("SELECT name FROM sqlite_master WHERE type='table';").fetchall()
# for table in tables:
#     cursor.execute(f'DROP TABLE IF EXISTS "{table[0]}";')
# # Verbindung zur SQLite-Datenbank herstellen
# db_path = r'C:\Users\hp\OneDrive\Desktop\DBU\SP3-1.Dateninfrastrukturen\Pruefung\Zensus\temp\zensusdb'
# if not os.path.exists(os.path.dirname(db_path)):
#     raise FileNotFoundError(f"Der Pfad {os.path.dirname(db_path)} existiert nicht.")
# conn = sqlite3.connect(db_path)
# cursor = conn.cursor()

# # Andere Tabellen in die SQLite-Datenbank übertragen
# for tabelle, df in andere_tabellen.items():
#     df.to_sql(f'dim_{tabelle.lower()}', conn, if_exists='replace', index=False)
# # Andere Tabellen in die SQLite-Datenbank übertragen
# for tabelle, df in andere_tabellen.items():
#     df.to_sql(f'dim_{tabelle.lower()}', conn, if_exists='replace', index=False)

# conn.close()
# print("DataFrames erfolgreich in die SQLite-Datenbank übertragen.")

# loeschen

In [336]:
# db_path = r'C:\Users\hp\OneDrive\Desktop\DBU\SP3-1.Dateninfrastrukturen\Pruefung\Zensus\temp\zensusdb'

# conn = sqlite3.connect(db_path)
# cursor = conn.cursor()

# # Deaktivieren von Foreign Key Constraints
# cursor.execute("PRAGMA foreign_keys = OFF;")

# # Abfrage aller Tabellen
# cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
# tables = cursor.fetchall()

# # Generieren und Ausführen der DROP TABLE-Befehle für jede Tabelle
# for table in tables:
#     cursor.execute(f'DROP TABLE IF EXISTS "{table[0]}";')

# # Reaktivieren von Foreign Key Constraints
# cursor.execute("PRAGMA foreign_keys = ON;")

# # Änderungen speichern und Verbindung schließen
# conn.commit()
# conn.close()

# print("Alle Tabellen wurden erfolgreich gelöscht.")

In [337]:
# Verbindung zur PostgreSQL-Datenbank herstellen
engine = create_engine('postgresql://postgres:neues_passwort@localhost:5432/postgres')

# Liste der Tabellen, die du anzeigen möchtest
tables = ['dim_bund', 'dim_land', 'dim_gemeinde', 'dim_gemeindeverband', 'dim_regierungsbezirk', 'dim_stadtkreiskreisfreiestadtlandkreis', 'dim_stadt_typen']

# Inhalte der Tabellen auslesen und anzeigen
for table in tables:
    query = f'SELECT * FROM {table} LIMIT 5;'  # Du kannst LIMIT anpassen, um mehr Zeilen zu sehen
    df = pd.read_sql_query(query, engine)
    print(f'Inhalt der Tabelle {table}:')
    print(df)
    print('\n')

Inhalt der Tabelle dim_bund:
          name  bundschluessel
0  Deutschland               0


Inhalt der Tabelle dim_land:
                  name  landesschluessel  bundschluessel
0   Schleswig-Holstein                 1               1
1              Hamburg                 2               2
2        Niedersachsen                 3               3
3               Bremen                 4               4
4  Nordrhein-Westfalen                 5               5


Inhalt der Tabelle dim_gemeinde:
   gemeindeschluessel         name  gemeindeverbandsschluessel
0         10010000000    Flensburg                   100100000
1         10020000000         Kiel                   100200000
2         10030000000       Lübeck                   100300000
3         10040000000   Neumünster                   100400000
4         10510011011  Brunsbüttel                   105100110


Inhalt der Tabelle dim_gemeindeverband:
                     name  gemeindeverbandsschluessel  kreisschluessel
0  Burg-St

In [338]:
# Verbindung zur PostgreSQL-Datenbank herstellen
engine = create_engine('postgresql://postgres:neues_passwort@localhost:5432/postgres')

# Liste der Tabellen, die du anzeigen möchtest
tables = ['dim_et_alter','dim_et_beruf_hauptgr_isco08','dim_et_hoechst_berufl_abschl','dim_et_stellung_im_beruf','dim_erwerbsstatus','dim_hoechster_berufl_abschluss','dim_hoechster_schulabschluss','dim_klassenstufe','dim_schulform','dim_et_wirtschaftszweig']

# Inhalte der Tabellen auslesen und anzeigen
for table in tables:
    query = f'SELECT * FROM {table} LIMIT 5;'  # Du kannst LIMIT anpassen, um mehr Zeilen zu sehen
    df = pd.read_sql_query(query, engine)
    print(f'Inhalt der Tabelle {table}:')
    print(df)
    print('\n')

Inhalt der Tabelle dim_et_alter:
   schluessel  et_alter_erw  et_alter_erw__m  et_alter_erw__w  \
0           0      41047770         21622700         19425070   
1           1       1479510           773840           705670   
2        1001         48070            26040            22030   
3  1420065408         48070            26040            22030   
4        1002        128800            67060            61740   

   et_alter_erw__1  et_alter_erw__1_m  et_alter_erw__1_w  et_alter_erw__2  \
0          1150950             601280             549660          6695970   
1            43110              22130              20990           233760   
2             1190                660                540            11760   
3             1190                660                540            11760   
4             3900               1800               2100            31210   

   et_alter_erw__2_m  et_alter_erw__2_w  ...  et_alter_erw__4_w  \
0            3536140            3159830  ...  