In [1]:
import pandas as pd
import os
import numpy as np

# Data Quality Assessment

Die Vorhersage der Personen-Dichte ist ein wichtiger Aspekt für die Stadtplanung und die Verkehrsplanung. Um genaue Vorhersagen treffen zu können, ist es wichtig, dass die zugrundeliegenden Daten eine hohe Qualität aufweisen. In diesem Data Quality Assessment werden die Daten vom Bundesamt für Statistik (BFS) untersucht, die für die Vorhersage der Personen-Dichte verwendet werden. Das Ziel dieses Assessments ist es, die Qualität der Daten zu bewerten und mögliche Fehler oder Unregelmäßigkeiten zu identifizieren. Eine gründliche Analyse der Daten ist unerlässlich, um sicherzustellen, dass die Vorhersagen auf einer soliden Grundlage basieren und somit verlässliche Entscheidungen für die Stadt- und Verkehrsplanung getroffen werden können.

### Daten
Im Rahmen dieses Data Quality Assessments werden folgende Datensätze vom BFS analysiert:

1. Arbeitsstätten und Beschäftigte nach Gemeinde und Wirtschaftssektor:
    -  Dataset: [Arbeitsstätten und Beschäftigte](https://www.bfs.admin.ch/asset/de/23284713)

    - Beschreibung: Dieser Datensatz enthält jährliche Zahlen der Arbeitsstätten und Beschäftigten nach Gemeinde und Wirtschaftssektor ab dem Jahr 2011

2. Bauausgaben und Arbeitsvorrat nach Grossregion, Kanton, Gemeinde, Art der Auftraggeber, Art der Bauwerke und Art der Arbeiten:

    - Dataset: [Bauausgaben und Arbeitsvorrat](https://www.bfs.admin.ch/asset/de/22907406)

    - Beschreibung: Dieser Datensatz präsentiert jährliche Bauausgaben und den Arbeitsvorrat nach Grossregion, Kanton, Gemeinde, Art der Auftraggeber, Art der Bauwerke und Art der Arbeiten ab 1994.

3. Bewohnte Wohnungen nach Gemeinde, Anzahl Zimmer und Bewohnertyp, 1990 und 2000:

    - Dataset: [Bewohnte Wohnungen](https://www.bfs.admin.ch/asset/de/283778)

    - Beschreibung: Dieser Datensatz enthält Informationen zur Anzahl bewohnter Wohnungen nach Gemeinde, Anzahl Zimmer und Bewohnertyp (Mieter/in, Genossenschafter/in, Inhaber/in, Pächter/in) für die Jahre 1990 und 2000.

4. Regionalporträts: Kenzahlen aller Gemeinden:

    - Dataset: [Regionalporträts](https://www.bfs.admin.ch/bfs/de/home/statistiken/regionalstatistik/regionale-portraets-kennzahlen/gemeinden.html)

    - Beschreibung: Diese Datensets bieten eine Vielzahl von Kennzahlen für alle Gemeinden, darunter Bevölkerung, Altersverteilung, Bevölkerungsbewegungen, Haushalte, Fläche, Wirtschaft, Bau- und Wohnungswesen, Soziale Sicherheit und Wähleranteil der Parteien (Nationalratswahlen) ab dem Jahr 2013

5. Amtliches Gemeindeverzeichnis der Schweiz:

    - Dataset: [Amtliches Gemeindeverzeichnis](https://www.bfs.admin.ch/bfs/de/home/grundlagen/agvch.html)

    - Beschreibung: Dieses Verzeichnis ist nach Kantonen sowie nach Bezirken oder einer vergleichbaren administrativen Einheit des Kantons gegliedert und bietet Informationen zu den Gemeinden.


### Qualitätsbewertung

Bei der Bewertung der Datenqualität werden verschiedene Aspekte berücksichtigt:

- Vollständigkeit: Es wird überprüft, ob alle relevanten Daten vorhanden sind und keine wichtigen Informationen fehlen.

- Genauigkeit: Es wird die Genauigkeit der Daten überprüft, um sicherzustellen, dass sie korrekt und präzise sind.

- Aktualität: Es wird überprüft, ob die Daten auf dem neuesten Stand sind und den aktuellen Zeitraum abdecken.

- Konsistenz: Es wird die Konsistenz der Daten über verschiedene Quellen und Datensätze hinweg überprüft, um sicherzustellen, dass sie miteinander vereinbar sind.


Durch eine gründliche Analyse der Daten und die Bewertung dieser Qualitätsaspekte können mögliche Fehler oder Unregelmäßigkeiten identifiziert werden. Dies ermöglicht es, etwaige Datenprobleme zu beheben oder zu korrigieren und somit verlässliche Daten für die Vorhersage der Personen-Dichte zu gewährleisten.

### Python Bibliotheken

Für die Verwendung des Notebooks müssen die folgenden Bibliotheken installiert sein.

#### NumPy

[NumPy](https://numpy.org) ist eine numerische Bibliothek für die Bearbeitung von Matrizen und Arrays.  
NumPy wurde hauptsächlich implizit verwendet, da viele andere Bibliotheken mit NumPy Arrays arbeiten.

#### Pandas

[Pandas](https://pandas.pydata.org/) ist eine Bibliothek für Datenverarbeitung und erlaubt das effiziente Einlesen und Manipulieren von Daten. Pandas baut auf NumPy auf.

#### PyAxis
[PyAxis](https://github.com/icane/pyaxis) ist eine Python-Bibliothek zur Manipulation von PC-Axis (oder PX) formatierten Daten. Sie ermög-licht das Lesen und Schreiben von PC-Axis-Formaten mit Python unter Verwendung der von der weit ver-breiteten pandas-Bibliothek bereitgestellten DataFrame-Strukturen. PX ist ein Standardformat für statis-tische Dateien, das von einer Vielzahl statistischer Ämter verwendet wird.



# Klassen für Datenverarbeitung und Datenqualitätsbewertung

In diesem Abschnitt werden fünf Klassen vorgestellt, die für die Verarbeitung und Qualitätsbewertung von Daten entwickelt wurden. Die Klassen sind:

- `MultindexDf`: Diese Klasse ermöglicht die Erstellung eines DataFrames mit mehrstufigem Index, um komplexe Datenstrukturen zu unterstützen.

- `DataFrameMerger`: Diese Klasse dient zum Zusammenführen mehrerer DataFrames.

- `ExcelProcessor`: Diese Klasse verarbeitet Excel-Daten, erstellt mehrstufige Header und verbindet Daten für jedes Jahr.

- `PXProcessor`: Diese Klasse verarbeitet `.px`-Dateien mit Hilfe der `pyaxis` Bibliothek und extrahiert relevante Daten und organisiert sie in einem DataFrame.

- `DataQualityAssessment`: Diese Klasse überprüft die Datenqualität, indem sie fehlende Werte, Datentypen und Duplikate prüft und identifiziert Duplikate.

---

Dies sind die Klassen, die entwickelt wurden, um die Datenverarbeitung und die Bewertung der Datenqualität zu unterstützen. Jede Klasse erfüllt eine spezifische Funktion und kann in verschiedenen Szenarien zur Datenanalyse und -verarbeitung eingesetzt werden.


## MultindexDf

`MultindexDf` ist eine Klasse, die verschiedene Methoden zur Arbeit mit DataFrames mit Multiindex bereitstellt.<br>
Die Methoden ermöglichen das Erstellen eines Multiheaders für die Spalten, das Erstellen eines Multiindex für die Zeilen,<br>
das Setzen der Schlüssel als Multiheader, das Filtern von Spalten basierend auf Titeln oder Untertiteln,<br>
das Lesen von Excel-Dateien mit Multiindex und das Entfernen von doppelten Indizes im DataFrame.

### Methoden

#### `create_multiheader(df, header_list_1, header_list_2)`
Erstellt einen Multiheader für die Spalten des DataFrames basierend auf zwei gegebenen Header-Listen.

- `df (DataFrame)`: Der DataFrame, für den der Multiheader erstellt werden soll.
- `header_list_1 (list)`: Eine Liste von Strings für den ersten Teil des Multiheaders.
- `header_list_2 (list)`: Eine Liste von Strings für den zweiten Teil des Multiheaders.

**Rückgabewert**
- `DataFrame`: Der DataFrame mit dem erstellten Multiheader für die Spalten.

#### `create_multiindex(df, index_columns)`
Erstellt einen Multiindex für den DataFrame basierend auf den angegebenen Indexspalten.

- `df (DataFrame)`: Der DataFrame, für den der Multiindex erstellt werden soll.
- `index_columns (list)`: Eine Liste von Strings, die die Namen der Indexspalten enthalten.

**Rückgabewert**
- `DataFrame`: Der DataFrame mit dem erstellten Multiindex.

#### `set_keys_as_multiheader(df_dict)`
Setzt die Schlüssel des gegebenen Dictionarys als Multiheader für die entsprechenden DataFrames.

- `df_dict (dict)`: Ein Dictionary, das die DataFrames enthält, für die der Multiheader gesetzt werden soll.

**Rückgabewert**
- `dict`: Das aktualisierte Dictionary mit den DataFrames, bei denen der Multiheader gesetzt wurde.

#### `find_subheaders(df, header_name)`
Sucht alle Untertitel (subheaders) in einem DataFrame, die dem angegebenen Headernamen entsprechen.

- `df (DataFrame)`: Der DataFrame, in dem nach den Untertiteln gesucht werden soll.
- `header_name (str)`: Der Name des Headers, für den die Untertitel gefunden werden sollen.

**Rückgabewert**
- `list`: Eine Liste der Untertitel, die dem angegebenen Headernamen entsprechen.

#### `df_has_Multindex(df)`
Überprüft, ob der DataFrame einen Multiindex für die Spalten hat.

- `df (DataFrame)`: Der DataFrame, der überprüft werden soll.

**Rückgabewert**
- `bool`: True, wenn der DataFrame einen Multiindex hat, andernfalls False.

#### `filter_by_titles(df, titles, level)`
Filtert den DataFrame basierend auf den gewünschten Titeln für einen bestimmten Level des Multiheaders.

- `df (DataFrame)`: Der DataFrame, der gefiltert werden soll.
- `titles (list)`: Eine Liste von Strings, die die gewünschten Titel für den Filter enthalten.
- `level (int)`: Der Level des Multiheaders, auf dem der Filter angewendet werden soll.

**Rückgabewert**
- `DataFrame`: Der gefilterte DataFrame, der nur die Spalten mit den gewünschten Titeln enthält.

#### `filter_by_titles_or_subtitel(df, titles=[], subtitles=[], multheader=True)`
Filtert den DataFrame basierend auf den gewünschten Titeln oder Untertiteln (subtitles) des Multiheaders.

- `df (DataFrame)`: Der DataFrame, der gefiltert werden soll.
- `titles (list)`: Eine Liste von Strings, die die gewünschten Titel für den Filter enthalten.
- `subtitles (list)`: Eine Liste von Strings, die die gewünschten Untertitel für den Filter enthalten.
- `multheader (bool)`: Gibt an, ob der gefilterte DataFrame den Multiheader beibehalten soll. True, wenn der Multiheader beibehalten werden soll, False, wenn der Multiheader entfernt werden soll.

**Rückgabewert**
- `DataFrame`: Der gefilterte DataFrame, der nur die Spalten mit den gewünschten Titeln oder Untertiteln enthält. Der Multiheader kann optional beibehalten oder entfernt werden.

#### `read_multiindex_excel(path_pre, file_name)`
Liest eine Excel-Datei mit einem Multiindex und gibt den entsprechenden DataFrame zurück.

- `path_pre (str)`: Der Pfad zur Excel-Datei.
- `file_name (str)`: Der Name der Excel-Datei.

**Rückgabewert**
- `DataFrame`: Der DataFrame, der aus der Excel-Datei mit einem Multiindex gelesen wurde.

#### `drop_duplicated(df)`
Entfernt doppelte Indizes (Zeilen) im DataFrame und gibt den bereinigten DataFrame zurück.

- `df (DataFrame)`: Der DataFrame, bei dem doppelte Indizes entfernt werden sollen.

**Rückgabewert**
- `DataFrame`: Der bereinigte DataFrame ohne doppelte Indizes.

Die Klasse bietet eine Reihe nützlicher Funktionen für die Arbeit mit DataFrames mit Multiindex und kann in verschiedenen Datenanalyse- oder Data-Science-Projekten eingesetzt werden.

### Code

In [2]:
class MultindexDf():    
    def __init__(self):
        pass

    def create_multiheader(self, df, header_list_1, header_list_2):
        """
        Erstellt einen Multiheader für die Spalten des DataFrames basierend auf zwei gegebenen Header-Listen.
        Args:
            df (DataFrame): Der DataFrame, für den der Multiheader erstellt werden soll.
            header_list_1 (list): Eine Liste von Strings für den ersten Teil des Multiheaders.
            header_list_2 (list): Eine Liste von Strings für den zweiten Teil des Multiheaders.
        Returns:
            DataFrame: Der DataFrame mit dem erstellten Multiheader für die Spalten.
        """
        multi_header = list(zip(header_list_1, header_list_2))
        multi_index = pd.MultiIndex.from_tuples(multi_header)
        df.columns = multi_index
        return df
    
    def create_multiindex(self,df, index_columns):        
        """
        Erstellt einen Multiindex für den DataFrame basierend auf den angegebenen Indexspalten.
        Args:
            df (DataFrame): Der DataFrame, für den der Multiindex erstellt werden soll.
            index_columns (list): Eine Liste von Strings, die die Namen der Indexspalten enthalten.
        Returns:
            DataFrame: Der DataFrame mit dem erstellten Multiindex.
        """
        multiindexed = df.set_index(index_columns)      
        return multiindexed

    def set_keys_as_multiheader(self,df_dict):
        """
        Setzt die Schlüssel des gegebenen Dictionarys als Multiheader für die entsprechenden DataFrames.
        Args:
            df_dict (dict): Ein Dictionary, das die DataFrames enthält, für die der Multiheader gesetzt werden soll.
        Returns:
            dict: Das aktualisierte Dictionary mit den DataFrames, bei denen der Multiheader gesetzt wurde.
        """ 
        for name, df in df_dict.items():
            if self.df_has_Multindex(df):
                break
            df = self.create_multiheader(df,[name]*len(df.columns),df.columns.to_list())
            df_dict[name] = df
        return df_dict
    
    def find_subheaders(self, df, header_name):
        """
        Sucht alle Untertitel (subheaders) in einem DataFrame, die dem angegebenen Headernamen entsprechen.
        Args:
            df (DataFrame): Der DataFrame, in dem nach den Untertiteln gesucht werden soll.
            header_name (str): Der Name des Headers, für den die Untertitel gefunden werden sollen.
        Returns:
            list: Eine Liste der Untertitel, die dem angegebenen Headernamen entsprechen.
        """
        headers = df.columns.values
        subheaders = []
        for header in headers:
            if header[0] == header_name:
                subheaders.append(header[1])
        return subheaders
    
    def df_has_Multindex(self,df):
        """
        Überprüft, ob der DataFrame einen Multiindex für die Spalten hat.
        Args:
            df (DataFrame): Der DataFrame, der überprüft werden soll.
        Returns:
            bool: True, wenn der DataFrame einen Multiindex hat, andernfalls False.
        """
        if isinstance(df.columns, pd.MultiIndex):
            return True
        return False
    
    def filter_by_titles(self,df, titles,level):
        """
        Filtert den DataFrame basierend auf den gewünschten Titeln für einen bestimmten Level des Multiheaders.
        Args:
            df (DataFrame): Der DataFrame, der gefiltert werden soll.
            titles (list): Eine Liste von Strings, die die gewünschten Titel für den Filter enthalten.
            level (int): Der Level des Multiheaders, auf dem der Filter angewendet werden soll.
        Returns:
            DataFrame: Der gefilterte DataFrame, der nur die Spalten mit den gewünschten Titeln enthält.
        """
        # Create a mask for the desired subtitles for all columns in the DataFrame
        column_mask = df.columns.isin(titles, level=level)
        # Use the mask to filter the columns of the DataFrame
        filtered_df = df.loc[:, column_mask]
        return filtered_df

    def filter_by_titles_or_subtitel(self,df,titles=[],subtitles=[],multheader =True):
        """
        Filtert den DataFrame basierend auf den gewünschten Titeln oder Untertiteln (subtitles) des Multiheaders.
        Args:
            df (DataFrame): Der DataFrame, der gefiltert werden soll.
            titles (list): Eine Liste von Strings, die die gewünschten Titel für den Filter enthalten.
            subtitles (list): Eine Liste von Strings, die die gewünschten Untertitel für den Filter enthalten.
            multheader (bool): Gibt an, ob der gefilterte DataFrame den Multiheader beibehalten soll.
                True, wenn der Multiheader beibehalten werden soll, False, wenn der Multiheader entfernt werden soll.
        Returns:
            DataFrame: Der gefilterte DataFrame, der nur die Spalten mit den gewünschten Titeln oder Untertiteln enthält.
                Der Multiheader kann optional beibehalten oder entfernt werden.
        """
        df_t = self.filter_by_titles(df,titles,0)
        df_s = self.filter_by_titles(df,subtitles,1)
        filtered_df =  pd.merge(df_t, df_s, left_index=True, right_index=True)
        if multheader:
            return filtered_df
        return filtered_df.droplevel(0, axis=1)
    
    def read_multiindex_exel (self,path_pre,file_name):
        """
        Liest einen Excel-Datei mit einem Multiindex und gibt den entsprechenden DataFrame zurück.
        Args:
            path_pre (str): Der Pfad zur Excel-Datei.
            file_name (str): Der Name der Excel-Datei.
        Returns:
            DataFrame: Der DataFrame, der aus der Excel-Datei mit einem Multiindex gelesen wurde.
        """
        df = pd.read_excel(path_pre+file_name, 
                            header=[0,1], 
                            index_col=[0,1])
        return df
        
    def drop_duplicated(self,df):
        """
        Entfernt doppelte Indizes (Zeilen) im DataFrame und gibt den bereinigten DataFrame zurück.
        Args:
            df (DataFrame): Der DataFrame, bei dem doppelte Indizes entfernt werden sollen.
        Returns:
            DataFrame: Der bereinigte DataFrame ohne doppelte Indizes.
        """
        return df[~df.index.duplicated(keep='first')]

## DataFrameMerger

Eine Klasse, die verschiedene Methoden zur Zusammenführung und Bearbeitung von DataFrames bereitstellt. Die Klasse erweitert die `MultindexDf`-Klasse.

### Methoden

#### `dfs_concat_header(df, dfs, header_name)`
Fügt den angegebenen DataFrames den Header `header_name` hinzu und konkateniert sie entlang der Spaltenachse. Der Multiindex wird beibehalten.

- `df (DataFrame)`: Der DataFrame, dem der Header hinzugefügt werden soll.
- `dfs (dict)`: Ein Dictionary von DataFrames, die konkateniert werden sollen.
- `header_name (str)`: Der Name des Headers, der den DataFrames hinzugefügt werden soll.

**Rückgabewert**
- `dict`: Das aktualisierte Dictionary mit den konkatenierten DataFrames.

#### `save_df_to_exel(df, path, file_name, file_end='.xlsx', index=False)`
Speichert den DataFrame in einer Excel-Datei.

- `df (DataFrame)`: Der DataFrame, der gespeichert werden soll.
- `path (str)`: Der Pfad, in dem die Datei gespeichert werden soll.
- `file_name (str)`: Der Name der Datei.
- `file_end (str)`: Die Dateiendung (Standardwert: '.xlsx').
- `index (bool)`: Gibt an, ob der Index in die Excel-Datei geschrieben werden soll (Standardwert: False).

#### `save_df_dict_to_exel(dfs, path, file_end='.xlsx')`
Speichert die DataFrames in einem Dictionary in separaten Excel-Dateien.

- `dfs (dict)`: Ein Dictionary von DataFrames, die gespeichert werden sollen.
- `path (str)`: Der Pfad, in dem die Dateien gespeichert werden sollen.
- `file_end (str)`: Die Dateiendung für alle Dateien (Standardwert: '.xlsx').

#### `merge_2_dict_of_df(dict_merge, dict_new)`
Vereint zwei Dictionarys von DataFrames. Wenn die Schlüssel bereits vorhanden sind, werden die DataFrames zusammengeführt, andernfalls werden sie hinzugefügt.

- `dict_merge (dict)`: Das erste Dictionary von DataFrames.
- `dict_new (dict)`: Das zweite Dictionary von DataFrames.

**Rückgabewert**
- `dict`: Das vereinigte Dictionary von DataFrames.

#### `merge_if_not_identical(df1, df2)`
Vereint zwei DataFrames, wenn sie nicht identisch sind.

- `df1 (DataFrame)`: Das erste DataFrame.
- `df2 (DataFrame)`: Das zweite DataFrame.

**Rückgabewert**
- `DataFrame`: Das vereinigte DataFrame, wenn die DataFrames nicht identisch sind, andernfalls das erste DataFrame.

#### `dict_merge_with_multiheader(dfs, on=None, how='left')`
Vereint die DataFrames in einem Dictionary und erstellt einen Multiindex für die Spaltenköpfe.

- `dfs (dict)`: Ein Dictionary von DataFrames, die vereint werden sollen.
- `on (str oder list)`: Die Spalten oder der Spaltenname, auf denen die DataFrames vereint werden sollen (Standardwert: None).
- `how (str)`: Der Vereinigungstyp ('left', 'right', 'inner', 'outer', Standardwert: 'left').

**Rückgabewert**
- `DataFrame`: Das vereinigte DataFrame mit einem Multiindex für die Spaltenköpfe.

#### `rename_col_from_df(df, colname='Column')`
Benennt die Spalten eines DataFrames um und gibt eine Zuordnungstabelle zurück.

- `df (DataFrame)`: Der DataFrame, dessen Spalten umbenannt werden sollen.
- `colname (str)`: Der Präfix für die neuen Spaltennamen (Standardwert: 'Column').

**Rückgabewert**
- `DataFrame`: Der DataFrame mit umbenannten Spalten.
- `DataFrame`: Eine Zuordnungstabelle, die die Original- und generierten Spaltennamen enthält.

#### `rename_col_from_dict(df_dict)`
Benennt die Spalten in einem Dictionary von DataFrames um und gibt eine Zuordnungstabelle zurück.

- `df_dict (dict)`: Ein Dictionary von DataFrames, deren Spalten umbenannt werden sollen.

**Rückgabewert**
- `dict`: Das aktualisierte Dictionary von DataFrames.
- `DataFrame`: Eine Zuordnungstabelle, die die Original- und generierten Spaltennamen enthält.

#### `convert_index_to_int(df)`
Konvertiert die Indexspalten eines DataFrames mit Multiindex in Ganzzahltypen.

- `df (DataFrame)`: Der DataFrame mit Multiindex.

**Rückgabewert**
- `DataFrame`: Der DataFrame mit konvertierten Indexspalten.

#### `convert_index_from_dict_df_to_int(dict_df)`
Konvertiert die Indexspalten aller DataFrames in einem Dictionary von DataFrames in Ganzzahltypen.

- `dict_df (dict)`: Ein Dictionary von DataFrames.

#### `create_partial_duplicates(dict_obj)`
Erstellt Teil-Duplikate von Schlüsseln in einem Dictionary, wenn ein Schlüssel zu 50% übereinstimmt.

- `dict_obj (dict)`: Ein Dictionary-Objekt.

**Rückgabewert**
- `list`: Eine Liste von Teil-Duplikaten von Schlüsseln im Dictionary.

#### `name_change(col_names)`
Ändert die Namen der Spalten in einer Liste von Spaltennamen.

- `col_names (list)`: Eine Liste von Spaltennamen.

**Rückgabewert**
- `list`: Eine Liste von Spaltennamen mit geänderten Namen.

#### `merge_same_df_form_dict(dict_df, duplicates_df)`
Vereint DataFrames mit identischen Spaltennamen in einem Dictionary von DataFrames.

- `dict_df (dict)`: Ein Dictionary von DataFrames.
- `duplicates_df (list)`: Eine Liste von Duplikaten von DataFrames mit identischen Spaltennamen.

**Rückgabewert**
- `dict`: Das aktualisierte Dictionary von DataFrames.

#### `replace_symbols(dict_df)`
Ersetzt Symbole in den DataFrames eines Dictionarys durch numerische Werte.

- `dict_df (dict)`: Ein Dictionary von DataFrames.

**Rückgabewert**
- `dict`: Das aktualisierte Dictionary von DataFrames.

#### `fill_df(df)`
Füllt NaN-Werte in einem DataFrame durch Vorwärts- und Rückwärtsfüllung.

- `df (DataFrame)`: Der DataFrame, der gefüllt werden soll.

**Rückgabewert**
- `DataFrame`: Der gefüllte DataFrame.

#### `get_columns_with_nan(df)`
Gibt eine Liste der Spaltennamen zurück, die NaN-Werte enthalten.

- `df (DataFrame)`: Der DataFrame, dessen Spalten überprüft werden sollen.

**Rückgabewert**
- `list`: Eine Liste der Spaltennamen mit NaN-Werten.

#### `drop_Nan_col(df)`
Entfernt Spalten aus einem DataFrame, die ausschließlich NaN-Werte enthalten.

- `df (DataFrame)`: Der DataFrame, aus dem Spalten entfernt werden sollen.

**Rückgabewert**
- `DataFrame`: Der DataFrame mit entfernten Spalten.

#### `check_string_length(str1, str2)`
Überprüft, ob die Länge von zwei Strings eine maximale Abweichung von 3 Buchstaben aufweist.

- `str1 (str)`: Der erste String.
- `str2 (str)`: Der zweite String.

**Rückgabewert**
- `bool`: True, wenn die Längen der Strings eine maximale Abweichung von 3 Buchstaben aufweisen, sonst False.

#### `create_multiindex(df, index_col)`
Erstellt einen Multiindex für den angegebenen DataFrame.

- `df (DataFrame)`: Der DataFrame, für den der Multiindex erstellt werden soll.
- `index_col (str oder list)`: Der Name oder die Namen der Spalten, die als Index verwendet werden sollen.

**Rückgabewert**
- `DataFrame`: Der DataFrame mit Multiindex.



### Code

In [3]:
class DataFrameMerger(MultindexDf):
    def __init__(self):
        pass  
    
    def dfs_concat_header(self, df, dfs, header_name):
        for k in dfs:            
            merged = pd.concat([df[header_name], dfs[k]], axis=1, join='outer')
            merged = self.create_multiindex(merged,self.index_col)
            dfs[k] = merged
        return dfs      
    
    def save_df_to_exel(self,df,path,file_name,file_end='.xlsx',index=False):
        if self.df_has_Multindex(df):
            index = True
        df.to_excel(path+file_name+file_end, index=index)
    
    def save_df_dict_to_exel(self,dfs,path,file_end='.xlsx'):
        for name, df in dfs.items():            
            self.save_df_to_exel(df,path,name,file_end)
            
    
    def merge_2_dict_of_df(self,dict_merge,dict_new):
        if not dict_merge:
            return dict_new
        for key in dict_new.keys():
            if key not in dict_merge:
                dict_merge[key] = dict_new[key]
            else:
                dict_merge[key] = self.merge_if_not_identical(dict_merge[key],dict_new[key])
            dict_merge[key] = dict_merge[key].drop_duplicates(subset=None)
        
        return dict_merge

    def merge_if_not_identical(self,df1, df2):
        if not df1.equals(df2):
            merged_df = pd.concat([df1, df2])
            return merged_df
        else:
            return df1
        
    def dict_merge_with_multiheader(self,dfs, on=None, how='left'):
        # Merge die DataFrames und erstelle einen Multi-Index als Spaltenköpfe
        merged_df = None
        for key, df in dfs.items():
            if merged_df is None:
                merged_df = df
            else:
                merged_df = pd.merge(merged_df, df,left_index=True, right_index=True, on=on, how=how, suffixes=('', f'_{key}'))
        return merged_df
        
    def rename_col_from_df(self,df,colname='Column'):
        original_columns = []
        new_columns = []

        for i, column in enumerate(df.columns):
            new_column = f'{colname}_{i}'
            new_columns.append(new_column)
            original_columns.append(column)
        
        df.columns = new_columns
        mapping_df = pd.DataFrame({'Original': original_columns, 'Generated': new_columns})
        return df , mapping_df

    def rename_col_from_dict (self,df_dict):
        l_mapping_df = []
        for name, df in df_dict.items():
            if self.df_has_Multindex(df):
                df, mapping_df = self.rename_col_from_df(df,name)
                l_mapping_df.append(mapping_df)
        try:
            mapping_df  = pd.concat(l_mapping_df)
        except ValueError as e:
            print(f'{e}')
            mapping_df = []
        return df_dict , mapping_df

    def convert_index_to_int(self,df):
        """
        Diese Methode wandelt die Index-Spalten eines Multiindex-Datenrahmens in Ganzzahltypen um.
        
        :param df: Der Multiindex-Datenrahmen.
        :return: Der Multiindex-Datenrahmen mit Integer-Index-Spalten.
        """
        # Erhalte den aktuellen Index des DataFrames
        index = df.index 

        
        # Konvertiere die Index-Spalten in Ganzzahltypen
        new_index = pd.MultiIndex.from_tuples([tuple(map(int, t)) for t in index], names=index.names)
        
        # Ersetze den alten Index durch den neuen Index
        df.index = new_index
        
        return df

    def convert_index_from_dict_df_to_int(self,dict_df):
        for _, df in dict_df.items():
            self.convert_index_to_int(df)

    def check_string_length(self,str1, str2):
        """
        Überprüft, ob die Längen von zwei Strings eine maximale Abweichung von 3 Buchstaben haben.
        :param str1: Erster String
        :param str2: Zweiter String
        :return: True, wenn die Längen der Strings eine maximale Abweichung von 3 Buchstaben haben, andernfalls False.
        """
        length_diff = abs(len(str1) - len(str2))  # Berechnet den Unterschied in der Länge der Strings
        if length_diff <= 3:  # Überprüft, ob die maximale Abweichung von 3 Buchstaben überschritten wird
            return True
        else:
            return False
    def create_partial_duplicates(self,dict_obj):
        """
        Erstellt Teil-Duplikate von Dictionary-Keys, wenn ein Schlüssel zu 50% übereinstimmt.
        :param dict_obj: Ein Dictionary-Objekt
        :return: Eine Liste von Teil-Duplikaten von Dictionary-Keys
        """
        all_keys = dict_obj.keys()  # Extrahiert alle Schlüssel aus dem Dictionary-Objekt
        partial_duplicates = []
        for i, key1 in enumerate(all_keys):
            for j, key2 in enumerate(all_keys):
                if i != j and key1 in key2 and  self.check_string_length(key1,key2):
                    partial_duplicates.append((key1,key2))  # Fügt Teil-Duplikat hinzu

        return sorted(list(set(partial_duplicates)))

    def name_change(self,col_names):
        temp=''
        new_col = []
        for s in col_names:
            stat_s, end_s = s.split('_',1)   
            
            if len(stat_s) < 4:
                new_name = f'{temp}_{end_s}'
                new_col.append(new_name)
            else:
                temp = stat_s
                new_col.append(s)
        return new_col
    
    def merge_same_df_form_dict(self,dict_df,duplicates_df):
        for name_df_1,name_df_2 in duplicates_df:
            col_name = self.name_change(dict_df[name_df_1].columns)
            dict_df[name_df_1].columns = col_name
            dict_df[name_df_2].columns = col_name
            merged_df = pd.concat([dict_df[name_df_1],dict_df[name_df_2]],axis=0)
            dict_df[name_df_1] = merged_df
            del dict_df[name_df_2]
        return dict_df

    def replace_symbols(self,dict_df):
        for name, df in dict_df.items():  
            df = df.apply(pd.to_numeric, errors='coerce')#.astype('float64')
            dict_df[name] = df
        return dict_df 
    
    def fill_df (self,df):
        #df = df.groupby(level=0, group_keys=False).apply(lambda x: x.fillna(method='ffill'))
        #df = df.groupby(level=0, group_keys=False).apply(lambda x: x.fillna(method='bfill'))
        df =df.fillna(df.groupby(level=0).ffill())
        df = df.fillna(df.groupby(level=0).bfill())
        return df
    def get_columns_with_nan(self,df):
        nan_columns = []
        for col in df.columns:
            if df[col].isna().any():
                nan_columns.append(col)
        return nan_columns

    def drop_Nan_col(self,df):
        return df.dropna(axis=1, how='all')
    

## ExcelProcessor

Eine Klasse zur Verarbeitung von Excel-Dateien.




### Parameter


- `path_raw` (str): Der Pfad zum Verzeichnis, in dem die Excel-Datei liegt.
- `file_name` (str): Der Name der Excel-Datei.
- `drop_col_name` (list): Eine Liste von Spaltennamen, die ausgelassen werden sollen. Standardmäßig sind 'Veränderung_in_' und 'Gemeindename' ausgeschlossen.
- `header_name` (str): Der Name der Hauptspalte, die die Gemeindenamen enthält. Standardmäßig ist 'Gemeinden'.
- `index_col` (list): Eine Liste von Spaltennamen, die als Index verwendet werden sollen. Standardmäßig sind ['Gemeindecode', 'Jahr'].




### Attribute



- `path_raw` (str): Der Pfad zum Verzeichnis, in dem die Excel-Datei liegt.
- `file_name` (str): Der Name der Excel-Datei.
- `index_col` (list): Eine Liste von Spaltennamen, die als Index verwendet werden sollen.
- `df` (DataFrame): Der geladene DataFrame aus der Excel-Datei.
- `header_list_1` (list): Die Liste der Spaltennamen der ersten Header-Ebene.
- `header_list_2` (list): Die Liste der Spaltennamen der zweiten Header-Ebene.
- `header_name` (str): Der Name der Hauptspalte, die die Gemeindenamen enthält.
- `drop_col_names` (list): Eine Liste von Spaltennamen, die ausgelassen werden sollen.
- `dfs` (dict): Ein Wörterbuch mit den verbundenen DataFrames für jedes Jahr.



### Methoden



##### `load_data()`

Lädt die Daten aus der Excel-Datei.

##### `process_data()`

Verarbeitet die geladenen Daten.

##### `drop_columns()`

Entfernt die angegebenen Spalten aus dem DataFrame.

##### `rename_header(header_list, start_header='Gemeinden')`

Benennt die Header-Einträge um und gibt die Liste der Header zurück.

##### `replace_space(header_list)`

Ersetzt Leerzeichen in den Header-Namen durch Unterstriche.

##### `connect_jahr(df, jahr)`

Verbindet die Daten für jedes Jahr und gibt ein Wörterbuch mit den verbundenen DataFrames zurück.

##### `get_df()`

Gibt den geladenen DataFrame zurück.

##### `get_columns_name()`

Gibt eine Liste der Spaltennamen des geladenen DataFrames zurück.

##### `get_dfs()`

Gibt das Wörterbuch mit den verbundenen DataFrames zurück.

### Code

In [4]:
class ExelProcessor(DataFrameMerger):
    def __init__(self, path_raw, file_name,drop_col_name=['Veränderung_in_','Gemeindename'] ,header_name = 'Gemeinden',index_col=['Gemeindecode', 'Jahr']):
        self.path_raw = path_raw
        self.file_name = file_name
        self.index_col =index_col
        
        self.df = None
        self.header_list_1 = None
        self.header_list_2 = None
        self.header_name = header_name
        self.drop_col_names= drop_col_name
        self.dfs = {}     
        
        self.load_data()
        self.process_data()
        
    def load_data(self):
        # Load data from file
        self.df = pd.read_excel(self.path_raw + self.file_name, skiprows=3)
        
    def process_data(self):
        # Rename columns
        self.header_list_1 = self.df.columns.to_list()
        self.header_list_1 = self.rename_header(self.header_list_1)
        self.header_list_1 = self.replace_space(self.header_list_1)

        self.header_list_2 = self.df.iloc[1].to_list()
        #print (header_list_2)
        self.header_list_2 = self.replace_space(self.header_list_2)
       
        # Create multi-level headers
        self.df = self.create_multiheader(self.df, self.header_list_1, self.header_list_2)
        self.df = self.drop_colmns()
        
       
        # Connect data for each year
        jahr = self.df.iloc[2]
        jahr = jahr.to_frame()
        
        
         # Drop NaN rows and reset index
        self.df = self.df.dropna()[1:].reset_index(drop=True)
        self.dfs = self.conect_jahr(self.df, jahr)

        # Merge Gemeinden column with each DataFrame
        self.dfs = self.dfs_concat_header(self.df, self.dfs, self.header_name)

    def drop_colmns(self):
        for col in self.drop_col_names:
            self.df.drop(columns=self.df.filter(regex=col).columns, inplace=True)
        return self.df

    def rename_header(self, header_list, start_header='Gemeinden'):
        header_list[0] = start_header
        
        for t in range(len(header_list)):
            if 'Unnamed' in header_list[t]:
                header_list[t] = title
            else:
                title = header_list[t]
        return header_list

    def replace_space(self, header_list):
        header_list = [l.replace(' ', '_') for l in header_list]
        return header_list


    def conect_jahr(self, df, jahr):
        heder_level_0 = df.columns.get_level_values(0).unique()
        for col_name in heder_level_0[1:]:
            col_j = jahr.loc[col_name][2].to_list()
            if len(set(col_j)) == 1:
                df_tmp = df[col_name].reset_index(drop=True)
                if type(col_j[0])==str:
                    jar = int(col_j[0][:4])
                else:
                    jar = col_j[0]
                df_tmp['Jahr'] = np.full(len(df_tmp), jar)            
                self.dfs[col_name] = df_tmp
        return self.dfs
    
    def get_df(self):
        return self.df
    
    def get_colmns_name(self):
        return self.df.columns.to_list()
     
    def get_dfs(self):
        return self.dfs
    

## DataQualityAssessment
Die Klasse ```DataQualityAssessment``` erbt von der Klasse ```DataFrameMerger``` und bietet Methoden zur Durchführung einer Datenqualitätsbewertung. Die Klasse verfügt über eine ```__init__```-Methode zum Initialisieren des Objekts mit einem DataFrame.

### Vererbung



Die `DataQualityAssessment`-Klasse erbt von der `DataFrameMerger`-Klasse.

#### Konstruktor

##### `__init__(self, df)`

Erstellt eine neue Instanz der `DataQualityAssessment`-Klasse mit dem gegebenen DataFrame (df).

### Methoden


##### `check_missing_values()`

Überprüft den gegebenen DataFrame auf fehlende Werte. Fehlende Werte werden aufgefüllt, und die Spalten mit fehlenden Werten werden ausgegeben. Die Methode ruft sich selbst rekursiv auf, um sicherzustellen, dass alle fehlenden Werte behandelt werden.

##### `check_data_type()`

Überprüft die Datentypen der Spalten im gegebenen DataFrame und gibt sie aus.

##### `check_duplicates()`

Überprüft den gegebenen DataFrame auf Duplikate. Wenn Duplikate gefunden werden, werden sie entfernt.

##### `run_dqa()`

Führt eine umfassende Datenqualitätsbewertung durch. Die Methode ruft die Methoden `check_missing_values()`, `check_data_type()` und `check_duplicates()` auf und gibt den bereinigten DataFrame sowie Informationen über fehlende Werte zurück.

**Rückgabewerte**

Die Methode `run_dqa()` gibt den bereinigten DataFrame und eine Liste von fehlenden Werten zurück.

### Code

In [5]:
class DataQualityAssessment(DataFrameMerger):
    def __init__(self,df):
        self.df = df
        pass
    def check_missing_values(self):
        #self.df = self.fill_df(self.df)
        self.df = self.fill_df(self.df)
        missing_values = self.df.isnull().sum()
        if missing_values.sum() == 0:
            print("Keine fehlenden Werte gefunden.")
            return 
        
        print("Folgende Spalten haben fehlende Werte:")
        print(missing_values[missing_values != 0])       
        self.df = self.df.dropna(axis=1,how='all')
        self.df = self.df.fillna(value=0)
        self.check_missing_values()
       
        return missing_values[missing_values != 0]
    
    def check_data_type(self):
        nummers = ['']
        data_types = self.df.dtypes
        print("Daten-Typen:")
        print(data_types.to_list())
    
    def check_duplicates(self):
        duplicates = self.df.duplicated().sum()
        if duplicates == 0:
            print("Keine Duplikate gefunden.")
            return None
        
        print("Es wurden {} Duplikate gelöscht.".format(duplicates))
        self.df = self.drop_duplicated(self.df)
        
    
    def run_dqa(self):
        missing_value = self.check_missing_values()
        print('Data Types')
        self.check_data_type()
        print('Data duplicats')
        duplicates = self.check_duplicates()

        return self.df,missing_value

## PXProcessor
Die Klasse `PXProcessor` ermöglicht das Verarbeiten von `.px`-Dateien mithilfe der `pyaxis` Bibliothek.

### Parameter

- `path` (str): Der Pfad zum Verzeichnis, das die `.px`-Dateien enthält.

### Attribute

- `path` (str): Der Pfad zum Verzeichnis der `.px`-Dateien.
- `px_end` (str): Die Dateiendung der `.px`-Dateien.
- `df_dict_all` (dict): Ein Wörterbuch, das alle DataFrames und Metadaten der `.px`-Dateien enthält.
- `df_dict` (dict): Ein Wörterbuch, das nur die verarbeiteten DataFrames der `.px`-Dateien enthält.

### Methoden

- `process_px_files(self)`: Liest und verarbeitet die `.px`-Dateien im angegebenen Verzeichnis.
- `get_column_names_except(self, df, excluded_columns)`: Gibt eine Liste der Spaltennamen des DataFrames zurück, ausgenommen der ausgeschlossenen Spalten.
- `remove_rows_by_values(self, df, column, values)`: Entfernt Zeilen aus dem DataFrame, die bestimmte Werte in der angegebenen Spalte enthalten.
- `split_col_px(self, df)`: Teilt den DataFrame auf, um die Spalten 'Gemeindecode' und 'Gemeindename' zu extrahieren und den DataFrame entsprechend neu zu organisieren.
- `process_dataframes(self)`: Verarbeitet die DataFrames der `.px`-Dateien und speichert sie im `df_dict`.
- `get_dataframe(self, name)`: Gibt das DataFrame mit dem angegebenen Namen aus dem `df_dict` zurück.
- `get_df_dict(self)`: Gibt das `df_dict` zurück, das alle verarbeiteten DataFrames enthält.

### Code

In [6]:
from pyaxis import pyaxis
class PXProcessor:
    
    def __init__(self, path):
        self.path = path
        self.px_end = '.px'
        self.df_dict_all= {}
        self.df_dict = {}
        self.process_px_files()
        self.process_dataframes()
    
    def process_px_files(self):
        files = os.listdir(self.path)
        px_files_name = [f.replace('.px', '') for f in files if f.endswith('.px')]
        
        for name in px_files_name:
            px = pyaxis.parse(self.path + name + self.px_end, encoding='ISO-8859-15')
            self.df_dict_all[name] = (px['DATA'], px['METADATA'])
    
    def get_column_names_except(self, df, excluded_columns):
        all_columns = df.columns.tolist()
        included_columns = [col for col in all_columns if col not in excluded_columns]
        return included_columns

    def remove_rows_by_values(self, df, column, values):
        return df[~df[column].isin(values)]

    def split_col_px(self, df):
        if 'Jahr' in df.columns:
            col_mask = df.columns.str.contains('Gemeinde (......)', case=False, regex=False)

            if not (any(col_mask) or ('Gemeinde' in df.columns)):
                return None

            if any(col_mask):
                # Auswahl der Spalten basierend auf der Liste der Booleschen Werte
                selected_cols = df.iloc[:, col_mask]
                # Anwenden der `startswith()`-Methode auf jede Spalte
                mapping = selected_cols.apply(lambda x: x.str.startswith('.....'))
                # Entfernen von unerwünschten Zeichen aus der ausgewählten Spalte
                gemeinde_col = selected_cols.iloc[:, 0].str.replace('\.+', '', regex=True)
                gemeinde_col = gemeinde_col.str.split(' ', n=1, expand=True)
                df[['Gemeindecode', 'Gemeindename']] = gemeinde_col
                df = df.drop(selected_cols.columns.to_list(), axis=1)

            if 'Gemeinde' in df.columns:
                df[['Gemeindecode', 'Gemeindename']] = df['Gemeinde'].str.split(' ', n=1, expand=True)
                df.drop(['Gemeinde'], inplace=True, axis=1)

            df.dropna(inplace=True)
            df = self.remove_rows_by_values(df, 'Gemeindecode', ['<<', '-'])
            df['Gemeindecode'] = df['Gemeindecode'].astype(int)
            df['Jahr'] = df['Jahr'].astype(int)
            flip_col = self.get_column_names_except(df, ['Gemeindecode', 'Jahr', 'Gemeindename', 'DATA'])
            df = df.pivot(index=['Gemeindecode', 'Jahr'], columns=flip_col, values='DATA')
            return df

    def process_dataframes(self):
        for key, (df, meta) in self.df_dict_all.items():
            df = self.split_col_px(df)
            if df is not None:
                self.df_dict[key] = df

    def get_dataframe(self, name):
        return self.df_dict[name] if name in self.df_dict else None
    
    def get_df_dict(self):
        return self.df_dict

# Daten Verarbeitung

In [7]:
path_raw = '.\Raw\Kennzahlen_aller_Gemeinden\\'
path_pre = '.\Preparation\Kennzahlen_aller_Gemeinden\\'
path_px = '.\Raw\Kennzahlen_aller_Gemeinden\PX\\'
path_gemeindeverzeichnis = '.\Raw\Kennzahlen_aller_Gemeinden\Gemeindeverzeichnis\Gemeindeverzeichnis.xlsx'
path_luzern = '.\Preparation\merged_typologien.xlsx'

index_col= ['Gemeindecode', 'Jahr']


dfm = DataFrameMerger()

Alle Gemeinden und Grossregionen der Schweiz wurden in den Daten erfasst. Da diese Arbeit sich auf den Kanton Luzern konzentrierte, wurden nur die Daten des Kantons Luzern verwendet. Dadurch wurde die Ausführung des Skripts beschleunigt. Es dauerte jedoch einige Minuten, um alle Daten einzulesen.

Exel einlesen und verarbeiten

In [8]:
files = os.listdir(path_raw)
files_name = {'exel':[f for f in files if f.endswith('.xlsx') or f.endswith('.xls')]}
exel_dict = { }

for types in files_name:
    for file_name in files_name[types]:
        if types != 'exel':
            raise ValueError (f'Das file ist keine Exel datei {file_name}')
        
        dfp = ExelProcessor(path_raw, file_name,index_col=index_col)
        dfs = dfp.get_dfs()
        
        exel_dict = dfm.merge_2_dict_of_df(exel_dict,dfs)

    

try:
    del exel_dict['Fläche_1)']
except KeyError as e:
    print (e)

PxDaten einlesen und verarbeiten

In [9]:
PP = PXProcessor(path_px)

In [10]:
px_dict = PP.get_df_dict()


Gemeindeverzeichnis einlesen und verarbeiten

In [11]:

df_gemindeverzeichnis = pd.read_excel(path_gemeindeverzeichnis,sheet_name='GDE' ).dropna()
df_luzern = pd.read_excel(path_luzern).dropna()

mapping_luzern= {'Gemeinde ID':'Gemeindecode','Gemeinde':'Gemeindename'}
df_luzern= df_luzern.rename(columns=mapping_luzern)

mapping_gemindeverzeichnis= {'GDENR':'Gemeindecode','GDENAME':'Gemeindename'}
df_gemindeverzeichnis= df_gemindeverzeichnis.rename(columns=mapping_gemindeverzeichnis)
df_gemindeverzeichnis = df_gemindeverzeichnis.drop(columns=['GDENAMK','GDEMUTDAT'])

mapping_merge_luzern_gemindeverzeichnis = {'Gemeindename_y':'Gemeindename'}
df_merge_luzern_gemindeverzeichnis = pd.merge(df_gemindeverzeichnis,df_luzern,on=['Gemeindecode'])
df_merge_luzern_gemindeverzeichnis= df_merge_luzern_gemindeverzeichnis.rename(columns=mapping_merge_luzern_gemindeverzeichnis)
df_merge_luzern_gemindeverzeichnis = df_merge_luzern_gemindeverzeichnis.drop(columns=['Gemeindename_x'])

df_merge_luzern_gemindeverzeichnis = dfm.create_multiindex(df_merge_luzern_gemindeverzeichnis,index_col)
df_merge_luzern_gemindeverzeichnis.loc[df_merge_luzern_gemindeverzeichnis['Gemeindetypologien']== 'Stadt','Gemeindetypologien'] = 'Kern'

df_dict ={'Gemeindeinfo':df_merge_luzern_gemindeverzeichnis}

Anschließend wurden die Daten in die gewünschte Struktur gebracht, insbesondere bei dem Datenset "Bauausgaben und Arbeitsvorrat nach Grossregion, Kanton, Gemeinde,
Art der Auftraggeber, Art der Bauwerke und Art der Arbeiten". Dieser Datensatz hatte mehr Dimensionen in den Spaltennamen im Vergleich zu den anderen Datensets.
Daher wurden die Spaltennamen angepasst. Die alten und neuen Namen wurden in einer Mapping-Tabelle gespeichert.
Sobald alle Daten die richtige Struktur hatten, wurden sie zusammengeführt. 

In [12]:
df_dict.update(exel_dict)
df_dict.update(px_dict)

duplicates_names = dfm.create_partial_duplicates(df_dict)
exel_dict = dfm.merge_same_df_form_dict(df_dict,duplicates_names)
exel_dict = dfm.replace_symbols(df_dict)

df_dict, df_mapping = dfm.rename_col_from_dict(df_dict)
dfm.convert_index_from_dict_df_to_int(df_dict)
df_dict = dfm.set_keys_as_multiheader(df_dict)
df_merged = dfm.dict_merge_with_multiheader(df_dict)



 

Nachdem die Daten verbunden waren, wurden Duplikate identifiziert und entfernt, da keine Duplikate erwünscht waren. Alle Spalten wurden als Objekte eingelesen, da einige Spalten Platzhalter-Symbole enthielten. Für das Training des Modells wurden jedoch Integer- oder Float-Werte benötigt. Daher wurden die Platzhalter mit "NaN" ersetzt und der Spaltentyp in "Int64" oder "Float" umgewandelt. 

Um ausreichend Datenpunkte für das Training und Testen des Modells zu haben, wurden Daten von 1991 bis 2022 gesammelt. Nicht für alle Daten gab es Einträge von jedem Jahr, beispielsweise für die Gemeindefläche wurde nur im Jahr 1992 und 2004 erfasst. Die fehlenden Werte wurden durch die Werte des nächsten Jahres aufgefüllt. 

In [13]:
dqa = DataQualityAssessment(df_merged)
df,m  = dqa.run_dqa()

Folgende Spalten haben fehlende Werte:
Gemeindeinfo               GDEKT                            2974
                           GDEBZNA                          2974
                           GDEKTNA                          2974
                           Gemeindename                     2974
                           Gemeindetypologien               2974
                                                            ... 
Bauinvestitionen_Gemeinde  Bauinvestitionen_Gemeinde_139    2974
                           Bauinvestitionen_Gemeinde_140    2974
                           Bauinvestitionen_Gemeinde_141    2974
                           Bauinvestitionen_Gemeinde_142    2974
                           Bauinvestitionen_Gemeinde_143    2974
Length: 175, dtype: int64
Keine fehlenden Werte gefunden.
Data Types
Daten-Typen:
[dtype('int64'), dtype('int64'), dtype('int64'), dtype('float64'), dtype('float64'), dtype('float64'), dtype('float64'), dtype('float64'), dtype('float64'), dtype('

 Der neu erzeugte Datenset wurden in eine grosse .xlsx-Datei gespeichert.

In [14]:
dfm.save_df_to_exel(df,path_pre,'Alle_Daten')
dfm.save_df_to_exel(df_mapping,path_pre,'Col_mapping')