In [1]:
import pandas as pd
import sqlalchemy
from dotenv import load_dotenv
import os

In [2]:
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

In [3]:
load_dotenv()

user = os.getenv("POSTGRES_USER")
password = os.getenv("POSTGRES_PASS")
host = os.getenv("POSTGRES_HOST")
port = os.getenv("POSTGRES_PORT")
database = os.getenv("POSTGRES_DB")
schema = os.getenv("POSTGRES_SCHEMA")

connection_string = f"postgresql+psycopg2://{user}:{password}@{host}:{port}/{database}"
engine = sqlalchemy.create_engine(connection_string)

In [4]:
table_name = "fz_1.1_raw"

df = pd.read_sql_table(table_name, con=engine, schema=schema)

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2396 entries, 0 to 2395
Data columns (total 15 columns):
 #   Column                                        Non-Null Count  Dtype 
---  ------                                        --------------  ----- 
 0   Date                                          2396 non-null   object
 1   LAND                                          2396 non-null   object
 2   STATISTISCHE KENNZIFFER UND ZULASSUNGSBEZIRK  2396 non-null   object
 3   PERSONENKRAFTWAGEN                            2396 non-null   object
 4   HUBRAUM BIS 1.399 CM³                         2396 non-null   object
 5   1.400 BIS 1.999 CM³                           2396 non-null   object
 6   2.000 UND MEHR CM³                            2396 non-null   object
 7   UNBE- KANNT                                   2396 non-null   object
 8   UND ZWAR MIT OFFENEM AUFBAU                   2396 non-null   object
 9   UND ZWAR MIT ALLRAD- ANTRIEB                  2396 non-null   object
 10  

In [6]:
df.head()

Unnamed: 0,Date,LAND,STATISTISCHE KENNZIFFER UND ZULASSUNGSBEZIRK,PERSONENKRAFTWAGEN,HUBRAUM BIS 1.399 CM³,1.400 BIS 1.999 CM³,2.000 UND MEHR CM³,UNBE- KANNT,UND ZWAR MIT OFFENEM AUFBAU,UND ZWAR MIT ALLRAD- ANTRIEB,UND ZWAR WOHN- MOBILE,"UND ZWAR KRANKEN- WAGEN, NOTARZT- EINSATZFZ.",UND ZWAR GEWERBLICHE HALTERINNEN UND HALTER,UND ZWAR HALTERINNEN,PKW-DICHTE JE 1.000 EINWOHNER
0,2020,BADEN-WURTTEMBERG,"08111 STUTTGART,STADT",307367.0,94626.0,149289.0,60533.0,2919.0,19446.0,49031.0,3038.0,108,81664.0,83477.0,484
1,2020,BADEN-WURTTEMBERG,08115 BOEBLINGEN,256970.0,82973.0,123051.0,48947.0,1999.0,15303.0,37243.0,3225.0,73,40077.0,79184.0,656
2,2020,BADEN-WURTTEMBERG,08116 ESSLINGEN,333419.0,117674.0,159991.0,54375.0,1379.0,19658.0,40806.0,4311.0,117,40764.0,111548.0,625
3,2020,BADEN-WURTTEMBERG,08117 GOEPPINGEN,166215.0,60377.0,78841.0,26496.0,501.0,8750.0,21736.0,2212.0,44,16755.0,56548.0,646
4,2020,BADEN-WURTTEMBERG,08118 LUDWIGSBURG,333240.0,116328.0,161775.0,53745.0,1392.0,19111.0,39202.0,3714.0,152,30190.0,114141.0,613


In [7]:
df.isnull().sum().sort_values(ascending=False)

UND ZWAR KRANKEN- WAGEN, NOTARZT- EINSATZFZ.    11
Date                                             0
LAND                                             0
STATISTISCHE KENNZIFFER UND ZULASSUNGSBEZIRK     0
PERSONENKRAFTWAGEN                               0
HUBRAUM BIS 1.399 CM³                            0
1.400 BIS 1.999 CM³                              0
2.000 UND MEHR CM³                               0
UNBE- KANNT                                      0
UND ZWAR MIT OFFENEM AUFBAU                      0
UND ZWAR MIT ALLRAD- ANTRIEB                     0
UND ZWAR WOHN- MOBILE                            0
UND ZWAR GEWERBLICHE HALTERINNEN UND HALTER      0
UND ZWAR HALTERINNEN                             0
PKW-DICHTE JE 1.000 EINWOHNER                    0
dtype: int64

In [8]:
df.isnull().mean().sort_values(ascending=False) * 100

UND ZWAR KRANKEN- WAGEN, NOTARZT- EINSATZFZ.    0.459098
Date                                            0.000000
LAND                                            0.000000
STATISTISCHE KENNZIFFER UND ZULASSUNGSBEZIRK    0.000000
PERSONENKRAFTWAGEN                              0.000000
HUBRAUM BIS 1.399 CM³                           0.000000
1.400 BIS 1.999 CM³                             0.000000
2.000 UND MEHR CM³                              0.000000
UNBE- KANNT                                     0.000000
UND ZWAR MIT OFFENEM AUFBAU                     0.000000
UND ZWAR MIT ALLRAD- ANTRIEB                    0.000000
UND ZWAR WOHN- MOBILE                           0.000000
UND ZWAR GEWERBLICHE HALTERINNEN UND HALTER     0.000000
UND ZWAR HALTERINNEN                            0.000000
PKW-DICHTE JE 1.000 EINWOHNER                   0.000000
dtype: float64

In [9]:
for col in df.columns:
    unique_count = df[col].nunique()
    total_count = len(df)
    print(f"{col}: {unique_count} inique from {total_count} ({unique_count / total_count:.2%})")

Date: 6 inique from 2396 (0.25%)
LAND: 16 inique from 2396 (0.67%)
STATISTISCHE KENNZIFFER UND ZULASSUNGSBEZIRK: 806 inique from 2396 (33.64%)
PERSONENKRAFTWAGEN: 2379 inique from 2396 (99.29%)
HUBRAUM BIS 1.399 CM³: 2330 inique from 2396 (97.25%)
1.400 BIS 1.999 CM³: 2363 inique from 2396 (98.62%)
2.000 UND MEHR CM³: 2289 inique from 2396 (95.53%)
UNBE- KANNT: 1788 inique from 2396 (74.62%)
UND ZWAR MIT OFFENEM AUFBAU: 2089 inique from 2396 (87.19%)
UND ZWAR MIT ALLRAD- ANTRIEB: 2279 inique from 2396 (95.12%)
UND ZWAR WOHN- MOBILE: 1765 inique from 2396 (73.66%)
UND ZWAR KRANKEN- WAGEN, NOTARZT- EINSATZFZ.: 217 inique from 2396 (9.06%)
UND ZWAR GEWERBLICHE HALTERINNEN UND HALTER: 2241 inique from 2396 (93.53%)
UND ZWAR HALTERINNEN: 2352 inique from 2396 (98.16%)
PKW-DICHTE JE 1.000 EINWOHNER: 348 inique from 2396 (14.52%)


In [10]:
for col in df.select_dtypes(include='object').columns:
    print(f"--- {col} ---")
    # print(df[col].value_counts(dropna=False))
    # print()
    vc = df[col].value_counts(dropna=False)
    print(vc.sort_index())
    print()

--- Date ---
Date
2020    400
2021    400
2022    399
2023    399
2024    399
2025    399
Name: count, dtype: int64

--- LAND ---
LAND
BADEN-WURTTEMBERG         264
BAYERN                    576
BERLIN                      6
BRANDENBURG               108
BREMEN                     12
HAMBURG                     6
HESSEN                    156
MECKLENBURG-VORPOMMERN     48
NIEDERSACHSEN             270
NORDRHEIN-WESTFALEN       318
RHEINLAND-PFALZ           210
SAARLAND                   36
SACHSEN                    78
SACHSEN-ANHALT             84
SCHLESWIG-HOLSTEIN         90
THURINGEN                 134
Name: count, dtype: int64

--- STATISTISCHE KENNZIFFER UND ZULASSUNGSBEZIRK ---
STATISTISCHE KENNZIFFER UND ZULASSUNGSBEZIRK
01001  FLENSBURG,STADT              3
01001 FLENSBURG,STADT               3
01002  KIEL,STADT                   3
01002 KIEL,STADT                    3
01003  LUEBECK,STADT                3
01003 LUEBECK,STADT                 3
01004  NEUMUENSTER,STADT        