In [1]:
!pip install polars




In [2]:
import polars as pl
import glob
import pandas as pd

In [3]:
# polars settings
#show 50 columns by default
pl.Config().set_tbl_cols(50)
# enable string chaing
pl.enable_string_cache()

In [4]:
# change display of result container here:
from IPython.display import display, HTML

display(HTML(data="""
<style>
    div#notebook-container    { width: 50%; }
    div#menubar-container     { width: 65%; }
    div#maintoolbar-container { width: 99%; }
</style>
"""))

In [5]:
# get all the filenames
csv_files_crimes_non_germans = glob.glob(r"C:\Users\Me\migration and crime data\crime\*nichtdeutsch*.csv")
csv_files_crimes_germans = [x for x in glob.glob(r"C:\Users\Me\migration and crime data\crime\*deutsch*.csv") if x not in csv_files_crimes_non_germans]

In [6]:
# check if the german list is missing files
csv_files_crimes_germans

['C:\\Users\\Me\\migration and crime data\\crime\\PKS2018-BKA-LKS-TV-09-T40-Kreise-TV-deutsch_csv.csv',
 'C:\\Users\\Me\\migration and crime data\\crime\\PKS2019-KR-TV-03-T40-Kreise-TV-deutsch_csv.csv',
 'C:\\Users\\Me\\migration and crime data\\crime\\PKS2021-KR-TV-03-T40-Kreise-TV-deutsch_csv.csv',
 'C:\\Users\\Me\\migration and crime data\\crime\\PKS2023-KR-TV-03-T40-Kreise-TV-deutsch_csv.csv']

In [7]:
# check if the non german list is missing files
csv_files_crimes_non_germans

['C:\\Users\\Me\\migration and crime data\\crime\\PKS2018-BKA-LKS-TV-11-T50-Kreise-TV-nichtdeutsch_csv.csv',
 'C:\\Users\\Me\\migration and crime data\\crime\\PKS2019-KR-TV-05-T50-Kreise-TV-nichtdeutsch_csv.csv',
 'C:\\Users\\Me\\migration and crime data\\crime\\PKS2021-KR-TV-05-T50-Kreise-TV-nichtdeutsch_csv.csv',
 'C:\\Users\\Me\\migration and crime data\\crime\\PKS203-KR-TV-05-T50-Kreise-TV-nichtdeutsch_csv.csv']

In [8]:
# detect encoding
import chardet
with open('C:\\Users\\Me\\migration and crime data\\crime\\PKS2018-BKA-LKS-TV-09-T40-Kreise-TV-deutsch_csv.csv', 'rb') as f:
    result = chardet.detect(f.read())

In [9]:
# check file content (first 5 lines)
with open('C:\\Users\\Me\\migration and crime data\\crime\\PKS2018-BKA-LKS-TV-09-T40-Kreise-TV-deutsch_csv.csv', "r", encoding=result['encoding']) as f:
    lines = f.readlines()[:5]  # Get first 5 lines
    for i, line in enumerate(lines, 1):
         print(f"Line {i}: {line.strip()}")

Line 1: 1;2;3;4;5;6;7;8;9;10;11;12;13;14;15;16;17;18;19;20;21;22;23;24;25;26;27
Line 2: Schluessel;Straftat;Gemeindeschluessel;Stadt/Landkreis;Kreisart;Sexus;Tatverdaechtige deutsch insgesamt - Anzahl;Kinder bis unter 6 Jahre - Anzahl;Kinder 6 bis unter 8 Jahre Anzahl;Kinder 8 bis unter 10 Jahre - Anzahl;Kinder 10 bis unter 12 Jahre - Anzahl;Kinder 12 bis unter 14 Jahre - Anzahl;Kinder bis unter 14 Jahre insgesamt (Anzahl Spalte 8 bis 12);Jugendliche 14 bis unter 16 Jahre - Anzahl;Jugendliche 16 bis unter 18 Jahre - Anzahl;Jugendliche 14 bis unter 18 Jahre insgesamt (Anzahl Spalte 14 und 15);Heranwachsende 18 bis unter 21 Jahre - Anzahl;Tatverdaechtige insgesamt unter 21 Jahre (Anzahl Spalte 13, 16 und 17);Erwachsene 21 bis unter 23 Jahre - Anzahl;Erwachsene 23 bis unter 25 Jahre - Anzahl;Erwachsene 21 bis unter 25 Jahre (Anzahl Spalte 19 und 20);Erwachsene 25 bis unter 30 Jahre;Erwachsene 30 bis unter 40 Jahre;Erwachsene 40 bis unter 50 Jahre;Erwachsene 50 bis unter 60 Jahre;Erwachsen

In [10]:
# when reading the data define a schema
enforced_schema = {
    # Identifier columns
    "Schluessel": pl.String,
    "Gemeindeschluessel": pl.String,
    
    # Categorical columns
    "Straftat": pl.Categorical,
    "Stadt/Landkreis": pl.Categorical,
    "Kreisart": pl.Categorical,
    "Sexus": pl.Categorical,
    
    # Numeric columns with German formatting (1.204 -> 1204)
    **{
        col: pl.Int64
        for col in [
            "Tatverdaechtige insgesamt - Anzahl",
            "Kinder bis unter 6 Jahre - Anzahl",
            "Kinder 6 bis unter 8 Jahre Anzahl",
            "Kinder 8 bis unter 10 Jahre - Anzahl",
            "Kinder 10 bis unter 12 Jahre - Anzahl",
            "Kinder 12 bis unter 14 Jahre - Anzahl",
            "Kinder bis unter 14 Jahre insgesamt (Anzahl Spalte 8 bis 12)",
            "Jugendliche 14 bis unter 16 Jahre - Anzahl",
            "Jugendliche 16 bis unter 18 Jahre - Anzahl",
            "Jugendliche 14 bis unter 18 Jahre insgesamt (Anzahl Spalte 14 und 15)",
            "Heranwachsende 18 bis unter 21 Jahre - Anzahl",
            "Tatverdaechtige insgesamt unter 21 Jahre (Anzahl Spalte 13, 16 und 17)",
            "Erwachsene 21 bis unter 23 Jahre - Anzahl",
            "Erwachsene 23 bis unter 25 Jahre - Anzahl",
            "Erwachsene 21 bis unter 25 Jahre (Anzahl Spalte 19 und 20)",
            "Erwachsene 25 bis unter 30 Jahre",
            "Erwachsene 30 bis unter 40 Jahre",
            "Erwachsene 40 bis unter 50 Jahre",
            "Erwachsene 50 bis unter 60 Jahre",
            "Erwachsene 60 Jahre und aelter",
            "Erwachsene ab 21 Jahre (Anzahl Spalten 21 bis 26)"
        ]
    }
}





In [12]:
with pl.StringCache():
    dataframes_non_germans = [pl.read_csv(file,separator=";",encoding=result['encoding'], skip_rows=1, ignore_errors=True, has_header=False, schema=enforced_schema
        ).with_columns(pl.col("Stadt/Landkreis").cast(pl.String).replace("ü", "ue").str.to_uppercase(),
                      pl.col("Kreisart").cast(pl.String).replace("KfS", "Kreisfreie Stadt")) 
        for file in csv_files_crimes_non_germans]
    
    dataframes_germans = [pl.read_csv(file,separator=";",encoding=result['encoding'], skip_rows=1, ignore_errors=True, has_header=False, schema=enforced_schema
       ).with_columns(pl.col("Stadt/Landkreis").cast(pl.String).replace("ü", "ue").str.to_uppercase(),
                      pl.col("Kreisart").cast(pl.String).replace("KfS", "Kreisfreie Stadt")) 
        for file in csv_files_crimes_germans]
    
    # Concatenate inside the same context
    combined_df_crimes_all_years_germans = pl.concat(dataframes_germans, how="diagonal_relaxed")
    combined_df_crimes_all_years_non_germans = pl.concat(dataframes_non_germans, how="diagonal_relaxed")

In [None]:
# look at the columns
dataframes_germans[0].columns

In [None]:
# look at the data
combined_df_crimes_all_years_germans

In [18]:
# add foreigner / german as signifier
combined_df_crimes_all_years_germans=combined_df_crimes_all_years_germans.with_columns(pl.lit("german").alias("foreign or german"))
combined_df_crimes_all_years_non_germans=combined_df_crimes_all_years_non_germans.with_columns(pl.lit("foreign").alias("foreign or german"))

In [19]:
# combine both dataframes
combined_crime_df_foreign_german = pl.concat([combined_df_crimes_all_years_germans, combined_df_crimes_all_years_non_germans], how="diagonal_relaxed")

In [20]:
combined_crime_df_foreign_german

Schluessel,Gemeindeschluessel,Straftat,Stadt/Landkreis,Kreisart,Sexus,Tatverdaechtige insgesamt - Anzahl,Kinder bis unter 6 Jahre - Anzahl,Kinder 6 bis unter 8 Jahre Anzahl,Kinder 8 bis unter 10 Jahre - Anzahl,Kinder 10 bis unter 12 Jahre - Anzahl,Kinder 12 bis unter 14 Jahre - Anzahl,Kinder bis unter 14 Jahre insgesamt (Anzahl Spalte 8 bis 12),Jugendliche 14 bis unter 16 Jahre - Anzahl,Jugendliche 16 bis unter 18 Jahre - Anzahl,Jugendliche 14 bis unter 18 Jahre insgesamt (Anzahl Spalte 14 und 15),Heranwachsende 18 bis unter 21 Jahre - Anzahl,"Tatverdaechtige insgesamt unter 21 Jahre (Anzahl Spalte 13, 16 und 17)",Erwachsene 21 bis unter 23 Jahre - Anzahl,Erwachsene 23 bis unter 25 Jahre - Anzahl,Erwachsene 21 bis unter 25 Jahre (Anzahl Spalte 19 und 20),Erwachsene 25 bis unter 30 Jahre,Erwachsene 30 bis unter 40 Jahre,Erwachsene 40 bis unter 50 Jahre,Erwachsene 50 bis unter 60 Jahre,Erwachsene 60 Jahre und aelter,Erwachsene ab 21 Jahre (Anzahl Spalten 21 bis 26),foreign or german
str,str,cat,str,str,cat,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,str
"""Schluessel""","""Straftat""","""Gemeindeschluessel""","""STADT/LANDKREIS""","""Kreisart""","""Sexus""",,,,,,,,,,,,,,,,,,,,,,"""german"""
"""------""","""Straftaten insgesamt""","""1001""","""FLENSBURG""","""Kreisfreie Stadt""","""M""",,0,4,10,13,28,55,59,74,133,139,327,115,107,222,226,372,235,168,102,,"""german"""
"""------""","""Straftaten insgesamt""","""1002""","""KIEL""","""Kreisfreie Stadt""","""M""",,1,12,15,29,61,118,177,184,361,331,810,279,246,525,599,844,611,516,310,,"""german"""
"""------""","""Straftaten insgesamt""","""1003""","""LÜBECK""","""Kreisfreie Stadt""","""M""",,2,13,18,22,53,108,144,227,371,315,794,246,251,497,536,903,636,560,336,,"""german"""
"""------""","""Straftaten insgesamt""","""1004""","""NEUMÜNSTER""","""Kreisfreie Stadt""","""M""",,1,3,6,10,32,52,64,104,168,172,392,111,103,214,262,373,267,212,162,,"""german"""
…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…
"""972500""","""Unerlaubt eingereiste/aufhälti…","""16073""","""SAALFELD-RUDOLSTADT""","""LK""","""X""",31,0,0,0,0,1,1,2,2,4,5,10,6,1,7,4,6,4,0,0,21,"""foreign"""
"""972500""","""Unerlaubt eingereiste/aufhälti…","""16074""","""SAALE-HOLZLAND-KREIS""","""LK""","""X""",19,0,0,0,0,0,0,0,1,1,0,1,3,2,5,2,8,2,1,0,18,"""foreign"""
"""972500""","""Unerlaubt eingereiste/aufhälti…","""16075""","""SAALE-ORLA-KREIS""","""LK""","""X""",3,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0,2,0,0,3,"""foreign"""
"""972500""","""Unerlaubt eingereiste/aufhälti…","""16076""","""GREIZ""","""LK""","""X""",11,0,0,0,0,0,0,0,1,1,2,3,1,0,1,5,2,0,0,0,8,"""foreign"""
