# Librairies

In [58]:
import pandas as pd
import numpy as np

# Data wrangling

In [59]:
# Gathering data
LesAkt_df = pd.read_csv('LesAkt_240717-250717.csv', sep='~')
LesAkt_df

Unnamed: 0,Sigel,Benutzergruppe,Geschlecht,Alter,Verkehrzelle,PLZ,Ausweisgueltigkeit,zuletzt aktiv,Nationalitaet,Anzahl
0,462,1.0,W,52.0,16112.0,13187.0,20251104.0,20250620,DE,1
1,844,3.0,M,28.0,212.0,10551.0,20251015.0,20250106,,1
2,983,1.0,M,57.0,16511.0,13156.0,20251106.0,20250704,DE,1
3,462,6.0,M,8.0,16614.0,13127.0,20260106.0,20250106,DE,1
4,462,1.0,W,39.0,16011.0,13187.0,20260722.0,20250707,DE,1
...,...,...,...,...,...,...,...,...,...,...
46112,OPAC,1.0,W,54.0,11023.0,10405.0,20260125.0,20250515,DE,1
46113,971,6.0,W,9.0,10741.0,10439.0,20250924.0,20250704,DE,1
46114,462,6.0,M,8.0,16122.0,13187.0,20260206.0,20250426,DE,1
46115,458,6.0,W,16.0,11621.0,10245.0,20250521.0,20240913,DE,1


In [60]:
# corriger le nom des colonnes
LesAkt_df = LesAkt_df.rename(columns={
    "Ausweisgueltigkeit": "Ausweisgültigkeit",
    "zuletzt aktiv": "zuletzt_aktiv",
    "Nationalitaet": "Nationalität"
})
LesAkt_df.head(3)

Unnamed: 0,Sigel,Benutzergruppe,Geschlecht,Alter,Verkehrzelle,PLZ,Ausweisgültigkeit,zuletzt_aktiv,Nationalität,Anzahl
0,462,1.0,W,52.0,16112.0,13187.0,20251104.0,20250620,DE,1
1,844,3.0,M,28.0,212.0,10551.0,20251015.0,20250106,,1
2,983,1.0,M,57.0,16511.0,13156.0,20251106.0,20250704,DE,1


# Data cleaning

In [61]:
LesAkt_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46117 entries, 0 to 46116
Data columns (total 10 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Sigel              46106 non-null  object 
 1   Benutzergruppe     46116 non-null  float64
 2   Geschlecht         44882 non-null  object 
 3   Alter              44871 non-null  float64
 4   Verkehrzelle       39849 non-null  float64
 5   PLZ                46055 non-null  float64
 6   Ausweisgültigkeit  46116 non-null  float64
 7   zuletzt_aktiv      46117 non-null  int64  
 8   Nationalität       43249 non-null  object 
 9   Anzahl             46117 non-null  int64  
dtypes: float64(5), int64(2), object(3)
memory usage: 3.5+ MB


In [62]:
# conversion date en type datetime
LesAkt_df['Ausweisgültigkeit'] = (
    LesAkt_df['Ausweisgültigkeit']
    .astype('Int64')  # supprime le .0 tout en gérant les NaN
    .astype(str)      # en texte pour datetime
)

LesAkt_df['Ausweisgültigkeit'] = pd.to_datetime(
    LesAkt_df['Ausweisgültigkeit'],
    format='%Y%m%d',
    errors='coerce'
)

LesAkt_df['zuletzt_aktiv'] = (
    LesAkt_df['zuletzt_aktiv']
    .astype('Int64')  # supprime le .0 tout en gérant les NaN
    .astype(str)      # en texte pour datetime
)

LesAkt_df['zuletzt_aktiv'] = pd.to_datetime(
    LesAkt_df['zuletzt_aktiv'],
    format='%Y%m%d',
    errors='coerce'
)

In [63]:
# Datatype str pour Mediennummer
LesAkt_df["Verkehrzelle"] = (
    LesAkt_df["Verkehrzelle"]
    .astype(float)  # au cas où il y ait encore du float
    .astype("Int64") # Pandas integer nullable
    .astype(str)    # en texte, pour éviter le .0
)

LesAkt_df["PLZ"] = (
    LesAkt_df["PLZ"]
    .astype(float)  # au cas où il y ait encore du float
    .astype("Int64") # Pandas integer nullable
    .astype(str)    # en texte, pour éviter le .0
)

LesAkt_df["Benutzergruppe"] = (
    LesAkt_df["Benutzergruppe"]
    .astype(float)  # au cas où il y ait encore du float
    .astype("Int64") # Pandas integer nullable
    .astype(str)    # en texte, pour éviter le .0
)

In [64]:
# data types conversion
LesAkt_df.astype({
    'Alter': 'Int64'
}).dtypes
LesAkt_df = LesAkt_df.astype({
    'Alter': 'Int64'
})
LesAkt_df.dtypes

Sigel                        object
Benutzergruppe               object
Geschlecht                   object
Alter                         Int64
Verkehrzelle                 object
PLZ                          object
Ausweisgültigkeit    datetime64[ns]
zuletzt_aktiv        datetime64[ns]
Nationalität                 object
Anzahl                        int64
dtype: object

In [66]:
#test null values
print(LesAkt_df.isnull().sum())

Sigel                  11
Benutzergruppe          0
Geschlecht           1235
Alter                1246
Verkehrzelle            0
PLZ                     0
Ausweisgültigkeit       1
zuletzt_aktiv           0
Nationalität         2868
Anzahl                  0
dtype: int64


In [67]:
# delete null values
LesAkt_df.dropna(subset=['Sigel'], inplace=True)
LesAkt_df.dropna(subset=['Benutzergruppe'], inplace=True)
LesAkt_df.dropna(subset=['Geschlecht'], inplace=True)
LesAkt_df.dropna(subset=['Alter'], inplace=True)
LesAkt_df.dropna(subset=['Ausweisgültigkeit'], inplace=True)
LesAkt_df.dropna(subset=['Nationalität'], inplace=True)
print(LesAkt_df.isnull().sum())


Sigel                0
Benutzergruppe       0
Geschlecht           0
Alter                0
Verkehrzelle         0
PLZ                  0
Ausweisgültigkeit    0
zuletzt_aktiv        0
Nationalität         0
Anzahl               0
dtype: int64


In [68]:
# test duplicate
duplicate_rows = LesAkt_df.duplicated().sum()
print(duplicate_rows)
# Pas de doublons.

0


In [69]:
# comptabiliser les valeurs uniques
LesAkt_df.nunique()

Sigel                 137
Benutzergruppe         10
Geschlecht              3
Alter                  99
Verkehrzelle          938
PLZ                   626
Ausweisgültigkeit    1473
zuletzt_aktiv         348
Nationalität          125
Anzahl                  5
dtype: int64

In [70]:
LesAkt_df

Unnamed: 0,Sigel,Benutzergruppe,Geschlecht,Alter,Verkehrzelle,PLZ,Ausweisgültigkeit,zuletzt_aktiv,Nationalität,Anzahl
0,462,1,W,52,16112,13187,2025-11-04,2025-06-20,DE,1
2,983,1,M,57,16511,13156,2025-11-06,2025-07-04,DE,1
3,462,6,M,8,16614,13127,2026-01-06,2025-01-06,DE,1
4,462,1,W,39,16011,13187,2026-07-22,2025-07-07,DE,1
5,650,1,W,74,15615,13129,2026-05-19,2025-06-16,DE,1
...,...,...,...,...,...,...,...,...,...,...
46112,OPAC,1,W,54,11023,10405,2026-01-25,2025-05-15,DE,1
46113,971,6,W,9,10741,10439,2025-09-24,2025-07-04,DE,1
46114,462,6,M,8,16122,13187,2026-02-06,2025-04-26,DE,1
46115,458,6,W,16,11621,10245,2025-05-21,2024-09-13,DE,1


In [None]:
LesAkt_df.shape
# ancien contenu LesAkt_df = 46.117 rows × 10 columns
# nouveau contenu LesAkt_df = 43.220.388 rows x 10 columns

(43220, 10)

In [72]:
LesAkt_df.describe()

Unnamed: 0,Alter,Ausweisgültigkeit,zuletzt_aktiv,Anzahl
count,43220.0,43220,43220,43220.0
mean,30.882878,2025-10-07 21:28:26.210087680,2025-03-26 21:15:38.565479168,1.004142
min,0.0,1993-02-28 00:00:00,2024-07-17 00:00:00,1.0
25%,10.0,2025-09-03 00:00:00,2025-01-10 00:00:00,1.0
50%,30.0,2025-11-27 00:00:00,2025-05-02 00:00:00,1.0
75%,47.0,2026-03-10 00:00:00,2025-06-27 00:00:00,1.0
max,98.0,2045-10-30 00:00:00,2025-07-17 00:00:00,15.0
std,21.823165,,,0.097904


# The end