## Data exploration

In [186]:
# Pandas ist eine Bibliothek, die das Einlesen und Verarbeiten von Daten erleichtert.
import pandas as pd

Der erste Schritt ist das Einlesen der Daten aus der originalen Excel-Datei.
Die Daten werden in einem DataFrame gespeichert.

In [187]:
data = pd.read_excel('data/original/Ein-Ausfahrten_Wildpark_Alle.xlsx')

In [188]:
# Die ersten 10 Zeilen des DataFrames werden ausgegeben.
print(data.head(10))

         Tag  Kurzparker Einfahrten  Kurzparker Ausfahrten     PName
0 2015-01-01                     90                    100  Wildpark
1 2015-01-02                     50                     49  Wildpark
2 2015-01-03                     50                     52  Wildpark
3 2015-01-04                    151                    150  Wildpark
4 2015-01-05                     98                     97  Wildpark
5 2015-01-06                    184                    182  Wildpark
6 2015-01-07                     46                     46  Wildpark
7 2015-01-08                     40                     38  Wildpark
8 2015-01-09                     35                     36  Wildpark
9 2015-01-10                    199                    199  Wildpark


In [189]:
# Die letzten 10 Zeilen des DataFrames werden ausgegeben.
print(data.tail(10))

            Tag  Kurzparker Einfahrten  Kurzparker Ausfahrten     PName
2995 2023-04-24                     45                     45  Wildpark
2996 2023-04-25                     39                     39  Wildpark
2997 2023-04-26                    111                    112  Wildpark
2998 2023-04-27                    105                    107  Wildpark
2999 2023-04-28                     33                     33  Wildpark
3000 2023-04-29                    205                    205  Wildpark
3001 2023-04-30                    422                    424  Wildpark
3002 2023-05-01                    100                    100  Wildpark
3003 2023-05-02                     53                     53  Wildpark
3004 2023-05-03                     76                     30  Wildpark


In [190]:
# Die Spalte 'PName' enthält den Namen der Parkmöglichkeit und wird entfernt, da sie nicht benötigt wird.
data = data.drop(columns=['PName'])

In [191]:
# Es wird überprüft, ob es Reihen mit fehlenden Werten (NaN-Werten) gibt.
print(data[data.isna().any(axis=1)])

Empty DataFrame
Columns: [Tag, Kurzparker Einfahrten, Kurzparker Ausfahrten]
Index: []


In [192]:
# Es wird überprüft, ob es Reihen mit duplizierten Werten gibt.
print(data[data.duplicated()])

Empty DataFrame
Columns: [Tag, Kurzparker Einfahrten, Kurzparker Ausfahrten]
Index: []


In [193]:
# Es wird überprüft, ob es doplizierte Werte in der Spalte 'Tag' gibt.
print(data[data['Tag'].duplicated()])

Empty DataFrame
Columns: [Tag, Kurzparker Einfahrten, Kurzparker Ausfahrten]
Index: []


In [194]:
# Die Anzahl der Tage zwischen vom 1.1.2015 bis zum 3.5.2023 wird berechnet
days = pd.date_range(start='2015-01-01', end='2023-05-03').nunique()

# Die Anzahl der Tage, die in den Daten enthalten sind, wird berechnet
days_in_data = data['Tag'].nunique()

print(f'Anzahl der Tage zwischen dem 1.1.2015 und dem 3.5.2023: {days}')
print(f'Anzahl der Tage, die in den Daten enthalten sind: {days_in_data}')
print(f'Anzahl der fehlenden Tage: {days - days_in_data}')


Anzahl der Tage zwischen dem 1.1.2015 und dem 3.5.2023: 3045
Anzahl der Tage, die in den Daten enthalten sind: 3005
Anzahl der fehlenden Tage: 40


Die Anzahl der Tage, die in den Daten enthalten sind, ist kleiner als die Anzahl der Tage zwischen dem 1.1.2015 und dem 3.5.2023. Es fehlen 40 Tage in den Daten.

In [195]:
missing_days = pd.date_range(start='2015-01-01', end='2023-05-03').difference(data['Tag'])
print(f'Fehlende Tage: {missing_days}')

Fehlende Tage: DatetimeIndex(['2015-07-17', '2015-07-18', '2015-07-19', '2016-12-06',
               '2016-12-07', '2017-07-05', '2017-07-06', '2017-07-07',
               '2017-07-08', '2017-07-09', '2017-10-03', '2017-10-04',
               '2017-10-05', '2017-12-19', '2018-09-24', '2018-09-25',
               '2018-09-26', '2019-07-27', '2019-07-28', '2019-07-29',
               '2019-07-30', '2019-07-31', '2019-08-01', '2019-08-02',
               '2019-08-03', '2019-08-04', '2019-08-05', '2019-08-06',
               '2019-10-16', '2019-10-17', '2019-10-18', '2020-08-19',
               '2020-08-20', '2020-12-18', '2020-12-19', '2020-12-20',
               '2020-12-21', '2022-07-29', '2022-07-30', '2022-07-31'],
              dtype='datetime64[ns]', freq=None)


In [196]:
# Prozentsatz der fehlenden Tage an der Gesamtanzahl der Tage
missing_days_percentage = (len(missing_days) / days) * 100
print(f'Prozentsatz der fehlenden Tage an der Gesamtanzahl der Tage: {missing_days_percentage:.2f}%')

Prozentsatz der fehlenden Tage an der Gesamtanzahl der Tage: 1.31%


Die Daten sind ausreichend vollständig und können weiterverarbeitet werden.