# Dataset description

- DR_NO: Dies könnte für "DR Number" oder "Division of Records Number" stehen, eine eindeutige 
  Kennung für  jeden Kriminalfall.
- Date Rptd: "Date Reported" – das Datum, an dem der Vorfall gemeldet wurde.
- DATE OCC: "Date of Occurrence" – das Datum, an dem der Vorfall tatsächlich stattfand.
- TIME OCC: "Time of Occurrence" – die Uhrzeit, zu der der Vorfall stattfand.
- AREA: Dies könnte eine numerische Bezeichnung für ein spezifisches geographisches oder 
  Verwaltungsgebiet sein.
- AREA NAME: Der Name des geographischen oder Verwaltungsgebiets.
- Rpt Dist No: "Reporting District Number" – eine spezifische Zahl, die das 
  Gebiet oder den Bezirk kennzeichnet, in dem der Vorfall gemeldet wurde.
- Part 1-2: Dies könnte eine Klassifizierung von Verbrechen in zwei Kategorien sein, wobei "Part 1" 
  schwerere Verbrechen und "Part 2" weniger schwere Verbrechen bezeichnen könnte.
- Crm Cd: "Crime Code" – eine numerische Kennung für die Art des Verbrechens.
- Crm Cd Desc: "Crime Code Description" – eine Beschreibung der Art des Verbrechens.
- Mocodes: Möglicherweise "Modus Operandi Codes" – spezifische Codes, die den Modus 
  Operandi oder die Methode/Umstände des Verbrechens beschreiben.
- Vict Age: "Victim Age" – das Alter des Opfers.
- Vict Sex: "Victim Sex" – das Geschlecht des Opfers.
- Vict Descent: "Victim Descent" – die ethnische Abstammung oder Nationalität des Opfers.
- Premis Cd: "Premises Code" – ein Code, der den Ortstyp des Vorfalls angibt.
- Premis Desc: "Premises Description" – eine Beschreibung des Ortes des Vorfalls.
- Weapon Used Cd: "Weapon Used Code" – ein Code, der angibt, ob und welche Waffe bei dem 
  Vorfall verwendet wurde.
- Weapon Desc: "Weapon Description" – eine Beschreibung der bei dem Vorfall verwendeten Waffe.
- Status: Der aktuelle Status des Falls (z.B. offen, gelöst).
- Status Desc: "Status Description" – eine detaillierte Beschreibung des Status des Falls.
- Crm Cd 1, Crm Cd 2, Crm Cd 3, Crm Cd 4: Zusätzliche Codes für Verbrechen, wenn mehr als 
  ein Verbrechen im Rahmen eines Vorfalls gemeldet wurde.
- LOCATION: Die genaue Adresse oder der Ort des Vorfalls.
- Cross Street: Die nächstgelegene Querstraße zum Vorfallsort.
- LAT, LON: Geografische Koordinaten (Breitengrad und Längengrad) des Vorfalls.

---------------

# Weitere Beschreibungen

- AO - Adult Other: Dieser Status könnte bedeuten, dass der Fall mit einem Erwachsenen in Verbindung steht, der weder ein Verdächtiger noch ein Opfer ist, sondern möglicherweise eine andere Rolle im Fall spielt (wie z.B. ein Zeuge).
- IC - Investigation Continues: Dieser Status deutet darauf hin, dass der Fall noch aktiv untersucht wird. Der Fall ist noch nicht abgeschlossen, und weitere Ermittlungen sind im Gange.
- AA - Arrested Adult: Dieser Status könnte anzeigen, dass ein erwachsener Verdächtiger in dem Fall verhaftet wurde.

# Data Preparation and Cleaning
- Clean missing values (NaN Values)
- Transform datatypes e.g string in datetimes
- Clean real duplicates
- Find anomalies and handle them - 0 or -2 is not an age

In [26]:
import pandas as pd
import numpy as np

class DataPreparationCleaning:
    def __init__(self, file):
        self.file = file
        self.finalDataframe = self.dataPreparationCleaning()
        
    def dataPreparationCleaning(self): # method to call special preparation methods
        dataFrame = pd.read_csv(self.file)
        dataFrame = dataFrame[['AREA NAME', 'Crm Cd Desc', 'DATE OCC', 'TIME OCC', 'Vict Sex', 'Vict Age','Status']]
        dataFrame = self.cleaningMissingValues(dataFrame)
        dataFrame = self.transformFormat(dataFrame, 'DATE OCC')
        dataFrame = self.cleanAnomalies(dataFrame, 'Vict Age')
        dataFrame = self.cleanDuplicates(dataFrame)
        return dataFrame
    
    def cleaningMissingValues(self, dataFrame):
        dataFrame = dataFrame.dropna()
        return dataFrame
    
    def transformFormat(self, dataFrame, column):
        dataFrame[column] = pd.to_datetime(dataFrame[column], errors='coerce')
        return dataFrame
    
    def cleanAnomalies(self, dataFrame, column):
        dataFrame = dataFrame[dataFrame[column]>0]
        return dataFrame
    
    def cleanDuplicates(self, dataFrame):
        dataFrame = dataFrame.drop_duplicates()
        return dataFrame

def main():
    file = 'Crime_Data_from_2020_to_Present.csv'
    preparationApp = DataPreparationCleaning(file)
    preparationApp.dataPreparationCleaning()

main()

  dataFrame[column] = pd.to_datetime(dataFrame[column], errors='coerce')
  dataFrame[column] = pd.to_datetime(dataFrame[column], errors='coerce')
