# Data understanding for Crime Stat
Dit documentje is een basis voor de data understanding van de datasets die we hebben gekgregen voor de tweede challenge voor de Proof of Concept.


#### NOTE: De code hieronder zorgt dat de rest van het notebook werkt op zowel Mac als Windows

In [2]:
import platform
import os

# Get working directory
working_directory = os.getcwd()

# check if macos
isMac = "macos" in platform.platform().lower()

## Format
De data is aangeleverd in twee losse csv bestanden; crime.csv en offense_codes.csv. De bestanden zijn repectievelijk ±120 mb en ±35kb. 

NOTE: voeg de bestanden toe aan een mapje "data" onder de namen die hierboven staan.

In [3]:
# Variabele 
crime_file_path = (f"{working_directory}/data/crime.csv" if isMac else f"{working_directory}\\data\\crime.csv")
offense_file_path = f"{working_directory}/data/offense_codes.csv" if isMac else f"{working_directory}\\data\\offense_codes.csv"

## Data benaderen
De data kan worden benaderd met de paden die in bovenstaande cell staan. Dit doen we door ze in een Pandas Dataframe te stoppen, zoals hieronder. Hierna kun je in dit hele Jupyter Notebook gebruik maken van de dataframes.

In [4]:
import pandas as pd

# Data in een dataframe te stoppen
crime_df = pd.read_csv(crime_file_path)
offense_df = pd.read_csv(offense_file_path)

## Data exploratie
Voor beide bestanden willen we eerst een globaal inzicht in de data. Hieronder gaan we ze een voor een bij langs.


### Crime.csv
Allereerst kijken we naar een csv bestand met daarin geregistreerde incidenten die zijn gebeurt in de stad Denver in Amerika.
Hieronder zie je hoeveel records er zijn (470278) en hoeveel kolommen (19). Ook zien we de (door pandas geïnterpreteerde) datatypes.

In [5]:
crime_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 470278 entries, 0 to 470277
Data columns (total 19 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   incident_id             470278 non-null  int64  
 1   offense_id              470278 non-null  int64  
 2   OFFENSE_CODE            470278 non-null  int64  
 3   OFFENSE_CODE_EXTENSION  470278 non-null  int64  
 4   OFFENSE_TYPE_ID         470278 non-null  object 
 5   OFFENSE_CATEGORY_ID     470278 non-null  object 
 6   FIRST_OCCURRENCE_DATE   470278 non-null  object 
 7   LAST_OCCURRENCE_DATE    174528 non-null  object 
 8   REPORTED_DATE           470278 non-null  object 
 9   INCIDENT_ADDRESS        432413 non-null  object 
 10  GEO_X                   466247 non-null  float64
 11  GEO_Y                   466247 non-null  float64
 12  GEO_LON                 466246 non-null  float64
 13  GEO_LAT                 466246 non-null  float64
 14  DISTRICT_ID         

De kolommen betekenen het volgende:

| Variabele              | Betekenis                                                                      |
|------------------------|--------------------------------------------------------------------------------|
| incident_id            | De identifier van het indicent                                                 |
| offense_id             | De identifier van de illegale activiteit                                       |
| OFFENSE_CODE           | De code van de illegale activiteit                                             |
| OFFENSE_CODE_EXTENSION | De extensie op de code van de illegale activiteit                              |
| OFFENSE_TYPE_ID        | De type van de illegale activiteit                                             |
| OFFENSE_CATEGORY_ID    | De category van de illegale activiteit                                         |
| FIRST_OCCURRENCE_DATE  | De datum van de eerste voorval van de illegale activiteit                      |
| LAST_OCCURRENCE_DATE   | De datum van de laatste voorval van de illegale activiteit                     |
| REPORTED_DATE          | De datum wanneer het incident is gerapporteerd                                 |
| INCIDENT_ADDRESS       | Het adres waar het incident heeft plaats gevonden                              |
| GEO_X                  | GEO code op de X as van het incident                                           |
| GEO_Y                  | GEO code op de Y as van het incident                                           |
| GEO_LON                | GEO longitude van het incident                                                 |
| GEO_LAT                | GEO latitude van het incident                                                  |
| DISTRICT_ID            | De identifier van de staat/staten waar het indicent zich heeft plaats gevonden |
| PRECINCT_ID            | De identifier van de area waar het indicent zich heeft plaats gevonden         |
| NEIGHBORHOOD_ID        | De identifier van de buurt waar het indicent zich heeft plaats gevonden        |
| IS_CRIME               | Of het incident wel of geen misdaad is                                         |
| IS_TRAFFIC             | Of het incident wel of geen verkeersongeval is                                 |

Hieronder zie je een overzicht van een aantal beschrijvende statistieken van de dataset.

In [6]:
crime_df.describe()

Unnamed: 0,incident_id,offense_id,OFFENSE_CODE,OFFENSE_CODE_EXTENSION,GEO_X,GEO_Y,GEO_LON,GEO_LAT,DISTRICT_ID,PRECINCT_ID,IS_CRIME,IS_TRAFFIC
count,470278.0,470278.0,470278.0,470278.0,466247.0,466247.0,466246.0,466246.0,470277.0,470277.0,470278.0,470278.0
mean,4585095000.0,4585095000000000.0,3592.342408,0.209038,3163137.0,1695337.0,-104.9285,39.721679,3.535121,371.17,0.7728,0.227763
std,14547140000.0,1.454714e+16,1624.156787,0.578655,643194.1,218325.5,1.793875,0.679421,1.779745,178.910674,0.419023,0.419389
min,20196.0,20196520000.0,902.0,0.0,1.0,1.0,-115.4641,0.0,1.0,111.0,0.0,0.0
25%,2017705000.0,2017705000000000.0,2305.0,0.0,3139282.0,1683173.0,-105.0048,39.707754,2.0,221.0,1.0,0.0
50%,2019399000.0,2019399000000000.0,2999.0,0.0,3146122.0,1694794.0,-104.9804,39.739852,3.0,323.0,1.0,0.0
75%,2021280000.0,2021280000000000.0,5441.0,0.0,3164298.0,1702249.0,-104.9162,39.760192,5.0,521.0,1.0,0.0
max,2020890000000.0,2.02089e+18,7399.0,5.0,40674770.0,104670700.0,5e-07,39.904311,7.0,759.0,1.0,1.0


Hieronder zie je hoe een regel van de dataset eruit ziet.

In [7]:
crime_df.head()

Unnamed: 0,incident_id,offense_id,OFFENSE_CODE,OFFENSE_CODE_EXTENSION,OFFENSE_TYPE_ID,OFFENSE_CATEGORY_ID,FIRST_OCCURRENCE_DATE,LAST_OCCURRENCE_DATE,REPORTED_DATE,INCIDENT_ADDRESS,GEO_X,GEO_Y,GEO_LON,GEO_LAT,DISTRICT_ID,PRECINCT_ID,NEIGHBORHOOD_ID,IS_CRIME,IS_TRAFFIC
0,20226000193,20226000193299900,2999,0,criminal-mischief-other,public-disorder,1/4/2022 11:30:00 AM,1/4/2022 12:00:00 PM,1/4/2022 8:36:00 PM,128 S CANOSA CT,3135366.0,1685410.0,-105.018825,39.714268,4.0,411.0,valverde,1,0
1,20223319,20223319299900,2999,0,criminal-mischief-other,public-disorder,1/3/2022 6:45:00 AM,,1/3/2022 11:01:00 AM,650 15TH ST,3142454.0,1696151.0,-104.993418,39.743649,6.0,611.0,cbd,1,0
2,20223093,20223093299900,2999,0,criminal-mischief-other,public-disorder,1/3/2022 1:00:00 AM,,1/3/2022 6:11:00 AM,919 E COLFAX AVE,3147484.0,1694898.0,-104.975557,39.74013,6.0,621.0,north-capitol-hill,1,0
3,20224000,20224000299900,2999,0,criminal-mischief-other,public-disorder,1/3/2022 7:47:00 PM,,1/3/2022 9:12:00 PM,2345 W ALAMEDA AVE,3136478.0,1684414.0,-105.014892,39.711518,4.0,411.0,valverde,1,0
4,20223956,20223956299900,2999,0,criminal-mischief-other,public-disorder,1/3/2022 5:06:00 PM,,1/3/2022 8:31:00 PM,7800 E SMITH RD,3169237.0,1705800.0,-104.89795,39.769688,5.0,512.0,central-park,1,0


### Offense_codes.csv
Hieronder zie je een soortgelijk overzicht van de dataset met offense codes. Zoals je ziet zijn er 299 entries met 9 kolommen. Ook zien we de (door pandas geïnterpreteerde) datatypes. 

In [8]:
offense_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 299 entries, 0 to 298
Data columns (total 9 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   OBJECTID                299 non-null    int64 
 1   OFFENSE_CODE            299 non-null    int64 
 2   OFFENSE_CODE_EXTENSION  299 non-null    int64 
 3   OFFENSE_TYPE_ID         299 non-null    object
 4   OFFENSE_TYPE_NAME       299 non-null    object
 5   OFFENSE_CATEGORY_ID     299 non-null    object
 6   OFFENSE_CATEGORY_NAME   299 non-null    object
 7   IS_CRIME                299 non-null    int64 
 8   IS_TRAFFIC              299 non-null    int64 
dtypes: int64(5), object(4)
memory usage: 21.1+ KB


De kolommen betekenen het volgende.

| Variabele              | Beschrijving                                  |
|------------------------|-----------------------------------------------|
| OBJECTID               | De identifier van de misdaad                  |
| OFFENSE_CODE           | De code van de misdaad                        |
| OFFENSE_CODE_EXTENSION | De extensie op de code van de misdaad         |
| OFFENSE_TYPE_ID        | De identifier van de type van de misdaad      |
| OFFENSE_TYPE_NAME      | De naam van de type van de misdaad            |
| OFFENSE_CATEGORY_ID    | De identifier van de categorie van de misdaad |
| OFFENSE_CATEGORY_NAME  | De naam van de categorie van de misdaad       |
| IS_CRIME               | Of de misdaad wel of geen misdaad is          |
| IS_TRAFFIC             | Of de misdaad wel of geen verkeersongeval is  |

Hieronder zie je een overzicht van een aantal beschrijvende statistieken van de dataset.

In [9]:
offense_df.describe()

Unnamed: 0,OBJECTID,OFFENSE_CODE,OFFENSE_CODE_EXTENSION,IS_CRIME,IS_TRAFFIC
count,299.0,299.0,299.0,299.0,299.0
mean,150.0,3368.886288,0.448161,0.979933,0.026756
std,86.458082,1784.546467,0.982987,0.140464,0.16164
min,1.0,199.0,0.0,0.0,0.0
25%,75.5,2100.0,0.0,1.0,0.0
50%,150.0,2999.0,0.0,1.0,0.0
75%,224.5,5015.5,0.0,1.0,0.0
max,299.0,7399.0,5.0,1.0,1.0


Hieronder zie je hoe een regel van de dataset eruit ziet.

In [10]:
offense_df.head()

Unnamed: 0,OBJECTID,OFFENSE_CODE,OFFENSE_CODE_EXTENSION,OFFENSE_TYPE_ID,OFFENSE_TYPE_NAME,OFFENSE_CATEGORY_ID,OFFENSE_CATEGORY_NAME,IS_CRIME,IS_TRAFFIC
0,1,2804,1,stolen-property-possession,Possession of stolen property,all-other-crimes,All Other Crimes,1,0
1,2,2804,2,fraud-possess-financial-device,Possession of a financial device,all-other-crimes,All Other Crimes,1,0
2,3,2901,0,damaged-prop-bus,Damaged business property,public-disorder,Public Disorder,1,0
3,4,2902,0,criminal-mischief-private,Criminal mischief to private property,public-disorder,Public Disorder,1,0
4,5,2903,0,criminal-mischief-public,Criminal mischief to public property,public-disorder,Public Disorder,1,0


Daarbij hebben we een overzicht van alle unieke offense types

In [11]:
offense_types = offense_df["OFFENSE_TYPE_NAME"]
for type in offense_types:
    print(f"{type}")

Possession of stolen property
Possession of a financial device
Damaged business property
Criminal mischief to private property
Criminal mischief to public property
Criminal mischief - other
Criminal mischief to a motor vehicle
Criminal mischief - graffiti
Manufacture of a hallucinogenic drug
Selling a hallucinogenic drug
Possession of a hallucinogenic drug
Selling heroin
Possession of heroin
Selling opium or an opium derivative
Possession of opium or an opium derivative
Selling cocaine
Possession of cocaine
Selling a synthetic narcotic drug
Possession of a synthetic narcotic drug
Possession of drug paraphernalia
Selling marijuana
Possession of marijuana
Cultivation of marijuana
Manufacture of methampetamine
Selling methampetamine
Possession of methampetamine
Manufacture of a barbiturate
Selling a barbiturate
Possession of a barbiturate
Other dangerous drugs - PCS
Manufacture or sell other dangerous drugs
Fondling of an adult
Indecent exposure
Incest with an adult
Window Peeping
Failure