# Data preprocessing

## Dataset schietincidenten

In [1]:
import pandas as pd
gv = pd.read_csv('stage3.csv')
gv.head()

FileNotFoundError: [Errno 2] No such file or directory: 'stage3.csv'

Om deze dataset schoon te maken is het van belang om te filteren per jaar. De andere dataset beval namelijk informatie tot en met 2017, waar deze dataset door gaat tot 2018. Om dit op te lossen maken we eerst een aparte dataframe voor de relevante jaren. Door deze samen te voegen ontstaat de nieuwe, schoongemaakte dataset. 

Daarnaast staat 'District of Columbia' geregistreerd als area. Dit is daarentegen geen staat, dus deze moet ook verwijderd worden.

Om dit te kunnen doen moet eerst de 'date' kolom in de dataset geconverteerd worden naar een datetime format, zodat het mogelijk is om te filteren op deze velden.

In [2]:
# converteer de 'date' kolom naar datetime
gv['date'] = pd.to_datetime(gv['date'])

# verwijder district of columbia
gv = gv[gv.state != 'District of Columbia']

In [3]:
# aparte dataframes voor de jaren 2013-2017 uit de dataset
gv13 = gv[gv['date'].dt.year == 2013]
gv14 = gv[gv['date'].dt.year == 2014]
gv15 = gv[gv['date'].dt.year == 2015]
gv16 = gv[gv['date'].dt.year == 2016]
gv17 = gv[gv['date'].dt.year == 2017]

Nu we de dataframes hebben voor elk individueel jaar, voegen we deze samen. Dit doen we via concat, zodat alle dataframes onder elkaar staan op chronologische volgorde.

In [4]:
# schone dataset is een combinatie van de jaren 2013 - 2017
gv_cleaned = pd.concat([gv13, gv14, gv15, gv16, gv17], axis=0)

In [5]:
gv_cleaned.head()

Unnamed: 0,incident_id,date,state,city_or_county,address,n_killed,n_injured,incident_url,source_url,incident_url_fields_missing,...,participant_age,participant_age_group,participant_gender,participant_name,participant_relationship,participant_status,participant_type,sources,state_house_district,state_senate_district
0,461105,2013-01-01,Pennsylvania,Mckeesport,1506 Versailles Avenue and Coursin Street,0,4,http://www.gunviolencearchive.org/incident/461105,http://www.post-gazette.com/local/south/2013/0...,False,...,0::20,0::Adult 18+||1::Adult 18+||2::Adult 18+||3::A...,0::Male||1::Male||3::Male||4::Female,0::Julian Sims,,0::Arrested||1::Injured||2::Injured||3::Injure...,0::Victim||1::Victim||2::Victim||3::Victim||4:...,http://pittsburgh.cbslocal.com/2013/01/01/4-pe...,,
1,460726,2013-01-01,California,Hawthorne,13500 block of Cerise Avenue,1,3,http://www.gunviolencearchive.org/incident/460726,http://www.dailybulletin.com/article/zz/201301...,False,...,0::20,0::Adult 18+||1::Adult 18+||2::Adult 18+||3::A...,0::Male,0::Bernard Gillis,,0::Killed||1::Injured||2::Injured||3::Injured,0::Victim||1::Victim||2::Victim||3::Victim||4:...,http://losangeles.cbslocal.com/2013/01/01/man-...,62.0,35.0
2,478855,2013-01-01,Ohio,Lorain,1776 East 28th Street,1,3,http://www.gunviolencearchive.org/incident/478855,http://chronicle.northcoastnow.com/2013/02/14/...,False,...,0::25||1::31||2::33||3::34||4::33,0::Adult 18+||1::Adult 18+||2::Adult 18+||3::A...,0::Male||1::Male||2::Male||3::Male||4::Male,0::Damien Bell||1::Desmen Noble||2::Herman Sea...,,"0::Injured, Unharmed, Arrested||1::Unharmed, A...",0::Subject-Suspect||1::Subject-Suspect||2::Vic...,http://www.morningjournal.com/general-news/201...,56.0,13.0
3,478925,2013-01-05,Colorado,Aurora,16000 block of East Ithaca Place,4,0,http://www.gunviolencearchive.org/incident/478925,http://www.dailydemocrat.com/20130106/aurora-s...,False,...,0::29||1::33||2::56||3::33,0::Adult 18+||1::Adult 18+||2::Adult 18+||3::A...,0::Female||1::Male||2::Male||3::Male,0::Stacie Philbrook||1::Christopher Ratliffe||...,,0::Killed||1::Killed||2::Killed||3::Killed,0::Victim||1::Victim||2::Victim||3::Subject-Su...,http://denver.cbslocal.com/2013/01/06/officer-...,40.0,28.0
4,478959,2013-01-07,North Carolina,Greensboro,307 Mourning Dove Terrace,2,2,http://www.gunviolencearchive.org/incident/478959,http://www.journalnow.com/news/local/article_d...,False,...,0::18||1::46||2::14||3::47,0::Adult 18+||1::Adult 18+||2::Teen 12-17||3::...,0::Female||1::Male||2::Male||3::Female,0::Danielle Imani Jameison||1::Maurice Eugene ...,3::Family,0::Injured||1::Injured||2::Killed||3::Killed,0::Victim||1::Victim||2::Victim||3::Subject-Su...,http://myfox8.com/2013/01/08/update-mother-sho...,62.0,27.0


In [6]:
# exporteren
gv_cleaned.to_csv('gvcleaned.csv')

## Dataset BBP

In [7]:
gdp = pd.read_csv("bea-gdp-by-state.csv")
gdp.head()

Unnamed: 0,Fips,Area,2013,2014,2015,2016,2017
0,0,United States,48534,49329,50301,50660,51337
1,1000,Alabama,36674,36473,36818,37158,37508
2,2000,Alaska,69711,67179,65971,63304,63610
3,4000,Arizona,38352,38534,38787,38940,39583
4,5000,Arkansas,35888,36265,36295,36502,36714


Voor het opschonen van deze dataset was het belangrijk om irrelevante kolommen en rijen te verwijderen. Zo was de kolom 'Fips' irrelevant voor ons onderzoek. Daarnaast bevatte de dataset informatie over bepaalde regio's in de Verenigde Staten die niet kwalificeerden als staat of voorkomen in onze andere dataset. Deze hebben we via 'drop' verwijderd. 

In [8]:
# drop irrelevante kolommen en rijen
gdp = gdp.drop(columns=['Fips'])
gdp = gdp.drop([0, 9, 52, 53, 54, 55, 56, 57, 58, 59])

In [9]:
gdp.head()

Unnamed: 0,Area,2013,2014,2015,2016,2017
1,Alabama,36674,36473,36818,37158,37508
2,Alaska,69711,67179,65971,63304,63610
3,Arizona,38352,38534,38787,38940,39583
4,Arkansas,35888,36265,36295,36502,36714
5,California,53838,55571,57637,58974,60359


In [10]:
# exporteren
gdp.to_csv('gdp_cleaned.csv')