<a href="https://colab.research.google.com/github/SDS-AAU/IntroStat/blob/master/Notebooks/AS_Aflevering_2_S.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# The Open Policing Project

På en typisk dag i USA foretager politibetjente mere end 50 tusind trafikstop. The Stanford Open Policing Project analyserer og deler data fra millioner af trafikstop fra  myndigheder over hele landet. Målet er at hjælpe forskere, journalister og beslutningstagere med at undersøge og forbedre interaktionen mellem politi og offentligheden.

* Du kan læse mere om projektet [her](https://openpolicing.stanford.edu/publications/). 

I denne opgave skal du rekonstruere nogle af de centrale forskningsresultater baseret på de Open Policing Data.
Notebook'en guider dig gennem opgaven. 

* Pierson, E., Simoiu, C., Overgoor, J., Corbett-Davies, S., Jenson, D., Shoemaker, A., Ramachandran, V., Barghouty, P., Phillips, C., Shroff, R. and Goel, S., 2020. A large-scale analysis of racial disparities in police stops across the United States. Nature human behaviour, pp.1-10. [PDF](https://5harad.com/papers/100M-stops.pdf)



Opgaven er allerede delvist løst. Du finder flere nye teknikker introduceret i notebook'en (hints) og koder.
Disse er ikke nødvendigvis en del af pensum, men alligevel nyttige tilføjelser til din værktøjssæt.


In [None]:
from IPython.display import HTML
HTML('<iframe width="560" height="315" src="https://www.youtube-nocookie.com/embed/iwOWcuFjNfw" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>')

In [None]:
HTML('<iframe width="800" height="315" src="https://openpolicing.stanford.edu/data/" ></iframe>')

Væsentlige pakker er importeret, men du må tilføje og ændre indstillinger (f.eks. Indstille plotningsparametre)

In [None]:
# import pakker

import pandas as pd
import seaborn as sns
sns.set()

## Indlæsning og indledende databehandling

Data findes her: `https://sds-aau.github.io/IntroStat/Data/RI-clean.csv.gz` det er en komprimeret fil og du skal tilføje `compression='gzip'` som parameter ved indlæsning.
Det er trafikstop fra Rhode Island 2005-2015 - i alt omkring 500.000 observationer.

Skulle der opleves problemer med direkte indlæsning via URL, kan du downloade filer på *moodle*.

In [None]:
# indlæsning data

data = pd.read_xxx(xxx), compression='gzip')

In [None]:
# Tid og dato kombineres og der defineres en tidsserie-index
combined = data.stop_date.str.cat(data.stop_time, sep=' ')
data['date_and_time'] = pd.to_datetime(combined)


data.set_index('date_and_time', inplace=True)

In [None]:
# variable-type omkodes til boolean

data[['is_arrested', 'search_conducted']] = data[['is_arrested', 'search_conducted']].astype(bool)

In [None]:
data.head()

### Rens manglende data

* identificer de kolonner med det meste manglende data (3 kolonner) og fjern dem
* identificer de kolonner, hvor vi ikke kender tidspunktet for stop, dato eller personlige egenskaber for bilisten. Fjern observationer, hvor disse variabler mangler: Brug `subset=['xxx', 'xxx', 'xxx']` som argument.


In [None]:
# identificer missing

xxx

In [None]:
# fjerner hele kolonner
data.drop([xxx], axis='columns', inplace=True)

In [None]:
# fjerner observationer med manglende data i speciffike variable
data.dropna(subset=[xxx], inplace=True)

## Overtrædelser



*   Hvor ofte bliver folk stoppet i forbindelse med de forskellige overtrædelser (violation) i pct?
*   Hvordan fordeler stops'ene på mænd og kvinder / 
etniciteter i pct.? 
  * Fortolk dine beregninger. Hvilke antagelser om stikprøve/population skal der tages hensyn til?
  * Kan vi have en formodning om, at kvinder kører gennemsnitlig bedre end mænd?
  * Kan vi formode, at hvide bilister kører dårligst?

*   Hvordan fordeler de forskellige overtrædelser sig på hhv mænd og kvinder og de forskellige etniciteter i procent? Her kan du bruge `pd.crostab` funktionen og `"columns"` som normaliseringsparameter. 
    * Fortolk dine beregninger ved at beskrive de mest "signifikante" forskelle mellem bilister af de forskellige etniciteter.

In [None]:
# optælling overtrædelse

xxx

In [None]:
# optælling køn

xxx

In [None]:
# optælling race
xxx

In [None]:
# crosstab violation vs gender

pd.crosstab(xxx, xxx, normalize='columns')

In [None]:
# crosstab violation vs driver_race
xxx

## Ransagning af biler og fund af stoffer

* Beregn sansynligheden (gennemsnit) for ransagning af bil `search_contucted` for hver etnicitet - her er det nemmest at bruge `groupby`. Brug `reset_index()` efter denne beregning for at definere en ny dataframe.
* Lav den samme beregning for sansynligheden at der findes stoffer ved ransagning (`contraband_found`)
* Beregn en ny variable i din `search_rate` dataframe `success_rate` som ratio af de to beregninger. 
* Fortolk dine resultater mht search_rate, find_rate og success_rate


In [None]:
# beregning search_rate
search_rate = data.groupby(xxx).search_conducted.mean()
search_rate = search_rate.reset_index()

In [None]:
# beregning find_rate
find_rate = xxx
find_rate = xxx.reset_index()

In [None]:
# beregning success_rate
search_rate['success_rate'] = xxx / xxx

In [None]:
search_rates

## Visualisering og fordelinger

* lav en boxplot (flere i en visualisering), der visualiserer bilisters alder versus overtrædelse
* gruppér dataene mht overtrædelse og lav beskrivende statistikker over bilisters alder
* Hvordan fortolker du højere værdier for standardafvigelse ved nogle af de overtrædelser?
* Hvilke overtrædelser er mere typisk for ældre bilister?
* Hvad kan disse "Other" overtrædelser være og hvad kan være årsagen?



In [None]:
# boxplot

sns.boxplot(xxx, xxx, data=xxx)

In [None]:
# beregning beskrivende statistik
data.groupby(xxx).driver_age.xxx()

### Anholdelser over tid

* Lav en beregning af gennemsnitlige anholdeser af bilister af forskellige etniciteter per år.

* Lav en lineplot, der visualiserer udviklingen, hue=etnicitet

* hvordan kan det fortolkes?

In [None]:
# opsamling af data per år

yearly_arrests_per_race = data.groupby(xxx).resample('Y').xxx.mean().reset_index()

In [None]:
# lineplot

sns.lineplot(x = xxx, y = xxx, hue=xxx)

## Vejrets indflydelse?

er der flere trafikstop, når det er varmere og færre anholdelser under barske vejrforhold?
Her finder du daglige vejrstatistikker fra NOAA (USAs DMI): `https://sds-aau.github.io/IntroStat/Data/RI-weather.csv`

*Dette er en ret avanceret del og mest tænkt som **bonus**. Du kan forvente at møde `merge` til eksamen men ikke en så kompleks kombination af det, tidsserie-index og aggregering.*



* Indlæs vejrdata og lav en tidsserie-index

* Beregn temperatur i celsius og en indikator for ekstreme vejrforhold.

* saml data  ved at bruge *dag* i index som nøgle for din merge.

* ved at bruge merge, taber du tidsserie index - koper index fra `data` og `weather[['temp_celsius','AWND','extreme']]`

Lav en ny dataframe med de kolonner:
* daglig temperatur
* gennemsnitlig vindstyrke
* antal af ekstreme vejrforhold
* antal af stops per dag
* gennsmsnitlige ransagelser
* gennemsnitlige anholdeser per dag


* beregn en korrelationsmatrix of fortolk de største værdier.

In [None]:
# indlæs data
weather = xxx

In [None]:
# lav tidsserie-index
weather.xxx(pd.to_datetime(weather.DATE), inplace=True)


In [None]:
# Her defineres en funktion til omregning af fahrenheit til celsius

def fahr_to_celsius(temp_fahr):
    """Convert Fahrenheit to Celsius
    
    Return Celsius conversion of input"""
    temp_celsius = (temp_fahr - 32) * 5 / 9
    return temp_celsius

In [None]:
# weather['TAVG'] regnes om til celsius
weather['temp_celsius'] = fahr_to_celsius(weather['TAVG'])

In [None]:
# ekstrem vejr som summe af forskellige kategorier af ekstremvejr WT01 - WT22
weather['extreme'] = weather.loc[:,'WT01':'WT22'].sum(axis='columns')

In [None]:
# merge af stops of vejrdata
data_w = pd.merge(xxx, weather[['temp_celsius','AWND','extreme']], left_on=data.index.date, right_on=weather.index.date)

In [None]:
# hent index tilbage fra data
data_w.index = xxx

In [None]:
# samling af ny dataframe med per-dag værdier

s1 = data_w.resample('D').size()
s1.name = 'n_stops'
s2 = data_w.resample('D').is_arrested.mean()
s3 = xxx
s4 = xxx
s5 = xxx
s6 = xxx

data_agg = pd.concat([s1,s2,s3,s4,s5,s6], axis=1)

In [None]:
# beregning korrelationsmatrix
xxx