In [4]:
options(repr.plot.width = 5, repr.plot.height = 5)

Der Datensatz enthält Daten zur Kriminalitätsstatistik in 90 Counties von North Carolina im
Jahr 1981. Im Unterschied zum Originaldatensatz ist die Zielgröße nicht die Kriminalitätsrate,
sondern die absolute Zahl von Verbrechen (crimes). Folgende potentiell erklärende Variablen
sind im Datensatz enthalten:
- prbarr – Probability of arrest: Anteil der Straftäter, die anschließend arrestiert werden
- prbpris – Probability of prison: Anteil der Straftäter, die zu einer Gefängnisstrafe verurteilt werden
- polpc – Anzahl der Polizisten pro Kopf der Bevölkerung
- density – Populationsdichte (Einwohner pro sq. Mile)
- area – Fläche des Counties
- taxpc – Pro-Kopf-Steueraufkommen
- region – Einteilung in die Regionen „west“, „central“ und „other“
- pctmin – Anteil von Minderheiten an der Gesamtbevölkerung
- pctymale – Anteil der jungen männlichen Bevölkerung (15-24 Jahre)
- wcon- wöchentlicher Lohn im Baugewerbe
- wsta – wöchentlicher Lohn der Staatsangestellten
- wser – wöchentlicher Lohn im Dienstleistungssektor
- wtrd – wöchentlicher Lohn im Handel
- wfir – wöchentlicher Lohn in Finanz, Versicherung und Immobilien

In [2]:
crimes = read.csv("../data/crimes.csv")

crimes

crimes,prbarr,prbpris,polpc,density,area,taxpc,region,pctmin,pctymale,wcon,wsta,wser,wtrd,wfir,name
3901,0.289696,0.472222,0.0017868,230.71590,423.943,25.69763,central,20.21870,0.0876968,206.4803,236.24,215.7335,182.3330,272.4492,Alamance County
416,0.202899,0.465753,0.0005939,97.68340,259.994,14.56088,central,7.91632,0.0870046,188.7683,247.38,191.3742,151.4234,202.4292,Alexander County
91,0.406593,0.500000,0.0008209,41.27659,235.059,18.63060,west,3.16053,0.0738525,147.9290,233.33,158.2278,143.5132,200.3205,Alleghany County
562,0.431095,0.431373,0.0014327,48.21764,531.452,38.24473,central,47.91610,0.0836378,284.5809,206.07,208.4636,174.2457,207.1006,Anson County
170,0.631579,0.383333,0.0008353,53.05164,426.135,16.85321,west,1.79619,0.0790580,195.9361,234.75,178.7785,152.7354,209.0301,Ashe County
275,0.369650,0.226415,0.0019067,59.10931,247.087,22.32144,west,1.54070,0.1063334,199.2377,227.69,176.5392,150.5835,195.3125,Avery County
1237,0.319665,0.500000,0.0012070,49.75787,827.192,20.10284,other,32.17940,0.0793392,192.6931,247.95,182.9082,172.9289,230.1118,Beaufort County
354,0.453258,0.489130,0.0009521,30.09986,699.270,21.63124,other,61.05400,0.0905428,192.3077,253.39,169.6833,164.6214,253.5926,Bertie County
569,0.483986,0.460317,0.0013272,34.92605,874.328,24.73512,other,40.38900,0.0859525,162.6483,226.58,161.2160,178.4642,202.4292,Bladen County
828,0.326196,0.404580,0.0019298,43.37209,846.973,53.86683,other,24.31170,0.0824936,207.1006,238.67,174.0470,144.7477,211.4724,Brunswick County


## Expertenwissen

Aufstellen eines Models aufgrund von "Expertenwissen", also Analyse der Inhalte bzw. Bedeutung der Einflussgrößen und Bestimmung von möglichem Einfluss auf "crimes" (Grob gesagt: Aufgrund der Bedeutung der Einflussgrößen, diese in das Modell einfließen lassen, wenn man denkt sie könnten "crimes" sinnvoll beeinflussen)

Eigenen Übersetzung der Bedeutung der Einflussgrößen:

- Ein Eintrag bei jeder Einflussgröße bezieht sich auf genau einen County
- crimes (feste Zahl) -> Anzahl von Strafttaten
- ein Straftäter begeht mindestens eine Straftat
- prbarr (Wahrscheinlichkeit) -> Anteil der Straftäter die tatsächlich arrestiert wurden (Straftäter die noch nicht gefasst wurden zählen somit nicht) -> 1 - Wahrscheinlichkeit nicht gefasster Straftäter
- prbpris (Wahrscheinlichkeit) -> Anteil der arrestierten Straftäter, die zu Gefängnis verurteilt wurden
- polpc (kleine Kommazahl) -> Anzahl der Polizisten pro Einwohner
- density (feste Zahl) -> Anzahl an Einwohnern pro mile^2
- area (feste Zahl) -> Fläche des Counties (in mile^2)
- taxpc (feste Zahl) -> Anzahl Dollar, die ein Einwohner pro Tag an Steuern zahlen muss
- region (Faktor: west, central und other) -> Counties in die 3 Regionen in North Carolina eingeteilt
- pctmin (feste Zahl für Wahrscheinlichkeit) -> Anteil an Einwohnern aus Minderheiten
- pctymale (Wahrscheinlichkeit) -> Anteil an männlichen 15 bis 24 jährigen in der Bevölkerung
- wcon (feste Zahl) -> Anzahl Dollar die eine Person im Baugewerbe verdient (Lohn)
- wsta (feste Zahl) -> Anzahl Dollar die eine Person als Staatsangestellter verdient (Lohn)
- wser (feste Zahl) -> Anzahl Dollar die eine Person im Dienstleistungsektor verdient (Lohn)
- wtrd (feste Zahl) -> Anzahl Dollar die eine Person im Handel verdient (Lohn)
- wfir (feste Zahl) -> Anzahl Dollar die eine Person im Bereich Finanzen, Versicherung und Immobilien verdient (Lohn)

- prbarr -> Wenn es mehr Straftäter gibt die arrestiert werden, kann gleichermaßen die Anzahl an Straftaten steigen, weil es mehr Straftäter gibt. Mit sinkender Straftäterzahl, sinkt auch Anzahl Strafttaten

- prbarr:polpc -> Anderseits kann das Polizeiaufkommen hoch sein und/oder es gibt strenge Regelungen in einem County, wodurch ohne steigende Anzahl an Straftätern, mehr von diesen arrestiert werden. Damit sinkt wahrscheinlich die Zahl der Straftäter und damit auch die Anzahl der Straftaten

- prbpris -> Wenn mehr Straftäter eine Gefängnisstrafe erhalten, gibt es wahrscheinlich strenger Regelungen in einem County, dadurch steigt auch die Angst, das Personen Straftaten begehen und somit sinkt die Anzahl an Straftaten. Zusätzlich können Straftäter die ins Gefängnis kommen weniger Straftaten begehen, da sie nicht nur arrestiert und dann wieder mit einer Strafe freigelassen wurden, sondern in ihren Taten beschränkt sind. Somit steigt auch potenziell die Anzahl an Straftaten wenn wenige arrestierte Straftäter auch ins Gefängnis kommen, da sie mehr Straftaten begehen können bis sie vielleicht ins Gefängnis kommen und auch mehr Personen sich trauen eine Straftat zu begehen, da die Strafen nicht so schlimm sind.

- polpc -> Mit mehr Polizisten pro Kopf, sinkt die Anzahl der Straftaten, da mehr Straftäter arrestiert werden. Damit steigt auch das Risiko bzw. die Angst für eine Personen arrestiert zu werden und somit werden auch wieder weniger Strafttaten begangen (Umgekehrt mit weniger Polizisten pro Kopf)

- density -> Um so mehr Einwohner pro mile^2 in einem County leben, um so größer wird auch die Anzahl an Straftaten, da mehr Personen in eine County dann wohnen und somit auch mehr potenzielle Straftäter (Umgekehrt mit weniger Einwohner)

- area -> kein direkter Zusammenhang, da mit kleinerer oder größerer Fläche, nicht automatisch weniger oder mehr Straftaten begangen werden

- polpc:area -> Um so größer die Fläche eines Counties, um so weniger Polizisten gibt es pro mile^2, damit ist das Risiko geringer, das eine Person gefasst wird, wenn diese eine Straftat begeht und somit sind mehr Personen dazu bereit eine Strafttat zu begehen (Umgekehrt mit geringerer Fläche)

- population (density*area) -> selber Einfluss wie density

- taxpc -> steigender Lohn führt auch zu steigenden Steuern für eine Person, wenn in einem County die Steuern gering sind, verdient der Großteil der dort lebenden Personen wahrscheinlich wenig. Wenn Personen wenig Geld verdienen, können diese vielleicht nicht ihre Rechnungen abbezahlen und müssen so kriminell werden um Geld zu verdienen und zu überleben (Straftatenzahl steigt). (Umgekehrt sinkt die Zahl in Wohlhabenden Counties, wo die Leute viel oder mehr Geld verdienen)

- polpc:taxpc -> wenn der Staat weniger Geld, anhand von Steuern erhält, kann dieser auch nur wenig Polizisten einstellen, somit ist die Anzahl an Polizisten pro Kopf so auch geringer. Mit geringerer polpc steigt die Anzahl an Straftaten (Umgekehrt mit steigenden Steuern, also mehr Geld für den Staat)

- region -> jeder der 3 Werte kann einen direkten Einfluss haben, so werden in einer Region z.B. grundsätzlich immer mehr Strafttaten als in den anderen begangen (sehbar in Statistik: crimes-region)

- pctmin -> kein spezifischer Zusammenhang erkennbar, da nur das Menschen zu einer Minderheit gehören, heißt das nicht das sie aus irgendwelchen Gründen eher zu Straftaten neigen. Dies gilt vorallem bei Personen die schon lange in dem County wohnen, also im Gegensatz zu Einwanderern auch Ausbildung oder Jobs besitzen.

- pctymale -> Männer neigen im Gegensatz zu Frauen eher zu Straftaten (es sitzen in Gefängnissen z.B. viel mehr Männer). Außerdem Männer im jungen Alter müssen noch ihren Weg finden, so haben sie vielleicht noch keinen sicheren Job der auch genug Geld einbringt oder werden von Freunden oder Gang beeinflusst um Straftaten zu begehen. So könnten eine hohe Anzahl dieser auch zu einer erhöhten Zahl an Strafttaten führen (Grundsätzlich kann man aber nicht davon ausgehen das mehr jüngere Männer in der Gesellschaft auch mehr Straftaten mit sich ziehen)

- wcon ->

- wsta ->

- wser ->

- wtrd ->

- wfir ->

In [31]:
# Modell nach Aufgabenstellung
crimesglm0 = glm(crimes ~ region, data=crimes, family=poisson(link="log"))

# aus Expertenwissen Einflussgrößen mit linearem Zusammenhang und ohne Interaktion
crimesglm1 = glm(crimes ~ region + prbarr + prbpris + polpc + density + taxpc, data=crimes, family=poisson(link="log"))

# polpc:taxpc kein guter Zusammenhang

# m1 mit Interaktion (area da Interaktion damit drin)
crimesglm2 = glm(crimes ~ region + prbarr + prbpris + polpc + density + taxpc + prbarr:polpc + area + polpc:area, data=crimes, family=poisson(link="log"))

# m2 aber wenn 2 Einflussgrößen lineare Zusammenhang, dann eine raus
crimesglm3 = glm(crimes ~ region + prbarr + polpc + density + taxpc + prbarr:polpc + area + polpc:area, data=crimes, family=poisson(link="log"))

# I(polpc^2):taxpc stattdessen einfügen

# m2 aber Einflussgrößen mit spezifischen Zusammenhängen aus Analyse
# Zusammenhänge auch bei Interaktionen anwenden???????????????
crimesglm4 = glm(crimes ~ region + I(log(prbarr)) + prbpris + I(prbpris^2) + polpc + I(polpc^2) + I(sqrt(density)) + taxpc + prbarr:I(polpc^2) + area + I(polpc^2):area + I(polpc^2):taxpc, data=crimes, family=poisson(link="log"))

# m3 aber Einflussgrößen mit spezifischen Zusammenhängen aus Analyse
# Zusammenhänge auch bei Interaktionen anwenden???????????????
crimesglm5 = glm(crimes ~ region + I(log(prbarr)) + polpc + I(polpc^2) + I(sqrt(density)) + taxpc + prbarr:I(polpc^2) + area + I(polpc^2):area + I(polpc^2):taxpc, data=crimes, family=poisson(link="log"))


In [32]:
summary(crimesglm0)
summary(crimesglm1)
summary(crimesglm2)
summary(crimesglm3)
summary(crimesglm4)
summary(crimesglm5)


Call:
glm(formula = crimes ~ region, family = poisson(link = "log"), 
    data = crimes)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-89.573  -45.115  -26.765    4.075  269.996  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  8.469028   0.002484  3408.8   <2e-16 ***
regionother -0.750114   0.004344  -172.7   <2e-16 ***
regionwest  -1.534260   0.007247  -211.7   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 424280  on 89  degrees of freedom
Residual deviance: 350813  on 87  degrees of freedom
AIC: 351627

Number of Fisher Scoring iterations: 6



Call:
glm(formula = crimes ~ region + prbarr + prbpris + polpc + density + 
    taxpc, family = poisson(link = "log"), data = crimes)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-57.955  -20.672   -8.452    8.301  113.561  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept)  7.341e+00  1.945e-02 377.462  < 2e-16 ***
regionother  2.657e-02  4.763e-03   5.577 2.45e-08 ***
regionwest  -5.611e-01  8.017e-03 -69.987  < 2e-16 ***
prbarr      -2.550e+00  2.752e-02 -92.664  < 2e-16 ***
prbpris      1.810e+00  2.855e-02  63.416  < 2e-16 ***
polpc       -6.603e+01  3.017e+00 -21.887  < 2e-16 ***
density      4.480e-03  1.145e-05 391.087  < 2e-16 ***
taxpc       -1.172e-02  3.753e-04 -31.225  < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 424280  on 89  degrees of freedom
Residual deviance:  70965  on 82  degrees of freedom
AIC: 71789


Call:
glm(formula = crimes ~ region + prbarr + prbpris + polpc + density + 
    taxpc + prbarr:polpc + area + polpc:area, family = poisson(link = "log"), 
    data = crimes)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-43.213  -19.191   -5.167   11.879   52.152  

Coefficients:
               Estimate Std. Error z value Pr(>|z|)    
(Intercept)   6.407e+00  2.800e-02 228.813   <2e-16 ***
regionother   1.528e-02  5.352e-03   2.855   0.0043 ** 
regionwest   -4.682e-01  8.065e-03 -58.047   <2e-16 ***
prbarr       -2.432e+00  3.782e-02 -64.300   <2e-16 ***
prbpris       2.118e+00  3.031e-02  69.881   <2e-16 ***
polpc        -2.295e+02  9.815e+00 -23.381   <2e-16 ***
density       4.651e-03  1.212e-05 383.852   <2e-16 ***
taxpc        -9.306e-03  3.833e-04 -24.275   <2e-16 ***
area          9.534e-04  3.736e-05  25.517   <2e-16 ***
prbarr:polpc -9.746e+00  1.384e+01  -0.704   0.4814    
polpc:area    5.126e-01  2.159e-02  23.744   <2e-16 ***
---
Signif. codes:  0 '*


Call:
glm(formula = crimes ~ region + prbarr + polpc + density + taxpc + 
    prbarr:polpc + area + polpc:area, family = poisson(link = "log"), 
    data = crimes)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-61.904  -20.476   -6.964   10.556   55.293  

Coefficients:
               Estimate Std. Error z value Pr(>|z|)    
(Intercept)   7.569e+00  2.256e-02 335.595  < 2e-16 ***
regionother   2.115e-02  5.280e-03   4.006 6.17e-05 ***
regionwest   -4.945e-01  8.099e-03 -61.053  < 2e-16 ***
prbarr       -2.119e+00  3.702e-02 -57.245  < 2e-16 ***
polpc        -2.567e+02  1.024e+01 -25.072  < 2e-16 ***
density       4.767e-03  1.207e-05 395.028  < 2e-16 ***
taxpc        -1.911e-02  3.692e-04 -51.764  < 2e-16 ***
area          7.393e-04  3.709e-05  19.934  < 2e-16 ***
prbarr:polpc -4.532e+01  1.364e+01  -3.323 0.000891 ***
polpc:area    6.235e-01  2.160e-02  28.864  < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter 


Call:
glm(formula = crimes ~ region + I(log(prbarr)) + prbpris + I(prbpris^2) + 
    polpc + I(polpc^2) + I(sqrt(density)) + taxpc + prbarr:I(polpc^2) + 
    area + I(polpc^2):area + I(polpc^2):taxpc, family = poisson(link = "log"), 
    data = crimes)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-30.578  -12.369   -1.759    6.191   46.980  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)        2.047e+00  6.946e-02   29.46  < 2e-16 ***
regionother        8.155e-02  5.252e-03   15.53  < 2e-16 ***
regionwest        -2.384e-01  8.044e-03  -29.63  < 2e-16 ***
I(log(prbarr))    -4.468e-01  1.015e-02  -44.03  < 2e-16 ***
prbpris            6.089e+00  2.864e-01   21.26  < 2e-16 ***
I(prbpris^2)      -5.928e+00  3.179e-01  -18.65  < 2e-16 ***
polpc              5.765e+02  1.255e+01   45.94  < 2e-16 ***
I(polpc^2)        -7.489e+04  3.053e+03  -24.53  < 2e-16 ***
I(sqrt(density))   1.707e-01  4.732e-04  360.64  < 2e-16 ***
taxpc  


Call:
glm(formula = crimes ~ region + I(log(prbarr)) + polpc + I(polpc^2) + 
    I(sqrt(density)) + taxpc + prbarr:I(polpc^2) + area + I(polpc^2):area + 
    I(polpc^2):taxpc, family = poisson(link = "log"), data = crimes)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-30.125  -12.338   -2.359    7.343   47.587  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)        3.594e+00  2.872e-02 125.141   <2e-16 ***
regionother        9.802e-02  5.191e-03  18.885   <2e-16 ***
regionwest        -2.500e-01  7.996e-03 -31.262   <2e-16 ***
I(log(prbarr))    -3.997e-01  9.974e-03 -40.072   <2e-16 ***
polpc              6.098e+02  1.235e+01  49.363   <2e-16 ***
I(polpc^2)        -7.784e+04  3.095e+03 -25.152   <2e-16 ***
I(sqrt(density))   1.735e-01  4.628e-04 374.969   <2e-16 ***
taxpc             -1.338e-02  6.197e-04 -21.585   <2e-16 ***
area               2.148e-03  2.233e-05  96.190   <2e-16 ***
I(polpc^2):prbarr  1.074e+05  7.108e+

In [15]:
# aus Expertenwissen Einflussgrößen mit linearem Zusammenhang und ohne Interaktion

crimesglm1.1 = glm(crimes ~ region, data=crimes, family=poisson(link="log"))
crimesglm1.2 = glm(crimes ~ region + prbarr, data=crimes, family=poisson(link="log"))
crimesglm1.3 = glm(crimes ~ region + prbarr + prbpris, data=crimes, family=poisson(link="log"))
crimesglm1.4 = glm(crimes ~ region + prbarr + prbpris + polpc, data=crimes, family=poisson(link="log"))
crimesglm1.5 = glm(crimes ~ region + prbarr + prbpris + polpc + density, data=crimes, family=poisson(link="log"))
crimesglm1.6 = glm(crimes ~ region + prbarr + prbpris + polpc + density + taxpc, data=crimes, family=poisson(link="log"))

anova(crimesglm1.1, crimesglm1.2, crimesglm1.3, crimesglm1.4, crimesglm1.5, crimesglm1.6, test="LRT")

Resid. Df,Resid. Dev,Df,Deviance,Pr(>Chi)
87,350812.73,,,
86,259732.93,1.0,91079.80212,0.0
85,251056.71,1.0,8676.2222,0.0
84,251002.01,1.0,54.69907,1.404729e-13
83,71983.83,1.0,179018.18275,0.0
82,70964.85,1.0,1018.98158,1.343983e-223


In [33]:
# m1 mit Interaktion (area da Interaktion damit drin)

crimesglm2.1 = glm(crimes ~ region, data=crimes, family=poisson(link="log"))
crimesglm2.2 = glm(crimes ~ region + prbarr, data=crimes, family=poisson(link="log"))
crimesglm2.3 = glm(crimes ~ region + prbarr + prbpris, data=crimes, family=poisson(link="log"))
crimesglm2.4 = glm(crimes ~ region + prbarr + prbpris + polpc, data=crimes, family=poisson(link="log"))
crimesglm2.5 = glm(crimes ~ region + prbarr + prbpris + polpc + density, data=crimes, family=poisson(link="log"))
crimesglm2.6 = glm(crimes ~ region + prbarr + prbpris + polpc + density + taxpc, data=crimes, family=poisson(link="log"))
crimesglm2.7 = glm(crimes ~ region + prbarr + prbpris + polpc + density + taxpc + prbarr:polpc, data=crimes, family=poisson(link="log"))
crimesglm2.8 = glm(crimes ~ region + prbarr + prbpris + polpc + density + taxpc + prbarr:polpc + area, data=crimes, family=poisson(link="log"))
crimesglm2.9 = glm(crimes ~ region + prbarr + prbpris + polpc + density + taxpc + prbarr:polpc + area + polpc:area, data=crimes, family=poisson(link="log"))

anova(crimesglm2.1, crimesglm2.2, crimesglm2.3, crimesglm2.4, crimesglm2.5, crimesglm2.6, crimesglm2.7, crimesglm2.8, crimesglm2.9, test="LRT")

Resid. Df,Resid. Dev,Df,Deviance,Pr(>Chi)
87,350812.73,,,
86,259732.93,1.0,91079.80212,0.0
85,251056.71,1.0,8676.2222,0.0
84,251002.01,1.0,54.69907,1.404729e-13
83,71983.83,1.0,179018.18275,0.0
82,70964.85,1.0,1018.98158,1.343983e-223
81,70633.29,1.0,331.55202,4.413243e-74
80,44444.59,1.0,26188.70629,0.0
79,43868.99,1.0,575.59334,3.408978e-127


In [34]:
# m2 aber wenn 2 Einflussgrößen lineare Zusammenhang, dann eine raus

crimesglm3.1 = glm(crimes ~ region, data=crimes, family=poisson(link="log"))
crimesglm3.2 = glm(crimes ~ region + prbarr, data=crimes, family=poisson(link="log"))
crimesglm3.3 = glm(crimes ~ region + prbarr + polpc, data=crimes, family=poisson(link="log"))
crimesglm3.4 = glm(crimes ~ region + prbarr + polpc + density, data=crimes, family=poisson(link="log"))
crimesglm3.5 = glm(crimes ~ region + prbarr + polpc + density + taxpc, data=crimes, family=poisson(link="log"))
crimesglm3.6 = glm(crimes ~ region + prbarr + polpc + density + taxpc + prbarr:polpc, data=crimes, family=poisson(link="log"))
crimesglm3.7 = glm(crimes ~ region + prbarr + polpc + density + taxpc + prbarr:polpc + area, data=crimes, family=poisson(link="log"))
crimesglm3.8 = glm(crimes ~ region + prbarr + polpc + density + taxpc + prbarr:polpc + area + polpc:area, data=crimes, family=poisson(link="log"))

anova(crimesglm3.1, crimesglm3.2, crimesglm3.3, crimesglm3.4, crimesglm3.5, crimesglm3.6, crimesglm3.7, crimesglm3.8, test="LRT")

Resid. Df,Resid. Dev,Df,Deviance,Pr(>Chi)
87,350812.73,,,
86,259732.93,1.0,91079.8021,0.0
85,259511.6,1.0,221.335,4.625867e-50
84,78263.51,1.0,181248.084,0.0
83,75010.06,1.0,3253.4569,0.0
82,74778.73,1.0,231.3306,3.056017e-52
81,49677.58,1.0,25101.1411,0.0
80,48814.52,1.0,863.0678,1.0486110000000001e-189


In [35]:
# m2 aber Einflussgrößen mit spezifischen Zusammenhängen aus Analyse

crimesglm4.1 = glm(crimes ~ region, data=crimes, family=poisson(link="log"))
crimesglm4.2 = glm(crimes ~ region + I(log(prbarr)), data=crimes, family=poisson(link="log"))
crimesglm4.3 = glm(crimes ~ region + I(log(prbarr)) + prbpris, data=crimes, family=poisson(link="log"))
crimesglm4.4 = glm(crimes ~ region + I(log(prbarr)) + prbpris + I(prbpris^2), data=crimes, family=poisson(link="log"))
crimesglm4.5 = glm(crimes ~ region + I(log(prbarr)) + prbpris + I(prbpris^2) + polpc, data=crimes, family=poisson(link="log"))
crimesglm4.6 = glm(crimes ~ region + I(log(prbarr)) + prbpris + I(prbpris^2) + polpc + I(polpc^2), data=crimes, family=poisson(link="log"))
crimesglm4.7 = glm(crimes ~ region + I(log(prbarr)) + prbpris + I(prbpris^2) + polpc + I(polpc^2) + I(sqrt(density)), data=crimes, family=poisson(link="log"))
crimesglm4.8 = glm(crimes ~ region + I(log(prbarr)) + prbpris + I(prbpris^2) + polpc + I(polpc^2) + I(sqrt(density)) + taxpc, data=crimes, family=poisson(link="log"))
crimesglm4.9 = glm(crimes ~ region + I(log(prbarr)) + prbpris + I(prbpris^2) + polpc + I(polpc^2) + I(sqrt(density)) + taxpc + prbarr:I(polpc^2), data=crimes, family=poisson(link="log"))
crimesglm4.10 = glm(crimes ~ region + I(log(prbarr)) + prbpris + I(prbpris^2) + polpc + I(polpc^2) + I(sqrt(density)) + taxpc + prbarr:I(polpc^2) + area, data=crimes, family=poisson(link="log"))
crimesglm4.11 = glm(crimes ~ region + I(log(prbarr)) + prbpris + I(prbpris^2) + polpc + I(polpc^2) + I(sqrt(density)) + taxpc + prbarr:I(polpc^2) + area + I(polpc^2):area, data=crimes, family=poisson(link="log"))
crimesglm4.12 = glm(crimes ~ region + I(log(prbarr)) + prbpris + I(prbpris^2) + polpc + I(polpc^2) + I(sqrt(density)) + taxpc + prbarr:I(polpc^2) + area + I(polpc^2):area + I(polpc^2):taxpc, data=crimes, family=poisson(link="log"))

anova(crimesglm4.1, crimesglm4.2, crimesglm4.3, crimesglm4.4, crimesglm4.5, crimesglm4.6, crimesglm4.7, crimesglm4.8, crimesglm4.9, crimesglm4.10, crimesglm4.11, crimesglm4.12, test="LRT")

Resid. Df,Resid. Dev,Df,Deviance,Pr(>Chi)
87,350812.73,,,
86,270923.87,1.0,79888.86,0.0
85,263359.81,1.0,7564.067,0.0
84,257655.8,1.0,5704.007,0.0
83,256258.32,1.0,1397.479,7.417538e-306
82,202162.58,1.0,54095.74,0.0
81,49177.57,1.0,152985.0,0.0
80,48131.35,1.0,1046.219,1.614832e-229
79,46429.64,1.0,1701.709,0.0
78,17206.78,1.0,29222.87,0.0


In [36]:
# m3 aber Einflussgrößen mit spezifischen Zusammenhängen aus Analyse

crimesglm5.1 = glm(crimes ~ region, data=crimes, family=poisson(link="log"))
crimesglm5.2 = glm(crimes ~ region + I(log(prbarr)), data=crimes, family=poisson(link="log"))
crimesglm5.3 = glm(crimes ~ region + I(log(prbarr)) + polpc, data=crimes, family=poisson(link="log"))
crimesglm5.4 = glm(crimes ~ region + I(log(prbarr)) + polpc + I(polpc^2), data=crimes, family=poisson(link="log"))
crimesglm5.5 = glm(crimes ~ region + I(log(prbarr)) + polpc + I(polpc^2) + I(sqrt(density)), data=crimes, family=poisson(link="log"))
crimesglm5.6 = glm(crimes ~ region + I(log(prbarr)) + polpc + I(polpc^2) + I(sqrt(density)) + taxpc, data=crimes, family=poisson(link="log"))
crimesglm5.7 = glm(crimes ~ region + I(log(prbarr)) + polpc + I(polpc^2) + I(sqrt(density)) + taxpc + prbarr:I(polpc^2), data=crimes, family=poisson(link="log"))
crimesglm5.8 = glm(crimes ~ region + I(log(prbarr)) + polpc + I(polpc^2) + I(sqrt(density)) + taxpc + prbarr:I(polpc^2) + area, data=crimes, family=poisson(link="log"))
crimesglm5.9 = glm(crimes ~ region + I(log(prbarr)) + polpc + I(polpc^2) + I(sqrt(density)) + taxpc + prbarr:I(polpc^2) + area + I(polpc^2):area, data=crimes, family=poisson(link="log"))
crimesglm5.10 = glm(crimes ~ region + I(log(prbarr)) + polpc + I(polpc^2) + I(sqrt(density)) + taxpc + prbarr:I(polpc^2) + area + I(polpc^2):area + I(polpc^2):taxpc, data=crimes, family=poisson(link="log"))

anova(crimesglm5.1, crimesglm5.2, crimesglm5.3, crimesglm5.4, crimesglm5.5, crimesglm5.6, crimesglm5.7, crimesglm5.8, crimesglm5.9, crimesglm5.10, test="LRT")

Resid. Df,Resid. Dev,Df,Deviance,Pr(>Chi)
87,350812.73,,,
86,270923.87,1.0,79888.86136,0.0
85,270109.89,1.0,813.98233,4.921329e-179
84,220319.53,1.0,49790.35884,0.0
83,53034.8,1.0,167284.73059,0.0
82,50960.54,1.0,2074.26549,0.0
81,49382.35,1.0,1578.1854,0.0
80,18197.86,1.0,31184.48618,0.0
79,18081.93,1.0,115.93664,4.907259e-27
78,18073.43,1.0,8.49453,0.003562157


In [49]:
set.seed(1)
index = rep(1:10, length.out=90)
index = sample(index)

SEP0 = SEP1 = SEP2 = SEP3 = SEP4 = SEP5 = SEP6 = 0

for (i in 1:10)
{
    ### Zerlegung
    crimes.test = crimes[index==i,]
    crimes.train = crimes[index!=i,]
    
    ### Parameterschätzung
    crimesglm0 = glm(crimes ~ region, data=crimes.train, family=poisson(link="log"))
    crimesglm1 = glm(crimes ~ region + prbarr + prbpris + polpc + density + taxpc, data=crimes.train, family=poisson(link="log"))
    crimesglm2 = glm(crimes ~ region + prbarr + prbpris + polpc + density + taxpc + prbarr:polpc + area + polpc:area, data=crimes.train, family=poisson(link="log"))
    crimesglm3 = glm(crimes ~ region + prbarr + polpc + density + taxpc + prbarr:polpc + area + polpc:area, data=crimes.train, family=poisson(link="log"))
    crimesglm4 = glm(crimes ~ region + I(log(prbarr)) + prbpris + I(prbpris^2) + polpc + I(polpc^2) + I(sqrt(density)) + taxpc + prbarr:I(polpc^2) + area + I(polpc^2):area + I(polpc^2):taxpc, data=crimes.train, family=poisson(link="log"))
    crimesglm5 = glm(crimes ~ region + I(log(prbarr)) + polpc + I(polpc^2) + I(sqrt(density)) + taxpc + prbarr:I(polpc^2) + area + I(polpc^2):area + I(polpc^2):taxpc, data=crimes.train, family=poisson(link="log"))
    # Model 4 über regsubset mit crossvaldiation verbessern
    crimesglm4New = glm(crimes ~ region + area + I(sqrt(density)), data=crimes.train, family=poisson(link="log"))    
    
    ### Prognosefehler
    SEP0 = SEP0 + sum( ( crimes.test$crimes - predict(crimesglm0, newdata=crimes.test, type="response") )^2 )
    SEP1 = SEP1 + sum( ( crimes.test$crimes - predict(crimesglm1, newdata=crimes.test, type="response") )^2 )
    SEP2 = SEP2 + sum( ( crimes.test$crimes - predict(crimesglm2, newdata=crimes.test, type="response") )^2 )
    SEP3 = SEP3 + sum( ( crimes.test$crimes - predict(crimesglm3, newdata=crimes.test, type="response") )^2 )
    SEP4 = SEP4 + sum( ( crimes.test$crimes - predict(crimesglm4, newdata=crimes.test, type="response") )^2 )
    SEP5 = SEP5 + sum( ( crimes.test$crimes - predict(crimesglm5, newdata=crimes.test, type="response") )^2 )
    SEP6 = SEP6 + sum( ( crimes.test$crimes - predict(crimesglm4New, newdata=crimes.test, type="response") )^2 )
}

cat( "Modell 0: ", SEP0, "\n")
cat( "Modell 1: ", SEP1, "\n")
cat( "Modell 2: ", SEP2, "\n")
cat( "Modell 3: ", SEP3, "\n")
cat( "Modell 4: ", SEP4, "\n")
cat( "Modell 5: ", SEP5, "\n")
cat( "Modell 6: ", SEP6, "\n")

Modell 0:  2135421802 
Modell 1:  870664429 
Modell 2:  1916573450 
Modell 3:  2732311491 
Modell 4:  231439009 
Modell 5:  263530480 
Modell 6:  378784889 


In [39]:
library(tidyverse)
library(caret)
library(leaps)

-- [1mAttaching packages[22m --------------------------------------- tidyverse 1.2.1 --
[32mv[39m [34mggplot2[39m 3.3.5     [32mv[39m [34mpurrr  [39m 0.3.4
[32mv[39m [34mtibble [39m 3.1.1     [32mv[39m [34mdplyr  [39m 1.0.6
[32mv[39m [34mtidyr  [39m 1.1.3     [32mv[39m [34mstringr[39m 1.4.0
[32mv[39m [34mreadr  [39m 1.4.0     [32mv[39m [34mforcats[39m 0.5.1
"package 'forcats' was built under R version 3.6.3"-- [1mConflicts[22m ------------------------------------------ tidyverse_conflicts() --
[31mx[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31mx[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
Loading required package: lattice

Attaching package: 'caret'

The following object is masked from 'package:purrr':

    lift



In [41]:
crimesWithoutCounty = crimes[-c(length(crimes))]

crimesWithoutCounty

crimes,prbarr,prbpris,polpc,density,area,taxpc,region,pctmin,pctymale,wcon,wsta,wser,wtrd,wfir
3901,0.289696,0.472222,0.0017868,230.71590,423.943,25.69763,central,20.21870,0.0876968,206.4803,236.24,215.7335,182.3330,272.4492
416,0.202899,0.465753,0.0005939,97.68340,259.994,14.56088,central,7.91632,0.0870046,188.7683,247.38,191.3742,151.4234,202.4292
91,0.406593,0.500000,0.0008209,41.27659,235.059,18.63060,west,3.16053,0.0738525,147.9290,233.33,158.2278,143.5132,200.3205
562,0.431095,0.431373,0.0014327,48.21764,531.452,38.24473,central,47.91610,0.0836378,284.5809,206.07,208.4636,174.2457,207.1006
170,0.631579,0.383333,0.0008353,53.05164,426.135,16.85321,west,1.79619,0.0790580,195.9361,234.75,178.7785,152.7354,209.0301
275,0.369650,0.226415,0.0019067,59.10931,247.087,22.32144,west,1.54070,0.1063334,199.2377,227.69,176.5392,150.5835,195.3125
1237,0.319665,0.500000,0.0012070,49.75787,827.192,20.10284,other,32.17940,0.0793392,192.6931,247.95,182.9082,172.9289,230.1118
354,0.453258,0.489130,0.0009521,30.09986,699.270,21.63124,other,61.05400,0.0905428,192.3077,253.39,169.6833,164.6214,253.5926
569,0.483986,0.460317,0.0013272,34.92605,874.328,24.73512,other,40.38900,0.0859525,162.6483,226.58,161.2160,178.4642,202.4292
828,0.326196,0.404580,0.0019298,43.37209,846.973,53.86683,other,24.31170,0.0824936,207.1006,238.67,174.0470,144.7477,211.4724


In [51]:
# Set seed for reproducibility
set.seed(123)
# Set up repeated k-fold cross-validation
train.control <- trainControl(method = "cv", number = 10)
# Train the model
step.model <- train(crimes ~ region + I(log(prbarr)) + prbpris + I(prbpris^2) + polpc + I(polpc^2) + I(sqrt(density)) + taxpc 
                    + area, data = crimesWithoutCounty,
                    method = "leapBackward", tuneGrid = data.frame(nvmax = 1:9), trControl = train.control
                    )
step.model$results

nvmax,RMSE,Rsquared,MAE,RMSESD,RsquaredSD,MAESD
1,2537.762,0.8086433,1739.993,1259.413,0.147506,471.1725
2,2314.802,0.8624087,1654.353,1262.603,0.07123857,482.2745
3,2428.78,0.8429918,1748.732,1237.483,0.13482125,504.9647
4,2395.708,0.8550432,1713.35,1279.816,0.11690908,542.1033
5,2435.16,0.8517888,1751.665,1249.634,0.11166006,536.5421
6,2406.559,0.8571711,1721.432,1232.646,0.10349544,509.5398
7,2422.358,0.8563283,1740.626,1220.137,0.10415122,511.5251
8,2428.826,0.85416,1747.295,1226.991,0.10579533,512.1053
9,2435.753,0.8523203,1756.93,1228.815,0.10842275,516.3475


In [52]:
step.model$bestTune

Unnamed: 0,nvmax
2,2


In [53]:
summary(step.model$finalModel)

Subset selection object
10 Variables  (and intercept)
                 Forced in Forced out
regionother          FALSE      FALSE
regionwest           FALSE      FALSE
I(log(prbarr))       FALSE      FALSE
prbpris              FALSE      FALSE
I(prbpris^2)         FALSE      FALSE
polpc                FALSE      FALSE
I(polpc^2)           FALSE      FALSE
I(sqrt(density))     FALSE      FALSE
taxpc                FALSE      FALSE
area                 FALSE      FALSE
1 subsets of each size up to 2
Selection Algorithm: backward
         regionother regionwest I(log(prbarr)) prbpris I(prbpris^2) polpc
1  ( 1 ) " "         " "        " "            " "     " "          " "  
2  ( 1 ) " "         " "        " "            " "     " "          " "  
         I(polpc^2) I(sqrt(density)) taxpc area
1  ( 1 ) " "        "*"              " "   " " 
2  ( 1 ) " "        "*"              " "   "*" 

In [54]:
coef(step.model$finalModel, 2)