# 1. Einleitung
In Deutschland vollzieht sich ein zunehmender Trend, der die Haushaltsgröße betrifft. “Als privater Haushalt zählt hier jede zusammen wohnende und eine wirtschaftende Einheit bildende Personengemeinschaft sowie Personen, die allein wohnen und wirtschaften. Personen in Alters- oder Pflegeheimen, Kasernen und ähnlichen Einrichtungen, die dort keinen eigenen Haushalt führen, sondern gemeinschaftlich versorgt werden, zählen zu den Personen in Gemeinschaftsunterkünften und nicht zu den Personen in Privathaushalten.” (Statistisches Bundesamt (Destatis) (Hrsg.), 2017, S. 3). Der Anteil der Einpersonenhaushalte in ganz Deutschland ist von 1991 bis 2015 von 17,8 % aller Erwachsenen auf 24,3 % kontinuierlich angestiegen (vgl. Grünheid, 2017, S. 10). 
Zu der Stadt mit einer hohen Anzahl von Einpersonenhaushalten zählt u.a. Kassel. Im Jahr 2017 betrug der Anteil der Einpersonenhaushalte in Kassel 51,7% (vgl. Stadt Kassel (Hrsg.), 2017, S. 18). Aus diesem Grund wurde im Rahmen des Projektes: “Data Science: Spielerischer und fachwissenschaftlicher Umgang mit digitalen Daten” die Stadt Kassel hinsichtlich der Einpersonenhaushalte nach den Altersgruppen zwischen 2007 bis 2017 untersucht.

# 1.1 Fragestellung und Abgrenzung
Im Rahmen des Projektes wird die folgende Forschungsfrage untersucht: Eine Analyse der Einpersonenhaushalte in der Stadt Kassel bezogen auf die Altersgruppen in den Jahren 2007 bis 2017. Die Analyse beschränkt sich nur auf die Altersgruppen unter 30 Jahren, zwischen 30 bis 60 Jahren und über 60 Jahren.
Es wurde die inhaltliche Hypothese aufgestellt, dass je höher der Anteil an Einpersonenhaushalten ist, desto höher ist auch der Anteil der über 60-jährigen. Aus dieser inhaltlichen Hypothese folgt dementsprechend die statistische Hypothese, dass ein positiver Korrelationskoeffizient zwischen den Einpersonenhaushalten und den über 60-jährigen vermutet wird.

# 2. State of art
# 3. Methode

In [4]:
import pandas as pd
kassel = pd.read_csv('Forschungsdaten_03_csv.csv', index_col=0, sep=";")
print(kassel)

      EWgesamt  EWunter30  EW30bis60  EWueber60  HHgesamt  1PHHgesamt  \
2007    192121      49052      45602      42072    102003       49692   
2008    191959      49004      45549      42397    102384       50656   
2009    192241      49177      45515      42510    102867       50467   
2010    193112      49393      45524      42466    103884       51726   
2011    194109      49623      45862      42588    102343       50814   
2012    195422      49521      46600      42695    103825       52210   
2013    196758      66270      51125      49662    105889       54076   
2014    197092      66596      80572      49924    106459       54653   
2015    200507      68790      81453      50264    108082       56145   
2016    201907      69862      81458      50587    108913       56541   
2017    204021      70873      82160      50988    109533       56669   

      1PHHunter30  1PHH30bis60  1PHHueber60  
2007        11660        21157        16875  
2008        12451        22425 

In [5]:
## inhaltliche Hypothese: Je höher der Anteil an Einpersonenhaushalten,desto höher der Anteil der Ü60-Jährigen.
## statistische Hypothese: Vermutet wird ein positiver Korrelationskoeffizient zwischen Var1 und Var2.
##Var1 = 1PHHgesamt / HHgesamt
##Var2 = EWueber60 / EWgesamt  
kassel["Rel1PHH"] = kassel["1PHHgesamt"] / kassel["HHgesamt"]
print(kassel)

      EWgesamt  EWunter30  EW30bis60  EWueber60  HHgesamt  1PHHgesamt  \
2007    192121      49052      45602      42072    102003       49692   
2008    191959      49004      45549      42397    102384       50656   
2009    192241      49177      45515      42510    102867       50467   
2010    193112      49393      45524      42466    103884       51726   
2011    194109      49623      45862      42588    102343       50814   
2012    195422      49521      46600      42695    103825       52210   
2013    196758      66270      51125      49662    105889       54076   
2014    197092      66596      80572      49924    106459       54653   
2015    200507      68790      81453      50264    108082       56145   
2016    201907      69862      81458      50587    108913       56541   
2017    204021      70873      82160      50988    109533       56669   

      1PHHunter30  1PHH30bis60  1PHHueber60   Rel1PHH  
2007        11660        21157        16875  0.487162  
2008       

In [6]:
kassel["RelEW60"] = kassel["EWueber60"] / kassel["EWgesamt"]
print(kassel)


      EWgesamt  EWunter30  EW30bis60  EWueber60  HHgesamt  1PHHgesamt  \
2007    192121      49052      45602      42072    102003       49692   
2008    191959      49004      45549      42397    102384       50656   
2009    192241      49177      45515      42510    102867       50467   
2010    193112      49393      45524      42466    103884       51726   
2011    194109      49623      45862      42588    102343       50814   
2012    195422      49521      46600      42695    103825       52210   
2013    196758      66270      51125      49662    105889       54076   
2014    197092      66596      80572      49924    106459       54653   
2015    200507      68790      81453      50264    108082       56145   
2016    201907      69862      81458      50587    108913       56541   
2017    204021      70873      82160      50988    109533       56669   

      1PHHunter30  1PHH30bis60  1PHHueber60   Rel1PHH   RelEW60  
2007        11660        21157        16875  0.487162  0.

In [7]:
##Korrelationskoeffizienten berechnen
kassel["Rel1PHH"].corr(kassel["RelEW60"])

0.9056696482355895

In [None]:
##Seltsam. Was ist bei der Datenerfassung von 2012 zu 2013 passiert? Warum wurde Kassel für alte Menschen so attraktiv? >> Nachfragen
## Ideen: Idee 1: Mediansplit im Alter und Idee 2: splitten unter 2012 und über 2013