# 1. Einleitung
In Deutschland vollzieht sich ein zunehmender Trend, der die Haushaltsgröße betrifft. “Als privater Haushalt zählt hier jede zusammen wohnende und eine wirtschaftende Einheit bildende Personengemeinschaft sowie Personen, die allein wohnen und wirtschaften. Personen in Alters- oder Pflegeheimen, Kasernen und ähnlichen Einrichtungen, die dort keinen eigenen Haushalt führen, sondern gemeinschaftlich versorgt werden, zählen zu den Personen in Gemeinschaftsunterkünften und nicht zu den Personen in Privathaushalten.” (Statistisches Bundesamt (Destatis) (Hrsg.), 2017, S. 3). Der Anteil der Einpersonenhaushalte in ganz Deutschland ist von 1991 bis 2015 von 17,8 % aller Erwachsenen auf 24,3 % kontinuierlich angestiegen (vgl. Grünheid, 2017, S. 10). 
Zu der Stadt mit einer hohen Anzahl von Einpersonenhaushalten zählt u.a. Kassel. Im Jahr 2017 betrug der Anteil der Einpersonenhaushalte in Kassel 51,7% (vgl. Stadt Kassel (Hrsg.), 2017, S. 18). Aus diesem Grund wurde im Rahmen des Projektes: “Data Science: Spielerischer und fachwissenschaftlicher Umgang mit digitalen Daten” die Stadt Kassel hinsichtlich der Einpersonenhaushalte nach den Altersgruppen zwischen 2007 bis 2017 untersucht.

# 1.1 Forschungsfrage und Abgrenzung
Im Rahmen des Projektes wird die folgende Forschungsfrage untersucht: Eine Analyse der Einpersonenhaushalte in der Stadt Kassel bezogen auf die Altersgruppen in den Jahren 2007 bis 2017. Die Analyse beschränkt sich nur auf die Altersgruppen unter 30 Jahren, zwischen 30 bis 60 Jahren und über 60 Jahren.

# 1.2 Hypothesen und Fragestellungen
Es wurden die beiden inhaltlichen Hypothesen aufgestellt, dass je höher der Anteil an Einpersonenhaushalten ist, desto höher ist auch der Anteil der über 60-jährigen und der unter 30-jährigen. Aus diesen beiden inhaltlichen Hypothesen folgt dementsprechend die statistische Hypothese, dass ein positiver Korrelationskoeffizient zwischen den Einpersonenhaushalten und den über 60-jährigen sowie der unter 30-jährigen vermutet wird.

# 2. Forschungsstand
Der Jahresbericht der Stadt Kassel 2018: “Statistische Informationen - Jahresbericht 2017” enthält Daten aus diversen Bereichen des städtischen Lebens (S. 1). Es werden u.a. Daten zur Haushaltsgröße tabellarisch zur Verfügung gestellt (S. 18 ff.). Zudem werden die Haushalte nach den Altersgruppen getrennt. Die Anzahl der Einpersonenhaushalte mit unter 30-jährigen betrug im Jahr 2017 14 920. Die Anzahl der Einpersonenhaushalte mit zwischen 30 und 60-jährigen betrug im Jahr 2017 23 991 und die Anzahl der Einpersonenhaushalte mit über 60-jährigen betrug im Jahr 2017 17 758 (S. 19).

Grünheid (2017) behandelt in dem BiB Working Paper: “Wandel der Lebensformen in Deutschland” die Entwicklung der Lebensformen in Deutschland in den letzten beiden Jahrzehnten. Die Anzahl von Alleinlebenden in Einpersonenhaushalten ist von 1991 bis 2015 in Deutschland deutlich angestiegen. Insgesamt hat der Anteil von Alleinlebenden in Einpersonenhaushalten von jüngeren und älteren Personen über die Jahre zugenommen (S. 10 ff.).

Die Studie des statistischen Bundesamtes (Destatis) aus dem Jahr 2017: “Entwicklung der Privathaushalte bis 2035” enthält eine Prognose der zukünftigen Entwicklung der Haushalte bis zum Jahr 2035 in ganz Deutschland. Diese Prognose wurde durch eine Haushaltsvorausberechnung erstellt. Die Berechnung hat ergeben, dass sich die Anzahl der Ein- und Zweipersonenhaushalte bis 2035 vergrößern wird. Im Gegensatz dazu wird sich die Zahl der Mehrpersonenhaushalte mit drei Personen und mehr verkleinern (S. 6 f.).


# 3. Methode
Es wurde vorerst nach relevanten Studien und Daten recherchiert. Es wurde hauptsächlich im Stadtportal Kassel recherchiert, aber auch in Google mit den Suchbegriffen: Haushaltsgröße UND Alter UND Geschlecht sowie Kassel in Zahlen.

Nach der Literaturrecherche erfolgte die Datenbereinigung.

Nach der Datenbereinigung erfolgte die Datenanalyse.

# 4. Berechnung und Auswertung der Daten

In [10]:
# Einfügen der Forschungsdatentabelle in Python:
import pandas as pd
kassel = pd.read_csv('Forschungsdaten_03_csv.csv', index_col=0, sep=";")
print(kassel)

      EWgesamt  EWunter30  EW30bis60  EWueber60  HHgesamt  1PHHgesamt  \
2007    192121      49052      45602      42072    102003       49692   
2008    191959      49004      45549      42397    102384       50656   
2009    192241      49177      45515      42510    102867       50467   
2010    193112      49393      45524      42466    103884       51726   
2011    194109      49623      45862      42588    102343       50814   
2012    195422      49521      46600      42695    103825       52210   
2013    196758      66270      51125      49662    105889       54076   
2014    197092      66596      80572      49924    106459       54653   
2015    200507      68790      81453      50264    108082       56145   
2016    201907      69862      81458      50587    108913       56541   
2017    204021      70873      82160      50988    109533       56669   

      1PHHunter30  1PHH30bis60  1PHHueber60  
2007        11660        21157        16875  
2008        12451        22425 

# 4.1 Berechnung der ersten Hypothese

In [None]:
# 1. Inhaltliche Hypothese: Je höher der Anteil an Einpersonenhaushalten, desto höher der Anteil der über 60-jährigen.
# 1. Statistische Hypothese: Vermutet wird ein positiver Korrelationskoeffizient zwischen Var1 und Var2.

# Benennen der Variablen:
# Var1 = 1PHHgesamt / HHgesamt
# Var2 = EWueber60 / EWgesamt

# Berechnung der relativen Häufigkeit der Einpersonenhaushalte:
kassel["Rel1PHH"] = kassel["1PHHgesamt"] / kassel["HHgesamt"]
print(kassel)

In [12]:
# Berechnung der relativen Häufigkeit der über 60-jährigen:
kassel["RelEW60"] = kassel["EWueber60"] / kassel["EWgesamt"]
print(kassel)


      EWgesamt  EWunter30  EW30bis60  EWueber60  HHgesamt  1PHHgesamt  \
2007    192121      49052      45602      42072    102003       49692   
2008    191959      49004      45549      42397    102384       50656   
2009    192241      49177      45515      42510    102867       50467   
2010    193112      49393      45524      42466    103884       51726   
2011    194109      49623      45862      42588    102343       50814   
2012    195422      49521      46600      42695    103825       52210   
2013    196758      66270      51125      49662    105889       54076   
2014    197092      66596      80572      49924    106459       54653   
2015    200507      68790      81453      50264    108082       56145   
2016    201907      69862      81458      50587    108913       56541   
2017    204021      70873      82160      50988    109533       56669   

      1PHHunter30  1PHH30bis60  1PHHueber60   Rel1PHH   RelEW60  
2007        11660        21157        16875  0.487162  0.

In [13]:
# Berechnung des Korrelationskoeffizienten nach Pearson:
kassel["Rel1PHH"].corr(kassel["RelEW60"])

0.9056696482355895

In [14]:
# Ergebnis: positiver Korrelationskoeffizient, die Hypothese wurde verifiziert
# Seltsame Auffälligkeit: von 2012 bis 2013 enormer Anstieg von über 60-jährigen, evtl. andere Datenerfassung, kann aber im Rahmen dieses Projektes nicht untersucht werden

# 4.2 Berechnung der zweiten Hypothese

In [15]:
# 2. Inhaltliche Hypothese: Je höher der Anteil an Einpersonenhaushalten, desto höher der Anteil der unter 30-jährigen.
# 2. Statistische Hypothese: Vermutet wird ein positiver Korrelationskoeffizient zwischen Var1 und Var2.

# Benennen der Variablen:
# Var1 = 1PHHgesamt / HHgesamt
# Var2 = EWunter30 / EWgesamt

# Berechnung der relativen Häufigkeit der Einpersonenhaushalte:
kassel["Rel1PHH"] = kassel["1PHHgesamt"] / kassel["HHgesamt"]
print(kassel)

      EWgesamt  EWunter30  EW30bis60  EWueber60  HHgesamt  1PHHgesamt  \
2007    192121      49052      45602      42072    102003       49692   
2008    191959      49004      45549      42397    102384       50656   
2009    192241      49177      45515      42510    102867       50467   
2010    193112      49393      45524      42466    103884       51726   
2011    194109      49623      45862      42588    102343       50814   
2012    195422      49521      46600      42695    103825       52210   
2013    196758      66270      51125      49662    105889       54076   
2014    197092      66596      80572      49924    106459       54653   
2015    200507      68790      81453      50264    108082       56145   
2016    201907      69862      81458      50587    108913       56541   
2017    204021      70873      82160      50988    109533       56669   

      1PHHunter30  1PHH30bis60  1PHHueber60   Rel1PHH   RelEW60  
2007        11660        21157        16875  0.487162  0.

In [16]:
# Berechnung der relativen Häufigkeit der unter 30-jährigen:
kassel["RelEW30"] = kassel["EWunter30"] / kassel["EWgesamt"]
print(kassel)

      EWgesamt  EWunter30  EW30bis60  EWueber60  HHgesamt  1PHHgesamt  \
2007    192121      49052      45602      42072    102003       49692   
2008    191959      49004      45549      42397    102384       50656   
2009    192241      49177      45515      42510    102867       50467   
2010    193112      49393      45524      42466    103884       51726   
2011    194109      49623      45862      42588    102343       50814   
2012    195422      49521      46600      42695    103825       52210   
2013    196758      66270      51125      49662    105889       54076   
2014    197092      66596      80572      49924    106459       54653   
2015    200507      68790      81453      50264    108082       56145   
2016    201907      69862      81458      50587    108913       56541   
2017    204021      70873      82160      50988    109533       56669   

      1PHHunter30  1PHH30bis60  1PHHueber60   Rel1PHH   RelEW60   RelEW30  
2007        11660        21157        16875  0.

In [17]:
# Berechnung des Korrelationskoeffizienten nach Pearson:
kassel["Rel1PHH"].corr(kassel["RelEW30"])

0.9286636497619768

In [18]:
# Ergebnis: positiver Korrelationskoeffizient, die Hypothese wurde verifiziert
# Selbe Auffälligkeit, wie in der ersten Berechnung: von 2012 bis 2013 enormer Anstieg von unter 30-jährigen, evtl. andere Datenerfassung, kann aber im Rahmen dieses Projektes nicht untersucht werden

# 5. Analyse der Daten
# 6. Fazit
# 7. Ausblick
# Literaturverzeichnis
