# Mentale Gesundheit: Eine Reise durch die Psyche

## Eine Reise durch die Psyche: Wie Daten uns helfen können, mentale Gesundheit zu verstehen

## 1 - Einleitung
Depressionen, Angstzustände und Stress sind in unserer modernen Gesellschaft allgegenwärtig und betreffen Menschen jeden Alters, Geschlechts und Hintergrunds. Obwohl es viele Ressourcen gibt, die versuchen, das Bewusstsein für diese Themen zu schärfen, bleibt ihre Ursache größtenteils unbekannt. Eine Möglichkeit, mehr über diese Phänomene zu erfahren, besteht darin, die Daten der Depression Anxiety Stress Scales (DASS) zu nutzen, die zwischen 2017 und 2019 gesammelt wurden. Die DASS-Umfrage ist ein standardisierter Fragebogen, der darauf abzielt, Depressionen, Angstzustände und Stress bei Befragten zu messen. Entwickelt wurde der psychometrische Fragebogen von Dr. Peter Lovibond und Dr. Stephen Lovibond und besteht aus 42 Fragen, die jeweils von 1 bis 4 skaliert sind. Die Bewertungsmöglichkeiten sind unten abgebildet und bilden ab, ob die Frage sehr stark auf die befragte Person zutrifft (4 Apply to me very much, or most of the time) oder gar keine Übereinstimmung it der Frage vorhanden ist (1 Did not apply to me at all).

![DASS-Skala](db/demo1.png)


## 2 - Ziel des Notebooks
Analyse der DASS-Umfrageergebnisse und Untersuchung potenzieller Faktoren, die mit Depressionen, Angstzuständen und Stress assoziiert sind. Besonders im Vordergrund stehen Vorurteile, die es gegenüber Depressionen und ähnlichen Krankheiten gibt in Hinblick auf das Geschlecht und die Herkunft. Ist es tatsächlich so, dass Frauen eher an einer Depression leiden? Trifft Menschen mit einem akademischen Abschluss eine Depression seltener, weil er wahrscheinlich ein höheres Gehalt verspricht oder ist das nur Schein? Gibt es einen Zusammenhang zwischen Depressionen und Herkunft? Auf diese und ähnliche Fragen wird in der Analyse eingegangen.

## 3 - Methodik

Wie bereits unter dem Punkt Einleitung angemerkt, wurden die Daten wurden durch eine Online-Version der DASS-Umfrage von 2017 bis 2019 gesammelt. Dadurch ist ein aussagekräftiges Ergebnis von fast 40.000 Daten entstanden. Ebenfalls schon erwähnt wurde die Skalierung durch die DASS-Umfrage, wodurch eine Bewertung der Ergebnisse ermöglicht wird. Insgesamt standen 42 Fragen zur Verfügung, die durch die Bewertung beantwortet werden mussten. Allerdings wurden nicht nur die Antworten gespeichert, sondern auch einerseits die Geschwindigkeit, in der diese beantwortet wurden und andererseits die Stelle, an der sie gefragt wurden, weil jeder Befragte eine zufällige Anordnung der Fragen erhalten hat. Darauffolgend wurde der TEN-ITEM PERSONALITY INVENTORY-(TIPI) durchgeführt, welcher Persönlichkeitseigenschaften analysiert. Bei dieser Umfrage stehen 10 Charaktereigenschaften zur Verfügung, die erneut skaliert und beantwortet werden müssen, wobei es hier 7 Bewertungsmöglichkeiten gibt.

![TIPI](db/TIPI.png)

Zuguterletzt wurden die Stammdaten der Teilnehmer befragt, welche Daten wie Geschlecht, Alter, Herkunft enthalten.

![Stammdaten](db/Stammdaten.png)

Die Umfrage war für jeden offen, und die Teilnehmer waren motiviert, sie auszufüllen, um personalisierte Ergebnisse zu erhalten.
Die Daten, die in dieser Analyse verwendet wurden, wurden von Personen gesammelt, die einer Forschungsumfrage zugestimmt und ihre Daten für Forschungszwecke zur Verfügung gestellt haben.
Die Analyse wird basierend auf den Antworten zu jeder Frage sowie den demografischen und technischen Informationen durchgeführt, die von den Teilnehmern bereitgestellt wurden.

Durch die Analyse der Daten der DASS-Umfrage hoffen wir, Einblicke in die Faktoren zu gewinnen, die mit Depressionen, Angstzuständen und Stress assoziiert sind. Diese Erkenntnisse könnten dazu beitragen, Präventions- und Behandlungsansätze zu entwickeln, um das Leben von Menschen, die von diesen Zuständen betroffen sind, zu verbessern. Idealerweise kann dadurch eine Entstigmatisierung von psychischen Krankheiten erreicht werden.

## 4 - Projektstruktur

### Setup

![Architektur](db/Projekt-Architektur.png)

Für das Projekt werden auf den lokalen Rechnern Conda für die Python-Execution, DataSpell als IDE und je nach Projektmitglied teilweise MongoDB Compass oder DataGrip als GUI verwendet, um einen einfacheren Einblick zum Datenbank-Server zu erhalten. Die Datenbank selbst ist eine MongoDB Instanz (NoSQL), welche am FHTW-Server gehostet wird und bekannt für die schnelle, flexible und einfache Verarbeitung von dokumentbasierten Daten ist. Dadurch sind die Daten zentral für alle Teammitglieder zugänglich. Zusätzlich gibt es auf GitHub ein [Repository](https://github.com/wi21b030/Mental-Health), welches alle wichtigen Files sowie dieses Notebook selbst beinhaltet, um allen Mitgliedern des Teams die simultane Bearbeitung zu ermöglichen.

### Big Data und Data Handling Layers

Die Begründung für die Entscheidungen, welche wir bezüglich der ausgewählten Tools und des Setups für unser Projekt getroffen haben, liegt darin, dass wir den Big Data Anforderungen entsprechen müssen, da wir einen großen Datensatz mit etwa 40000 Reihen und mehr als 170 Spalten an Daten (Volume) haben. Zusätzlich sind die Daten vielfältig (Variety) und semi-strukturiert (CSV-Datensatz) und, weil wir mithilfe der Daten akkurate und wertvolle Aussagen in Bezug auf mentale Gesundheit treffen wollen sind Veracity als auch Value wichtige Faktoren. Velocity betrifft unser Projekt nicht direkt, jedoch garantieren die modernen Tools, welche den Industriestandards entsprechen (NoSQL-Datenbank und Git), dass wir auch zukünftig den Skalierungs-Anforderungen entsprechen werden. Weiters behandeln wir die vier Data Handling Layers, indem wir den Datensatz in der Datenbank in einem standardisierten Format (BSON) speichern, vor aber auch teilweise während der Analyse die Daten bereinigen, dann eben mithilfe von statistischen Methoden analysieren, um Zusammenhänge und Entschlüsse zu ziehen und anschließend mittels Graphiken visualisieren.

### Komponente und Versionen

- Conda: 22.9
- Python: 3.9
- Pymongo: 4.3.3
- Pandas: 1.4.4
- Matplotlib: 3.5.2
- Numpy: 1.21.5
- GeoPandas: 0.12.2
- Seaborn: 0.11.2
- PyCountry: 22.3.5

## 5 - Datenimport und -export

Bevor wir nun den Datensatz analysieren können, müssen wir die Daten zur Datenbank hochladen, um sie später weiterhin zentral zur Verfügung zu haben. Dafür müssen wir einige Python Packages installieren, die DB-Verbindung einrichten und anschließend den Datensatz in einem Pandas-Dataframe für die weitere Verarbeitung speichern.

### Import von Packages

In [None]:
try:
    import pymongo as mdb
    import csv
    import pandas as pd
    import matplotlib.pyplot as plt
    import numpy as np
    import seaborn as sns
except ImportError:
    !pip3 install pymongo
    !pip3 install python-csv
    !pip3 install pandas
    !pip3 install numpy
    import pymongo as mdb
    import csv
    import pandas as pd
    import matplotlib.pyplot as plt
    import numpy as np

### Die Verbindung zum MongoDB-Server wird eingerichtet

In [None]:
try:
    client = mdb.MongoClient("mongodb://pt-n20.p4001.w3.cs.technikum-wien.at:4001")

    db = client.mental_health_db
    collection = db.survey

    if 'mental_health_db' in client.list_database_names():
        print('Connected to database')
    if 'survey' in db.list_collection_names():
        print('Connected to collection')
except mdb.errors.ConnectionFailure as e:
    print(e)

### CSV-Datensatz hochladen

Die Daten wurden mithilfe des Codes, den man darunter sieht, auf den Server hochgeladen und anschließend auskommentiert, damit dies nicht unabsichtlich wieder ausgeführt werden kann.

In [None]:
'''data = pd.read_csv('db/data.csv', delimiter='\t')
keys = data.columns.tolist()
data_dict = data.to_dict('records')
for item in data_dict:
    record = {}
    for key in keys:
        record[key] = item[key]
    collection.insert_one(record)'''

### Daten vom Server abfragen und in Pandas Dataframe speichern

In [None]:
cursor = collection.find({})
data = pd.DataFrame(list(cursor))
data = data.drop('_id', axis=1)
client.close()

#### Alternativ falls der Server nicht funktioniert von lokaler CSV-Datei abfragen

In [None]:
# data = pd.read_csv('db/data.csv', delimiter='\t')

#### Ausgabe des Dataframes

In [None]:
print(data)

## 6 - Demografische Analyse des Datensatzes

Wir fangen damit an, den Datensteckbrief zu ermitteln, um einen Überblick zu bekommen.

In [None]:
data.info()

In [None]:
data.describe()

Konkret jedoch wollen wir zuerst wissen, welche Personen haben an dieser Umfrage teilgenommen und welche Merkmale machen diesen Datensatz aus. Dafür verschaffen wir uns einen deskriptiven Überblick zu folgenden Kategorien des Datensatzes:

- Ausbildung
- Gegend
- Geschlecht
- Englisch als Muttersprache
- Alter
- Händigkeit
- Religion
- Sexuelle Orientation
- Ethnie
- Gewählt
- Verheiratet
- Familiengröße
- Studienfach

### Ausbildung

In [None]:
education = data['education'].map({0: 'Nicht Beantwortet', 1: 'Highschool nicht abgeschlossen', 2: 'Highschool', 3: 'Universitäts Abschluss', 4: 'Master Abschluss'})
education_percent = education.value_counts(normalize=True) * 100
ax = education_percent.plot(kind='bar')
ax.set_xlabel('Ausbildung')
ax.set_ylabel('Prozent')
ax.set_yticklabels(['{:,.1f}%'.format(x) for x in ax.get_yticks()])
for i, v in enumerate(education_percent):
    ax.text(i, v+0.5, '{:.1f}%'.format(v), ha='center')
plt.show()

Wir sehen, dass ungefähr 38% der Teilnehmer*Innen einen Bachelor-Abschluss, knapp darunter 37.9% einen Highschool-Abschluss, 12.6% einen Master-Abschluss und 10.2% die Highschool nicht abgeschlossen haben. Im Datensatz haben 1.3% jeweils keine Antwort zu dieser Frage gegeben.

### Gegend

In [None]:
urban = data['urban'].map({0: 'Nicht Beantwortet', 1: 'Rural', 2: 'Vorort', 3: 'Stadt'})
urban_percent = urban.value_counts(normalize=True) * 100
ax = urban_percent.plot(kind='pie', autopct='%.1f%%')
ax.set_title('Verteilung der Kategorie Gegend')
plt.show()

Das Diagramm zeigt die prozentuale Verteilung der Antworten auf die Frage nach dem Wohnort. Die größte Gruppe der Befragten (44,9%) lebt in städtischen Gebieten, gefolgt von der Gruppe der Vorortbewohner (33,3%) und der Gruppe der Landbewohner (20,9%). Nur eine sehr kleine Gruppe (1%) hat keine Antwort auf die Frage gegeben.

### Geschlecht

In [None]:
gender = data['gender'].map({0: 'Divers', 1: 'Männlich', 2: 'Weiblich'})
gender_percent = gender.value_counts(normalize=True) * 100
ax = gender_percent.plot(kind='bar')
ax.set_xlabel('Geschlecht')
ax.set_ylabel('Prozent')
ax.set_yticklabels(['{:,.1f}%'.format(x) for x in ax.get_yticks()])
for i, v in enumerate(gender_percent):
    ax.text(i, v+0.5, '{:.1f}%'.format(v), ha='center')
plt.show()

In [None]:
print(data)

Überraschenderweise sind 77.4% der Personen, die an der Umfrage teilgenommen haben, Frauen. Im Gegensatz dazu beträgt der Anteil der Männer 22.4% und die der diversen Geschlechter 0.2%.

### Englisch als Muttersprache

In [None]:
engnat = data['engnat'].map({1: 'Ja', 2: 'Nein'})
engnat_percent = engnat.value_counts(normalize=True) * 100
ax = engnat_percent.plot(kind='pie', autopct='%.1f%%')
ax.set_title('Verteilung der nativen englischsprechenden Menschen')
plt.show()

In unserem Datensatz haben 63.8% Englisch nicht als Muttersprache und 36.2% hingegen schon.

### Alter

In [None]:
age_groups = pd.cut(data['age'], bins=[0, 17, 34, 54, 64, 150], labels=['0-17', '18-34', '35-54', '55-64', '65+'])
age_group_percent = age_groups.value_counts(normalize=True) * 100
ax = age_group_percent.plot(kind='bar')
ax.set_xlabel('Alter')
ax.set_ylabel('Prozent')
ax.set_yticklabels(['{:,.1f}%'.format(x) for x in ax.get_yticks()])
for i, v in enumerate(age_group_percent):
    ax.text(i, v+0.5, '{:.1f}%'.format(v), ha='center')
plt.show()

Wir gruppieren das Alter sinnvoll und erhalten folgende Prozentsätze für die Altersgruppen:

- 0-17: 18.3%
- 18-34: 72.9%
- 35-54: 7.3%
- 55-64: 1.3%
- 65+: 0.3%

### Händigkeit
Es wird untersucht, wie viel Prozent der Befragten Linkshänder, Rechtshänder beziehungsweise beidhändig sind. In einem ersten Schritt werden die Daten einfach ausgegeben.

In [None]:
hand = data['hand'].map({2:'Linkshänder',1:'Rechtshänder',3:'Beidhändig'})
hand_percent=hand.value_counts(normalize=True)*100
print(hand_percent)

In einem zweiten Schritt wird zur Veranschaulichung ein Balkendiagramm erstellt, welches das Verhältnis zwischen Linkshändern,
Rechtshändern und Beidhändigen aufzeigt.

In [None]:
labels = ['Linkshänder', 'Rechtshänder', 'Beidhändig']
values = [hand_percent.Linkshänder, hand_percent.Rechtshänder, hand_percent.Beidhändig]
plt.bar(labels, values)
plt.title('Händigkeit')
plt.xlabel('Hand')
plt.ylabel('Prozent')
plt.show()

### Religion
Es wird untersucht, wie das Religionsbekenntnis unter den Befragten verteilt ist. In einem ersten Schritt werden die Daten einfach ausgegeben.

In [None]:
religions = data['religion'].map({0:'Nicht Beantwortet', 1:'Agnostizismus',2:'Atheismus', 3:'Buddhismus', 4:'Christentum (Katholisch)',
            5:'Christentum (Mormonen)',6: 'Christentum (Protestanten)', 7:'Christentum (Anderes)', 8:'Hinduismus',9: 'Judentum', 10:'Islam', 11:'Sikhismus',12: 'Andere'})
rel_percent=religions.value_counts(normalize=True)*100
print(rel_percent)

In einem zweiten Schritt wird zur Veranschaulichung ein Kreisdiagramm erstellt, was das Verhältnis der einzelnen Religionen zueinander unter den Befragten aufzeigt.

In [None]:
plt.pie(rel_percent, labels=rel_percent.index, autopct='%1.2f%%', textprops={'fontsize': 12})
plt.legend(bbox_to_anchor=(2.2,0.5), loc="center right", fontsize=12)
plt.title('Religionen')
plt.show()

### Sexuelle Orientierung
Es wird untersucht, wie die sexuelle Orientierung unter den Befragten verteilt ist. In einem ersten Schritt werden die Daten einfach ausgegeben.

In [None]:
orientations = data['orientation'].map({0:'Nicht beantwortet',1:'Heterosexuell', 2:'Bisexuell',3: 'Homosexuell',4: 'Asexuell',5: 'Anderes'})
orientations_percent=orientations.value_counts(normalize=True)*100
print(orientations_percent)

In einem zweiten Schritt wird zur Veranschaulichung ein Kreisdiagramm erstellt, welches das Verhältnis der einzelnen Religionen zueinander unter den Befragten aufzeigt.

In [None]:

values = [orientations_percent.Heterosexuell,orientations_percent.Bisexuell, orientations_percent.Homosexuell, orientations_percent.Asexuell,orientations_percent.Anderes]
labels=['Heterosexuell','Bisexuell','Homosexuell','Asexuell','Anderes']
fig1, ax1 = plt.subplots()
ax1.pie(values,  labels=labels,autopct='%1.1f%%', startangle=90)
ax1.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.
plt.title('Sexuelle Orientierung')
plt.show()

### Ethnische Gruppen
Es wird untersucht, was für eine Verteilung der ethnischen Gruppen vorliegt. In einem ersten Schritt werden die Daten einfach ausgegeben.

In [None]:
races = data['race'].map({10: "Asiaten", 20: "Araber", 30: "Schwarze", 40: "IndigeneBevölkerungAustraliens", 50: "IndigeneBevölkerungAmerikas", 60: "Weiße", 70: "Anderes"})
races_percent=races.value_counts(normalize=True)*100
print(races_percent)

In einem zweiten Schritt wird zur Veranschaulichung ein Balkendiagramm erstellt, welches das Verhältnis der einzelnen Ethnischen Gruppen zueinander unter den Befragten aufzeigt.

In [None]:
labels = ['Asiaten','Araber','Schwarze','Indigene Bevölkerung Australiens','Indigene Bevölkerung  Amerikas','Weiße', 'Anderes']
values = [races_percent.Asiaten,races_percent.Araber, races_percent.Schwarze, races_percent.IndigeneBevölkerungAustraliens,
          races_percent.IndigeneBevölkerungAmerikas, races_percent.Weiße,races_percent.Anderes]
plt.bar(labels, values)
plt.xlabel("Ethnische Gruppe")
plt.ylabel("Prozent")
plt.title("Verteilung Ethnischer Gruppen")
plt.xticks(rotation=45, ha='right')
plt.show()

In [None]:
voted = data['voted']
unique_values_voted = list(set(voted))
print(unique_values_voted)

In [None]:
value_counts_voted =voted.value_counts()

In [None]:
for value, count in value_counts_voted.items():
    print(f'{value}: {count}')

In [None]:
value_counts_voted = voted.value_counts()
plt.pie(value_counts_voted, labels=['No','Yes','Did Not Answer'], autopct='%1.1f%%',colors=['red','cyan','violet'])
plt.show()

In [None]:
married = data['married'].dropna()
unique_values_married = list(set(married))
print(unique_values_married)


In [None]:
value_counts_married = married.value_counts()

In [None]:
for value, count in value_counts_married.items():
    print(f'{value} : {count}')

In [None]:
married_dict = {0: 'Did Not Answer', 1: 'Never married', 2: 'Currently married', 3: 'Previously married'}

married_legend = data['married'].replace(married_dict)

married_counts = married_legend.value_counts()

married_percent = married_counts * 100 / married_counts.sum()

ax = married_percent.plot(kind='bar', color=['red','orange','cyan','grey'])
ax.set_xlabel('Marital Status')
ax.set_ylabel('Percentage')
ax.set_yticks(range(0, 101, 10))
ax.set_yticklabels(['{:,.1f}%'.format(x) for x in range(0, 101, 10)])
for i, v in enumerate(married_percent):
    ax.text(i, v+0.5, '{:.1f}%'.format(v), ha='center')
plt.show()


In [None]:
family_size = data['familysize'].dropna()

family_size = family_size.apply(lambda x: '8+' if isinstance(x, int) and x >= 8 else str(x))

labels = ['0', '1', '2', '3', '4', '5', '6', '7', '8+']
plt.pie(family_size.value_counts(), labels=labels, autopct='%1.1f%%', colors=['grey', 'cyan', 'violet', 'red', 'orange', 'blue', 'pink', 'green', 'brown'])
plt.title('Family Size Distribution')
plt.show()


In [None]:
#major = data['major']
#unique_values_major = list(set(major))
#print(unique_values_major)
# - Wir sehen, dass die Daten nicht vollständig sind und man kann nur mit Nan und nicht nan Werte eine Analyse machen

In [None]:
data['major_category'] = data['major'].apply(lambda x: 'Non-NaN' if x is not None and x == x else 'NaN')

major_counts = data['major_category'].value_counts()

major_percent = major_counts * 100 / major_counts.sum()

major_percent.plot(kind='pie', autopct='%1.1f%%')
plt.title('Non-NaN and NaN values in Major')
plt.ylabel('')
plt.show()

## DASS-Scores berechnen

Im folgenden Schritt berechnen wir die jeweiligen Werte für Depression, Anxiety und Stress für alle Personen des Datensatzen und fügen diese, als auch unter welchem Level diese fallen als zusätzliche Spalten ein.

**Hinweis**: Da ursprünglich der DASS-Test Werte von 0-3 als Antwortmöglichkeit anbietet, bei unserem Datensatz jedoch Werte von 1-4 aufgenommen wurden, wurde im letzten Schritt von jeder Kategorie 14 abgezogen und korrekt angepasst, da es 14 Fragen pro Kategorie gibt.

In [None]:
question_category_map = {
    'Q3A': 'Depression',
    'Q5A': 'Depression',
    'Q10A': 'Depression',
    'Q13A': 'Depression',
    'Q16A': 'Depression',
    'Q17A': 'Depression',
    'Q21A': 'Depression',
    'Q24A': 'Depression',
    'Q26A': 'Depression',
    'Q31A': 'Depression',
    'Q34A': 'Depression',
    'Q37A': 'Depression',
    'Q38A': 'Depression',
    'Q42A': 'Depression',
    'Q2A': 'Anxiety',
    'Q4A': 'Anxiety',
    'Q7A': 'Anxiety',
    'Q9A': 'Anxiety',
    'Q15A': 'Anxiety',
    'Q19A': 'Anxiety',
    'Q20A': 'Anxiety',
    'Q23A': 'Anxiety',
    'Q25A': 'Anxiety',
    'Q28A': 'Anxiety',
    'Q30A': 'Anxiety',
    'Q36A': 'Anxiety',
    'Q40A': 'Anxiety',
    'Q41A': 'Anxiety',
    'Q1A': 'Stress',
    'Q6A': 'Stress',
    'Q8A': 'Stress',
    'Q11A': 'Stress',
    'Q12A': 'Stress',
    'Q14A': 'Stress',
    'Q18A': 'Stress',
    'Q22A': 'Stress',
    'Q27A': 'Stress',
    'Q29A': 'Stress',
    'Q32A': 'Stress',
    'Q33A': 'Stress',
    'Q35A': 'Stress',
    'Q39A': 'Stress'
}

depression_cols = ['Q3A', 'Q5A', 'Q10A', 'Q13A', 'Q16A', 'Q17A', 'Q21A', 'Q24A', 'Q26A', 'Q31A', 'Q34A', 'Q37A', 'Q38A', 'Q42A']
anxiety_cols = ['Q2A', 'Q4A', 'Q7A', 'Q9A', 'Q15A', 'Q19A', 'Q20A', 'Q23A', 'Q25A', 'Q28A', 'Q30A', 'Q36A', 'Q40A', 'Q41A']
stress_cols = ['Q1A', 'Q6A', 'Q8A', 'Q11A', 'Q12A', 'Q14A', 'Q18A', 'Q22A', 'Q27A', 'Q29A', 'Q32A', 'Q33A', 'Q35A', 'Q39A']

columns_check = ['Depression','Anxiety','Stress','Depression Category','Anxiety Category','Stress Category']
for column in columns_check:
    if column not in data.columns:
        data['Depression'] = data[depression_cols].sum(axis=1)-14
        data['Anxiety'] = data[anxiety_cols].sum(axis=1)-14
        data['Stress'] = data[stress_cols].sum(axis=1)-14
        data['Depression Category'] = pd.cut(data['Depression'], bins=[-1, 9, 13, 20, 27, float('inf')], labels=['Normal', 'Mild', 'Moderate', 'Severe', 'Extremely Severe'])
        data['Anxiety Category'] = pd.cut(data['Anxiety'], bins=[-1, 7, 9, 14, 19, float('inf')], labels=['Normal', 'Mild', 'Moderate', 'Severe', 'Extremely Severe'])
        data['Stress Category'] = pd.cut(data['Stress'], bins=[-1, 14, 18, 25, 33, float('inf')], labels=['Normal', 'Mild', 'Moderate', 'Severe', 'Extremely Severe'])

## 7 - Explorative Analyse

Uns interessieren vor allem die Zusammenhänge der DASS-Scores in Bezug auf folgende Faktoren:

- Geschlecht
- Sexuelle Orientation
- Religion
- Ethnie
- Nationalität
- Alter
- Ausbildung

Wir werden die Daten mittels Graphiken näher analysieren, vergleichen und versuchen Zusammenhänge zu finden.

#### 7.3 - Religion

In [None]:
religion_depression_counts = data.groupby([religions, 'Depression Category']).size().unstack()
num_rows = (len(religion_depression_counts) + 2) // 3
fig, axes = plt.subplots(nrows=num_rows, ncols=3, figsize=(12, num_rows * 4))

for i, religion in enumerate(religion_depression_counts.index):
    counts = religion_depression_counts.loc[religion]
    row = i // 3
    col = i % 3
    axes[row, col].pie(counts, labels=counts.index, autopct='%1.1f%%')
    axes[row, col].set_title(f'{religion} Depressions Verteilung')
    axes[row, col].axis('equal')

for i in range(len(religion_depression_counts), num_rows * 3):
    row = i // 3
    col = i % 3
    fig.delaxes(axes[row, col])

fig.tight_layout()
plt.show()

Wenn man sich nun die diese Diagramme anschaut erhalten wir folgende Top 3 für die Religionen mit dem höchsten relativen Anteil an Menschen, die an schwerer oder extrem schwerer Depression leiden:

- Atheismus: 60.3%
- Nicht Beantwortet: 59.6%
- Agnostizismus: 58.3%

Interessanterweise gibt es nur vier Religionen, bei denen der Anteil bei unter 50% liegt. Diese sind:

- Buddhismus: 42.2%
- Christentum (Protestanten): 45.5%
- Islam: 47.3%
- Hinduismus: 47.8%

Die Ergebnisse zeigen, dass Menschen mit einer atheistischen, nicht beantworteten oder agnostischen Weltanschauung tendenziell häufiger von schweren oder extremen Depressionen betroffen sind als Menschen, die dem Buddhismus, Christentum (Protestanten), Islam oder Hinduismus angehören. Allerdings bedeutet dies nicht zwangsläufig, dass die Religion selbst die Ursache für die höhere Prävalenz von Depressionen ist, da andere Faktoren eine Rolle spielen könnten.

In [None]:
religion_anxiety_counts = data.groupby([religions, 'Anxiety Category']).size().unstack()
num_rows = (len(religion_anxiety_counts) + 2) // 3
fig, axes = plt.subplots(nrows=num_rows, ncols=3, figsize=(12, num_rows * 4))

for i, religion in enumerate(religion_anxiety_counts.index):
    counts = religion_anxiety_counts.loc[religion]
    row = i // 3
    col = i % 3
    axes[row, col].pie(counts, labels=counts.index, autopct='%1.1f%%')
    axes[row, col].set_title(f'{religion} Anxiety Verteilung')
    axes[row, col].axis('equal')

for i in range(len(religion_anxiety_counts), num_rows * 3):
    row = i // 3
    col = i % 3
    fig.delaxes(axes[row, col])

fig.tight_layout()
plt.show()

Wenn man sich nun die diese Diagramme anschaut erhalten wir folgende Top 3 für die Religionen mit dem höchsten relativen Anteil an Menschen, die an schwerer oder extrem schwerer Anxiety leiden:

- Nicht Beantwortet: 55.9%
- Christentum (Mormonen): 54.1%
- Andere: 53.8%

Die Bottom 3 sind:

- Christentum (Protestanten): 40%
- Buddhismus: 41.4%
- Hinduismus: 47.3%

Bei der Anxiety scheinen Menschen, die sich zu Mormonen zugehörig fühlen unter allen Religionen am meisten unter schwerer oder extrem schwerer Anxiety zu leiden als im Gegenzug die Protestanten, Buddhisten und Hindus.

In [None]:
religion_stress_counts = data.groupby([religions, 'Stress Category']).size().unstack()
num_rows = (len(religion_stress_counts) + 2) // 3
fig, axes = plt.subplots(nrows=num_rows, ncols=3, figsize=(12, num_rows * 4))

for i, religion in enumerate(religion_stress_counts.index):
    counts = religion_stress_counts.loc[religion]
    row = i // 3
    col = i % 3
    axes[row, col].pie(counts, labels=counts.index, autopct='%1.1f%%')
    axes[row, col].set_title(f'{religion} Stress Verteilung')
    axes[row, col].axis('equal')

for i in range(len(religion_stress_counts), num_rows * 3):
    row = i // 3
    col = i % 3
    fig.delaxes(axes[row, col])

fig.tight_layout()
plt.show()

Wenn man sich nun die diese Diagramme anschaut erhalten wir folgende Top 3 für die Religionen mit dem höchsten relativen Anteil an Menschen, die an starkem oder extrem starken Stress leiden:

- Christentum (Mormonen): 50.8%
- Nicht Beantwortet: 43.5%
- Andere: 42.4%

Die Bottom 3 sind:

- Buddhismus: 29.2%
- Christentum (Protestanten): 31%
- Hinduismus: 33.6%

In allen drei Kategorien (Depression, Anxiety, Stress) scheinen Buddhisten, Protestanten und Hindus am wenigsten an schweren oder extremst schweren Symptomen zu leiden. Wohingegen Mormonen sowohl bei Anxiety als auch Stress beide Male in der Top 3 sind. Um jedoch tatsächliche Aussagen in der Allgemeinheit formulieren zu können, würden wir dennoch weitere Daten erheben und anschließend Hypothesentests ausführen müssen, da einige Religionsgruppen in sehr geringer Anzahl in diesem Datensatz vertreten sind.

#### 7.4 - Ethnie

Interessant ist auch die Analyse der DASS-Scores nach Ethnie:

In [None]:
races_data = data.copy()
races_data['race'] = races
races_data.boxplot(column='Depression', by='race', figsize=(10,6), vert=False)
plt.title('Depression nach Ethnie')
plt.xlabel('Ethnie')
plt.ylabel('Depressionswert nach DASS-Score')
plt.show()

Wir erkennen, dass sowohl die Boxplots selbst als auch die Mediane von Arabern und indigenen Amerikanern deutlich nach rechts verschoben sind. Im Gegensatz dazu befindet sich der Boxplot und der Median der Asiaten am ehesten nach links. Allgemein scheint es bei keiner Gruppe mehr als 25% an Menschen zu geben die laut dem DASS-Score als "Normal" eingestuft werden. Dies könnte darauf deuten, dass bis zu 75% der Menschen dieses Datensatzes mindestens an einer milden bis extrem starken Depression leiden könnten.

In [None]:
races_data.boxplot(column='Anxiety', by='race', figsize=(10,6), vert=False)
plt.title('Anxiety nach Ethnie')
plt.xlabel('Ethnie')
plt.ylabel('Anxiety-Wert nach DASS-Score')
plt.show()

Im Falle der Anxiety scheinen die indigenen Bevölkerungen von jeweils Amerika und Australien höhere Werte zu haben. Vor allem der Median der indigenen Amerikaner liegt bei ungefähr 20 und deutet darauf hin, dass 50% an schwerer Anxiety leiden und dass nur bis zu 25% an keiner Form von Anxiety leiden und als "Normal" eingestuft werden könnten.

In [None]:
races_data.boxplot(column='Stress', by='race', figsize=(10,6), vert=False)
plt.title('Stress nach Ethnie')
plt.xlabel('Ethnie')
plt.ylabel('Stress-Wert nach DASS-Score')
plt.show()

Stress belastet wie wir der Graphik entnehmen können die indigenen Amerikaner und Araber am meisten. Beide Mediane liegen beim Wert 26 - der Wert, ab dem man als schwer gestresst bewertet wird. Im Gegensatz dazu ist der Median der Asiaten am geringsten. Interessant ist auch, dass die Whiskers des Boxplots der indigenen Australier deutlich näher beieinander liegen, dies und die Tatsache, dass ihr Median auch relativ hoch ist, bedeutet, dass besonders viele Menschen hohe Stress-Werte vorweisen.

In [None]:
print(data['Depression'])

In [None]:
data['Depression Category'] = pd.cut(data['Depression'], bins=[-1, 9, 13, 20, 27, float('inf')], labels=['Normal', 'Mild', 'Moderate', 'Severe', 'Extremely Severe'])
data['Anxiety Category'] = pd.cut(data['Anxiety'], bins=[-1, 7, 9, 14, 19, float('inf')], labels=['Normal', 'Mild', 'Moderate', 'Severe', 'Extremely Severe'])
data['Stress Category'] = pd.cut(data['Stress'], bins=[-1, 14, 18, 25, 33, float('inf')], labels=['Normal', 'Mild', 'Moderate', 'Severe', 'Extremely Severe'])
print(data['Stress Category'])

In [None]:
categories = ['Normal', 'Mild', 'Moderate', 'Severe', 'Extremely Severe']
depression_categories = pd.cut(data['Depression'], [0, 9, 13, 20, 27, float('inf')], labels=categories)
anxiety_categories = pd.cut(data['Anxiety'], [0, 7, 9, 14, 19, float('inf')], labels=categories)
stress_categories = pd.cut(data['Stress'], [0, 14, 18, 25, 33, float('inf')], labels=categories)

# Tabelle mit den Anzahl der Befragten in jeder Kategorie
category_counts = pd.DataFrame({
    'Depression': depression_categories.value_counts(),
    'Anxiety': anxiety_categories.value_counts(),
    'Stress': stress_categories.value_counts()
})
print(category_counts)

## Verteilung der Geschlechter innerhalb einzelner Kategorien

In [None]:
gender_depression_counts=data.groupby([gender,'Depression Category']).size().unstack()
#gender_depression_counts = (data.groupby([gender,'Stress Category']).size().unstack() / len(data)) * 100
gender_depression_counts

In [None]:
gender_stress_counts=data.groupby([gender,'Stress Category']).size().unstack()
#gender_stress_counts = (data.groupby([gender,'Stress Category']).size().unstack() / len(data)) * 100
gender_stress_counts

In [None]:
gender_anxiety_counts=data.groupby([gender,'Anxiety Category']).size().unstack()
gender_anxiety_counts = (data.groupby([gender,'Anxiety Category']).size().unstack() / len(data)) * 100
#gender_anxiety_counts['Total'] = gender_anxiety_counts.sum(axis=1)
#gender_anxiety_counts.loc['Total',:] = gender_anxiety_counts.sum(axis=0)
gender_anxiety_counts


### Kurzbeschreibung:
Die Tabelle zeigt die Verteilung der Geschlechter je Kategorie in Prozent.
### Auffälligkeiten:
Es wirkt anhand der Tabellen so, als würden Frauen eher unter Depressionen, Angstzuständen und Stress leiden. Es soll an dieser Stelle allerdings angemerkt werden, dass die Anzahl an Frauen innerhalb der Kategorien deutlich höher ist als innerhalb anderer Kategorien, weil die Frauen auch in einem viel höheren Maß an der Umfrage teilgenommen haben. Vergleicht man allerdings Männer und Frauen, so erweckt es dennoch den Anschein, als würden Männer seltener an psychischen Krankheiten leiden. Dies wird unten nochmals genauer analysiert werden.


In [None]:
orientations_depression_counts=data.groupby([orientations,'Depression Category']).size().unstack()
orientations_stress_counts=data.groupby([orientations,'Stress Category']).size().unstack()
orientations_anxiety_counts=data.groupby([orientations,'Anxiety Category']).size().unstack()
orientations_depression_counts

In [None]:
orientations_stress_counts

In [None]:
orientations_anxiety_counts

### Kurzbeschreibung:
Analog zu den Geschlechtern, wurde nun eine Tabelle zu der Verteilung der Sexuellen Orientierung innerhalb der einzelnen Kategorien gemacht.
### Auffälligkeiten:
Bedenkt man, dass diverse Menschen unter den Befragten, die geringste gruppe ausmachen, so ist auffällig, dass die Werte verhältnismäßig relativ hoch sind. Dies wird unten nochmals genauer thematisiert werden, aber es liegt die Vermutung vor, dass Menschen, der LGBTQ+ Community eher von den untersuchten, psychischen Erkrankungen betroffen sind, als heterosexuelle Menschen.

In [None]:
'''
gender_depression_counts.plot(kind='bar', stacked=True)
plt.title('Verteilung der Depressionsschweregrade nach Geschlecht')
plt.xlabel('Depressionsschweregrade')
plt.ylabel('Anteil')
plt.legend(title='Geschlecht', loc='center left', bbox_to_anchor=(1, 0.5))

gender_anxiety_counts.plot(kind='bar', stacked=True)
plt.title('Verteilung der Angstschweregrade nach Geschlecht')
plt.xlabel('Angstschweregrade')
plt.ylabel('Anteil')
plt.legend(title='Geschlecht', loc='center left', bbox_to_anchor=(1, 0.5))

gender_stress_counts.plot(kind='bar', stacked=True)
plt.title('Verteilung der Stressschweregrade nach Geschlecht')
plt.xlabel('Stressschweregrade')
plt.ylabel('Anteil')
plt.legend(title='Geschlecht', loc='center left', bbox_to_anchor=(1, 0.5))

plt.show()'''


In [None]:

'''gender_depression_counts.plot(kind='bar', stacked=True)
plt.title('Verteilung der Depressionsschweregrade nach Geschlecht')
plt.xlabel('Geschlecht')
plt.ylabel('Anteil')

gender_anxiety_counts.plot(kind='bar', stacked=True)
plt.title('Verteilung der Angstschweregrade nach Geschlecht')
plt.xlabel('Geschlecht')
plt.ylabel('Anteil')

gender_stress_counts.plot(kind='bar', stacked=True)
plt.title('Verteilung der Stressschweregrade nach Geschlecht')
plt.xlabel('Geschlecht')
plt.ylabel('Anteil')

plt.show()'''


In [None]:

gender_depression_counts = gender_depression_counts.div(gender_depression_counts.sum(axis=1), axis=0)
gender_anxiety_counts = gender_anxiety_counts.div(gender_anxiety_counts.sum(axis=1), axis=0)
gender_stress_counts = gender_stress_counts.div(gender_stress_counts.sum(axis=1), axis=0)
gender_depression_counts.plot(kind='bar', stacked=True)
plt.title('Verteilung der Depressionsschweregrade nach Geschlecht')
plt.xlabel('Depressionsschweregrade')
plt.ylabel('Anteil')
plt.legend(title='Geschlecht', loc='center left', bbox_to_anchor=(1, 0.5))

gender_anxiety_counts.plot(kind='bar', stacked=True)
plt.title('Verteilung der Angstschweregrade nach Geschlecht')
plt.xlabel('Angstschweregrade')
plt.ylabel('Anteil')
plt.legend(title='Geschlecht', loc='center left', bbox_to_anchor=(1, 0.5))

gender_stress_counts.plot(kind='bar', stacked=True)
plt.title('Verteilung der Stressschweregrade nach Geschlecht')
plt.xlabel('Stressschweregrade')
plt.ylabel('Anteil')
plt.legend(title='Geschlecht', loc='center left', bbox_to_anchor=(1, 0.5))

plt.show()

## Balkenspaltendiagrammananlyse Geschlechter
Innerhalb der Geschlechter, zieht sich eine ähnliche Verteilung innerhalb der 3 Balkenspaltendiagramme durch. Die Männer leiden in einem geringerem Ausmaß an Depressionen, Stress und Angstzustännden, als Frauen und diverse Menschen. Frauen und diverse Menschen weisen auf den ersten Blick einen relativ ähnlichen Anteil innerhalb der Kategorien an pschischen Erkrankungen auf. Jedoch ist auffällig, dass die Kategorie "Moderate" bei den Frauen fast immer größer als bei diversen Menschen ist und dahingegen die Kategorie "Severe" höher ist bei diversen Menschen, was darauf schließen lässt, dass diese Gruppe eher von psychischen Erkrankungen betroffen ist.

In [None]:
orientations_depression_counts=orientations_depression_counts.div(orientations_depression_counts.sum(axis=1), axis=0)
orientations_anxiety_counts = orientations_anxiety_counts.div(orientations_anxiety_counts.sum(axis=1), axis=0)
orientations_stress_counts = orientations_stress_counts.div(orientations_stress_counts.sum(axis=1), axis=0)
orientations_depression_counts.plot(kind='bar', stacked=True)
plt.title('Verteilung der Depressionsschweregrade nach sexueller Orientierung')
plt.xlabel('Depressionsschweregrade')
plt.ylabel('Anteil in %')
#labels=['Heterosexuel','Bisexuell','Homosexuell','Asexuell','Anderes']
#plt.xticks(range(len(labels)), labels)
plt.legend(title='Sexuelle Orientierung', loc='center left', bbox_to_anchor=(1, 0.5))

orientations_anxiety_counts.plot(kind='bar', stacked=True)
plt.title('Verteilung der Angstschweregrade nach sexueller Orientierung')
plt.xlabel('Angstschweregrade')
plt.ylabel('Anteil')
plt.legend(title='Sexuelle Orientierung', loc='center left', bbox_to_anchor=(1, 0.5))

orientations_stress_counts.plot(kind='bar', stacked=True)
plt.title('Verteilung der Stressschweregrade nach sexueller Orientierung')
plt.xlabel('Stressschweregrade')
plt.ylabel('Anteil')
plt.legend(title='Sexuelle Orientierung', loc='center left', bbox_to_anchor=(1, 0.5))

plt.show()

In [None]:
male_depression = data[data['gender'] == 1]['Depression']
female_depression = data[data['gender'] == 2]['Depression']
neutral_depression = data[data['gender'] == 0]['Depression']
depression_values = [male_depression,female_depression, neutral_depression]
fig, ax = plt.subplots()
ax.boxplot(depression_values, vert=False)

ax.set_yticklabels(['Male', 'Female', 'Other'])
ax.set_ylabel('Depressionswert')
plt.show()

In [None]:
male_depression = gender_depression_counts.loc['Männlich'].dropna()
female_depression = gender_depression_counts.loc['Weiblich'].dropna()
neutral_depression = gender_depression_counts.loc['Anderes'].dropna()
depression_values = [male_depression, female_depression, neutral_depression]
fig, ax = plt.subplots()
ax.boxplot(depression_values)
ax.set_xticklabels(['Männlich', 'Weiblich', 'Divers'])
ax.set_ylabel('Depressionswert')
plt.show()

In [None]:
sns.violinplot(data=data, x=gender, y='Depression', inner='quartile')
plt.title('Verteilung der Depressionen nach Geschlecht')
plt.xlabel('Geschlecht')
plt.ylabel('Depression')
plt.show()

In [None]:
Heterosexual_depression = data[data['orientation']==1]['Depression']
Homosexual_depression = data[data['orientation'] == 3]['Depression']
Oth_depression = data[data['orientation'] == 5]['Depression']
Bisexual_depression = data[data['orientation'] == 2]['Depression']
Asexual_depression = data[data['orientation'] == 4]['Depression']
Not_def_depression=data[data['orientation'] == 0]['Depression']
depression_values = [Heterosexual_depression, Homosexual_depression, Oth_depression,Bisexual_depression, Asexual_depression,Not_def_depression]
fig, ax = plt.subplots()
ax.boxplot(depression_values, vert=False)
ax.set_yticklabels(['Heterosexuell', 'Homosexuell', 'Anderes','Bisexuell', 'Asexuell','Nicht beantwortet'])
ax.set_xlabel('Sexualität')
ax.set_ylabel('Depressionswert')
plt.show()

In [None]:
data_orientation = data[['Depression', 'orientation']]
sns.violinplot(x=orientations.values, y='Depression', data=data)
plt.title('Depressionswerte nach sexueller Orientierung')
plt.xlabel('Sexuelle Orientierung')
plt.ylabel('Depressionswert')
plt.show()