In [23]:
import pandas as pd
from scipy.stats import shapiro
import matplotlib.pyplot as plt

# Liste der Jahre
years = ['2015', '2016', '2017', '2018', '2019', '2020', '2021']

# Liste der Variablen
variables = [
    'Happiness Score', 'GDP per capita', 'Social Support', 'Life Expectancy',
    'Human Rights', 'CPI', 'World Giving', 'Rural Population', 'Consumer Inflation',
    'Military Expenditure', 'Pupulation Growth', 'CO2 Emissions', 'Energy Use'
]

# Ergebnis-Datenframe initialisieren
results = pd.DataFrame(index=years, columns=variables)

# Über alle Jahre iterieren
for year in years:
    # Daten aus Excel-Datei lesen
    data = pd.read_excel('/workspaces/predicting-world-happiness/data/WHI/Complete.xlsx', sheet_name=year)

    # Shapiro-Wilk-Test für jede Variable durchführen
    for var in variables:
        # Überprüfen, ob die Variable in den Spalten vorhanden ist
        if var in data.columns:
            # Werte in numerische Formate konvertieren und 0-Werte ausschließen
            values = pd.to_numeric(data[var], errors='coerce')
            values = values[values != 0].dropna()

            stat, p_value = shapiro(values)
            results.loc[year, var] = p_value

# Ergebnisse anzeigen
results




Unnamed: 0,Happiness Score,GDP per capita,Social Support,Life Expectancy,Human Rights,CPI,World Giving,Rural Population,Consumer Inflation,Military Expenditure,Pupulation Growth,CO2 Emissions,Energy Use
2015,0.285746,0.011756,0.010689,0.001309,0.00014,0.051352,0.054984,0.003528,1e-06,0.0,0.16007,0.150457,0.057977
2016,0.237971,0.007866,0.342804,0.001317,0.000198,0.070882,0.054984,0.003395,0.001822,5e-06,0.110874,0.199782,0.068848
2017,0.382368,0.013007,0.323246,0.001359,0.000246,0.040695,0.065099,0.0032,0.005543,4e-06,0.200333,0.201632,0.085311
2018,0.508207,0.016048,0.972605,0.001394,0.000328,0.042542,0.302404,0.00296,0.000233,7e-06,0.281631,0.113384,0.08796
2019,0.274442,0.014445,0.477145,0.001543,0.000856,0.12656,0.020936,0.002722,1e-06,2.9e-05,0.2602,0.097191,0.094687
2020,0.914335,0.011981,0.08271,0.011051,0.001335,0.166893,0.049954,0.002555,9.3e-05,1.5e-05,0.662579,0.179975,0.082479
2021,0.289803,0.019261,0.271952,0.030441,0.000995,0.317515,0.078535,0.002392,1e-06,0.000683,0.156706,0.178187,0.097838


In [25]:
# Interpretation der Ergebnisse
interpretation = pd.DataFrame(index=years, columns=variables)

# Über alle Jahre iterieren
for year in years:
    # Daten aus Excel-Datei lesen
    data = pd.read_excel('/workspaces/predicting-world-happiness/data/WHI/Complete.xlsx', sheet_name=year)

    # Shapiro-Wilk-Test für jede Variable durchführen
    for var in variables:
        # Überprüfen, ob die Variable in den Spalten vorhanden ist
        if var in data.columns:
            # Werte in numerische Formate konvertieren und 0-Werte ausschließen
            values = pd.to_numeric(data[var], errors='coerce')
            values = values[values != 0].dropna()

            # Shapiro-Wilk-Test durchführen und P-Wert speichern
            stat, p_value = shapiro(values)

            # Ergebnis interpretieren
            if p_value > 0.05:
                interpretation.loc[year, var] = 'Normalverteilt'
            else:
                interpretation.loc[year, var] = 'Nicht normalverteilt'

# Ergebnisse anzeigen
interpretation

Unnamed: 0,Happiness Score,GDP per capita,Social Support,Life Expectancy,Human Rights,CPI,World Giving,Rural Population,Consumer Inflation,Military Expenditure,Pupulation Growth,CO2 Emissions,Energy Use
2015,Normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Normalverteilt,Normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Normalverteilt,Normalverteilt,Normalverteilt
2016,Normalverteilt,Nicht normalverteilt,Normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Normalverteilt,Normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Normalverteilt,Normalverteilt,Normalverteilt
2017,Normalverteilt,Nicht normalverteilt,Normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Normalverteilt,Normalverteilt,Normalverteilt
2018,Normalverteilt,Nicht normalverteilt,Normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Normalverteilt,Normalverteilt,Normalverteilt
2019,Normalverteilt,Nicht normalverteilt,Normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Normalverteilt,Normalverteilt,Normalverteilt
2020,Normalverteilt,Nicht normalverteilt,Normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Normalverteilt,Normalverteilt,Normalverteilt
2021,Normalverteilt,Nicht normalverteilt,Normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Normalverteilt,Normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Nicht normalverteilt,Normalverteilt,Normalverteilt,Normalverteilt
