<h2>Load Data</h2>

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

In [None]:
df = pd.read_csv("./data.csv")
ind_variables_to_columns = {
    "demographics": list(range(2,20)),
    "teamwork": list(range(20,31)),
    # Skip 31: Welche Faktoren hinsichtlich der Teamzusammenarbeit sollten Ihrer Meinung nach geändert werden, um diese zu verbessern?
    "communication": list(range(32,43)),
    # Skip 43: Welche Faktoren hinsichtlich der Teamkommunikation sollten Ihrer Meinung nach geändert werden, um diese effizienter und produktiver zu gestalten?
    "productivity": list(range(44, 52))
    # Skip 53: Welche Faktoren hinsichtlich der Teamproduktivität sollten Ihrer Meinung nach geändert werden, um die Produktivität weiter zu verbessern?
    # Skip 54 and 55: Email adresses
}

demographics_df = df.iloc[:, ind_variables_to_columns["demographics"]]

# 0 is ID
# 11 is the independent variable: "Unter welchem Arbeitsmodell arbeiten Sie derzeit?"
teamwork_df = df.iloc[:, [0, 11] + ind_variables_to_columns["teamwork"]] # dependent variable 1
communication_df = df.iloc[:, [0, 11] + ind_variables_to_columns["communication"]] # dependent variable 2
productivity_df = df.iloc[:, [0, 11] + ind_variables_to_columns["productivity"]] # dependent variable 3


<h2>Descriptive</h2>

In [None]:

# Teamwork
teamwork_full_office = teamwork_df[teamwork_df["Unter welchem Arbeitsmodell arbeiten Sie derzeit?"] == "100% Büro"].drop(['ID', "Unter welchem Arbeitsmodell arbeiten Sie derzeit?"], axis=1)
teamwork_hybrid = teamwork_df[teamwork_df["Unter welchem Arbeitsmodell arbeiten Sie derzeit?"] == "Hybrides Modell"].drop(['ID', "Unter welchem Arbeitsmodell arbeiten Sie derzeit?"], axis=1)
teamwork_full_homeoffice = teamwork_df[teamwork_df["Unter welchem Arbeitsmodell arbeiten Sie derzeit?"] == "100% Homeoffice"].drop(['ID', "Unter welchem Arbeitsmodell arbeiten Sie derzeit?"], axis=1)

for col in teamwork_full_office.columns:
    combined_descriptive_stats = pd.concat([
                                                teamwork_full_office[col].describe().loc[['mean', 'std', 'min', 'max']],
                                                teamwork_hybrid[col].describe().loc[['mean', 'std', 'min', 'max']],
                                                teamwork_full_homeoffice[col].describe().loc[['mean', 'std', 'min', 'max']]
                                            ],
                                            axis=1, 
                                            keys=['100% Büro', 'Hybrides Modell', '100% Homeoffice'])
    combined_descriptive_stats.plot(kind='bar', figsize=(10, 6), width=0.8)
    plt.title(col)
    plt.xlabel('Statistics')
    plt.ylabel('Values')
    plt.xticks(rotation=0)  # Rotate x-axis labels for better readability
    plt.legend(title='DataFrames')
    plt.show()

In [None]:
# Communication
communication_full_office = communication_df[teamwork_df["Unter welchem Arbeitsmodell arbeiten Sie derzeit?"] == "100% Büro"].drop(['ID', "Unter welchem Arbeitsmodell arbeiten Sie derzeit?"], axis=1)
communication_hybrid = communication_df[teamwork_df["Unter welchem Arbeitsmodell arbeiten Sie derzeit?"] == "Hybrides Modell"].drop(['ID', "Unter welchem Arbeitsmodell arbeiten Sie derzeit?"], axis=1)
communication_full_homeoffice = communication_df[teamwork_df["Unter welchem Arbeitsmodell arbeiten Sie derzeit?"] == "100% Homeoffice"].drop(['ID', "Unter welchem Arbeitsmodell arbeiten Sie derzeit?"], axis=1)

for col in communication_df.columns:
    if col in ['ID', "Unter welchem Arbeitsmodell arbeiten Sie derzeit?"]: continue
    combined_descriptive_stats = pd.concat([
                                                communication_full_office[col].describe().loc[['mean', 'std', 'min', 'max']],
                                                communication_hybrid[col].describe().loc[['mean', 'std', 'min', 'max']],
                                                communication_full_homeoffice[col].describe().loc[['mean', 'std', 'min', 'max']]
                                            ],
                                            axis=1, 
                                            keys=['100% Büro', 'Hybrides Modell', '100% Homeoffice'])
    combined_descriptive_stats.plot(kind='bar', figsize=(10, 6), width=0.8)
    plt.title(col)
    plt.xlabel('Statistics')
    plt.ylabel('Values')
    plt.xticks(rotation=0)  # Rotate x-axis labels for better readability
    plt.legend(title='DataFrames')
    plt.show()


In [None]:
# Productivity
productivity_full_office = productivity_df[teamwork_df["Unter welchem Arbeitsmodell arbeiten Sie derzeit?"] == "100% Büro"].drop(['ID', "Unter welchem Arbeitsmodell arbeiten Sie derzeit?"], axis=1)
productivity_hybrid = productivity_df[teamwork_df["Unter welchem Arbeitsmodell arbeiten Sie derzeit?"] == "Hybrides Modell"].drop(['ID', "Unter welchem Arbeitsmodell arbeiten Sie derzeit?"], axis=1)
productivity_full_homeoffice = productivity_df[teamwork_df["Unter welchem Arbeitsmodell arbeiten Sie derzeit?"] == "100% Homeoffice"].drop(['ID', "Unter welchem Arbeitsmodell arbeiten Sie derzeit?"], axis=1)

for col in productivity_df.columns:
    if col in ['ID', "Unter welchem Arbeitsmodell arbeiten Sie derzeit?"]: continue
    combined_descriptive_stats = pd.concat([
                                                productivity_full_office[col].describe().loc[['mean', 'std', 'min', 'max']],
                                                productivity_hybrid[col].describe().loc[['mean', 'std', 'min', 'max']],
                                                productivity_full_homeoffice[col].describe().loc[['mean', 'std', 'min', 'max']]
                                            ],
                                            axis=1, 
                                            keys=['100% Büro', 'Hybrides Modell', '100% Homeoffice'])
    combined_descriptive_stats.plot(kind='bar', figsize=(10, 6), width=0.8)
    plt.title(col)
    plt.xlabel('Statistics')
    plt.ylabel('Values')
    plt.xticks(rotation=0)  # Rotate x-axis labels for better readability
    plt.legend(title='DataFrames')
    plt.show()

<h2>Analysis</h2>

$$F = \frac{Variance\space within\space the\space groups}{Variance\space between\space the\space groups​}$$

Variance within the groups is simply the variance of all data.
Variance between the groups is calculated as given:
1. Overall Mean
$$ 
\bar{X} = \frac{1}{N} \sum_{i=1}^{k} \sum_{j=1}^{n_i} X_{ij} 
$$

$ N $ is the total number of entries. </br>
$n_i$ is the number of entries in group $ i $. </br>
$ X_{ij} $ is the $ j $-th entry in group $ i $. </br>
$ n_i $ is the number of entries in group $ i $. </br>
$ k $ is the number of groups (In our case 3). </br>

2. Individual Group Means
$$ 
\bar{X_i} = \frac{1}{n_i} \sum_{j=1}^{n_i} X_{ij} 
$$

3. Variance between groups (Mean square between)
$$
Variance\space between\space groups = \frac{\sum_{i=1}^k n_i(\bar{X_i} - \bar{X})^2}{k-1}
$$

In [None]:
alpha = 0.05 # significance treshold
df1 = 2 # Degrees of freedom of groups: 3-1
df2 = 63 # Degrees of freedom of entries: 5
criticial_value = stats.f.ppf(1 - alpha, df1, df2) # Some probability distribution (F distribution) based formula
criticial_value # 3.161861164913023

<h3>Analysis of Teamwork</h3>

In [None]:
# Teamwork
f_stat_teamwork, p_value_teamwork = stats.f_oneway(teamwork_full_office, teamwork_hybrid, teamwork_full_homeoffice)
teamwork_analysis_df = pd.DataFrame(
                                    {
                                        col: {
                                         "F_stat": f_stat_teamwork[col_idx],
                                         "p_value": p_value_teamwork[col_idx]
                                        }
                                        for col_idx, col in enumerate(teamwork_full_office.columns)
                                    }
                                    )
teamwork_analysis_df


Significant F value for "Ich bekomme genug Anerkennung für meine Arbeit.". Descriptive visualisation reveals a difference between full home office and full office. Use the t-test to determine if there is a significant difference between the two groups.
<br/> First determine if there is a significant difference in variance to decide which t-test to use.

In [None]:
stat, p_value_var = stats.levene(teamwork_full_homeoffice["Ich bekomme genug Anerkennung für meine Arbeit."],
             teamwork_full_office["Ich bekomme genug Anerkennung für meine Arbeit."])
# p_value_var = 0.05783190494395712 almost significant

P value is on the border. Switch equal_var to switch between tests.

In [None]:
t_stat, p_value = stats.ttest_ind(teamwork_full_homeoffice["Ich bekomme genug Anerkennung für meine Arbeit."],
                                  teamwork_full_office["Ich bekomme genug Anerkennung für meine Arbeit."], 
                                  equal_var=True)
# equal_var=True -> standard T test
# equal_var=False -> Welch's t-test 
# https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html
p_value # Welch's: 0.009157880269011067, Standard: 0.07185627325347592

<h2>Analysis of Communication</h2>

In [None]:
# Communication
f_stat_communication, p_value_communication = stats.f_oneway(communication_full_office, communication_hybrid, communication_full_homeoffice)
communication_analysis_df = pd.DataFrame(
                                    {
                                        col: {
                                         "F_stat": f_stat_communication[col_idx],
                                         "p_value": p_value_communication[col_idx]
                                        }
                                        for col_idx, col in enumerate(communication_full_office.columns)
                                    }
                                    )
communication_analysis_df

Significant F values for
<ul>
<li>Die Teamleitung ist für die Teammitglieder ausreichend ansprechbar, um Probleme oder Schwierigkeiten zu diskutieren.</li>
<li>Konstruktive Kritik kann offen geäußert werden, ohne dass sich jemand persönlich angegriffen fühlt.
<br/>(Besonders schöne F val)</li>
</ul>


In [None]:
# Die Teamleitung ist für die Teammitglieder ausreichend ansprechbar, um Probleme oder Schwierigkeiten zu diskutieren.
# 100% Office vs Hybrid
stat1_fulloffice_hybrid, p_value_var1_fulloffice_hybrid = \
    stats.levene(communication_hybrid["Die Teamleitung ist für die Teammitglieder ausreichend ansprechbar, um Probleme oder Schwierigkeiten zu diskutieren."],
                 communication_full_office["Die Teamleitung ist für die Teammitglieder ausreichend ansprechbar, um Probleme oder Schwierigkeiten zu diskutieren."])
p_value_var1_fulloffice_hybrid #0.8268759967461699: we use equalVariance=True


t_stat1_fulloffice_hybrid, p_value1_fulloffice_hybrid = \
    stats.ttest_ind(communication_hybrid["Die Teamleitung ist für die Teammitglieder ausreichend ansprechbar, um Probleme oder Schwierigkeiten zu diskutieren."],
                    communication_full_office["Die Teamleitung ist für die Teammitglieder ausreichend ansprechbar, um Probleme oder Schwierigkeiten zu diskutieren."], 
                                  equal_var=True)

p_value1_fulloffice_hybrid # 0.00735805709950211: very significant

In [None]:
# Die Teamleitung ist für die Teammitglieder ausreichend ansprechbar, um Probleme oder Schwierigkeiten zu diskutieren.
# 100% home office vs hybrid
stat1_fullhome_hybrid, p_value_var1_fullhome_hybrid = \
    stats.levene(communication_hybrid["Die Teamleitung ist für die Teammitglieder ausreichend ansprechbar, um Probleme oder Schwierigkeiten zu diskutieren."],
                 communication_full_homeoffice["Die Teamleitung ist für die Teammitglieder ausreichend ansprechbar, um Probleme oder Schwierigkeiten zu diskutieren."])
p_value_var1_fullhome_hybrid #0.7448711635373774: we use equalVariance=True

t_stat1_fullhome_hybrid, p_value1_fullhome_hybrid = \
    stats.ttest_ind(communication_hybrid["Die Teamleitung ist für die Teammitglieder ausreichend ansprechbar, um Probleme oder Schwierigkeiten zu diskutieren."],
                    communication_full_homeoffice["Die Teamleitung ist für die Teammitglieder ausreichend ansprechbar, um Probleme oder Schwierigkeiten zu diskutieren."], 
                                  equal_var=True)

p_value1_fullhome_hybrid # 0.36: not significant

In [None]:
# Konstruktive Kritik kann offen geäußert werden, ohne dass sich jemand persönlich angegriffen fühlt.
# 100% office vs Hybrid
stat2_fulloffice_hybrid, p_value_var2_fulloffice_hybrid = \
    stats.levene(communication_hybrid["Konstruktive Kritik kann offen geäußert werden, ohne dass sich jemand persönlich angegriffen fühlt."],
                 communication_full_office["Konstruktive Kritik kann offen geäußert werden, ohne dass sich jemand persönlich angegriffen fühlt."])
p_value_var2_fulloffice_hybrid # 0.07762769487590993: almost significant but lets use equalVariance=True


t_stat2_fulloffice_hybrid, p_value2_fulloffice_hybrid = \
    stats.ttest_ind(communication_hybrid["Konstruktive Kritik kann offen geäußert werden, ohne dass sich jemand persönlich angegriffen fühlt."],
                    communication_full_office["Konstruktive Kritik kann offen geäußert werden, ohne dass sich jemand persönlich angegriffen fühlt."], 
                                  equal_var=True)

p_value2_fulloffice_hybrid # 0.00464367262012637: very significant

In [None]:
# Konstruktive Kritik kann offen geäußert werden, ohne dass sich jemand persönlich angegriffen fühlt.
# 100% home office vs Hybrid
stat2_fullhome_hybrid, p_value_var2_fullhome_hybrid = \
    stats.levene(communication_hybrid["Konstruktive Kritik kann offen geäußert werden, ohne dass sich jemand persönlich angegriffen fühlt."],
                 communication_full_homeoffice["Konstruktive Kritik kann offen geäußert werden, ohne dass sich jemand persönlich angegriffen fühlt."])
p_value_var2_fulloffice_hybrid # 0.006828141956717234: significant: use equalVariance=True

t_stat2_fullhome_hybrid, p_value2_fullhome_hybrid = \
    stats.ttest_ind(communication_hybrid["Konstruktive Kritik kann offen geäußert werden, ohne dass sich jemand persönlich angegriffen fühlt."],
                    communication_full_homeoffice["Konstruktive Kritik kann offen geäußert werden, ohne dass sich jemand persönlich angegriffen fühlt."], 
                                  equal_var=True)

p_value2_fullhome_hybrid # 0.33958763438766415: not significant

<h2>Analysis of Productivity</h2>


In [None]:
# Productivity
f_stat_productivity, p_value_productivity = stats.f_oneway(productivity_full_office, productivity_hybrid, productivity_full_homeoffice)
productivity_analysis_df = pd.DataFrame(
                                    {
                                        col: {
                                         "F_stat": f_stat_productivity[col_idx],
                                         "p_value": p_value_productivity[col_idx]
                                        }
                                        for col_idx, col in enumerate(productivity_full_office.columns)
                                    }
                                    )
productivity_analysis_df