In [None]:
# --- Libraries ---
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns   # nur fuer schoenere Plots (optional)
from scipy import stats
import statsmodels.api as sm
import statsmodels.formula.api as smf

In [None]:
df = pd.read_csv("umfrage.csv")   # oder .xlsx mit read_excel()

In [None]:
# ---------------------------
# 1. DESKRIPTIVE STATISTIK
# ---------------------------

# Beispiel: Trinkhäufigkeit (Frage 7)
print("Deskriptive Statistik - Trinkhäufigkeit")
print(df["trinkhaeufigkeit"].describe())

# Median, Quartile
median = df["trinkhaeufigkeit"].median()
q1 = df["trinkhaeufigkeit"].quantile(0.25)
q3 = df["trinkhaeufigkeit"].quantile(0.75)
print("\nMedian:", median)
print("Quartilsabstand:", q3 - q1)

# Modus
print("\nModus:", df["trinkhaeufigkeit"].mode())

# ---------------------------
# 2. BALKENDIAGRAMM (Kategorien)
# ---------------------------
plt.figure(figsize=(6,4))
df["geschlecht"].value_counts().plot(kind="bar")
plt.title("Geschlecht der Teilnehmenden")
plt.xlabel("Kategorie")
plt.ylabel("Anzahl")
plt.show()

# ---------------------------
# 3. HISTOGRAMM (metrisch kodiert)
# ---------------------------
plt.figure(figsize=(6,4))
plt.hist(df["trinkhaeufigkeit"], bins=[0,1,2,4,7], edgecolor="black")
plt.title("Histogramm Trinkhaeufigkeit (mit ungleichen Klassenbreiten)")
plt.xlabel("Trinkhaeufigkeit (kodiert)")
plt.ylabel("Haeufigkeit")
plt.show()

# ---------------------------
# 4. BOXLOT (Likert-Skalen)
# ---------------------------
plt.figure(figsize=(5,4))
sns.boxplot(y=df["soz_interaktion"])  # Frage 8
plt.title("Einfluss des Alkohols auf soziale Interaktion (1–5)")
plt.show()

# ---------------------------
# 5. KORRELATIONEN
# ---------------------------
variablen = ["trinkhaeufigkeit", "soz_interaktion", "zufriedenheit", "vergleich_mitstud", "vergleich_pop"]
print("\nKorrelationsmatrix:")
print(df[variablen].corr())

# Heatmap (optional)
plt.figure(figsize=(6,5))
sns.heatmap(df[variablen].corr(), annot=True, cmap="coolwarm", vmin=-1, vmax=1)
plt.title("Korrelationsmatrix")
plt.show()

# ---------------------------
# 6. REGRESSION
# Trinkhäufigkeit ~ soziale Interaktion
# ---------------------------
model = smf.ols("trinkhaeufigkeit ~ soz_interaktion", data=df).fit()
print("\nRegressionsergebnis:")
print(model.summary())

# ---------------------------
# 7. t-TEST (Gruppenvergleich)
# z.B. Männer vs. Frauen
# ---------------------------
gruppe1 = df[df["geschlecht"] == "Maennlich"]["trinkhaeufigkeit"]
gruppe2 = df[df["geschlecht"] == "Weiblich"]["trinkhaeufigkeit"]

t_stat, p_value = stats.ttest_ind(gruppe1, gruppe2, equal_var=False)
print("\nT-Test Trinkhaeufigkeit (Maennlich vs. Weiblich)")
print("t-Statistik:", t_stat)
print("p-Wert:", p_value)

# ---------------------------
# 8. KONFIDENZINTERVALL
# fuer Mittelwert Trinkhäufigkeit
# ---------------------------
mean = df["trinkhaeufigkeit"].mean()
std = df["trinkhaeufigkeit"].std()
n = df["trinkhaeufigkeit"].count()

alpha = 0.05  # 95%-KI
t_crit = stats.t.ppf(1 - alpha/2, df=n - 1)

ci_lower = mean - t_crit * std / np.sqrt(n)
ci_upper = mean + t_crit * std / np.sqrt(n)

print("\n95%-Konfidenzintervall fuer die Trinkhaeufigkeit:")
print(f"[{ci_lower:.2f}, {ci_upper:.2f}]")
