In [None]:
import polars as pl

df = pl.read_csv("../data/Mental_Health_and_Social_Media_Balance_Dataset.csv")
df.head()

In [None]:
df = df.to_dummies(columns=["Gender", "Social_Media_Platform"])
df.head()

In [None]:
df = df.rename({
    'Sleep_Quality(1-10)': 'Sleep_Quality',
    'Stress_Level(1-10)': 'Stress_Level',
    'Exercise_Frequency(week)': 'Exercise_Frequency',
    'Daily_Screen_Time(hrs)':'Daily_Screen_Time',
    'Social_Media_Platform_X (Twitter)' : 'Social_Media_Platform_X',
    'Happiness_Index(1-10)' : 'Happiness_Index'
})

df.head()

In [None]:
from sklearn.linear_model import LinearRegression
import numpy as np

# Extrahiere die relevanten Spalten
X = df['Days_Without_Social_Media'].to_numpy().reshape(-1, 1)
y = df['Happiness_Index'].to_numpy()

# Erstelle und trainiere das Modell
model = LinearRegression()
model.fit(X, y)

# Ausgabe der Koeffizienten und des Achsenabschnitts
print(f"Steigung (Koeffizient): {model.coef_[0]}")
print(f"Achsenabschnitt: {model.intercept_}")

# Vorhersage für die gegebenen Daten
y_pred = model.predict(X)

# Visualisierung der Regression
import seaborn as sns
import matplotlib.pyplot as plt

df_aggregated = df.group_by('Days_Without_Social_Media').agg(pl.col('Happiness_Index').mean().alias("Mean_Happiness_Index"))

sns.barplot(df_aggregated, x='Days_Without_Social_Media', y='Mean_Happiness_Index')
plt.plot(X, y_pred, color='red', label='Regressionslinie')
plt.xlabel('Days_Without_Social_Media')
plt.ylabel('Mean_Happiness_Index')
plt.legend()
plt.show()

In [None]:
from sklearn.linear_model import LinearRegression
import numpy as np

# Extrahiere die relevanten Spalten
X = df['Daily_Screen_Time'].to_numpy().reshape(-1, 1)
y = df['Happiness_Index'].to_numpy()

# Erstelle und trainiere das Modell
model = LinearRegression()
model.fit(X, y)

# Ausgabe der Koeffizienten und des Achsenabschnitts
print(f"Steigung (Koeffizient): {model.coef_[0]}")
print(f"Achsenabschnitt: {model.intercept_}")

# Vorhersage für die gegebenen Daten
y_pred = model.predict(X)

# Visualisierung der Regression
import matplotlib.pyplot as plt

df_aggregated = (
    df.with_columns(
        pl.col('Daily_Screen_Time')
        .cut([x for x in range(1, int(df.select('Daily_Screen_Time').max().item()) + 1)])
        .alias('Binned_Daily_Screen_Time')
    )
    .group_by('Binned_Daily_Screen_Time')
    .agg(
        pl.col('Happiness_Index').mean().alias('Mean_Happiness_Index'),
        pl.col('Daily_Screen_Time').min().alias('Min_Daily_Screen_Time'),
        pl.col('Daily_Screen_Time').max().alias('Max_Daily_Screen_Time'),
    )
    .with_columns((pl.col('Max_Daily_Screen_Time') - pl.col("Min_Daily_Screen_Time")).clip(0.1, 1).alias('Bar_Width'))
    .sort('Min_Daily_Screen_Time')
)
display(df_aggregated)

plt.scatter(X, y, color='blue', label='Datenpunkte')
plt.plot(X, y_pred, color='red', label='Regressionslinie')
plt.bar(
    df_aggregated['Min_Daily_Screen_Time'],
    df_aggregated['Mean_Happiness_Index'],
    width=df_aggregated['Bar_Width'],
    color='green',
    alpha=0.4,
    align='edge',
    label='Mittelwerte'
)
plt.xlabel('Daily_Screen_Time')
plt.ylabel('Mean_Happiness_Index')
plt.legend()
plt.show()

In [None]:
from sklearn.linear_model import LinearRegression
import numpy as np

# Extrahiere die relevanten Spalten
X = df['Days_Without_Social_Media'].to_numpy().reshape(-1, 1)
y = df['Sleep_Quality'].to_numpy()

# Erstelle und trainiere das Modell
model = LinearRegression()
model.fit(X, y)

# Ausgabe der Koeffizienten und des Achsenabschnitts
print(f"Steigung (Koeffizient): {model.coef_[0]}")
print(f"Achsenabschnitt: {model.intercept_}")

# Vorhersage für die gegebenen Daten
y_pred = model.predict(X)

# Visualisierung der Regression
import seaborn as sns
import matplotlib.pyplot as plt

df_aggregated = df.group_by('Days_Without_Social_Media').agg(pl.col('Sleep_Quality').mean().alias("Mean_Sleep_Quality"))

sns.barplot(df_aggregated, x='Days_Without_Social_Media', y='Mean_Sleep_Quality')
plt.plot(X, y_pred, color='red', label='Regressionslinie')
plt.xlabel('Days_Without_Social_Media')
plt.ylabel('Mean_Sleep_Quality')
plt.legend()
plt.show()

In [None]:
from sklearn.linear_model import LinearRegression
import numpy as np

# Extrahiere die relevanten Spalten
X = df['Daily_Screen_Time'].to_numpy().reshape(-1, 1)
y = df['Sleep_Quality'].to_numpy()

# Erstelle und trainiere das Modell
model = LinearRegression()
model.fit(X, y)

# Ausgabe der Koeffizienten und des Achsenabschnitts
print(f"Steigung (Koeffizient): {model.coef_[0]}")
print(f"Achsenabschnitt: {model.intercept_}")

# Vorhersage für die gegebenen Daten
y_pred = model.predict(X)

# Visualisierung der Regression
import matplotlib.pyplot as plt

df_aggregated = (
    df.with_columns(
        pl.col('Daily_Screen_Time')
        .cut([x for x in range(1, int(df.select('Daily_Screen_Time').max().item()) + 1)])
        .alias('Binned_Daily_Screen_Time')
    )
    .group_by('Binned_Daily_Screen_Time')
    .agg(
        pl.col('Sleep_Quality').mean().alias('Mean_Sleep_Quality'),
        pl.col('Daily_Screen_Time').min().alias('Min_Daily_Screen_Time'),
        pl.col('Daily_Screen_Time').max().alias('Max_Daily_Screen_Time'),
    )
    .with_columns((pl.col('Max_Daily_Screen_Time') - pl.col("Min_Daily_Screen_Time")).clip(0.1, 1).alias('Bar_Width'))
    .sort('Min_Daily_Screen_Time')
)
display(df_aggregated)

plt.scatter(X, y, color='blue', label='Datenpunkte')
plt.plot(X, y_pred, color='red', label='Regressionslinie')
plt.bar(
    df_aggregated['Min_Daily_Screen_Time'],
    df_aggregated['Mean_Sleep_Quality'],
    width=df_aggregated['Bar_Width'],
    color='green',
    alpha=0.4,
    align='edge',
    label='Mittelwerte'
)
plt.xlabel('Daily_Screen_Time')
plt.ylabel('Mean_Happiness_Index')
plt.legend()
plt.show()

In [None]:
from sklearn.linear_model import LinearRegression
import numpy as np

# Extrahiere die relevanten Spalten
X = df['Days_Without_Social_Media'].to_numpy().reshape(-1, 1)
y = df['Stress_Level'].to_numpy()

# Erstelle und trainiere das Modell
model = LinearRegression()
model.fit(X, y)

# Ausgabe der Koeffizienten und des Achsenabschnitts
print(f"Steigung (Koeffizient): {model.coef_[0]}")
print(f"Achsenabschnitt: {model.intercept_}")

# Vorhersage für die gegebenen Daten
y_pred = model.predict(X)

# Visualisierung der Regression
import seaborn as sns
import matplotlib.pyplot as plt

df_aggregated = df.group_by('Days_Without_Social_Media').agg(pl.col('Stress_Level').mean().alias("Mean_Stress_Level"))

sns.barplot(df_aggregated, x='Days_Without_Social_Media', y='Mean_Stress_Level')
plt.plot(X, y_pred, color='red', label='Regressionslinie')
plt.xlabel('Days_Without_Social_Media')
plt.ylabel('Mean_Stress_Level')
plt.legend()
plt.show()

In [None]:
from sklearn.linear_model import LinearRegression
import numpy as np

# Extrahiere die relevanten Spalten
X = df['Daily_Screen_Time'].to_numpy().reshape(-1, 1)
y = df['Stress_Level'].to_numpy()

# Erstelle und trainiere das Modell
model = LinearRegression()
model.fit(X, y)

# Ausgabe der Koeffizienten und des Achsenabschnitts
print(f"Steigung (Koeffizient): {model.coef_[0]}")
print(f"Achsenabschnitt: {model.intercept_}")

# Vorhersage für die gegebenen Daten
y_pred = model.predict(X)

# Visualisierung der Regression
import matplotlib.pyplot as plt

df_aggregated = (
    df.with_columns(
        pl.col('Daily_Screen_Time')
        .cut([x for x in range(1, int(df.select('Daily_Screen_Time').max().item()) + 1)])
        .alias('Binned_Daily_Screen_Time')
    )
    .group_by('Binned_Daily_Screen_Time')
    .agg(
        pl.col('Stress_Level').mean().alias('Mean_Stress_Level'),
        pl.col('Daily_Screen_Time').min().alias('Min_Daily_Screen_Time'),
        pl.col('Daily_Screen_Time').max().alias('Max_Daily_Screen_Time'),
    )
    .with_columns((pl.col('Max_Daily_Screen_Time') - pl.col("Min_Daily_Screen_Time")).clip(0.1, 1).alias('Bar_Width'))
    .sort('Min_Daily_Screen_Time')
)
display(df_aggregated)

plt.scatter(X, y, color='blue', label='Datenpunkte')
plt.plot(X, y_pred, color='red', label='Regressionslinie')
plt.bar(
    df_aggregated['Min_Daily_Screen_Time'],
    df_aggregated['Mean_Stress_Level'],
    width=df_aggregated['Bar_Width'],
    color='green',
    alpha=0.4,
    align='edge',
    label='Mittelwerte'
)
plt.xlabel('Daily_Screen_Time')
plt.ylabel('Mean_Happiness_Index')
plt.legend()
plt.show()