# Analyse der Internetnutzung und Schülerleistung

In dieser Analyse untersuchen wir den Zusammenhang zwischen der Internetnutzung und der schulischen Leistung von Schülern. Wir betrachten, wie die Nutzung des Internets das Lernverhalten, die Motivation und die Ergebnisse der Schüler beeinflusst.

Durch die Analyse von Daten zur Internetnutzung und schulischen Leistung können wir wichtige Erkenntnisse gewinnen, die uns helfen, Bildungsstrategien zu verbessern und den Schülern dabei zu helfen, ihr volles Potenzial auszuschöpfen.

Wir werden verschiedene Variablen betrachten, wie z.B. die Zeit, die Schüler online verbringen, die Art der Internetnutzung (z.B. für schulische Zwecke oder Freizeitaktivitäten) und die Auswirkungen auf ihre schulischen Leistungen. Darüber hinaus werden wir auch demografische und sozioökonomische Faktoren berücksichtigen, um ein umfassendes Bild zu erhalten.

Zu Beginn werden die Daten geladen und eine explorative Datenanalyse durchgeführt, um die Verteilung der Variablen zu untersuchen und mögliche Zusammenhänge zu identifizieren. Anschließend werden wir verschiedene statistische Methoden anwenden, um den Zusammenhang zwischen Internetnutzung und Schülerleistung zu untersuchen.


TODO score design für bildungs maßnahmen ergriffen von den Schülern selbst

BildungsScore = Internetnutzung * (inf - com - soc) + Bildungsfreizeit + Analoge Inforamtionen

In [53]:
import pandas as pd
import numpy as np
import plotly.express as px
import statsmodels.api as sm
from statsmodels.formula.api import ols

path_prefix = 'Anabell/Daten/'
path_prefix2 = 'Daten/'

# Load the data
pisa_math = pd.read_csv(path_prefix+'pisaMathe.csv', index_col='Jahr', parse_dates=['Jahr'])
pisa_nature = pd.read_csv(path_prefix+'pisaNatur.csv', index_col='Jahr', parse_dates=['Jahr'])
pisa_reading = pd.read_csv(path_prefix+'pisaLese.csv', index_col='Jahr', parse_dates=['Jahr'])

internet_usage = pd.read_csv(path_prefix+'internetNutzung.csv', index_col='Jahr', parse_dates=['Jahr']).xs('InternetMinuten', drop_level=False, axis=1)
print_usage = pd.read_csv(path_prefix+'printNutzung.csv', index_col='Jahr', parse_dates=['Jahr'])
politics = pd.read_csv(path_prefix+'politischesInteresse.csv', index_col='Jahr', parse_dates=['Jahr'])
music_school_attendance = pd.read_csv(path_prefix+'schulerMusikschulen.csv', index_col='Jahr', parse_dates=['Jahr'])
music_schools = pd.read_csv(path_prefix+'musikSchulenAnzahl.csv', index_col='Jahr', parse_dates=['Jahr'])
inet_usage_cat = pd.read_csv(path_prefix+'JIM.csv', index_col=['Aktivität','Kategorie']).groupby('Kategorie').sum()
inet_usage_cat = inet_usage_cat.T.sort_index()
inet_usage_cat.index.name = 'Jahr'
# extend index to 2000
new_idx = [str(i) for i in range(2000, 2024)]
# set 0 to na
inet_usage_cat = inet_usage_cat.replace(0, np.nan)
inet_usage_cat = inet_usage_cat.reindex(new_idx).bfill()
inet_usage_cat.index = pd.to_datetime(inet_usage_cat.index)

# idea: the upraising pisa scores where interupted by the introduction of social media


In [72]:
# Merge the data
data = pd.concat([pisa_math, pisa_nature, pisa_reading, internet_usage, print_usage, politics, music_school_attendance, music_schools, inet_usage_cat], axis=1).sort_index().ffill().bfill()
data = data.loc['2000':]
#data = data / data.iloc[0,:]
data['score'] = (data['Mathematik'] + data['Naturwissenschaften'] + data['Lesekompetenz']) / 3 
data['score_diff'] = data['score'].diff()
data['score_diff'] = data['score_diff'].replace(0, np.nan).bfill()

In [74]:
# plot pisa
plt_data = data[['Mathematik', 'Naturwissenschaften', 'Lesekompetenz']] - 500
plt_data = pd.concat([plt_data, data['score_diff']], axis=1)
fig = px.line(plt_data, y=['Mathematik', 'Naturwissenschaften', 'Lesekompetenz', 'score_diff'])
fig.update_layout(title='PISA Ergebnisse 2000-2024')
fig.update_yaxes(title='Punkte')
fig.show()

In [57]:
# plot activities
fig = px.line(data, y=['InternetMinuten',
       'Bücher', 'Zeitschriften_Magazine', 'Tageszeitung',
       'PolitikInteresse(prozent)', 'AnzahlSchuler'])
fig.update_layout(title='Aktivitäten 2000-2024')
fig.update_yaxes(title='Werte')
fig.show()

In [58]:
# plot com inf soc and vid
fig = px.line(data, y=['com', 'inf', 'soc'])
fig.update_layout(title='Internetnutzung 2000-2024')
fig.update_yaxes(title='Werte')
fig.show()

In [75]:
# fit a linear model with formula
formula = 'score_diff ~ InternetMinuten + soc'
model = ols(formula, data).fit()
model.summary()

0,1,2,3
Dep. Variable:,score_diff,R-squared:,0.909
Model:,OLS,Adj. R-squared:,0.9
Method:,Least Squares,F-statistic:,99.76
Date:,"Tue, 02 Jul 2024",Prob (F-statistic):,3.94e-11
Time:,21:15:57,Log-Likelihood:,-58.728
No. Observations:,23,AIC:,123.5
Df Residuals:,20,BIC:,126.9
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,38.0314,5.195,7.320,0.000,27.194,48.868
InternetMinuten,-0.1590,0.017,-9.505,0.000,-0.194,-0.124
soc,-0.1008,0.045,-2.236,0.037,-0.195,-0.007

0,1,2,3
Omnibus:,8.881,Durbin-Watson:,1.925
Prob(Omnibus):,0.012,Jarque-Bera (JB):,6.599
Skew:,-1.163,Prob(JB):,0.0369
Kurtosis:,4.214,Cond. No.,1610.0


In [5]:
# fit a linear model
X = data[['InternetMinuten', 'Bücher', 'Zeitschriften_Magazine', 'Tageszeitung', 'PolitikInteresse(prozent)', 'AnzahlSchuler']]
X = sm.add_constant(X)
y = data['score']

model = sm.OLS(y, X).fit()
model.summary()

0,1,2,3
Dep. Variable:,score,R-squared:,0.66
Model:,OLS,Adj. R-squared:,0.54
Method:,Least Squares,F-statistic:,5.498
Date:,"Mon, 01 Jul 2024",Prob (F-statistic):,0.00252
Time:,15:59:21,Log-Likelihood:,71.639
No. Observations:,24,AIC:,-129.3
Df Residuals:,17,BIC:,-121.0
Df Model:,6,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,0.7467,0.149,5.018,0.000,0.433,1.061
InternetMinuten,0.0451,0.024,1.845,0.082,-0.006,0.097
Bücher,0.0222,0.071,0.314,0.757,-0.127,0.171
Zeitschriften_Magazine,-0.0570,0.109,-0.521,0.609,-0.287,0.174
Tageszeitung,0.1791,0.069,2.579,0.020,0.033,0.326
PolitikInteresse(prozent),0.0886,0.063,1.417,0.175,-0.043,0.221
AnzahlSchuler,-0.0034,0.045,-0.074,0.942,-0.099,0.092

0,1,2,3
Omnibus:,0.55,Durbin-Watson:,1.79
Prob(Omnibus):,0.76,Jarque-Bera (JB):,0.627
Skew:,0.144,Prob(JB):,0.731
Kurtosis:,2.262,Cond. No.,196.0
