# Analyse der Internetnutzung und Schülerleistung

In dieser Analyse untersuchen wir den Zusammenhang zwischen der Internetnutzung und der schulischen Leistung von Schülern. Wir betrachten, wie die Nutzung des Internets das Lernverhalten, die Motivation und die Ergebnisse der Schüler beeinflusst.

Durch die Analyse von Daten zur Internetnutzung und schulischen Leistung können wir wichtige Erkenntnisse gewinnen, die uns helfen, Bildungsstrategien zu verbessern und den Schülern dabei zu helfen, ihr volles Potenzial auszuschöpfen.

Wir werden verschiedene Variablen betrachten, wie z.B. die Zeit, die Schüler online verbringen, die Art der Internetnutzung (z.B. für schulische Zwecke oder Freizeitaktivitäten) und die Auswirkungen auf ihre schulischen Leistungen. Darüber hinaus werden wir auch demografische und sozioökonomische Faktoren berücksichtigen, um ein umfassendes Bild zu erhalten.

Zu Beginn werden die Daten geladen und eine explorative Datenanalyse durchgeführt, um die Verteilung der Variablen zu untersuchen und mögliche Zusammenhänge zu identifizieren. Anschließend werden wir verschiedene statistische Methoden anwenden, um den Zusammenhang zwischen Internetnutzung und Schülerleistung zu untersuchen.


TODO score design für bildungs maßnahmen ergriffen von den Schülern selbst

BildungsScore = Internetnutzung * (inf - com - soc) + Bildungsfreizeit + Analoge Inforamtionen

In [92]:
import pandas as pd
import numpy as np
import plotly.express as px
import statsmodels.api as sm
from statsmodels.formula.api import ols

path_prefix2 = 'Anabell/Daten/'
path_prefix = 'Daten/'

# Load the data
pisa_math = pd.read_csv(path_prefix+'pisaMathe.csv', index_col='Jahr', parse_dates=['Jahr'])
pisa_nature = pd.read_csv(path_prefix+'pisaNatur.csv', index_col='Jahr', parse_dates=['Jahr'])
pisa_reading = pd.read_csv(path_prefix+'pisaLese.csv', index_col='Jahr', parse_dates=['Jahr'])

internet_usage = pd.read_csv(path_prefix+'internetNutzung.csv', index_col='Jahr', parse_dates=['Jahr']).xs('Internet Minuten', drop_level=False, axis=1)
print_usage = pd.read_csv(path_prefix+'printNutzung.csv', index_col='Jahr', parse_dates=['Jahr'])
politics = pd.read_csv(path_prefix+'politischesInteresse.csv', index_col='Jahr', parse_dates=['Jahr'])
music_school_attendance = pd.read_csv(path_prefix+'schulerMusikschulen.csv', index_col='Jahr', parse_dates=['Jahr'])
number_of_students = pd.read_csv(path_prefix+'anzahlSchuler.csv', index_col='Jahr', parse_dates=['Jahr'])
#music_schools = pd.read_csv(path_prefix+'musikSchulenAnzahl.csv', index_col='Jahr', parse_dates=['Jahr'])
inet_usage_cat = pd.read_csv(path_prefix+'JIM.csv', index_col=['Aktivität','Kategorie']).groupby('Kategorie').sum()
inet_usage_cat = inet_usage_cat.T.sort_index()
inet_usage_cat.index.name = 'Jahr'
# extend index to 2000
new_idx = [str(i) for i in range(2000, 2024)]
# set 0 to na
inet_usage_cat = inet_usage_cat.replace(0, np.nan)
inet_usage_cat = inet_usage_cat.reindex(new_idx).bfill()
inet_usage_cat.index = pd.to_datetime(inet_usage_cat.index)

# idea: the upraising pisa scores where interupted by the introduction of social media
# TODO: anzahl schüler im verältnis zu schülerzahl insgesamt
# TODO: Delta score vllt besser um impact zu zeigen


In [93]:
# Merge the data
data_raw = pd.concat([pisa_math, pisa_nature, pisa_reading, print_usage, politics, music_school_attendance, internet_usage, inet_usage_cat, number_of_students], axis=1)
data = data_raw.sort_index().ffill().bfill()
data = data.loc['2000':]

In [94]:
data['Internet Gewicht'] = data['Internet Minuten'] / data['Internet Minuten'].loc['2015'].values
data['Info Score Internet'] = data['Information'] / (data['Kommunikation'] + data['Unterhaltungerhaltung'] + data['Soziales Netzwerk'] + data['Information']) * data['Internet Gewicht']
data['Info Score Print'] = (data['Tageszeitung'] + data['Zeitschriften']) / (data['Bücher'] + data['Tageszeitung'] + data['Zeitschriften'])
data['Hobby Score'] = data['Musikschüler'] / data['Schüler in Deutschland']
data['Bildungs Score'] = (data['Info Score Internet'] + data['Info Score Print'] + data['Hobby Score']) / 3
data['PISA Score'] = (data['Mathematik'] + data['Naturwissenschaften'] + data['Lesekompetenz']) / 3

In [106]:
fig = px.line(data, y=['Information', 'Kommunikation','Soziales Netzwerk', 'Unterhaltung'])
fig.update_layout(title='Internetnutzung kumulierte Häufigkeiten',autosize=False, width=800,height=600)
fig.update_yaxes(title='Kumulierte Häufigkeit')
fig.update_layout(legend=dict(
    orientation='h',
    yanchor='bottom',
    y=-0.2,
    xanchor='right',
    x=0.9,
    title=''
))
fig.show()

In [102]:
fig = px.line(data, y=['Bücher','Zeitschriften','Tageszeitung'])
fig.update_layout(title='Printmedien Nutzung mehrmals die Woche (%)',autosize=False, width=800,height=600)
fig.update_yaxes(title='Prozent')
fig.update_layout(legend=dict(
    orientation='h',
    yanchor='bottom',
    y=-0.2,
    xanchor='right',
    x=0.75,
    title=''
))
fig.show()

In [100]:
fig = px.line(data, y=['Info Score Internet', 'Info Score Print', 'Hobby Score', 'Bildungs Score'])
fig.update_layout(title='Scores über die Zeit',autosize=False, width=800,height=600)
fig.update_yaxes(title='Score')
fig.update_layout(legend=dict(
    orientation='h',
    yanchor='bottom',
    y=-0.2,
    xanchor='right',
    x=0.9,
    title=''
))
fig.show()

In [87]:
fig = px.imshow(data.loc[:,['Mathematik', 'Naturwissenschaften', 'Lesekompetenz','Info Score Internet', 'Info Score Print', 'Hobby Score']].corr())
fig.update_layout(title='Correlation Matrix',autosize=False, width=800,height=600)
fig.show()

In [107]:
# plot pisa
fig = px.line(data, y=['Mathematik', 'Naturwissenschaften', 'Lesekompetenz'])
fig.update_layout(title='PISA Ergebnisse 2000-2024',autosize=False, width=800,height=600)
fig.update_yaxes(title='Punkte')
fig.update_layout(legend=dict(
    orientation='h',
    yanchor='bottom',
    y=-0.2,
    xanchor='right',
    x=0.9,
    title=''
))
fig.show()

In [114]:
plt_data = data.loc[:,['PISA Score', 'Bildungs Score']]
plt_data = plt_data / plt_data.loc['2000'].iloc[0]
fig = px.line(plt_data, y=['PISA Score', 'Bildungs Score'])
fig.update_layout(title='Score Vergleiche',autosize=False, width=800,height=600)
fig.update_yaxes(title='Normalisierter Score')
fig.update_layout(legend=dict(
    orientation='h',
    yanchor='bottom',
    y=-0.2,
    xanchor='right',
    x=0.7,
    title=''
))
fig.show()

In [120]:
# fit a linear model with formula
reg_data = data.loc[:,['PISA Score', 'Bildungs Score']]
reg_data.columns = ['PISA_Score', 'Bildungs_Score']
formula = 'PISA_Score ~ Bildungs_Score'
model = ols(formula, reg_data).fit()
model.summary()

0,1,2,3
Dep. Variable:,PISA_Score,R-squared:,0.581
Model:,OLS,Adj. R-squared:,0.562
Method:,Least Squares,F-statistic:,30.5
Date:,"Do, 04 Jul 2024",Prob (F-statistic):,1.5e-05
Time:,23:20:52,Log-Likelihood:,-78.622
No. Observations:,24,AIC:,161.2
Df Residuals:,22,BIC:,163.6
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,424.6681,13.994,30.347,0.000,395.647,453.689
Bildungs_Score,219.3406,39.715,5.523,0.000,136.976,301.705

0,1,2,3
Omnibus:,0.804,Durbin-Watson:,1.074
Prob(Omnibus):,0.669,Jarque-Bera (JB):,0.811
Skew:,-0.264,Prob(JB):,0.667
Kurtosis:,2.271,Cond. No.,32.7


In [122]:
print(model.summary().as_latex())

\begin{center}
\begin{tabular}{lclc}
\toprule
\textbf{Dep. Variable:}    &   PISA\_Score   & \textbf{  R-squared:         } &     0.581   \\
\textbf{Model:}            &       OLS       & \textbf{  Adj. R-squared:    } &     0.562   \\
\textbf{Method:}           &  Least Squares  & \textbf{  F-statistic:       } &     30.50   \\
\textbf{Date:}             & Do, 04 Jul 2024 & \textbf{  Prob (F-statistic):} &  1.50e-05   \\
\textbf{Time:}             &     23:23:59    & \textbf{  Log-Likelihood:    } &   -78.622   \\
\textbf{No. Observations:} &          24     & \textbf{  AIC:               } &     161.2   \\
\textbf{Df Residuals:}     &          22     & \textbf{  BIC:               } &     163.6   \\
\textbf{Df Model:}         &           1     & \textbf{                     } &             \\
\textbf{Covariance Type:}  &    nonrobust    & \textbf{                     } &             \\
\bottomrule
\end{tabular}
\begin{tabular}{lcccccc}
                         & \textbf{coef} & \text