In [1]:
#Packages importieren
import pandas as pd #Package zur Datenanalyse
import numpy as np #Package für numerische Daten
import matplotlib.pyplot as plt
%matplotlib inline
import statistics as stat #Statistikpackage für Mittelwertberechnung o.ä.
import seaborn as sns #Package zum Plotten nach Gruppe

In [3]:
#Einlesen des Datensatzes
hsb = pd.read_csv('../data/mathe.csv', sep=';', decimal = ",") #Separator spezifizieren

FileNotFoundError: [Errno 2] No such file or directory: '../data/Mathe.csv'

In [None]:
#Erster Blick in die Daten
hsb

In [None]:
#Deskriptiv-Beispiel: Mittelwert der Matheleistung
np.mean(hsb["MathAch"])
np.std(hsb["MathAch"])

In [None]:
#Schulebene: Scatterplot des mittleren SES (x) und der Schulgröße (Schüleranzahl)
x=hsb.MeanSES
y1=hsb.Size

plt.scatter(x,y1)
plt.xlabel("Mittlerer SES der Schule (standardisiert)")
plt.ylabel("Schulgröße [Anzahl SchülerInnen]")
plt.title("(Kein) Zusammenhang zwischen Schulgröße und mittlerem SES", fontsize = 12)


In [None]:
#Mittlerer SES mit zwei Variablen / Plots
fig, ax = plt.subplots(1,2, figsize = (14,6))
y2=hsb.Sector
ax[0].scatter(x, y1, c="Blue", label="SES mit Size")
ax[1].scatter(x, y2, c="Orange", label="SES mit Sector")

fig.legend()

ax[0].set_title("Zusammenhang Schulgröße und mittlerer SES")
ax[0].set_ylabel("Schüleranzahl")
ax[0].set_xlabel("SES der Schule")
ax[1].set_title("Zusammenhang Schulsektor und mittlerer SES")
ax[1].set_xlabel("Mittlerer SES")
ax[1].set_ylabel("Sektor")

In [None]:
#Zusammenhänge der einzelnen SchülerInnen: Zusammenhang zwischen SES und Matheleistung, getrennt nach Geschlechtern
x2=hsb[hsb.Sex=="Male"].SES
y3=hsb[hsb.Sex=="Male"].MathAch
x3=hsb[hsb.Sex=="Female"].SES
y4=hsb[hsb.Sex=="Female"].MathAch

fig, ax = plt.subplots(1,2, figsize = (25,10))
ax[0].scatter(x2, y3, c="Pink", label="SES der Männer mit Mathe")
ax[1].scatter(x3, y4, c="Blue", label="SES der Frauen mit Mathe")

fig.legend()
ax[0].set_xlabel("SES des Mannes", size=15)
ax[1].set_xlabel("SES der Frau", size=15)
ax[0].set_ylabel("Matheleistung", size=15)
ax[1].set_ylabel("Matheleistung", size=15)
ax[0].set_xlim(-4,3)
ax[1].set_xlim(-4,3)
ax[0].set_title("Zusammenhang SES/MathAch bei Männern", size=20)
ax[1].set_title("Zusammenhang SES/MathAch bei Frauen", size=20)

In [None]:
#Barplots: Mittlere Matheleistung zwischen 
MeanM = np.mean(hsb[hsb.Sex=="Male"].MathAch)
MeanF = np.mean(hsb[hsb.Sex=="Female"].MathAch)
data = {'Sex': ['Male', 'Female'], 'Mean': [MeanM, MeanF]}  
df = pd.DataFrame(data)

fig = plt.figure()
ax = fig.add_axes([0,0,1,1])
ax.bar(df.Sex,df.Mean, color = ["Pink", "Blue"])
plt.show()

In [None]:
#Scatterplot und Lineare Regression: Vorhersage von MathAch nach SES getrennt nach Bevölkerungsgruppe
SESMin = hsb[hsb.Minority=="Yes"].SES
SESMax = hsb[hsb.Minority=="No"].SES
MathMin = hsb[hsb.Minority=="Yes"].MathAch
MathMax = hsb[hsb.Minority=="No"].MathAch

from sklearn.linear_model import LinearRegression
model1 = LinearRegression()
model2 = LinearRegression()

x1 = np.array(SESMin).reshape(-1,1)
x2 = np.array(SESMax).reshape(-1,1)
y1 = np.array(MathMin)
y2 = np.array(MathMax)

model1.fit(x1, y1).intercept_
model1.fit(x1, y1).coef_

model2.fit(x2, y2).intercept_
model2.fit(x2, y2).coef_

fig, ax = plt.subplots(figsize=(7,6))

ax.scatter(SESMin, MathMin, s=2, label="Minderheit")
ax.scatter(SESMax, MathMax, s=2, label="Mehrheit")
ax.set_xlim(-4,3)
ax.set_xlim(-5,3)
plt.legend(fontsize=10, loc=0)

x = np.linspace(-4,3,100)
y1 = model1.intercept_ + model1.coef_*x
y2 = model2.intercept_ + model2.coef_*x
plt.plot(x,y1)
plt.plot(x,y2)
plt.xlabel("SES")
plt.ylabel("MathAch")
plt.title("Vorhersage von MathAch nach SES getrennt nach Bevölkerungsgruppe")

In [None]:
fig, ax = plt.subplots(figsize=(7,6))
ax.boxplot([hsb[hsb.Minority=="Yes"].MathAch, hsb[hsb.Minority=="No"].MathAch])
ax.set_xticklabels(["Minority", "Majority"])
plt.xlabel("Gruppe")
plt.ylabel("MathAch")
plt.title("Verteilung der MathAch getrennt nach Bevölkerungsgruppe")

In [None]:
fig, ax = plt.subplots(1,3,figsize=(20,10))
sns.boxplot(x='Minority', y='MathAch', data=hsb, palette="OrRd", ax=ax[0]).set(title="Matheleistung nach Minoritätenzugehörigkeit")
sns.boxplot(x='Sex', y='MathAch', data=hsb, palette="Greens", ax=ax[1]).set(title="Matheleistung nach Geschlecht")
sns.boxplot(x='Sector', y='MathAch', data=hsb, palette="Purples", ax=ax[2]).set(title="Matheleistung nach Schulart")
fig.suptitle("Matheleistung nach Gruppenzugehörigkeit", fontsize = 24)
fig.savefig('Boxplots.pdf')