# R-Tutorial Data Description: Mit R entlang Gonick und Smith 2005, Kap. 2
Das Classroom - Experiment

Erstellt: 22.05.2015  
Jupyter-Übetragung: 18.12.2018     
Autor: timo.varelmann@uni-koeln.de

Benötigter Datensatz: classroom.csv

Benötigte Pakete: keine

Referenz: Gonick, Larry & Woolcott Smith (2005): The Cartoon Guide to Statistics. New York: Harper.

[1. Vorbereitungen](#vor)  
[1.1. Einlesen der Daten](#ein)  
[1.2 Inspektion des Datensatzes](#insp)  
[1.3 Faktorisierung](#fact)  

[2. Data Description](#descr)   
[2.1 Dot Plot (p.9)](#dot)  
[2.1.1. Speichern einzelner Graphiken im pdf- oder jpeg-Format](#save)  
[2.2 Häufigkeitstabelle und Histogramm (p.10-11)](#haeuf)   
[2.2.1 Häufigkeitstabellen](#table)   
[2.2.1.1 Häufigkeitstabelle mit Klassenintervallen à la Gonick + Smith](#classt)  
[2.2.1.2. Speichern der Häufigkeitstabelle](#save_t)  
[2.2.2 Das Histogramm](#hist)  
[2.3 Stem and Leaf Diagram (p.12)](#stem)  
[2.3.1. Speichern des Outputs einer Code-Zelle](#capture)  
[2.4 Lage- und Streuungsparameter (p.14-25)](#para)  
[2.4.1 Das arithmetische Mittel](#mean)  
[2.4.2 Der Median, Quartilen,...](#median)  
[2.4.3 Der Modalwert](#modus)  
[2.4.4 Interquartilsabstand und Box and Whiskers Plot](#iqr)  
[2.4.5 Varianz und Standardabweichung](#var)  
[2.4.6 Die z-Transformation](#z)

## Vorbereitungen<a name ="vor">
### Einlesen der Daten<a name="ein">
    
csv-Datenformate werden mit der Funktion `read-csv()` eingelesen:

In [44]:
classroom <- read.csv("Classroom.csv", sep=";")

Das Argument `sep=";"` : Beim Speichern der Tabelle im CSV-Format wurden die Daten mit einem Semikolon getrennt. Diese Information benötigt R, um die Daten richtig einzulesen. Bei Tab-getrennten Werten nutze z.B. das Argument `sep="\t"`

Alternative Funktion: `read.csv2()`

In [45]:
classroom <- read.csv2("Classroom.csv")

Aus der R-Dokumentation: "csv2 uses a comma for the decimal point and a semicolon for the separator, the Excel convention for CSV files in some Western European locales."

Weitere wichtige Argumente zum Einlesen von Dateien:
- `dec=","` : Rationale Zahlen werden in R mit dem Punkt getrennt (0.5). Wenn die einzulesende Datei das Komma verwenden (0,5), benötigt R diese Info
- `fill = TRUE / FALSE` (alternativ fill = T / F): Sind die Kolumnen/Zeilen der Tabelle nicht gleichlang oder befinden sich Überschriften in der Datei, kann das Einlesen scheitern. Mit fill=T werden fehlende Werte durch NA ergänzt
- `header = T / F` : Enthält die erste Zeile keine Variablennamen, nutze das Argument header = F . Default ist header = T .

Mehr Info? ->  Nutze z.B. die Eingabe ?Befehl, hier also

In [None]:
?read.csv

Vergleiche z.B.

In [None]:
test1 <- read.csv("Classroom.csv", sep=";", header=F)
print(head(test1))		# Ihr seht in Zeile 1, die Variablennamen sind fälschlicherweile Werte
class(test1) 	# ist Data Frame
class(test1$V2)	# "Gewicht" ist wie alle Werte der Spalte 1 ein Faktor!

mit dem bereits vorhandenen Data Frame `classroom`:

In [None]:
print(head(classroom))		 # wie gewünscht!
class(classroom$Gewicht) # Alle Werte der Spalte 1 sind ganze Zahlen. Males ist wie gewünscht Variablenname

Lösche jetzt test1 wieder ...

In [48]:
rm(test1)

In [None]:
test1 	# ist jetzt gelöscht
ls()		# zeigt alle Objekte im aktuellen Workspace an, 
            # d.h. alle in der aktuellen Sitzung erstellten Objekte plus evtl. geladene Objekte.
		    # test1 erscheint nicht mehr

und führe eine weitere Inspektion des Data frame durch: hier sind einige Funktionen:

### 1.2 Inspektion des Datensatzes <a name="insp">

In [None]:
print(head(classroom))			# Zeigt die Variablennamen + ersten 6 Zeilen des Data frame
print(tail(classroom))			# Zeigt die letzten 6 Zeilen des Data frame

In [None]:
print(nrow(classroom))			# alle Spalten sind gleichlang! length(classroom$Gewicht) ==  length(classroom$Geschlecht)
print(ncol(classroom))			# Anzahl der Spalten
print(names(classroom))		    # Spaltennamen / Variablennamen
print(colnames(classroom))		# same!

In [None]:
class(classroom$Gewicht)	# welche Klasse hat die Variable Gewicht?
class(classroom$Geschlecht)	# welche Klasse hat die Variable Geschlecht?
sapply(classroom, class)	# Bedeutet: führe an dem Objekt classroom die Funktion class() für alle Spalten aus!
					        # Ausgabe ist ein Vektor
str(classroom)			# Zeigt die Struktur des data frame

### 1.3 Faktorisierung <a name="fact">
Da die unabhängige Variable Geschlecht diskret ausgeprägt ist, wandelt sie zum Faktor um:

In [49]:
classroom$Geschlecht <- factor(classroom$Geschlecht)	

Überprüfung:

In [None]:
class(classroom$Geschlecht)
sapply(classroom, class)	
str(classroom)	

## 2. Data Description <a name="descr">

### 2.1 Dot Plot (p.9)<a name="dot">

Da der DotPlot recht selten benutzt wird, erkläre ich den Befehl stripchart nicht so ausführlich. Wenn Ihr aber wollt, gebt ?stripchart ein und schaut Euch die möglichen Argumente an / probiert sie aus.

In [None]:
stripchart(classroom$Gewicht, method="stack")			# Methode stack: Datenpunkte werden übereinander gezeichnet

In [None]:
stripchart(classroom$Gewicht, method="stack", pch = 20)	# mit Spezifizierung point character (pch)

In [None]:
stripchart(classroom$Gewicht , method = "stack", pch = 20, xlab="Weight in Pounds") # mit x-Achsenbeschriftung

besser noch das at=0 Argument mit einfügen:

In [None]:
stripchart(classroom$Gewicht , method = "stack", xlab="Weight in Pounds", at=0, pch = 20)

Zum Abschluss noch ein paar graphische Erweiterungen bzw. Verschönerungen:
- `frame=F`: zeichnet keinen Rahmen
- `xlim=n mit n als Vektor aus zwei Zahlen, die den tiefsten und den höchsten angezeigten Wert der x-Achse bestimmen (zu merken: limes: lat. Grenze)

In [None]:
stripchart(classroom$Gewicht, method = "stack", pch=20, at=0, frame=F, xlim=c(80,220), xlab="Weight in Pounds")

#### 2.1.1. Speichern einzelner Graphiken im pdf- oder jpeg-Format<a name="save">

Speichern einer aktivierten Graphik als pdf (wohin? -> working directory) unter dem Dateinamen dotplot.pdf durch Eingabe folgender Befehlszeilen:

In [None]:
stripchart(classroom$Gewicht, method = "stack", pch=20, at=0, frame=F, xlim=c(80,220), xlab="Weight in Pounds")
dev.copy(pdf,"dotplot.pdf")	 # Kopieren aktivierter Graphik nach Datei ~/dotplot.pfd
dev.off()	                 # der Speichervorgang wird erst jetzt abgeschlossen!

Speichern einer aktivierten Graphik als jpeg (wohin? -> working directory) unter dem Dateinamen dotplot.jpg durch Eingabe folgender Befehlszeilen:

In [None]:
stripchart(classroom$Gewicht, method = "stack", pch=20, at=0, frame=F, xlim=c(80,220), xlab="Weight in Pounds")
dev.copy(jpeg,"dotplot.jpg")	
dev.off()

### 2.2 Häufigkeitstabelle und Histogramm (p.10-11)<a name="haeuf">

### 2.2.1 Häufigkeitstabellen (p. 10)<a name ="table">
Ihr habt bereits den Befehl `table()` kennengelernt. Er gibt absolute Häufigkeiten von jedem Wert an:

In [10]:
table(classroom$Gewicht)


 95 102 108 110 112 115 116 118 120 121 122 123 125 130 131 133 135 136 138 140 
  1   1   2   2   1   2   2   2   3   1   1   1   5   5   1   1   3   1   2   4 
142 145 148 150 153 155 157 160 164 165 170 175 180 185 190 195 215 
  1   5   1  10   1  10   1   4   1   1   4   2   3   1   4   1   1 

In [8]:
table(classroom)	# gibt zudem die Häufigkeiten der Gewichte nach Gechlecht an!

          Gewicht
Geschlecht 95 102 108 110 112 115 116 118 120 121 122 123 125 130 131 133 135
         1  0   0   0   0   0   0   0   0   0   0   0   1   0   2   0   0   2
         2  1   1   2   2   1   2   2   2   3   1   1   0   5   3   1   1   1
          Gewicht
Geschlecht 136 138 140 142 145 148 150 153 155 157 160 164 165 170 175 180 185
         1   1   1   3   1   4   1   7   1  10   1   4   1   1   4   2   3   1
         2   0   1   1   0   1   0   3   0   0   0   0   0   0   0   0   0   0
          Gewicht
Geschlecht 190 195 215
         1   4   1   1
         2   0   0   0

#### 2.2.1.1 Häufigkeitstabelle mit Klassenintervallen à la Gonick + Smith<a name="classt">
Es soll nun zunächst eine Sequenz mit den Werten 87.5 , 102.5, 117.5, ..., 222.5 erstellt werden, also eine Sequenz von 87.5 bis 222.5 in 15er Schritten.

Diese Werte sollen die Intervallgrenzen spezifizieren

In [None]:
classIntervals <- seq(87.5, 222.5, by=15)
#classIntervals 

In [None]:
classroom.cut <- cut(classroom$Gewicht, breaks=classIntervals, dig.lab=4)

In [None]:
table(classroom.cut)

In [None]:
hist(classroom$Gewicht, breaks=classIntervals)

Nun sollen alle Daten den oben spezifizierten Intervallen nach klassifiziert werden.

Hierzu kann der `cut()`-Befehl genutzt werden, der einen Zahlenvektor in Intervallklassen unterteilt.

Jeder Wert des Zahlenvektors wird genau dem Intervall zuordnet, in das es fällt.

Ausgabe ist ein Faktor mit diskreten Intervallklassen

In [None]:
classroom.cut <- cut(classroom$Gewicht, breaks=classIntervals, dig.lab = 4)
print(classroom.cut)

Was ist passiert?

Beispiel: erster Wert aus `classroom$Gewicht`

In [None]:
classroom$Gewicht[1]

wird zugeordnet dem Intervall:

In [None]:
classroom.cut[1]

Klammer `(` bedeutet: exklusive Intervallgrenze links  
Klammer `]` bedeutet: inklusive Intervallgrenze rechts

Nun kann eine Häufigkeitstabelle mit dem Vektor classroom.cut erstellt werden:

In [None]:
table(classroom.cut)

Die Tabelle soll entsprechend Gonick + Smith angeordnet werden:

In [72]:
freq <- cbind(table(classroom.cut))
print(freq)

              [,1]
(87.5,102.5]     2
(102.5,117.5]    9
(117.5,132.5]   19
(132.5,147.5]   17
(147.5,162.5]   27
(162.5,177.5]    8
(177.5,192.5]    8
(192.5,207.5]    1
(207.5,222.5]    1


Nun noch die Spaltenüberschrift:

In [None]:
colnames(freq) <- "Frequency"
print(freq)

Nun soll eine Spalte hinzugefügt werden, welche die relativen Häufigkeiten der Werte eines Klassenintervalls darstellt:

Errechnung durch Teilen der abs. Häufigkeiten durch die Summe aller Werte

In [None]:
table(classroom.cut) / length(classroom.cut)

Hierzu kann auch die Funktion `prop.table()` genutzt werden:

In [None]:
prop.table(table(classroom.cut))

Nun auch hier in die entsprechende Tabellenform gebracht, gerundet und mit Überschrift versehen:

In [None]:
gew.rel <- cbind(prop.table(table(classroom.cut)))
gew.rel <- round(gew.rel,3)
colnames(gew.rel) <- "Rel.Frequency"
print(gew.rel)

Schließlich fügt beide Tabellen zusammen:

In [None]:
mytable <- cbind(freq, gew.rel)
print(mytable)

#### 2.2.1.2. Speichern der Häufigkeitstabelle<a name="save_t">
Speichern im txt-Format (Tab-getrennt), Dateiname: Frequency.Table.txt, Ort: working directory

In [None]:
write.table(mytable, "Frequency.Table.txt", quote=F, sep="\t")	

Bei `quote=TRUE` würden die Intervallspezifizierungen in Anführungsstriche gesetzt

### 2.2.2 Das Histogramm (p.11)<a name="hist">

Die Funktion lautet: `hist()`

In [None]:
hist(classroom$Gewicht)	# mit auf der x-Achse: Intervallgrößen der Klassen; y-Achse: Häufigkeiten der Klassen

Über das breaks-Argument können die Intervallgrößen der Klassen auf der x-Achse spezifiziert werden. Wird breaks durch eine einzige Zahl definiert, so spezifiziert diese Zahl die Anzahl der Säulengrenzen. 

Der classroom-Datensatz wird mit 6 breaks angezeigt, das ergibt Säulenintervalle von 20. Wie sähe das Histogramm mit 3 breaks (doppelt so große Intervalle) oder 12 breaks (halb so große Intervalle) aus?

In [None]:
hist(classroom$Gewicht, breaks=3)

In [None]:
hist(classroom$Gewicht, breaks=12)

Ein beträchtlicher Nachteil dieser Spezifizierungen ist, dass nur die Anzahl der breaks, nicht aber deren Position bestimmt wird und selbst die Anzahl nicht in allen Fällen spezifiziert werden kann! siehe

In [None]:
hist(classroom$Gewicht, breaks=5)

ist gleich:

In [None]:
hist(classroom$Gewicht, breaks=7)

LÖSUNG: ist breaks ein numerischer Vektor, nicht eine einfache Zahl, dann stellen alle Elemente des Vektors Intervallgrenzen dar

In [None]:
print(range(classroom$Gewicht))  #Vektor mit kleinstem und größtem Wert

Histogramm mit einer einzigen Klasse, Intervallgröße = Spannweite (zugegeben: diese Darstellung macht wenig Sinn):

In [None]:
hist(classroom$Gewicht, breaks=range(classroom$Gewicht))

Histogramm mit 2 beliebig gewählten Intervallen / Klassen:

In [None]:
hist(classroom$Gewicht, breaks=c(80,150,220))

Hier noch ein Beispiel eines Histogramms mit 2 Klassen, Intervallgröße = halbe Spannweite

In [None]:
hist(classroom$Gewicht, breaks=c(range(classroom$Gewicht)[1], sum(range(classroom$Gewicht))/2, range(classroom$Gewicht)[2]))

Nun sollen die Säulenintervalle entsprechend Gonick + Smiths angepasst werden. Hier wären das die Werte 87.5 , 102.5, 117.5, ..., 222.5  also eine Sequenz von 87.5 bis 222.5 in 15er Schritten

In [None]:
hist(classroom$Gewicht, breaks=seq(from=87.5, to=222.5, by=15))

Nun noch die Beschriftungen:

In [None]:
hist(classroom$Gewicht, breaks=seq(87.5, 222.5, by=15), xlab="Weight in Pounds", main="Histogram Classroom Experiment")

Und ein paar optische Verbesserungen. Die x-Achse wird zunächst nicht gezeichnet (`xaxt='n'`) und hinterher genau bestimmt und hinzugefügt:

In [None]:
hist(classroom$Gewicht, breaks=seq(87.5, 222.5, by=15), xaxt='n', ylim=c(0,30),xlab="Weight in Pounds", 
	main="Histogram Classroom Experiment", col="azure3",las=1)
    axis(side=1, at=seq(87.5, 222.5, by=15))

Gebt ?hist ein, wenn Ihr weitere Argumente betrachten / auszuprobieren wollt

### 2.3 Stem and Leaf Diagram (p.12) <a name="stem">
zu deutsch u.a. Stamm-Blatt-Diagramm
    
Funktion: `stem()`
   

In [None]:
stem(classroom$Gewicht)

Durch Bestimmung des Arguments `scale=2` wird die Stammlänge verdoppelt ==> gewünschte Stammeinheiten

In [None]:
stem(classroom$Gewicht, scale=2)

Die Dezimalstelle befindet sich 1 Zahl rechts vom Trennungsstrich |   
10 | 288 wird folglich interpretiert: der Datensatz enthält den Wert 102 einmal sowie den Wert 108 zweimal       

#### 2.3.1. Speichern des Outputs einer Code-Zelle <a name="capture">

Die Möglichkeiten des Speicherns sind begrenzt, denn das Diagramm wird nicht als Graphik gezeichnet. Es ist lediglich der Output vorhanden.
Dieser kann aber exportiert werden durch den `capture.output()`-Befehl

Hierunter wird das Stamm-Blatt-Diagramm in eine Datei mit dem Namen "Stem.Leaf.doc" exportiert, Speicherort working directory:

In [91]:
capture.output(stem(classroom$Gewicht,scale=2), file="Stem.Leaf.doc")

### 2.4 Lage- und Streuungsparameter (ab p.14)<a name="para">
    
Gewicht ist verhältnisskaliert, entsprechend sollen einige bedeutsame statistische Berechungen durchgeführt werden.

Zum Verringern der Schreibarbeit Teilmengen des Data Frame für männliche und weibliche Personen:

In [93]:
class.male   <- classroom[which(classroom$Geschlecht == 1),]
class.female <- classroom[which(classroom$Geschlecht == 2),]

#### 2.4.1 Das arithmetische Mittel<a name="mean">

In [None]:
mean(class.male$Gewicht)	# Mittelwert der Männergewichte

mean(class.female$Gewicht)	# Mittelwert der Frauengewichte

mean(classroom$Gewicht)		# Mittelwert der angegebenen Gewichte der gesamten Schulklasse

Bemerkung: In diesem Datensatz gibt es keine `NA`, nicht verfügbare Daten. Wäre dies der Fall, wäre das Ergebnis der Mittelwertbewerchnungen NA, also nicht verfügbar. 

Das Argument `na.rm=T` bzw. `na.rm=TRUE` würde hier Abhilfe verschaffen: bei der Berechnung des Mittelwerts würden NAs nicht berücksichtigt:

In [None]:
mean(classroom$Gewicht, na.rm=T)

#### 2.4.2 Der Median, Quartilen, ...<a name="median">

In [None]:
median(class.male$Gewicht)	# Median der Männergewichte

median(class.female$Gewicht)	# Median der Frauengewichte

median(classroom$Gewicht)	# Median der angegebenen Gewichte der gesamten Schulklasse

Die Funktion ´quantile()` gibt an: Kleinster Wert, 1., 2. (=Median), und 3. Quartil, Größter Wert, z.B.

In [99]:
print(quantile(class.male$Gewicht))

  0%  25%  50%  75% 100% 
 123  145  155  170  215 


Übersichtlicher, plus Angabe des Arithmetischen Mittels:

In [101]:
summary(class.male$Gewicht)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  123.0   145.0   155.0   158.3   170.0   215.0 

### 2.4.3 Der Modalwert<a name="modus">

Der Modalwert/Modus wäre  150:

In [None]:
which.max(table(classroom$Gewicht))	# zeigt an: Modus=150. Der 24. Wert in der Häufigkeitstabelle table(classroom$Gewicht)

Und kann natürlich auch für die Geschlechter getrennt errechnet werden.

Und nun noch meine eigene Modus-Funktion, mit welcher mehrere Modalwerte anzeigen kann

In [None]:
modus <- function(x) table(x)[which(table(x) == max(table(x)))]
modus(classroom$Gewicht)

Es gibt tatsächlich zwei Modalwerte 150 und 155 (mit der Häufigkeit 10)

### 2.4.4 Interquartilsabstand und Box and Whiskers Plot (p.20-21)<a name="iqr">

Interquartile Range: $Q3-Q1$

In [None]:
IQR(classroom$Gewicht)

Und schließlich der boxplot() Befehl

In [None]:
boxplot(classroom$Gewicht)

Oder getreu der Graphik in Gonick + Smith:

In [None]:
boxplot(classroom$Gewicht, horizontal = TRUE)

Getrennt nach Männer uns Frauen:

In [None]:
boxplot(class.male$Gewicht, class.female$Gewicht, names = c("Males","Females"), 
	main="Boxplot Classroom Experiment", ylab="Weight in Pounds")

### 2.4.5 Varianz und Standardabweichung<a name="var">

Hier die Daten aus Gonick + Smith 2005, p. 22:

In [None]:
werte <- c(3,5,7,7,38)

Die Varianz wird errechnet über den Befehl `var()` ...

In [None]:
var(werte)

und die Standardabweichung über den Befehl `sd()`:

In [None]:
sd(werte)

Sie ist die Quadratwurzel `sqrt()` der Varianz

In [None]:
sqrt(var(werte)) == sd(werte)

Mit den Daten des Classroom Experiments:

In [None]:
mean(classroom$Gewicht)
var(classroom$Gewicht)
sd(classroom$Gewicht)

Nun noch ein Säulendiagramm mit den Gewichts-Mittelwerten von Männern und Frauen

In [None]:
barplot(c(mean(class.male$Gewicht), mean(class.female$Gewicht)), ylim=c(0,200),
	names.arg=c("males","females"), ylab="weight (pounds)",main="Classroom Experiment: m/f Means",
	col=c("khaki2","khaki3"))

### 2.4.6 Die z-Transformation (p.24)<a name="z">

Die Formel ist ja:   

$\frac{x_i - \bar{x}}{s}$ 
 
(x-mittelwert)/standardabweichung  

Z-Transformation für den Wert 175 bzgl. aller Gewichte der Klasse:

In [None]:
(175-mean(classroom$Gewicht))/sd(classroom$Gewicht)

175 liegt in diesem Datensatz 1,2573 mal die Standardabweichung vom Mittelwert entfernt.

Noch eleganter wäre natürlich eine eigene z-Score-Funktion, die sich auf beliebige Datensätze übertragen ließe. Ein Standard-Befehl in R ist der `scale()`-Befehl, mit dem z-Werte für alle Zahlenvektorelemente errechnet werden:

In [None]:
print(scale(classroom$Gewicht))	# Unterhalb der z-scores ist zusätzlich angegeben: mean und sd; Ausgabe als Matrix

Hier eine eigene Funktion, mit der ganz einfach einzelne oder mehrere z-Werte errechnet werden können:

In [113]:
zscore <- function(x,data) {		# Erstelle eine Funktion zscore mit den Argumenten x und data in genau dieser Reihenfolge
            dif <- x-mean(data)		# Erster Schritt: Differenz von x und dem Mittelwert von data 
                                    # (Objekt dif befindet sich nur in der INTERNEN Umgebung dieser Funktion)
            res <- dif/sd(data)		# Zweiter Schritt: Resultat aus der Division Differenz / Standardabw. von data (
                                    # (Objekt res befindet sich nur in der INTERNEN Umgebung dieser Funktion)
            return(res)				# gibt den/die Wert/e von res in die EXTERNE Umgebung aus
          }

In [None]:
zscore(x=100,data=classroom$Gewicht)

In [None]:
zscore(200,classroom$Gewicht)          # Default- Reihenfolge der Argumente!

200 Pfund: z-transformierte Werte für männliche und weibliche Personen:

In [None]:
zscore(200,class.male$Gewicht) ; zscore(200,class.female$Gewicht)

Bedeutet:

Männer: der Wert 200 Pfund liegt 2,23957 Standardabweichungen über dem Mittelwert der Gewichte aller Männer  
Frauen: der Wert 200 Pfund liegt dagegen 5,69845 Standardabweichungen über dem Mittelwert der Gewichte aller Frauen

In [None]:
#### ENDE DES TUTORIALS #####