# Ylioppilastutkintodata

Tämä R-kielinen notebook käyttää Vipunen API:n kautta ladattua Suomen ylioppilastutkintadataa. Notebookin ohjeet ovat suomeksi, koska datan otsakkeet ovat suomeksi ja käytännössä dataa on vaikea käpistellä ymmärtämättä suomea. Koodi ja kommentit ovat kuitenkin englanniksi.

Aloita ajamalla allaoleva koodinpätkä, joka lataa datan. Koodin voit ajaa valitsemalla solun ja painamalla ctrl+R tai klikkaamalla ylärivin play-nappia. Huomaathan, että datan lataus kestää useita minuutteja. Myöskin kirjastojen lataaminen aiheuttaa varoituksia, joista ei tarvitse huolestua.

In [None]:
library(jsonlite)
library(dplyr)
library(tidyr)
library(ggplot2)

df <- fromJSON("http://api.vipunen.fi/api/resources/ytl_arvosanat/data")

In [None]:
df17K <- df %>% 
  mutate(arvosanapisteet=as.numeric(arvosanapisteet)) %>% 
  filter(tutkintokertaKoodi=="2017K")
print("Kaikkien aineistossa olevien kokeiden arvosanojen jakauma")
df17K %>% select(arvosanapisteet) %>% summary()

## Koekoodit

Kokeiden käsittelyssä on helpompi käyttää kokeiden täysien nimien sijaan koekoodeja. Käytetyt koodit ja niitä vastaavat kokeet voidaan hakea alla olevalla koodille. 

In [None]:
koeKoodit = select(df, koeKoodi, koe) %>% distinct()
print("Aineistossa käytetyt koekoodit ja niitä vastaavat selitteet")
print(koeKoodit)

## Englanti, pitkä oppimäärä

Tarkastellaan ensin opetuskielen ja pitkän englannin suhdetta. Voidaanko ruotsin- ja suomenkielisten taidoissa nähdä olevan eroja?


In [None]:
options(repr.plot.width=6, repr.plot.height=3)
df17K %>% filter(koeKoodi=="EA") %>% 
    ggplot() + geom_histogram(aes(arvosanapisteet),binwidth = 1) +
  facet_grid(~opetuskieli) + ggtitle("Pitkän englannin arvosanat opetuskielittäin")


# Äidinkieli

Alla piirretään kaikkien äidinkielen kokeiden arvosanojen jakauma sukupuolittain. Äidinkielen kokeita aineistossa on suomen (A), ruotsin (O), pohjoissaamen (Z) ja inarinsaamen (I) kielillä.

In [None]:
df17K %>% filter(koeKoodi %in% c("A", "O", "I", "Z")) %>% 
    ggplot() + geom_histogram(aes(arvosanapisteet),binwidth = 1) +
  facet_grid(~sukupuoli) + ggtitle("Äidinkielen kokeiden arvosanat")

## Matematiikka

Piirretään pitkän sekä lyhyen matematiikan arvosanajakaumat sukupuolittain.

In [None]:
df17K %>% filter(koeKoodi=="M") %>% 
    ggplot() + geom_histogram(aes(arvosanapisteet),binwidth = 1) +
  facet_grid(~sukupuoli) + ggtitle("Pitkän matematiikan arvosanat")

In [None]:
df17K %>% filter(koeKoodi=="N") %>% 
    ggplot() + geom_histogram(aes(arvosanapisteet),binwidth = 1) +
  facet_grid(~sukupuoli) + ggtitle("Lyhyen matematiikan arvosanat")

Seuraavaksi voi soveltaa ja kokeilla omia hakujasi dataan. Koodilaatikoita voi lisätä perään Insert > Insert Cell Below.