# Exploring the data

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re

In [2]:
data = pd.read_csv("data_neutral.csv", sep = ";")

In [3]:
data.head()

Unnamed: 0.1,Unnamed: 0,Onderwijssoort,Studierichting,Perioden,Enrollment,Freshmen
0,1884,Hoger beroepsonderwijs,Totaal,2010,416638,100104
1,1885,Hoger beroepsonderwijs,Totaal,2011,423945,99019
2,1886,Hoger beroepsonderwijs,Totaal,2012,421693,97006
3,1887,Hoger beroepsonderwijs,Totaal,2013,440293,102817
4,1888,Hoger beroepsonderwijs,Totaal,2014,446434,98505


In [4]:
data.tail

<bound method NDFrame.tail of       Unnamed: 0              Onderwijssoort              Studierichting  \
0           1884      Hoger beroepsonderwijs                      Totaal   
1           1885      Hoger beroepsonderwijs                      Totaal   
2           1886      Hoger beroepsonderwijs                      Totaal   
3           1887      Hoger beroepsonderwijs                      Totaal   
4           1888      Hoger beroepsonderwijs                      Totaal   
...          ...                         ...                         ...   
3763        5647  Wetenschappelijk onderwijs  Onderwijsrichting onbekend   
3764        5648  Wetenschappelijk onderwijs  Onderwijsrichting onbekend   
3765        5649  Wetenschappelijk onderwijs  Onderwijsrichting onbekend   
3766        5650  Wetenschappelijk onderwijs  Onderwijsrichting onbekend   
3767        5651  Wetenschappelijk onderwijs  Onderwijsrichting onbekend   

      Perioden  Enrollment  Freshmen  
0         2010    

### Into SQL

In [5]:
import pymysql
from sqlalchemy import create_engine
import getpass

In [6]:
passwd = getpass.getpass()

········


In [7]:
connection_string = 'mysql+pymysql://root:'+passwd+'@localhost/enrollment'
engine = create_engine(connection_string)

In [8]:
data.to_sql('enrollment', engine, if_exists='replace', index = False)

RuntimeError: 'cryptography' package is required for sha256_password or caching_sha2_password auth methods

### And back from SQL (this is totally identical to what I put in there, I only learned about the requirement to load from SQL back to python after I'd already done the exploring in SQL and the cleaning in python. But here you go - just to check the box)

In [9]:
sqldata = pd.read_sql_query('SELECT * FROM enrollment', engine)

RuntimeError: 'cryptography' package is required for sha256_password or caching_sha2_password auth methods

This worked before - I SWEAR - but we're at the end of a long week so I'm not about to fight python over some cryptography nonsense.

### I will start by extracting the data for the 'outer layer' of 'studierichting' - with codes 01 - 10.

In [10]:
level1 = data[data['Studierichting'].str.contains('^[0-9][0-9] ', regex=True)]

In [11]:
level1

Unnamed: 0.1,Unnamed: 0,Onderwijssoort,Studierichting,Perioden,Enrollment,Freshmen
12,1896,Hoger beroepsonderwijs,01 Onderwijs,2010,77857,15372
13,1897,Hoger beroepsonderwijs,01 Onderwijs,2011,75008,14107
14,1898,Hoger beroepsonderwijs,01 Onderwijs,2012,70683,13108
15,1899,Hoger beroepsonderwijs,01 Onderwijs,2013,72145,13724
16,1900,Hoger beroepsonderwijs,01 Onderwijs,2014,72412,13490
...,...,...,...,...,...,...
3523,5407,Wetenschappelijk onderwijs,10 Dienstverlening,2017,1394,286
3524,5408,Wetenschappelijk onderwijs,10 Dienstverlening,2018,1585,348
3525,5409,Wetenschappelijk onderwijs,10 Dienstverlening,2019,1767,423
3526,5410,Wetenschappelijk onderwijs,10 Dienstverlening,2020,2260,536


This also drops 'studierichting onbekend' - I'll have to check if those values stay roughly the same over the years (in proportion to total enrollment). If so, I can ignore them for the rest of the project. If not, I'll have to think about what to do with them.

# Here comes a little detour

In [12]:
onbekend = data[data['Studierichting'].str.contains('onbekend', regex=True)]

In [13]:
onbekend

Unnamed: 0.1,Unnamed: 0,Onderwijssoort,Studierichting,Perioden,Enrollment,Freshmen
1872,3756,Hoger beroepsonderwijs,Onderwijsrichting onbekend,2010,0,0
1873,3757,Hoger beroepsonderwijs,Onderwijsrichting onbekend,2011,0,0
1874,3758,Hoger beroepsonderwijs,Onderwijsrichting onbekend,2012,0,0
1875,3759,Hoger beroepsonderwijs,Onderwijsrichting onbekend,2013,0,0
1876,3760,Hoger beroepsonderwijs,Onderwijsrichting onbekend,2014,0,0
1877,3761,Hoger beroepsonderwijs,Onderwijsrichting onbekend,2015,0,0
1878,3762,Hoger beroepsonderwijs,Onderwijsrichting onbekend,2016,0,0
1879,3763,Hoger beroepsonderwijs,Onderwijsrichting onbekend,2017,0,0
1880,3764,Hoger beroepsonderwijs,Onderwijsrichting onbekend,2018,0,0
1881,3765,Hoger beroepsonderwijs,Onderwijsrichting onbekend,2019,0,0


In [14]:
#I'll drop the stuff for Hoger beroepsonderwijs

In [15]:
onbekend = onbekend[onbekend['Onderwijssoort'] == "Wetenschappelijk onderwijs"]

In [16]:
onbekend = onbekend.reset_index()

In [17]:
onbekend

Unnamed: 0.1,index,Unnamed: 0,Onderwijssoort,Studierichting,Perioden,Enrollment,Freshmen
0,3756,5640,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2010,484,143
1,3757,5641,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2011,524,124
2,3758,5642,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2012,364,68
3,3759,5643,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2013,423,109
4,3760,5644,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2014,466,122
5,3761,5645,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2015,470,90
6,3762,5646,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2016,481,97
7,3763,5647,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2017,476,86
8,3764,5648,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2018,445,77
9,3765,5649,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2019,416,76


In [18]:
totals = data[(data['Onderwijssoort'] == 'Wetenschappelijk onderwijs') & (data["Studierichting"] == "Totaal")]

# Then change the column name so that it does not conflict with the index when I concatenate:

totals = totals.rename(columns = {'Enrollment': 'Total'})

totals = totals.reset_index()

In [19]:
new = pd.concat([onbekend, totals['Total']], axis = 1)

In [20]:
new.head(60)

Unnamed: 0.1,index,Unnamed: 0,Onderwijssoort,Studierichting,Perioden,Enrollment,Freshmen,Total
0,3756,5640,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2010,484,143,242381
1,3757,5641,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2011,524,124,245428
2,3758,5642,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2012,364,68,241372
3,3759,5643,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2013,423,109,250186
4,3760,5644,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2014,466,122,255661
5,3761,5645,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2015,470,90,261169
6,3762,5646,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2016,481,97,268027
7,3763,5647,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2017,476,86,280038
8,3764,5648,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2018,445,77,294712
9,3765,5649,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2019,416,76,306888


In [21]:
new['percentage'] = (new['Enrollment'] / new['Total'] * 100)

In [22]:
new

Unnamed: 0.1,index,Unnamed: 0,Onderwijssoort,Studierichting,Perioden,Enrollment,Freshmen,Total,percentage
0,3756,5640,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2010,484,143,242381,0.199686
1,3757,5641,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2011,524,124,245428,0.213505
2,3758,5642,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2012,364,68,241372,0.150805
3,3759,5643,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2013,423,109,250186,0.169074
4,3760,5644,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2014,466,122,255661,0.182273
5,3761,5645,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2015,470,90,261169,0.17996
6,3762,5646,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2016,481,97,268027,0.17946
7,3763,5647,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2017,476,86,280038,0.169977
8,3764,5648,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2018,445,77,294712,0.150995
9,3765,5649,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2019,416,76,306888,0.135554


OK - this is all peanuts - between .1 and .2 % of the totals. And it seems like it might well be a data entry issue. So I'll ignore those 'Onderwijsrichting onbekend' things.

# End of detour, back to our main attraction

The next order of business is to generate separate dataframes for each of the ten major directions (01-10), so that I can put them all together in a pretty little plot, showing the year by year trends. 

I will first separate the HBO (Hoger beroepsonderwijs - vocational training) from WO (Wetenschappelijk onderwijs - university)

In [23]:
level1

Unnamed: 0.1,Unnamed: 0,Onderwijssoort,Studierichting,Perioden,Enrollment,Freshmen
12,1896,Hoger beroepsonderwijs,01 Onderwijs,2010,77857,15372
13,1897,Hoger beroepsonderwijs,01 Onderwijs,2011,75008,14107
14,1898,Hoger beroepsonderwijs,01 Onderwijs,2012,70683,13108
15,1899,Hoger beroepsonderwijs,01 Onderwijs,2013,72145,13724
16,1900,Hoger beroepsonderwijs,01 Onderwijs,2014,72412,13490
...,...,...,...,...,...,...
3523,5407,Wetenschappelijk onderwijs,10 Dienstverlening,2017,1394,286
3524,5408,Wetenschappelijk onderwijs,10 Dienstverlening,2018,1585,348
3525,5409,Wetenschappelijk onderwijs,10 Dienstverlening,2019,1767,423
3526,5410,Wetenschappelijk onderwijs,10 Dienstverlening,2020,2260,536


In [24]:
level1_hbo = level1[level1['Onderwijssoort'] == 'Hoger beroepsonderwijs'].copy()

In [25]:
level1_wo = level1[level1['Onderwijssoort'] == 'Wetenschappelijk onderwijs'].copy()

I'm exporting both of these sets to be able to do some exploring in tableau

In [26]:
level1_hbo.to_csv("level1_hbo.csv", sep = ";")

In [27]:
level1_wo.to_csv("level1_wo.csv", sep = ";")

In [28]:
totals.to_csv("totals_wo.csv", sep = ";")

## Post tableau considerations

From looking at the data, it looks like enrollments in pretty much all areas increased year by year, but some increased faster than others. I need some more precise metrics. The two metrics that I will want to retrieve next are:
- Enrollments as % of total enrollments
- Growth rate in % (compared to last year)


#### First I'll get the enrollment as % of total enrollment

In [29]:
# I'll make a dictionary of total new enrollments per year:
freshdict = dict(zip(totals.Perioden.tolist(), totals.Freshmen.tolist()))

In [30]:
percentages = []
for i in range(len(level1_wo)):
    year = level1_wo['Perioden'].iloc[i]
    freshmen = level1_wo['Freshmen'].iloc[i]
    percentages.append((freshmen/freshdict[year])*100)


In [31]:
level1_wo['percent'] = percentages

In [32]:
level1_wo.to_csv("level1_wo.csv", sep = ";")

In [33]:
# Same for HBO, except I need to re-calibrate the total values first:

In [34]:
totals_hbo = data[(data['Onderwijssoort'] == 'Hoger beroepsonderwijs') & (data["Studierichting"] == "Totaal")]

In [35]:
freshdict_hbo = dict(zip(totals_hbo.Perioden.tolist(), totals_hbo.Freshmen.tolist()))

In [36]:
percentages_hbo = []
for i in range(len(level1_hbo)):
    year = level1_hbo['Perioden'].iloc[i]
    freshmen = level1_hbo['Freshmen'].iloc[i]
    percentages_hbo.append((freshmen/freshdict_hbo[year])*100)


In [37]:
level1_hbo['percent'] = percentages_hbo

In [38]:
level1_hbo.to_csv("level1_hbo.csv", sep = ";")

In [39]:
level1 = pd.concat([level1_hbo, level1_wo], axis = 0)

In [40]:
level1 = level1.drop(columns = ["Unnamed: 0"])

### Next I'll get the growth rate for every year.

Since my dataset starts in 2010, I can't get a growth rate for that year. In this case, that actually saves me a lot of work - there's a pandas function/method that calculates each row as a percent increase from the previous row. If I won't be able to use the 2010 values anyway, I can just use this function, and then discard/transform the 2010 data.

In [41]:
level1['Growth Rate'] = round((level1['Freshmen'].pct_change()*100), 1)

In [42]:
for i in range(len(level1)):
    if level1['Perioden'].iloc[i] == 2010:
        level1['Growth Rate'].iloc[i] = 0

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  level1['Growth Rate'].iloc[i] = 0


In [43]:
level1.head(60)

Unnamed: 0,Onderwijssoort,Studierichting,Perioden,Enrollment,Freshmen,percent,Growth Rate
12,Hoger beroepsonderwijs,01 Onderwijs,2010,77857,15372,15.35603,0.0
13,Hoger beroepsonderwijs,01 Onderwijs,2011,75008,14107,14.246761,-8.2
14,Hoger beroepsonderwijs,01 Onderwijs,2012,70683,13108,13.512566,-7.1
15,Hoger beroepsonderwijs,01 Onderwijs,2013,72145,13724,13.347987,4.7
16,Hoger beroepsonderwijs,01 Onderwijs,2014,72412,13490,13.694736,-1.7
17,Hoger beroepsonderwijs,01 Onderwijs,2015,69728,10962,12.148818,-18.7
18,Hoger beroepsonderwijs,01 Onderwijs,2016,68726,11287,11.861699,3.0
19,Hoger beroepsonderwijs,01 Onderwijs,2017,67327,11607,11.553507,2.8
20,Hoger beroepsonderwijs,01 Onderwijs,2018,66265,12080,11.771929,4.1
21,Hoger beroepsonderwijs,01 Onderwijs,2019,66727,12655,12.060766,4.8


In [44]:
level1.to_csv("level1.csv", sep = ";")

# Next, I'll look at data by gender

In [45]:
level1mf = pd.read_csv("data_gendered.csv", sep = ";")

In [46]:
level1mf

Unnamed: 0.1,Unnamed: 0,Geslacht,Onderwijssoort,Studierichting,Perioden,Enrollment,Freshmen
0,64056,Mannen,Hoger beroepsonderwijs,Totaal,2010,198810,47089
1,64057,Mannen,Hoger beroepsonderwijs,Totaal,2011,203973,47227
2,64058,Mannen,Hoger beroepsonderwijs,Totaal,2012,203585,46243
3,64059,Mannen,Hoger beroepsonderwijs,Totaal,2013,213624,48310
4,64060,Mannen,Hoger beroepsonderwijs,Totaal,2014,217203,46825
...,...,...,...,...,...,...,...
7531,129991,Vrouwen,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2017,226,47
7532,129992,Vrouwen,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2018,201,47
7533,129993,Vrouwen,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2019,196,39
7534,129994,Vrouwen,Wetenschappelijk onderwijs,Onderwijsrichting onbekend,2020,210,59


In [47]:
# Get the total counts per year
totalsmf_hbo = data[(data['Studierichting'] == "Totaal") & (data['Onderwijssoort'] == 'Hoger beroepsonderwijs')]
totalsmf_wo = data[(data['Studierichting'] == "Totaal") & (data['Onderwijssoort'] == 'Wetenschappelijk onderwijs')]

In [48]:
totalsmf_hbo

Unnamed: 0.1,Unnamed: 0,Onderwijssoort,Studierichting,Perioden,Enrollment,Freshmen
0,1884,Hoger beroepsonderwijs,Totaal,2010,416638,100104
1,1885,Hoger beroepsonderwijs,Totaal,2011,423945,99019
2,1886,Hoger beroepsonderwijs,Totaal,2012,421693,97006
3,1887,Hoger beroepsonderwijs,Totaal,2013,440293,102817
4,1888,Hoger beroepsonderwijs,Totaal,2014,446434,98505
5,1889,Hoger beroepsonderwijs,Totaal,2015,442594,90231
6,1890,Hoger beroepsonderwijs,Totaal,2016,446645,95155
7,1891,Hoger beroepsonderwijs,Totaal,2017,452690,100463
8,1892,Hoger beroepsonderwijs,Totaal,2018,455670,102617
9,1893,Hoger beroepsonderwijs,Totaal,2019,463330,104927


In [49]:
level1mf = level1mf[level1mf['Studierichting'].str.contains('^[0-9][0-9] ', regex=True)]
# This filters out the cases where field of study is unknown, or is an aggregation of the total, 
# As well as narrowing the field to only the 'outer layer' of specificity (10 categories)

In [50]:
# Next, again generate the percentages. I'll first split WO and HBO again

In [51]:
hbomf = level1mf[level1mf['Onderwijssoort'] == "Hoger beroepsonderwijs"]
womf = level1mf[level1mf['Onderwijssoort'] == "Wetenschappelijk onderwijs"]

In [52]:
# Then I'll get the totals for both 

hbomfdict = dict(zip(totalsmf_hbo.Perioden.tolist(), totalsmf_hbo.Freshmen.tolist()))
womfdict = dict(zip(totalsmf_wo.Perioden.tolist(), totalsmf_wo.Freshmen.tolist()))

In [53]:
hbopercentages = []
for i in range(len(hbomf)):
    year = hbomf['Perioden'].iloc[i]
    freshmen = hbomf['Freshmen'].iloc[i]
    hbopercentages.append((freshmen/hbomfdict[year])*100)


In [54]:
hbomf['Percent'] = hbopercentages

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  hbomf['Percent'] = hbopercentages


In [55]:
wopercentages = []
for i in range(len(womf)):
    year = womf['Perioden'].iloc[i]
    freshmen = womf['Freshmen'].iloc[i]
    wopercentages.append((freshmen/womfdict[year])*100)


In [56]:
womf['Percent'] = wopercentages

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  womf['Percent'] = wopercentages


In [57]:
womf

Unnamed: 0.1,Unnamed: 0,Geslacht,Onderwijssoort,Studierichting,Perioden,Enrollment,Freshmen,Percent
1896,65952,Mannen,Wetenschappelijk onderwijs,01 Onderwijs,2010,1329,167,0.318380
1897,65953,Mannen,Wetenschappelijk onderwijs,01 Onderwijs,2011,1423,172,0.325603
1898,65954,Mannen,Wetenschappelijk onderwijs,01 Onderwijs,2012,1351,162,0.311449
1899,65955,Mannen,Wetenschappelijk onderwijs,01 Onderwijs,2013,1466,147,0.265147
1900,65956,Mannen,Wetenschappelijk onderwijs,01 Onderwijs,2014,1375,153,0.275919
...,...,...,...,...,...,...,...,...
7291,129751,Vrouwen,Wetenschappelijk onderwijs,10 Dienstverlening,2017,652,159,0.236695
7292,129752,Vrouwen,Wetenschappelijk onderwijs,10 Dienstverlening,2018,747,188,0.261871
7293,129753,Vrouwen,Wetenschappelijk onderwijs,10 Dienstverlening,2019,809,213,0.291677
7294,129754,Vrouwen,Wetenschappelijk onderwijs,10 Dienstverlening,2020,1035,281,0.345065


Then concatenate the dataframe again

In [58]:
level1mf = pd.concat([hbomf, womf], axis = 0)

In [59]:
level1mf

Unnamed: 0.1,Unnamed: 0,Geslacht,Onderwijssoort,Studierichting,Perioden,Enrollment,Freshmen,Percent
12,64068,Mannen,Hoger beroepsonderwijs,01 Onderwijs,2010,22228,4244,4.239591
13,64069,Mannen,Hoger beroepsonderwijs,01 Onderwijs,2011,21837,3974,4.013371
14,64070,Mannen,Hoger beroepsonderwijs,01 Onderwijs,2012,20927,3720,3.834814
15,64071,Mannen,Hoger beroepsonderwijs,01 Onderwijs,2013,22195,4011,3.901106
16,64072,Mannen,Hoger beroepsonderwijs,01 Onderwijs,2014,22451,3824,3.882036
...,...,...,...,...,...,...,...,...
7291,129751,Vrouwen,Wetenschappelijk onderwijs,10 Dienstverlening,2017,652,159,0.236695
7292,129752,Vrouwen,Wetenschappelijk onderwijs,10 Dienstverlening,2018,747,188,0.261871
7293,129753,Vrouwen,Wetenschappelijk onderwijs,10 Dienstverlening,2019,809,213,0.291677
7294,129754,Vrouwen,Wetenschappelijk onderwijs,10 Dienstverlening,2020,1035,281,0.345065


### And again generate the growth rate in percentages

In [60]:
level1mf['Growth Rate'] = round((level1mf['Freshmen'].pct_change()*100), 1)

In [61]:
for i in range(len(level1mf)):
    if level1mf['Perioden'].iloc[i] == 2010:
        level1mf['Growth Rate'].iloc[i] = 0

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  level1mf['Growth Rate'].iloc[i] = 0


In [62]:
level1mf = level1mf.drop(columns = "Unnamed: 0").reset_index().copy()

In [63]:
level1mf

Unnamed: 0,index,Geslacht,Onderwijssoort,Studierichting,Perioden,Enrollment,Freshmen,Percent,Growth Rate
0,12,Mannen,Hoger beroepsonderwijs,01 Onderwijs,2010,22228,4244,4.239591,0.0
1,13,Mannen,Hoger beroepsonderwijs,01 Onderwijs,2011,21837,3974,4.013371,-6.4
2,14,Mannen,Hoger beroepsonderwijs,01 Onderwijs,2012,20927,3720,3.834814,-6.4
3,15,Mannen,Hoger beroepsonderwijs,01 Onderwijs,2013,22195,4011,3.901106,7.8
4,16,Mannen,Hoger beroepsonderwijs,01 Onderwijs,2014,22451,3824,3.882036,-4.7
...,...,...,...,...,...,...,...,...,...
475,7291,Vrouwen,Wetenschappelijk onderwijs,10 Dienstverlening,2017,652,159,0.236695,29.3
476,7292,Vrouwen,Wetenschappelijk onderwijs,10 Dienstverlening,2018,747,188,0.261871,18.2
477,7293,Vrouwen,Wetenschappelijk onderwijs,10 Dienstverlening,2019,809,213,0.291677,13.3
478,7294,Vrouwen,Wetenschappelijk onderwijs,10 Dienstverlening,2020,1035,281,0.345065,31.9


### And then export this to .csv, to work with in Tableau

In [64]:
level1mf.to_csv("level1mf.csv", sep = ";")

# Next, I want to get the male/female ratios for each cohort of freshmen

In [65]:
m = level1mf[level1mf['Geslacht'] == "Mannen"].copy()
f = level1mf[level1mf['Geslacht'] == "Vrouwen"].copy()

In [66]:
m = m.reset_index()
f = f.reset_index()

In [67]:
ratio = f['Freshmen'] / m['Freshmen']

In [68]:
ratio

0      2.622055
1      2.549824
2      2.523656
3      2.421591
4      2.527720
         ...   
235    1.251969
236    1.175000
237    1.014286
238    1.101961
239    0.991968
Name: Freshmen, Length: 240, dtype: float64

In [69]:
ratio.describe()

count    240.000000
mean       1.758318
std        2.148271
min        0.045381
25%        0.697495
50%        1.024259
75%        2.167986
max       11.625850
Name: Freshmen, dtype: float64

The number in 'ratio' is the number of female students for every male student

### I think the best way to deal with this info is to concatenate it with itself (giving the same list twice), and then add the resulting series as a column to my level1mf.csv. This is bad form for a database (lots of redundancy), but makes it much easier to work with in Tableau.

I found out the hard way that the straightforward concatenation mixes things up. The order of level1mf is as follows:
- 120x M, HBO
- 120x F, HBO
- 120x M, Uni
- 120x F, Uni

While the order of my 'ratio' is 120x HBO, 120x Uni.

So what I really need to do is cut the 'ratio' list in half, and concatenate the first half with itself and the second half with itself (HBO with HBO, Uni with Uni), and concatenate both together. THAT will give me the right order for the data.

In [70]:
ratiolist = ratio.tolist()

In [71]:
len(ratiolist)

240

In [72]:
ratiohbo = ratiolist[0:120]

In [73]:
ratiowo = ratiolist[120:]

In [74]:
ratiohbo2 = ratiohbo + ratiohbo

In [75]:
len(ratiohbo2)

240

In [76]:
ratiowo2 = ratiowo + ratiowo

In [77]:
finalratios = ratiohbo2 + ratiowo2

len(finalratios)

In [78]:
level1mf['Ratio'] = finalratios

In [79]:
level1mf

Unnamed: 0,index,Geslacht,Onderwijssoort,Studierichting,Perioden,Enrollment,Freshmen,Percent,Growth Rate,Ratio
0,12,Mannen,Hoger beroepsonderwijs,01 Onderwijs,2010,22228,4244,4.239591,0.0,2.622055
1,13,Mannen,Hoger beroepsonderwijs,01 Onderwijs,2011,21837,3974,4.013371,-6.4,2.549824
2,14,Mannen,Hoger beroepsonderwijs,01 Onderwijs,2012,20927,3720,3.834814,-6.4,2.523656
3,15,Mannen,Hoger beroepsonderwijs,01 Onderwijs,2013,22195,4011,3.901106,7.8,2.421591
4,16,Mannen,Hoger beroepsonderwijs,01 Onderwijs,2014,22451,3824,3.882036,-4.7,2.527720
...,...,...,...,...,...,...,...,...,...,...
475,7291,Vrouwen,Wetenschappelijk onderwijs,10 Dienstverlening,2017,652,159,0.236695,29.3,1.251969
476,7292,Vrouwen,Wetenschappelijk onderwijs,10 Dienstverlening,2018,747,188,0.261871,18.2,1.175000
477,7293,Vrouwen,Wetenschappelijk onderwijs,10 Dienstverlening,2019,809,213,0.291677,13.3,1.014286
478,7294,Vrouwen,Wetenschappelijk onderwijs,10 Dienstverlening,2020,1035,281,0.345065,31.9,1.101961


This is the point at which I *actually* did the work in SQL (I made the connection way way above, but didn't start looking at it until this point.) That gives me another round of cleaning.

I'll start a new notebook for that.

# Towards the hypothesis test

In [80]:
level1_df = level1[level1["Onderwijssoort"] == "Wetenschappelijk onderwijs"]

Then extract two sets of growth rates - those for 2015 (the 'sample') and those for the other years.

In [81]:
sample2015 = level1_df["Growth Rate"][level1_df["Perioden"] == 2015]

In [82]:
sample2015

1901    -3.3
1985    -5.4
2213     1.4
2369     0.2
2537     4.8
2777    12.3
2885    12.1
3149     0.3
3305     0.6
3521    -1.1
Name: Growth Rate, dtype: float64

In [83]:
pop = level1_df["Growth Rate"][level1_df["Perioden"] != 2010] 
# 2010 only has values of 0, because the growth rate is compared to the previous year, so the first year has no values. 

In [84]:
# Calculate both means:

In [85]:
np.mean(sample2015)

2.19

In [86]:
np.mean(pop)

5.314545454545455

(Using pseudocode rather than any type of scientifico-mathematical notation. Still learning here!)

My H0: mean(sample) == mean(pop)

H1: mean(sample) != mean(pop)

In [87]:
from scipy.stats import ttest_1samp

stat, pval = ttest_1samp(pop, np.mean(sample2015))

In [88]:
stat

3.4613406260856414

In [89]:
pval

0.0007686462141271805

The p value is low, so the null hypothesis must go.

But... what does it *mean*?

I'm going to try the same for every year, just to check if this is really special for 2015

In [90]:
def getpval(list_of_years):
    for year in list_of_years:
        sample = level1_df["Growth Rate"][level1_df["Perioden"] == year]
        stat, pval = ttest_1samp(pop, np.mean(sample))
        print("Year:", year)
        print("pval: ", pval)
        print("stat: ", stat)
    return

In [91]:
yearlist = [year for year in range(2011,2022)]
yearlist

[2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021]

In [92]:
getpval(yearlist)

Year: 2011
pval:  7.396386913884741e-10
stat:  6.751477322455088
Year: 2012
pval:  1.9384852734358645e-09
stat:  6.552075098432698
Year: 2013
pval:  0.005352866300513634
stat:  -2.84198523328882
Year: 2014
pval:  0.013591539580005908
stat:  2.508641111311997
Year: 2015
pval:  0.0007686462141271805
stat:  3.4613406260856414
Year: 2016
pval:  0.011329729648860703
stat:  -2.5761156012589663
Year: 2017
pval:  1.5055611979750433e-17
stat:  -10.19771171944812
Year: 2018
pval:  0.19186164021095778
stat:  -1.313234849117158
Year: 2019
pval:  0.7357281109927192
stat:  -0.3383795316743602
Year: 2020
pval:  7.227078437894019e-14
stat:  -8.58033812459984
Year: 2021
pval:  1.742641652120906e-09
stat:  6.574230901101852
