<a href="https://colab.research.google.com/github/fbeilstein/machine_learning/blob/master/module_problem.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Load data, year 2016

All data was taken from [Регіональні дані ЗНО-2016](https://zno.testportal.com.ua/stat/2016).
See links to 7z archive there if you want to donload data from the original source.

In [0]:
!curl -O https://raw.githubusercontent.com/fbeilstein/machine_learning/master/datasets/zno_2016.7z
!7z e zno_2016.7z

Column name| Explanation (from zno site)
---|---
OutID|  	ID
Birth|	Рік народження
SexTypeName| 	Стать
Regname| 	Регіон реєстрації/проживання учасника
AreaName| 	Район\Місто реєстрації/проживання учасника
TerName| 	Населений пункт реєстрації/проживання учасника
RegTypeName|	Статус учасника
EOName| 	Навчальний заклад учасника
EOTypeName| 	Тип навчального закладу
EORegName| 	Регіон, де розташований навчальний заклад
EOAreaName| 	Район\Місто, де розташований навчальний заклад
EOTerName|	Населений пункт, де розташований навчальний заклад
EOParent|	Орган, якому підпорядкувується навчальний заклад

**Names of columns corresponding to subjects are generated as PREFIX+column name.**

Use tables below for reference.

Prefixed column name | Explanation
---|---
**PREFIX**Test|	Назва навчального предмета
**PREFIX**Lang|	Мова складання тесту
**PREFIX**TestStatus|	Результат складання тесту
**PREFIX**Ball100|	Оцінка за шкалою 100-200
**PREFIX**Ball12|	Оцінка за ДПА
**PREFIX**PTName|	Пункт проведення ЗНО
**PREFIX**PTRegName|	Регіон, де розташований пункт проведення ЗНО
**PREFIX**PTAreaName|	Район\Місто, де розташований пункт проведення ЗНО
**PREFIX**PTTerName|	Населений пункт, де розташований пункт проведення ЗНО

PREFIX | Subject
---|---
Ukr|	Українська мова і література
Hist|	Історія України
Math|	Математика
Phys|	Фізика
Chem|	Хімія
Bio|	Біологія
Geo|	Географія
Eng|	Англійська мова
Fr|	Французька мова
Deu|	Німецька мова
Sp|	Іспанська мова
Rus|	Російська мова

### Load data, year 2017

All data was taken from [Регіональні дані ЗНО-2017](https://zno.testportal.com.ua/stat/2017).
See links to 7z archive there if you want to donload data from the original source.

In [0]:
!curl -O https://raw.githubusercontent.com/fbeilstein/machine_learning/master/datasets/zno_2017.7z
!7z e zno_2017.7z

Column name| Explanation (from zno site)
---|---
OUTID|  	ID
BIRTH|	Рік народження
SEXTYPENAME| 	Стать
REGNAME| 	Регіон реєстрації/проживання учасника
AREANAME| 	Район\Місто реєстрації/проживання учасника
TERNAME| 	Населений пункт реєстрації/проживання учасника
REGTYPENAME|	Статус учасника
TERTYPENAME|	Тип території
CLASSPROFILENAME|	Профіль навчання учасника
CLASSREGNAME|	Мова навчання  учасника
EONAME| 	Навчальний заклад учасника
EOTYPENAME| 	Тип навчального закладу
EOREGNAME| 	Регіон, де розташований навчальний заклад
EOAREANAME| 	Район\Місто, де розташований навчальний заклад
EOTERNAME|	Населений пункт, де розташований навчальний заклад
EOPARENT|	Орган, якому підпорядкувується навчальний заклад

**Names of columns corresponding to subjects are generated as PREFIX+column name.**

Use tables below for reference.
Note: not all subjects may have LANG.

Prefixed column name | Explanation
---|---
**PREFIX**TEST|	Назва навчального предмета
**PREFIX**LANG|	Мова складання тесту
**PREFIX**TESTSTATUS|	Результат складання тесту
**PREFIX**BALL100|	Оцінка за шкалою 100-200
**PREFIX**BALL12|	Оцінка за ДПА
**PREFIX**PTNAME|	Пункт проведення ЗНО
**PREFIX**PTREGNAME|	Регіон, де розташований пункт проведення ЗНО
**PREFIX**PTAREANAME|	Район\Місто, де розташований пункт проведення ЗНО
**PREFIX**PTTERNAME|	Населений пункт, де розташований пункт проведення ЗНО

PREFIX | Subject
---|---
UKR|	Українська мова і література
HIST|	Історія України
MATH|	Математика
PHYS|	Фізика
CHEM|	Хімія
BIO|	Біологія
GEO|	Географія
ENG|	Англійська мова
FR|	Французька мова
DEU|	Німецька мова
SP|	Іспанська мова
RUS|	Російська МОВА

### Load data, year 2018

All data was taken from [Регіональні дані ЗНО-2018](https://zno.testportal.com.ua/stat/2018).
See links to 7z archive there if you want to donload data from the original source.

In [0]:
!curl -O https://raw.githubusercontent.com/fbeilstein/machine_learning/master/datasets/zno_2018.7z
!7z e zno_2018.7z

Column name| Explanation (from zno site)
---|---
OutID|  	ID
Birth|	Рік народження
SexTypeName| 	Стать
Regname| 	Регіон реєстрації/проживання учасника
AreaName| 	Район/Місто реєстрації/проживання учасника
TerName| 	Населений пункт реєстрації/проживання учасника
RegTypeName|	Статус учасника
TerTypeName|	Тип території
ClassProfileName|	Профіль навчання учасника
ClassRegName|	Мова навчання  учасника
EOName| 	Заклад освіти учасника
EOTypeName| 	Тип закладу освіти 
EORegName| 	Регіон, де розташований заклад освіти 
EOAreaName| 	Район/Місто, де розташований заклад освіти 
EOTerName|	Населений пункт, де розташований заклад освіти 
EOParent|	Орган, якому підпорядковується Заклад освіти 

**Names of columns corresponding to subjects are generated as PREFIX+column name.**

Use tables below for reference.
Note: not all subjects may have DPALevel.

Prefixed column name | Explanation
---|---
**PREFIX**Test|	Назва навчального предмета
**PREFIX**Lang|	Мова складання тесту
**PREFIX**TestStatus|	Результат складання тесту
**PREFIX**DPALevel|	Рівень складності завдань ДПА
**PREFIX**Ball100|	Оцінка за шкалою 100-200
**PREFIX**Ball12|	Оцінка за ДПА
**PREFIX**Ball|	Тестовий бал
**PREFIX**PTName|	Пункт проведення ЗНО
**PREFIX**PTRegName|	Регіон, де розташований пункт проведення ЗНО
**PREFIX**PTAreaName|	Район\Місто, де розташований пункт проведення ЗНО
**PREFIX**PTTerName|	Населений пункт, де розташований пункт проведення ЗНО

PREFIX | Subject
---|---
Ukr|	Українська мова і література
Hist|	Історія України
Math|	Математика
Phys|	Фізика
Chem|	Хімія
Bio|	Біологія
Geo|	Географія
Eng|	Англійська мова
Fr|	Французька мова
Deu|	Німецька мова
Sp|	Іспанська мова

### Load data, year 2019

All data was taken from [Регіональні дані ЗНО-2019](https://zno.testportal.com.ua/stat/2019).
See links to 7z archive there if you want to donload data from the original source.

In [0]:
!curl -O https://raw.githubusercontent.com/fbeilstein/machine_learning/master/datasets/zno_2019.7z
!7z e zno_2019.7z

Column name| Explanation (from zno site)
---|---
OutID|  	ID
Birth|	Рік народження
SexTypeName| 	Стать
Regname| 	Регіон реєстрації/проживання учасника
AreaName| 	Район/Місто реєстрації/проживання учасника
TerName| 	Населений пункт реєстрації/проживання учасника
RegTypeName|	Статус учасника
TerTypeName|	Тип території
ClassProfileName|	Профіль навчання учасника/ОКР, який учасник здобуває
ClassLangName|	Мова навчання  учасника
EOName| 	Заклад освіти учасника
EOTypeName| 	Тип закладу освіти 
EORegName| 	Регіон, де розташований заклад освіти 
EOAreaName| 	Район/Місто, де розташований заклад освіти 
EOTerName|	Населений пункт, де розташований заклад освіти 
EOParent|	Орган, якому підпорядковується заклад освіти

**Column "UkrAdaptScale" contains information whether adaptation is needed.**

UkrAdaptScale|	Установлення адаптивного порога
---|---
0|	не потребує
3|	потребує (угорська мова навчання)
4|	потребує (молдовська мова навчання)
7|	потребує (румунська мова навчання)

**Names of columns corresponding to subjects are generated as PREFIX+column name.**

Use tables below for reference.
Note: not all subjects may have DPALevel.

Prefixed column name | Explanation
---|---
**PREFIX**Test|	Назва навчального предмета
**PREFIX**Lang|	Мова складання тесту
**PREFIX**TestStatus|	Результат складання тесту
**PREFIX**DPALevel|	Рівень складності завдань ДПА
**PREFIX**Ball100|	Оцінка за шкалою 100-200
**PREFIX**Ball12|	Оцінка за ДПА
**PREFIX**Ball|	Тестовий бал
**PREFIX**PTName|	Пункт проведення ЗНО
**PREFIX**PTRegName|	Регіон, де розташований пункт проведення ЗНО
**PREFIX**PTAreaName|	Район\Місто, де розташований пункт проведення ЗНО
**PREFIX**PTTerName|	Населений пункт, де розташований пункт проведення ЗНО

**PREFIX** | Subject
---|---
Ukr|	Українська мова і література
Hist|	Історія України
Math|	Математика
Phys|	Фізика
Chem|	Хімія
Bio|	Біологія
Geo|	Географія
Eng|	Англійська мова
Fr|	Французька мова
Deu|	Німецька мова
Sp|	Іспанська мова

# for tests

In [137]:
import pandas as pd

data = pd.read_csv('zno_2019.csv')
data.head()

  interactivity=interactivity, compiler=compiler, result=result)


Unnamed: 0,OUTID,Birth,SEXTYPENAME,REGNAME,AREANAME,TERNAME,REGTYPENAME,TerTypeName,ClassProfileNAME,ClassLangName,EONAME,EOTYPENAME,EORegName,EOAreaName,EOTerName,EOParent,UkrTest,UkrTestStatus,UkrBall100,UkrBall12,UkrBall,UkrAdaptScale,UkrPTName,UkrPTRegName,UkrPTAreaName,UkrPTTerName,histTest,HistLang,histTestStatus,histBall100,histBall12,histBall,histPTName,histPTRegName,histPTAreaName,histPTTerName,mathTest,mathLang,mathTestStatus,mathBall100,...,engTest,engTestStatus,engBall100,engBall12,engDPALevel,engBall,engPTName,engPTRegName,engPTAreaName,engPTTerName,fraTest,fraTestStatus,fraBall100,fraBall12,fraDPALevel,fraBall,fraPTName,fraPTRegName,fraPTAreaName,fraPTTerName,deuTest,deuTestStatus,deuBall100,deuBall12,deuDPALevel,deuBall,deuPTName,deuPTRegName,deuPTAreaName,deuPTTerName,spaTest,spaTestStatus,spaBall100,spaBall12,spaDPALevel,spaBall,spaPTName,spaPTRegName,spaPTAreaName,spaPTTerName
0,07ad4c55-70ef-442d-bb7f-34c95c0e6ee4,2001,жіноча,Запорізька область,Василівський район,м.Василівка,Студент закладу вищої освіти,місто,Молодший спеціаліст,українська,"Відокремлений структурний підрозділ ""Василівсь...",заклад вищої освіти,Запорізька область,Василівський район,м.Василівка,Департамент освіти і науки Запорізької облдерж...,Українська мова і література,Зараховано,100.0,4.0,23.0,0,"Комунальний заклад ""Василівська гімназія ""Сузі...",Запорізька область,Василівський район,м.Василівка,Історія України,українська,Зараховано,110.0,7.0,31.0,"Державний навчальний заклад ""Василівський проф...",Запорізька область,Василівський район,м.Василівка,,,,,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,8626c448-3a7d-434f-b01a-c2530ccf3a4f,1985,жіноча,Донецька область,Донецька область,м.Торецьк,Учень (слухач) закладу професійної (професійно...,місто,Кваліфікований робітник,українська,Торецький професійний ліцей,професійний ліцей відповідного профілю,Донецька область,м.Торецьк,м.Торецьк,Департамент освіти і науки Донецької обласної ...,Українська мова і література,Не з’явився,,,,0,Заклад загальної середньо освіти І-ІІІ ступені...,Донецька область,м.Торецьк,м.Торецьк,,,,,,,,,,,Математика,українська,Не з’явився,,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2,9709b00b-144c-4487-b7bc-66c0b353b324,2001,жіноча,Тернопільська область,Тернопільська область,м.Тернопіль,Студент закладу вищої освіти,місто,Молодший спеціаліст,українська,"Приватний вищий навчальний заклад ""Медичний ко...",заклад вищої освіти,Тернопільська область,м.Тернопіль,м.Тернопіль,Управління освіти і науки Тернопільської облас...,Українська мова і література,Зараховано,166.0,10.0,68.0,0,Тернопільська загальноосвітня школа І-ІІІ ступ...,Тернопільська область,м.Тернопіль,м.Тернопіль,Історія України,українська,Зараховано,127.0,8.0,37.0,Тернопільська загальноосвітня школа І-ІІІ ступ...,Тернопільська область,м.Тернопіль,м.Тернопіль,,,,,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3,5617254e-aee4-4fa6-81cc-f0159cc972bc,2000,чоловіча,Рівненська область,Рівненська область,м.Вараш,Учень (слухач) закладу професійної (професійно...,місто,Кваліфікований робітник,українська,Професійно-технічне училище відокремленого під...,професійно-технічне училище відповідного профілю,Рівненська область,м.Вараш,м.Вараш,Управління освіти і науки Рівненської обласної...,Українська мова і література,Зараховано,127.0,6.0,38.0,0,Вараська загальноосвітня школа І-ІІІ ступенів ...,Рівненська область,м.Вараш,м.Вараш,,,,,,,,,,,Математика,українська,Не подолав поріг,0.0,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
4,2e8b9de3-8806-415a-bad1-be822ef8a042,2001,жіноча,Кіровоградська область,Добровеличківський район,м.Помічна,Випускник закладу загальної середньої освіти 2...,місто,Історичний,українська,Помічнянська загальноосвітня школа І-ІІІ ступе...,середня загальноосвітня школа,Кіровоградська область,Добровеличківський район,м.Помічна,Відділ освіти виконавчого комітету Помічнянськ...,Українська мова і література,Зараховано,171.0,9.0,72.0,0,Новоукраїнська загальноосвітня школа І-ІІІ сту...,Кіровоградська область,Новоукраїнський район,м.Новоукраїнка,Історія України,українська,Зараховано,169.0,10.0,59.0,"Філія ""Загальноосвітня школа №3"" Новоукраїнськ...",Кіровоградська область,Новоукраїнський район,м.Новоукраїнка,,,,,...,Англійська мова,Зараховано,116.0,,,27.0,"Комунальний заклад ""Навчально-виховне об'єднан...",Кіровоградська область,м.Кропивницький. Кіровський район міста,Кіровський район міста,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


In [0]:
data.to_csv('zno_2019.csv', index=False)

In [123]:
idx = 0
for col in data.columns:
  print(idx, col, data[col].dtype)
  idx += 1

0 OUTID object
1 Birth int64
2 SEXTYPENAME object
3 REGNAME object
4 AREANAME object
5 TERNAME object
6 REGTYPENAME object
7 TerTypeName object
8 ClassProfileNAME object
9 ClassLangName object
10 EONAME object
11 EOTYPENAME object
12 EORegName object
13 EOAreaName object
14 EOTerName object
15 EOParent object
16 UkrTest object
17 UkrTestStatus object
18 UkrBall100 object
19 UkrBall12 object
20 UkrBall object
21 UkrAdaptScale int64
22 UkrPTName object
23 UkrPTRegName object
24 UkrPTAreaName object
25 UkrPTTerName object
26 histTest object
27 HistLang object
28 histTestStatus object
29 histBall100 object
30 histBall12 object
31 histBall object
32 histPTName object
33 histPTRegName object
34 histPTAreaName object
35 histPTTerName object
36 mathTest object
37 mathLang object
38 mathTestStatus object
39 mathBall100 object
40 mathBall12 object
41 mathBall object
42 mathPTName object
43 mathPTRegName object
44 mathPTAreaName object
45 mathPTTerName object
46 physTest object
47 physLang object

In [124]:
for col in data.columns:
  if "Bal" in col:
    #data[col] = pd.to_numeric(data[col].astype(str).str.replace(',', '.'),errors='coerce')
    print(col, data[col].dtype)

UkrBall100 object
UkrBall12 object
UkrBall object
histBall100 object
histBall12 object
histBall object
mathBall100 object
mathBall12 object
mathBall object
physBall100 object
physBall12 object
physBall object
chemBall100 object
chemBall12 object
chemBall object
bioBall100 object
bioBall12 object
bioBall object
geoBall100 object
geoBall12 object
geoBall object
engBall100 object
engBall12 object
engBall object
fraBall100 object
fraBall12 object
fraBall object
deuBall100 object
deuBall12 object
deuBall object
spaBall100 object
spaBall12 object
spaBall object


In [135]:
#import numpy as np 

#data[data.columns[116]] = data[data.columns[116]].astype(str)
data[data.columns[124]] = data[data.columns[124]].fillna('')

#for x in data.iloc[:,116]:
#  print(x.astype(str, errors='coerce'))
#  if pd.notna(x):
#    print(x)
data.columns[125]

'spaPTTerName'