In [168]:
import pandas as pd
from io import StringIO
import os

In [175]:
COLUMN_TRANSLATE = {
    'област': 'region',
    'община': 'municipality',
    'населено място': 'place',
    'училище': 'school',
    'код по админ': 'school_admin_id',
    'явили се': 'people',
    'ср. успех в точки': 'score'
}

def translate_column(value: str) -> str:
    value = value.lower()
    translated = COLUMN_TRANSLATE.get(value)
    if translated:
        return translated
    else:
        return value


In [176]:
raw_data = StringIO()

with open('nvo-2021-7.csv', 'rb') as f:
    headers = f.readline().decode('utf-8-sig').strip()
    subjects = f.readline().decode('utf-8-sig').strip()

    new_headers = []
    for h, s in zip(headers.split(','), subjects.split(',')):
        h = translate_column(h.replace('"', ''))
        s = translate_column(s.replace('"', ''))
        
        new_header = h if s == '' else s + ' ' + h
        new_headers.append(new_header)

    new_headers_line = ','.join(new_headers) + os.linesep
    print(new_headers_line)
    raw_data.write(new_headers_line)
    for line in f:
        raw_data.write(line.decode('utf-8-sig'))

raw_data.seek(0)


﻿област,municipality,place,school,school_admin_id,бел people,бел score,мат people,мат score



0

In [105]:
raw_data.seek(0)
data = pd.read_csv(raw_data)

In [106]:
data

Unnamed: 0,Област,Община,Населено място,Училище,Код по Админ,БЕЛ Явили се,БЕЛ Ср. успех в точки,МАТ Явили се,МАТ Ср. успех в точки
0,БЛАГОЕВГРАД,БАНСКО,ГР.БАНСКО,"СУ ""Неофит Рилски""",105 201,84,6713,84.0,4746
1,БЛАГОЕВГРАД,БАНСКО,С.ДОБРИНИЩЕ,"ОУ ""Св. Кл. Охридски""",105 202,18,6922,18.0,466
2,БЛАГОЕВГРАД,БАНСКО,С.МЕСТА,"ОУ ""Св. св. Кирил и Методий""",102 003,9,5617,9.0,2606
3,БЛАГОЕВГРАД,БЕЛИЦА,ГР.БЕЛИЦА,"СУ"" Св.Св.Кирил и Методий""",105 001,39,4795,38.0,4467
4,БЛАГОЕВГРАД,БЕЛИЦА,С.БАБЯК,"ОУ ""Св.Св.Кирил и Методий""",105 005,22,4343,22.0,445
...,...,...,...,...,...,...,...,...,...
1718,ЯМБОЛ,ЯМБОЛ,ГР.ЯМБОЛ,"СУ ""Св. Кл. Охридски""",2 811 510,73,4365,73.0,2109
1719,ЯМБОЛ,ЯМБОЛ,ГР.ЯМБОЛ,"СУ ""Пиер дьо Кубертен""",2 811 518,9,4089,8.0,2231
1720,ЯМБОЛ,ЯМБОЛ,ГР.ЯМБОЛ,"ОбУ ""Д-р Петър Берон""",2 811 514,91,313,86.0,3328
1721,ЯМБОЛ,ЯМБОЛ,ГР.ЯМБОЛ,"ОУ ""Хр. Смирненски""",2 811 513,32,2358,31.0,155


In [112]:
data["Код по Админ"] = data["Код по Админ"].replace(' ', '', regex=True)


In [113]:
school_id = data["Код по Админ"]
#school_id = school_id.str.replace(' ', '')
school_id

0        105201
1        105202
2        102003
3        105001
4        105005
         ...   
1718    2811510
1719    2811518
1720    2811514
1721    2811513
1722    2811506
Name: Код по Админ, Length: 1723, dtype: object

In [114]:
schools = data.loc[:, ["Област", "Община", "Населено място", "Училище", "Код по Админ"]]
schools

Unnamed: 0,Област,Община,Населено място,Училище,Код по Админ
0,БЛАГОЕВГРАД,БАНСКО,ГР.БАНСКО,"СУ ""Неофит Рилски""",105201
1,БЛАГОЕВГРАД,БАНСКО,С.ДОБРИНИЩЕ,"ОУ ""Св. Кл. Охридски""",105202
2,БЛАГОЕВГРАД,БАНСКО,С.МЕСТА,"ОУ ""Св. св. Кирил и Методий""",102003
3,БЛАГОЕВГРАД,БЕЛИЦА,ГР.БЕЛИЦА,"СУ"" Св.Св.Кирил и Методий""",105001
4,БЛАГОЕВГРАД,БЕЛИЦА,С.БАБЯК,"ОУ ""Св.Св.Кирил и Методий""",105005
...,...,...,...,...,...
1718,ЯМБОЛ,ЯМБОЛ,ГР.ЯМБОЛ,"СУ ""Св. Кл. Охридски""",2811510
1719,ЯМБОЛ,ЯМБОЛ,ГР.ЯМБОЛ,"СУ ""Пиер дьо Кубертен""",2811518
1720,ЯМБОЛ,ЯМБОЛ,ГР.ЯМБОЛ,"ОбУ ""Д-р Петър Берон""",2811514
1721,ЯМБОЛ,ЯМБОЛ,ГР.ЯМБОЛ,"ОУ ""Хр. Смирненски""",2811513


In [144]:
scores = data.loc[:, data.columns[4:]]
scores.columns
for col in scores.columns[1:]:
    scores[col] = scores[col].replace(',', '.', regex=True)
scores

Unnamed: 0,Код по Админ,БЕЛ Явили се,БЕЛ Ср. успех в точки,МАТ Явили се,МАТ Ср. успех в точки
0,105201,84,67.13,84.0,47.46
1,105202,18,69.22,18.0,46.6
2,102003,9,56.17,9.0,26.06
3,105001,39,47.95,38.0,44.67
4,105005,22,43.43,22.0,44.5
...,...,...,...,...,...
1718,2811510,73,43.65,73.0,21.09
1719,2811518,9,40.89,8.0,22.31
1720,2811514,91,31.3,86.0,33.28
1721,2811513,32,23.58,31.0,15.5


In [152]:
scores_mat = scores.loc[:, ["Код по Админ", "МАТ Явили се", "МАТ Ср. успех в точки"]]
scores_mat = scores_mat.rename(columns={"МАТ Явили се": "people", "МАТ Ср. успех в точки": "score" })
#help(scores_mat.insert)
scores_mat.insert(1, "subject", "МАТ")
scores_mat

Unnamed: 0,Код по Админ,subject,people,score
0,105201,МАТ,84.0,47.46
1,105202,МАТ,18.0,46.6
2,102003,МАТ,9.0,26.06
3,105001,МАТ,38.0,44.67
4,105005,МАТ,22.0,44.5
...,...,...,...,...
1718,2811510,МАТ,73.0,21.09
1719,2811518,МАТ,8.0,22.31
1720,2811514,МАТ,86.0,33.28
1721,2811513,МАТ,31.0,15.5


In [154]:
scores_bel = scores.loc[:, scores.columns[:3]]
scores_bel = scores_bel.rename(columns={"БЕЛ Явили се": "people", "БЕЛ Ср. успех в точки": "score" })
scores_bel.insert(1, "subject", "БЕЛ")
scores_bel

Unnamed: 0,Код по Админ,subject,people,score
0,105201,БЕЛ,84,67.13
1,105202,БЕЛ,18,69.22
2,102003,БЕЛ,9,56.17
3,105001,БЕЛ,39,47.95
4,105005,БЕЛ,22,43.43
...,...,...,...,...
1718,2811510,БЕЛ,73,43.65
1719,2811518,БЕЛ,9,40.89
1720,2811514,БЕЛ,91,31.3
1721,2811513,БЕЛ,32,23.58


In [159]:
scores_new = pd.concat([scores_mat, scores_bel])
scores_new = scores_new.sort_values("Код по Админ")
scores_new

Unnamed: 0,Код по Админ,subject,people,score
566,1000004,БЕЛ,15.0,26.3
566,1000004,МАТ,15.0,12.4
569,1000007,БЕЛ,3.0,5.67
569,1000007,МАТ,3.0,9.33
568,1000009,БЕЛ,44.0,47.76
...,...,...,...,...
543,909705,БЕЛ,10.0,40
544,909706,МАТ,5.0,55.05
544,909706,БЕЛ,5.0,63.3
545,909708,БЕЛ,3.0,27.5


In [167]:
scores.melt(id_vars='Код по Админ')

Unnamed: 0,Код по Админ,variable,value
0,105201,БЕЛ Явили се,84
1,105202,БЕЛ Явили се,18
2,102003,БЕЛ Явили се,9
3,105001,БЕЛ Явили се,39
4,105005,БЕЛ Явили се,22
...,...,...,...
6887,2811510,МАТ Ср. успех в точки,21.09
6888,2811518,МАТ Ср. успех в точки,22.31
6889,2811514,МАТ Ср. успех в точки,33.28
6890,2811513,МАТ Ср. успех в точки,15.5
