In [36]:
from typing import List, TypeVar
from math import isnan

T = TypeVar('T')
Input = str | float

def is_totally_nan(input: any) -> bool:
    return isinstance(input, float) and isnan(input)

def parse_область_интересов(input: Input) -> List[str]:
    if is_totally_nan(input):
        return None

    return (
        input.replace('.', ',')
            .replace(';', ',')
            .split(',')
    )

print(parse_область_интересов('краеведение'))
print(parse_область_интересов('география, земледелие; плодородие. созревание'))

['краеведение']
['география', ' земледелие', ' плодородие', ' созревание']


In [37]:
import pandas as pd

def parse_руководитель(input: Input) -> List[dict]:
    if is_totally_nan(input):
        return None

    input = input.split('\r\n')
    
    name = input[0]

    try:
        degree_and_position = input[1].split(', ')
        degree = degree_and_position[0]
        position = degree_and_position[1] if len(degree_and_position) > 1 else None
    except ValueError as error:
        print(f'[degree, position] Error at "{input[1]}": {error}')
        degree = None
        position = None

    try:
        email = input[2]
    except ValueError as error:
        print(f'[email] Error at "{input[2]}": {error}')
        email = None

    try:
        languages = input[3].split(':')[1].split(', ')
    except ValueError as error:
        print(f'[languages] Error at "{input[3]}": {error}')
        languages = None

    return dict(
        name=name,
        degree=degree,
        position=position,
        email=email,
        languages=languages
    )

guys = pd.read_csv('./guys.csv')
guys.Профиль = guys.Профиль.map(lambda x: x.split('\r\n'))
guys = guys.join(guys.Руководитель.map(parse_руководитель).apply(pd.Series))
guys.drop(columns=['Руководитель'], inplace=True)

guys['Область интересов'].map(parse_область_интересов)
guys['Область интересов'] = guys['Область интересов'].map(parse_область_интересов)
guys

Unnamed: 0,Профиль,Область интересов,name,degree,position,email,languages
0,"[05.13.15 - Вычислительные машины, комплексы и...","[Информатика и вычислительная техника, Операц...",Дергачев Андрей Михайлович,кандидат технических наук,доцент,amd@itmo.ru,[Русский]
1,"[05.13.01 - Системный анализ, управление и обр...","[Вычислительные машины, комплексы и компьютер...",Платунов Алексей Евгеньевич,доктор технических наук,профессор,aeplatunov@itmo.ru,"[Английский, Русский]"
2,[05.13.12 - Системы автоматизации проектирован...,"[Исследование вычислительных процессов, Вериф...",Поляков Владимир Иванович,кандидат технических наук,доцент,vipoliakov@itmo.ru,[Русский]
3,[05.11.07 - Оптические и оптико-электронные пр...,[Оптико-электронные информационно-измерительны...,Коротаев Валерий Викторович,доктор технических наук,профессор,vvkorotaev@itmo.ru,[Русский]
4,[05.11.07 - Оптические и оптико-электронные пр...,[Оптико-электронные методы и средства простран...,Коняхин Игорь Алексеевич,доктор технических наук,профессор,iakoniakhin@itmo.ru,[Русский]
...,...,...,...,...,...,...,...
336,"[1.3.3. - Теоретическая физика, 01.04.02 - Тео...","[Атомная физика, квантовая электродинамика]",Глазов Дмитрий Алексеевич,кандидат физико-математических наук,,,"[Английский, Русский]"
337,[5.2.3. - Региональная и отраслевая экономика],"[Управление интеллектуальным капиталом, техно...",Шакина Елена Анатольевна,кандидат экономических наук,,eshakina@itmo.ru,"[Английский, Русский]"
338,"[2.7.1. - Биотехнологии пищевых продуктов, лек...",[Разработка и оценка качества продуктов питани...,Бычкова Елена Сергеевна,доктор технических наук,доцент,esbychkova@itmo.ru,"[Английский, Русский]"
339,[2.3.5. - Математическое и программное обеспеч...,[Статический анализ программ Верификация прогр...,Ицыксон Владимир Михайлович,кандидат технических наук,доцент,vmitsykson@itmo.ru,"[Английский, Русский]"


In [38]:
import itertools

def flatten_list(items: list[list]) -> list:
    list_copy = list

splitted_degrees = [guy.split(' ') for guy in guys.degree.unique()]
splitted_degrees = set(list(itertools.chain(*splitted_degrees)))

splitted_Профиль = guys.Профиль
splitted_Профиль = list(itertools.chain(*splitted_Профиль))

print(sorted(splitted_Профиль))

(splitted_degrees, len(splitted_degrees), splitted_Профиль, len(splitted_Профиль))

['01.02.04 - Механика деформируемого твердого тела', '01.02.04 - Механика деформируемого твердого тела', '01.02.04 - Механика деформируемого твердого тела', '01.02.04 - Механика деформируемого твердого тела', '01.04.01 - Приборы и методы экспериментальной физики', '01.04.01 - Приборы и методы экспериментальной физики', '01.04.01 - Приборы и методы экспериментальной физики', '01.04.01 - Приборы и методы экспериментальной физики', '01.04.01 - Приборы и методы экспериментальной физики', '01.04.02 - Теоретическая физика', '01.04.02 - Теоретическая физика', '01.04.02 - Теоретическая физика', '01.04.02 - Теоретическая физика', '01.04.02 - Теоретическая физика', '01.04.02 - Теоретическая физика', '01.04.02 - Теоретическая физика', '01.04.02 - Теоретическая физика', '01.04.02 - Теоретическая физика', '01.04.02 - Теоретическая физика', '01.04.02 - Теоретическая физика', '01.04.03 - Радиофизика', '01.04.03 - Радиофизика', '01.04.03 - Радиофизика', '01.04.03 - Радиофизика', '01.04.03 - Радиофизик

({'PhD',
  'биологических',
  'доктор',
  'кандидат',
  'культурологии',
  'наук',
  'педагогических',
  'политических',
  'психологических',
  'социологических',
  'технических',
  'физико-математических',
  'философских',
  'химических',
  'экономических'},
 15,
 ['05.13.15 - Вычислительные машины, комплексы и компьютерные сети',
  '05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей',
  '2.3.5. - Математическое и программное обеспечение вычислительных систем, комплексов и компьютерных сетей',
  '2.3.2. - Вычислительные системы и их элементы',
  '05.13.01 - Системный анализ, управление и обработка информации (технические системы)',
  '05.13.01 - Системный анализ, управление и обработка информации (технические системы)',
  '05.13.15 - Вычислительные машины, комплексы и компьютерные сети',
  '05.13.12 - Системы автоматизации проектирования (по отраслям)',
  '2.3.1. - Системный анализ, управление и обработка информации, статистика',


In [39]:
keywords = [
    'наук',
    'биологических',
    'химических',
    'экономических',
    'политических',
    'социологических',
    'педагогических',
    'технических',
    'психологических',
    'культурологии',
    'философских',
    'физико-математических',
    'кандидат',
    'PhD',
    'доктор',
]

reversed_keywords = list(reversed(keywords))

weights = { keyword: float(0.98 ** reversed_keywords.index(keyword)) for keyword in keywords }
print('Weights: ', weights)

def calc_weight(words: List) -> float:
    sum = 0

    for word in words:
        sum += weights[word] if word in weights else 0
 
    return sum

calc_weight(['кандидат', 'философских', 'наук'])

guys['weight']= guys.degree.map(lambda x: calc_weight(x.split(' '))) + guys.position.map(lambda x: -1 if x is None else calc_weight(x.split(' ')))

guys

Weights:  {'наук': 0.7536419414749017, 'биологических': 0.7690223892601038, 'химических': 0.7847167237347998, 'экономических': 0.8007313507497958, 'политических': 0.8170728068875467, 'социологических': 0.8337477621301498, 'педагогических': 0.8507630225817855, 'технических': 0.8681255332467199, 'психологических': 0.8858423808639999, 'культурологии': 0.9039207967999999, 'философских': 0.9223681599999999, 'физико-математических': 0.9411919999999999, 'кандидат': 0.9603999999999999, 'PhD': 0.98, 'доктор': 1.0}


Unnamed: 0,Профиль,Область интересов,name,degree,position,email,languages,weight
0,"[05.13.15 - Вычислительные машины, комплексы и...","[Информатика и вычислительная техника, Операц...",Дергачев Андрей Михайлович,кандидат технических наук,доцент,amd@itmo.ru,[Русский],2.582167
1,"[05.13.01 - Системный анализ, управление и обр...","[Вычислительные машины, комплексы и компьютер...",Платунов Алексей Евгеньевич,доктор технических наук,профессор,aeplatunov@itmo.ru,"[Английский, Русский]",2.621767
2,[05.13.12 - Системы автоматизации проектирован...,"[Исследование вычислительных процессов, Вериф...",Поляков Владимир Иванович,кандидат технических наук,доцент,vipoliakov@itmo.ru,[Русский],2.582167
3,[05.11.07 - Оптические и оптико-электронные пр...,[Оптико-электронные информационно-измерительны...,Коротаев Валерий Викторович,доктор технических наук,профессор,vvkorotaev@itmo.ru,[Русский],2.621767
4,[05.11.07 - Оптические и оптико-электронные пр...,[Оптико-электронные методы и средства простран...,Коняхин Игорь Алексеевич,доктор технических наук,профессор,iakoniakhin@itmo.ru,[Русский],2.621767
...,...,...,...,...,...,...,...,...
336,"[1.3.3. - Теоретическая физика, 01.04.02 - Тео...","[Атомная физика, квантовая электродинамика]",Глазов Дмитрий Алексеевич,кандидат физико-математических наук,,,"[Английский, Русский]",1.655234
337,[5.2.3. - Региональная и отраслевая экономика],"[Управление интеллектуальным капиталом, техно...",Шакина Елена Анатольевна,кандидат экономических наук,,eshakina@itmo.ru,"[Английский, Русский]",1.514773
338,"[2.7.1. - Биотехнологии пищевых продуктов, лек...",[Разработка и оценка качества продуктов питани...,Бычкова Елена Сергеевна,доктор технических наук,доцент,esbychkova@itmo.ru,"[Английский, Русский]",2.621767
339,[2.3.5. - Математическое и программное обеспеч...,[Статический анализ программ Верификация прогр...,Ицыксон Владимир Михайлович,кандидат технических наук,доцент,vmitsykson@itmo.ru,"[Английский, Русский]",2.582167


In [40]:
from itertools import accumulate

def calc_профиль_weight(профиль: str):
    powers = [0 if len(x) == 0 else float(x) for x in профиль.split(' - ')[0].split('.')]
    return 2 ** powers[0] + 3 ** powers[1] + 5 ** powers[2]
 
profile_values = { value: calc_профиль_weight(value) for value in splitted_Профиль }

profile_values

{'05.13.15 - Вычислительные машины, комплексы и компьютерные сети': 30519172480.0,
 '05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей': 50422480.0,
 '2.3.5. - Математическое и программное обеспечение вычислительных систем, комплексов и компьютерных сетей': 3156.0,
 '2.3.2. - Вычислительные системы и их элементы': 56.0,
 '05.13.01 - Системный анализ, управление и обработка информации (технические системы)': 1594360.0,
 '05.13.12 - Системы автоматизации проектирования (по отраслям)': 245734980.0,
 '2.3.1. - Системный анализ, управление и обработка информации, статистика': 36.0,
 '2.3.7. - Компьютерное моделирование и автоматизация проектирования': 78156.0,
 '05.11.07 - Оптические и оптико-электронные приборы и комплексы': 255304.0,
 '2.2.6. - Оптические и оптико-электронные приборы и комплексы': 15638.0,
 '01.04.14 - Теплофизика и теоретическая теплотехника': 6103515708.0,
 '1.3.14. - Теплофизика и теоретическая теплотехника': 6103

In [41]:
guys['profile_value'] = guys.Профиль.map(lambda x: sum([calc_профиль_weight(elt) for elt in x]))
guys

Unnamed: 0,Профиль,Область интересов,name,degree,position,email,languages,weight,profile_value
0,"[05.13.15 - Вычислительные машины, комплексы и...","[Информатика и вычислительная техника, Операц...",Дергачев Андрей Михайлович,кандидат технических наук,доцент,amd@itmo.ru,[Русский],2.582167,3.056960e+10
1,"[05.13.01 - Системный анализ, управление и обр...","[Вычислительные машины, комплексы и компьютер...",Платунов Алексей Евгеньевич,доктор технических наук,профессор,aeplatunov@itmo.ru,"[Английский, Русский]",2.621767,3.076817e+10
2,[05.13.12 - Системы автоматизации проектирован...,"[Исследование вычислительных процессов, Вериф...",Поляков Владимир Иванович,кандидат технических наук,доцент,vipoliakov@itmo.ru,[Русский],2.582167,3.076499e+10
3,[05.11.07 - Оптические и оптико-электронные пр...,[Оптико-электронные информационно-измерительны...,Коротаев Валерий Викторович,доктор технических наук,профессор,vvkorotaev@itmo.ru,[Русский],2.621767,2.709420e+05
4,[05.11.07 - Оптические и оптико-электронные пр...,[Оптико-электронные методы и средства простран...,Коняхин Игорь Алексеевич,доктор технических наук,профессор,iakoniakhin@itmo.ru,[Русский],2.621767,2.709420e+05
...,...,...,...,...,...,...,...,...,...
336,"[1.3.3. - Теоретическая физика, 01.04.02 - Тео...","[Атомная физика, квантовая электродинамика]",Глазов Дмитрий Алексеевич,кандидат физико-математических наук,,,"[Английский, Русский]",1.655234,2.620000e+02
337,[5.2.3. - Региональная и отраслевая экономика],"[Управление интеллектуальным капиталом, техно...",Шакина Елена Анатольевна,кандидат экономических наук,,eshakina@itmo.ru,"[Английский, Русский]",1.514773,1.660000e+02
338,"[2.7.1. - Биотехнологии пищевых продуктов, лек...",[Разработка и оценка качества продуктов питани...,Бычкова Елена Сергеевна,доктор технических наук,доцент,esbychkova@itmo.ru,"[Английский, Русский]",2.621767,2.364000e+03
339,[2.3.5. - Математическое и программное обеспеч...,[Статический анализ программ Верификация прогр...,Ицыксон Владимир Михайлович,кандидат технических наук,доцент,vmitsykson@itmo.ru,"[Английский, Русский]",2.582167,3.156000e+03


In [42]:
# Write to disk
guys.to_csv('guys.processed.csv')

# Also cool Python hints
print(float('nan'))
print(str | float)
print(10**3)

nan
str | float
1000


In [43]:
import matplotlib as plt