In [None]:
import pandas as pd
import matplotlib.pyplot as plt

pd.set_option("display.max_rows", 2000)
pd.set_option("display.max_columns", 2000)

# Load data

In [None]:
df = pd.read_csv("data/committee.csv")
df.head()

In [None]:
df.info()

# Exploratory Data Analysis

## Thesis status

In [None]:
df["Thesis Status"].value_counts().plot.bar()
plt.show()

## Mentor

In [None]:
mentor_counts = df["Mentor"].value_counts().to_frame()
display(mentor_counts.head(20))
display(mentor_counts.tail(20))

## Commision members

In [None]:
commision_count = pd.concat([df["C2"], df["C3"]]).value_counts().to_frame()
display(commision_count.head(20))
display(commision_count.tail(20))

## Mentor - Commission member pairs

In [71]:
mentor_commission_pairs = pd.melt(
    df, id_vars=["Mentor"], value_vars=["C2", "C3"], value_name="Commission Member"
)

mentor_commission_counts = mentor_commission_pairs.groupby(
    ["Mentor", "Commission Member"]
).agg(count=("Commission Member", "count")).groupby(
    level=0, group_keys=False
).apply(lambda x: x.sort_values(ascending=False, by="count"))

mentor_totals = (
    mentor_commission_counts.groupby(level=0).agg(sum=("count", "sum")).sort_values(ascending=False, by="sum")
)
mentor_commission_counts = mentor_commission_counts.reindex(
    mentor_totals.index, level=0
)

mentor_commission_counts=mentor_commission_counts.reset_index()

display(mentor_commission_counts.head(50))
display(mentor_commission_counts.tail(50))

Unnamed: 0,Mentor,Commission Member,count
0,Смилка Јанеска Саркањац,Александар Тенев,227
1,Смилка Јанеска Саркањац,Георгина Мирчева,170
2,Смилка Јанеска Саркањац,Владимир Здравески,155
3,Смилка Јанеска Саркањац,Весна Димитриевска Ристовска,67
4,Смилка Јанеска Саркањац,Ристе Стојанов,60
5,Смилка Јанеска Саркањац,Билјана Стојкоска,53
6,Смилка Јанеска Саркањац,Дејан Спасов,23
7,Смилка Јанеска Саркањац,Ана Мадевска Богданова,7
8,Смилка Јанеска Саркањац,Ефтим Здравевски,6
9,Смилка Јанеска Саркањац,Катерина Здравкова,5


Unnamed: 0,Mentor,Commission Member,count
1071,Александар Стојменски,Стефан Андонов,2
1072,Александар Стојменски,Иван Китановски,1
1073,Александар Стојменски,Игор Мишковски,1
1074,Александар Стојменски,Костадин Мишев,1
1075,Ласко Баснарков,Љупчо Коцарев,6
1076,Ласко Баснарков,Мирослав Мирчев,5
1077,Ласко Баснарков,Александра Дединец,1
1078,Ласко Баснарков,Владимир Трајковиќ,1
1079,Ласко Баснарков,Гоце Арменски,1
1080,Ласко Баснарков,Димитар Пешевски,1


### Mentor commission diversity

In [76]:
commission_diversity = mentor_commission_counts.groupby("Mentor").agg(
    commission_diversity=("Commission Member", "count")
).sort_values(ascending=False, by="commission_diversity")

display(commission_diversity.head(20))
display(commission_diversity.tail(20))

Unnamed: 0_level_0,commission_diversity
Mentor,Unnamed: 1_level_1
Иван Чорбев,53
Петре Ламески,52
Магдалена Костоска,49
Владимир Трајковиќ,46
Катерина Здравкова,40
Игор Мишковски,38
Билјана Стојкоска,37
Ристе Стојанов,36
Иван Китановски,35
Андреа Кулаков,31


Unnamed: 0_level_0,commission_diversity
Mentor,Unnamed: 1_level_1
Панче Рибарски,14
Владимир Здравески,13
Дејан Спасов,12
Катарина Тројачанец,11
Миле Јованов,11
Вангел Ајановски,10
Дејан Ѓорѓевиќ,9
Кире Триводалиев,9
Сузана Лошковска,8
Љупчо Антовски,7


## Triplets

In [77]:
triplet_counts = df.apply(
    lambda row: (row["Mentor"], *sorted([row["C2"], row["C3"]])), axis=1
)
triplet_counts = triplet_counts.value_counts().to_frame()
display(triplet_counts.head(20))
display(triplet_counts.tail(20))

Unnamed: 0,count
"(Смилка Јанеска Саркањац, Александар Тенев, Георгина Мирчева)",118
"(Смилка Јанеска Саркањац, Владимир Здравески, Ристе Стојанов)",51
"(Ристе Стојанов, Димитар Трајанов, Костадин Мишев)",47
"(Смилка Јанеска Саркањац, Александар Тенев, Билјана Стојкоска)",39
"(Иван Китановски, Влатко Спасев, Ивица Димитровски)",39
"(Смилка Јанеска Саркањац, Владимир Здравески, Георгина Мирчева)",38
"(Георгина Мирчева, Александар Тенев, Смилка Јанеска Саркањац)",37
"(Владимир Здравески, Георгина Мирчева, Смилка Јанеска Саркањац)",32
"(Смилка Јанеска Саркањац, Весна Димитриевска Ристовска, Владимир Здравески)",30
"(Димитар Трајанов, Костадин Мишев, Сашо Граматиков)",29


Unnamed: 0,count
"(Иван Чорбев, Ѓорѓи Маџаров, Ивица Димитровски)",1
"(Владимир Трајковиќ, Билјана Стојкоска, Владимир Здравески)",1
"(Дејан Спасов, Марјан Гушев, Сашко Ристов)",1
"(Петре Ламески, Дејан Спасов, Мила Додевска)",1
"(Бобан Јоксимоски, Влатко Спасев, Ласко Баснарков)",1
"(Билјана Стојкоска, Јована Добрева, Сашо Граматиков)",1
"(Александар Стојменски, Иван Китановски, Иван Чорбев)",1
"(Игор Мишковски, Панче Чавковски, Петре Ламески)",1
"(Бобан Јоксимоски, Ана Тодоровска, Иван Чорбев)",1
"(Димитар Трајанов, Ана Тодоровска, Милош Јовановиќ)",1
