In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px
import networkx as nx

In [91]:
load_file_to_df = True
file_path = r"C:\Users\t9028387\PycharmProjects\TalpiotCodes\SocioGram\מפה חברתית - מחזור מ_ד - סמסטר א' (תגובות).xlsx"

if load_file_to_df:
    df = pd.read_excel(file_path, header=None,engine="openpyxl")
    df.columns = df.iloc[0]
    df = df.drop(df.index[0])
    df["מספר חדר"] = df["מספר חדר"].astype(float)  # some format issues

In [98]:
def get_count_dict(df_to_count, edges_columns = ["בחירה 1", "בחירה 2", "בחירה 3", "בחירה 4", "בחירה 5", "בחירה 6"], nodes_to_count=None):
    """
    get dict {node: num of connections to}
    :param df_to_count: df to count all connections of a subgroup
    :param edges_columns: the columns of connections
    :param nodes_to_count: count connections only for specific subgroup
    :return:
    """
    count_dict = dict()
    for edge in edges_columns:
        for node in list(df_to_count[edge].values):
            # the case want to count only connections with specific subgraph
            if (nodes_to_count is not None) and (node not in nodes_to_count):
                continue
            if node in count_dict:
                count_dict[node] += 1
            else:
                count_dict[node] = 1
    return count_dict

def get_group_connection_value(df, category, group_name):
    """
    get the connectivity value
    :param df: relevant df
    :param category: the column name. i.e. "gender"
    :param group_name: the value of the column. i.e. "female"
    :return:
    """
    size = len(df)
    subgroup_df = df[df[category] == group_name]
    subgroup_size = len(subgroup_df)

    # get expected inner connections - num_of_connections_to_group * (size_group/total_size)
    all_connections_to_subgroup = get_count_dict(df_to_count=df, nodes_to_count=list(subgroup_df["שם מלא - מספר"].unique()))
    num_all_connections = sum([all_connections_to_subgroup[k] for k in all_connections_to_subgroup.keys()])
    expected_inner_connections = num_all_connections * (subgroup_size/size)

    # get inner connections
    inner_connections_to_subgroup = get_count_dict(df_to_count=subgroup_df, nodes_to_count=list(subgroup_df["שם מלא - מספר"].unique()))
    num_inner_connections = sum([inner_connections_to_subgroup[k] for k in inner_connections_to_subgroup.keys()])
    inner_connections = num_inner_connections

    return inner_connections/expected_inner_connections

def plot_hists_by_category(categories = ["מין", "מחלקה", "מסדרון", "מספר חדר", "מחלקה בטירונות", "רקע אקדמי"]):
    """
    plot histogram of connectivity value by category
    :param categories:
    :return:
    """
    for category in categories:
        group_names = []
        connectivity_values = []
        for group_name in sorted(df[category].unique()):
            conn_value = get_group_connection_value(df, category, group_name)
            connectivity_values.append(conn_value)
            group_names.append(str(group_name))

        fig = px.histogram(x=group_names, y=connectivity_values)
        fig.add_hline(y=1)
        fig["layout"]["yaxis"]["title"]["text"] = category
        fig.show()

In [122]:
plot_connectivity_hists_by_category = True
if plot_connectivity_hists_by_category:
    plot_hists_by_category()

print_number_connections = True
if print_number_connections:
    count_dict = get_count_dict(df)
    for key in count_dict:
        print(f"{df[df['שם מלא - מספר'] == key]['שם מלא'].iloc[0]}: {count_dict[key]}")

תומר זילברמן: 6
תומר גמבשו: 5
אלי הוויט: 10
אלון אהרוני: 7
תמר אלפרט : 7
עמית שפי: 6
יואב סטרוגו: 10
יעלה אורן: 4
עידו אבוטבול: 11
גיא לידור : 5
רון סנדרוביץ': 5
יפתח פרקש: 3
יוגב אברבנאל: 4
ליהי כהן: 5
יובל שוחט: 7
עומר מור יוסף: 14
איתי קורנט: 7
נדב ביינרט: 9
אטל גראואר, מספר 2: 8
דניאל נמירובסקי: 4
איתי גרין: 6
דוד אוצ'יטל: 12
איתמר כהן: 8
טבע דביר 30: 4
עומר רביב: 4
אופיר בר שדה: 4
אבי שפירא: 6
אילי גוסרסקי 7: 14
מתן שמוניק: 6
ארז קורנר: 6
שני פינקר : 8
רן סלע: 6
יובל ברוטמן: 6
מתן רפלוביץ: 2
רונאל ירון: 8
יותם הירשברג : 3
דרור אריה קמלמן: 4
בן סלמיניס: 7
ניב פלג: 10
אורן טורבוביץ: 6
אורי בירנבוים: 6
אייל צווכר: 6
ליאור בר הלל: 9
עדו שגב: 10
עדן לביא: 6
ליה קסטן: 8
נדב רון ברנדוין: 8
אלה קולן-בן טוב: 3
שחר טרליוק: 3
נדב לוי: 6
בן הלל: 9
אילן סטרוסברג: 6
עמית ששון : 7
עילי מרחבקה: 4
הראל מייל: 6
אלון לביא: 4
עמרי נחתומי -61: 12
יובל ברבירו: 4
ניצן עמיחי: 4
צאלה גם זו לטובה: 8
ארן עופר: 5
בר דוד: 3
גל דולב: 3
נעמה פקטור: 2
עידו שלום: 4
יובל אנגלרד: 3
אלעד משה בירן: 1
איתי שטובר: 3
רו