In [33]:
import pandas as pd

pd.set_option('display.max_columns', None)  # Виводити всі колонки
pd.set_option('display.width', 1000)        # Збільшити ширину
pd.set_option('display.max_colwidth', 150)

EOName = 'EOName'
AreaName='AreaName'
TerName = 'TerName'
Subj = 'Subj'

file_path = 'big_files/Odata2024File.csv'

def customFilter(df):
    return df
    #return df[df[AreaName] == 'м.Чернігів']

def load_data_2024(file_path, columns):
    df = pd.read_csv(file_path, usecols=columns)
    return df

def clean_data_2024(df, fileSubj):
    column_mapping = {
        fileSubj: Subj,
    }

    df.rename(columns=column_mapping, inplace=True)
    df[Subj] = df[Subj].astype(str).str.replace(',0$', '', regex=True)
    df[Subj] = pd.to_numeric(df[Subj], errors='coerce')
    filtered_data = df.dropna()
    return customFilter(filtered_data)


def data_2024(file_path, AreaName, TerName, EOName, fileSubj):
    file_data = load_data_2024(file_path, [AreaName, TerName, EOName, fileSubj])
    clean_data = clean_data_2024(file_data, fileSubj)
    return clean_data

def statistics(data_frame, subj):
    mean = data_frame[subj].mean()
    std_dev = data_frame[subj].std()
    normal_high = mean + std_dev
    normal_low = mean - std_dev
    stats = {
        'mean': round(mean, 2),
        'normal_high': round(normal_high, 2),
        'normal_low': round(normal_low, 2),
        'max': round(data_frame[subj].max(), 2),
        'min': round(data_frame[subj].min(), 2),
        'median': data_frame[subj].median(),
        'q_25': data_frame[subj].quantile(0.25),
        'q_75': data_frame[subj].quantile(0.75),
    }
    return stats


In [34]:
def main(df):
    stats = statistics(df, Subj)
    print(pd.DataFrame(list(stats.items()), columns=['Statistic', 'Value']))

    df_top = top(df, EOName, Subj, calculate_points_10)
    print(df_top.head(15))

    #df_limited = df_top.head(200)
    #df_limited.insert(0, 'Rate', range(1, len(df_limited) + 1))

    #markdown_table = df_limited.to_markdown(index=False)
    #print(markdown_table)

    #html_table = df_limited.to_html(index=False)
    #print(html_table)

    #stats = statistics(df_top, 'count')
    #print(pd.DataFrame(list(stats.items()), columns=['Statistic', 'Value']))

def calculate_points_10(row):
    c = .5
    d = 0
    x = row['count']
    return row['normal_low'] * (c + (x+d)/(x+d+1))

def top(df, groupName, subj, calculate_points):
    grouped = df.groupby([groupName]).agg(
        count=(subj, 'size'),
        mean=(subj, 'mean'),
        std_dev= (subj, 'std'),
        max=(subj, 'max'),
        min=(subj, 'min'),
    ).reset_index()
    grouped['normal_high'] = round(grouped['mean'] + grouped['std_dev'], 1)
    grouped['normal_low'] = round(grouped['mean'] - grouped['std_dev'], 1)
    grouped['mean'] = round(grouped['mean'], 1)

    grouped['points'] = grouped.apply(calculate_points, axis=1)
    sorted_grouped = grouped.sort_values(by=['points', 'normal_low', 'normal_high', 'mean', 'count'], ascending=False)
    return sorted_grouped

In [35]:
subj = 'MathBlockBall100'
df = data_2024(file_path, AreaName, TerName, EOName, subj)
main(df)

     Statistic   Value
0         mean  118.87
1  normal_high  166.57
2   normal_low   71.17
3          max  200.00
4          min    0.00
5       median  134.00
6         q_25  108.00
7         q_75  147.00
                                                                                                                              EOName  count   mean    std_dev    max    min  normal_high  normal_low      points
4320                     Львівський фізико-математичний ліцей-інтернат при Львівському національному університеті імені Івана Франка    148  183.4  15.280636  200.0  123.0        198.7       168.1  251.021812
6156                   Політехнічний ліцей Національного технічного університету України "Київський політехнічний інститут" м. Києва     97  181.7  15.449883  200.0  145.0        197.1       166.2  247.604082
6509                                                                                Русанівський ліцей Дніпровського району м. Києва     29  182.6  13.873194  200.0  

In [36]:
subj = 'PhysBlockBall100'
df = data_2024(file_path, AreaName, TerName, EOName, subj)
main(df)

     Statistic   Value
0         mean  121.56
1  normal_high  170.14
2   normal_low   72.98
3          max  200.00
4          min    0.00
5       median  131.00
6         q_25  109.00
7         q_75  148.00
                                                                                                                              EOName  count   mean    std_dev    max    min  normal_high  normal_low      points
2340  Технічний ліцей Національного технічного університету України "Київський політехнічний інститут" Солом'янського району м.Києва     20  184.4  12.214745  200.0  160.0        196.6       172.2  250.100000
1391                     Львівський фізико-математичний ліцей-інтернат при Львівському національному університеті імені Івана Франка     34  184.3  15.528509  200.0  131.0        199.9       168.8  248.377143
989                                                                         Київський національний університет імені Тараса Шевченка     25  175.2  14.563081  194.0  

In [37]:
subj = 'ChemBlockBall100'
df = data_2024(file_path, AreaName, TerName, EOName, subj)
main(df)

     Statistic   Value
0         mean  128.74
1  normal_high  171.38
2   normal_low   86.09
3          max  200.00
4          min    0.00
5       median  138.00
6         q_25  116.00
7         q_75  150.00
                                                                                                             EOName  count   mean    std_dev    max    min  normal_high  normal_low      points
805     Львівський фізико-математичний ліцей-інтернат при Львівському національному університеті імені Івана Франка     17  181.6  15.227684  200.0  146.0        196.8       166.4  240.355556
833                                               Ліцей імені Олександра Цинкаловського Володимирської міської ради      4  189.5   8.020806  195.0  178.0        197.5       181.5  235.950000
378                                                                    Дубровицький ліцей Дубровицької міської ради      4  181.5   6.608076  186.0  172.0        188.1       174.9  227.370000
1620                   ко

In [31]:
subj = 'BioBlockBall100'
df = data_2024(file_path, AreaName, TerName, EOName, subj)
main(df)

     Statistic   Value
0         mean  145.06
1  normal_high  163.03
2   normal_low  127.08
3          max  200.00
4          min    0.00
                                                                                                                                EOName  count   mean    std_dev    max    min  normal_high  normal_low      points
2318                                          Калуський ліцей імені Дмитра Бахматюка Калуської міської ради Івано-Франківської області      6  188.5   9.914636  196.0  170.0        198.4       178.6  242.385714
2258                                                                                 КОМУНАЛЬНИЙ ЗАКЛАД "РІШЕЛЬЄВСЬКИЙ НАУКОВИЙ ЛІЦЕЙ"      7  182.9   8.952254  200.0  170.0        191.8       173.9  239.112500
3813                                                                                         Ліцей №11 Івано-Франківської міської ради      4  188.5   4.725816  192.0  182.0        193.2       183.8  238.940000
4208              

In [38]:
df = pd.concat(
    [
        data_2024(file_path, AreaName, TerName, EOName, 'MathBlockBall100'),
        data_2024(file_path, AreaName, TerName, EOName, 'PhysBlockBall100'),
        data_2024(file_path, AreaName, TerName, EOName, 'ChemBlockBall100'),
        data_2024(file_path, AreaName, TerName, EOName, 'BioBlockBall100'),
    ],
    ignore_index=True,
)

main(df)

     Statistic   Value
0         mean  122.90
1  normal_high  168.39
2   normal_low   77.41
3          max  200.00
4          min    0.00
5       median  134.00
6         q_25  115.00
7         q_75  148.00
                                                                                                                              EOName  count   mean    std_dev    max    min  normal_high  normal_low      points
4320                     Львівський фізико-математичний ліцей-інтернат при Львівському національному університеті імені Івана Франка    204  183.3  15.263520  200.0  123.0        198.6       168.0  251.180488
7339  Технічний ліцей Національного технічного університету України "Київський політехнічний інститут" Солом'янського району м.Києва    110  181.8  14.624223  200.0  143.0        196.4       167.2  249.293694
6156                   Політехнічний ліцей Національного технічного університету України "Київський політехнічний інститут" м. Києва    112  179.7  16.252264  200.0  