In [1]:
from bs4 import BeautifulSoup
import pandas as pd
import requests

################
# PARSE FUNCS  #
################
def get_html(url):
    response = requests.get(url)
    return response.text


def get_common_table(page):
    soap = BeautifulSoup(page, "lxml")
    return soap.find('table', id='t_common')


def parse_headers(table):
    headers = table.find_all('tr')[1].find_all('td')
    return [header.text for header in headers]


def parse_rows(table):
    rows = table.find_all('tr')[2:]
    data = []
    for r in rows:
        rdata = []
        for td in r.find_all('td'):
            rdata.append(td.text.strip())
        data.append(rdata)
    return data


################
# PANDAS FUNCS #
################
def page_to_df(url):
    common_table = get_common_table(get_html(url))
    table, headers = parse_rows(common_table), parse_headers(common_table)
    df = pd.DataFrame(table, columns=headers)
    return df


def non_outsiders(df):
    return df[df['Примечание'] == '']


def only_originals(df):
    return df[df['Оригинал документа об образовании'] == 'да']


def add_institution_column(df, institution_name):
    df['Направление'] = institution_name
    return df.reset_index(drop=True)


def delete_user(df, id):
    user_index = df[df['id абитуриента/СНИЛС'] == id].index
    df = df.drop(user_index)
    return df


def get_passing_users_by_pr(df = None, pr = 1, count = 10):
    df = df.head(count)
    return df[df['Приоритет'] == f'{pr}']

In [2]:
def to_admite(directions = [], pr = 1):
    if len(directions) == 0:
        return ValueError('Нет напрвлений')
    if pr <= 0:
        return ValueError('Неправильный приоритет')
        
    user_list = []
    
    for d in directions:
        # берем верхушку с приоритетом pr
        free_places = d.places
        top_stdt = d.df.head(free_places)
        top_stdt_by_pr = top_stdt[top_stdt['Приоритет'] == f'{pr}']

        # зачисляем
        d.admitted = pd.concat([d.admitted, top_stdt_by_pr])
        d.places -= top_stdt_by_pr.shape[0]
        print(f'на {d.name} осталось: {d.places}, зачислили {top_stdt_by_pr.shape[0]}')

        # запоминаем кто поступил
        user_list += top_stdt_by_pr['id абитуриента/СНИЛС'].to_list()

    for d in directions:
        d.df = d.df[~d.df['id абитуриента/СНИЛС'].isin(user_list)]
    
    return user_list    

In [None]:
from settings import Direction, Tables

cfg = Tables()

# заполнение датафреймов
for i in cfg.get_directions():
    df = add_institution_column(non_outsiders(page_to_df(i.url)), f'{i.name}')
    i.df = df

stdt = pd.concat(cfg.get_dfs())
unique_stdt = stdt['id абитуриента/СНИЛС'].nunique()
print(f'Количество уникальных студентов В КОНКУРСЕ: {unique_stdt}')

# фильтр по оригам
for i in cfg.get_directions():
    df = only_originals(i.df)
    i.df = df

stdt = pd.concat(cfg.get_dfs())
unique_stdt = stdt['id абитуриента/СНИЛС'].nunique()
print(f'Количество уникальных студентов С ОРИГИНАЛАМИ: {unique_stdt}')

In [None]:
for p in range(1, 7):
    wave = to_admite(cfg.get_directions(), pr=p)
    print(f'для приритета {p} зачислено {len(wave)}\n')

In [None]:
final_fiit = cfg.IB.admitted.sort_values('Сумма конкурсных баллов')
final_fiit['Сумма конкурсных баллов'] = pd.to_numeric(final_fiit['Сумма конкурсных баллов'], errors='coerce')
final_fiit = final_fiit.sort_values('Сумма конкурсных баллов', ascending=False)
final_fiit = final_fiit.reset_index(drop=True)
final_fiit

In [None]:
import pandas as pd

INN = '145-674-739-98'

def get_pos():
    res = pd.DataFrame()
    for df in cfg.get_admitted():
        filtered_df = df[df['id абитуриента/СНИЛС'] == INN]
        if not filtered_df.empty:
            res = filtered_df
            break
    return res if not res.empty else pd.DataFrame(columns=df.columns)

result = get_pos()
result
