# Теория

Прочитаем рейтинги игроков и сохраним эти рейтинги в массив. Т.к это массив, то доступ к любому элементу за O(1).
Аналогично прочитаем файл с составами команд. В тот момент, когда мы считываем команды, мы могли бы сразу высчитывать их рейтинги, но на конечную сложность алгоритма это не влияет, а в python будет эффективнее сначала прочитать а потом уже высчитывать.

Для каждой команды посчитаем её суммарный рейтинг. 

Рассмотрим задачу, как задачу построение множества отрезков на заданных точках неотрицательной части оси вещественных чисел, что сумма длин этих отрезков минимальна. 
Наименьшая сумма получится только тогда, когда отрезки не пересекаются или пересекаются не более чем в одной точке(т.е пересекаются концы отрезков, что возможно при повторении рейтингов команд)
![alt text](1.png "Title")  
![alt text](2.png "Title")  

## Чётное количество точек
Тогда в случае чётного количества нам достаточно отсортировать точки и составлять отрезки согласно порядку следования отсортированных точек.  

## Нечётное количество точек
Если же количество точек нечётное, то нам необходимо определить какую точку выкинуть.  

В данном случае задача минимизации длин отрезков будет эквивалентна задаче максимизации расстояния между этими отрезками. 

### Часть А
**Рассмотрим задачу максимизации.**   
**Внимание!!** Теперь мы не минимизируем расстояние в парах(длину отрезков), а **максимизируем** расстояние между отрезками.  

Пусть общее количество точек m и мы выбрали точку под номером $k$  
**k нечетное**  
Тогда расстояние между отрезками слева от этой точки равно: $\sum_{n=1}^{\frac{k-1}{2}} x_{2n+1}-x_{2n} $  
Расстояние между отрезками справа от этой точки: $\sum_{n=\frac{k-1}{2}}^{\frac{m-3}{2}} x_{2n+2}-x_{2n+1} $


**k четное**  
Тогда расстояние между отрезками слева от этой точки равно: $\sum_{n=1}^{\frac{k-2}{2}} x_{2n+1}-x_{2n} $  
Расстояние между отрезками справа от этой точки: $\sum_{n=\frac{k-0}{2}}^{\frac{m-3}{2}} x_{2n+2}-x_{2n+1} $

#### Общее расстояние 
`distance_sum = сумма_слева + сумма_справа`

Зафиксируем **нечётную** точку на позиции $\tilde{k}$ и посмотрим как изменяется сумма при переходе от одной нечетной точке к следующей за ней чётной точке. 

Сумма слева: $\sum_{n=1}^{\frac{\tilde{k}-1}{2}} x_{2n+1}-x_{2n} $  
Сумма справа: $\sum_{n=\frac{\tilde{k}-1}{2}}^{\frac{m-3}{2}} x_{2n+2}-x_{2n+1} $  

Теперь рассмотрим расстояния между отрезками для точки на позиции $\tilde{k}+1$ (**четная**)  
Сумма слева: $\sum_{n=1}^{\frac{\tilde{k}+1-2}{2}} x_{2n+1}-x_{2n}  = \sum_{n=1}^{\frac{\tilde{k}-1}{2}} x_{2n+1}-x_{2n}$  
Сумма справа: $\sum_{n=\frac{\tilde{k}+1-0}{2}}^{\frac{m-3}{2}} x_{2n+2}-x_{2n+1} = \sum_{n=\frac{\tilde{k}+1}{2}}^{\frac{m-3}{2}} x_{2n+2}-x_{2n+1}$

Таким образом сумма слева совпадает, а сумма справа для четной точки на величину $ x_{2\frac{\tilde{k}-1}{2}+2}-x_{2\frac{\tilde{k}-1}{2}+1}  = x_{\tilde{k}+1} - x_{\tilde{k}}$ меньше.  

![alt text](3.png "Нечетная")  

![alt text](4.png "Чётная")  
Так как наша задача - максимизация расстояния между отрезками, то таким образом имеет смысл **выкидывать только нечетную точку** в отсортированной последовательности.

### Часть Б
Нам нужно выбрать какую нечётную точку выкинуть. Считать расстояния для каждой точки заново - слишком сложно, но в формулах выше, можно заметить, что при переходе от нечётной точки к  следующей нечётной точке сумма расстояний между отрезками изменяется следующий образом(**ключевая формула**): $$distance\_sum = distance\_sum - (x_{k-1}-x_{k-2}) + (x_{k}-x_{k-1})$$

Мы можем посчитать расстояния между отрезками для первой нечётной точки(для этого нам придется пройти по последовательноси), но для следующей нечётной точки($k=3$) нам будет достаточно отнять $x_{2}-x_{1}$ и добавить $x_{3}-x_{2}$.  (Напомню, что доступ к произвольному элементу массива - O(1))  

Ниже пример. Возможно следовало указать большее количество точек, чтобы было видно, что вне зависимости от размера последовательности, расчет новой distance_sum требует отнятия разности справа от прошлой нечётной точки и добавлении разности слева текущей нечётной точки.  

![alt text](5.png "Чётная")
$$distance\_sum = (4-1)+(9-6) = 6$$
![alt text](3.png "Чётная") 
$$distance\_sum = distance\_sum -(4-1) + (6-4) =5 $$
![alt text](6.png "Чётная") 
$$distance\_sum = distance\_sum -(9-6) + (11-9) =4$$

Та точка, на которой сумма расстояний будет максимальна  - искомая точка, которую следует выкинуть.  
После того как выкинули точку(команду), мы можем составлять отрезки согласно следованию отсортированных точек. 

1. Отсортировать команды по рейтингу
2. Если количество команд чётное - составить пары согласно следованию отсортированных команд. Конец.
3. Если количество команд нечётное:
 1. Считаем расстояние в том случае, если выкидываем первую команду(Для этого придется пройтись по всей последовательности). Получаем distance_sum
 2. Переходим к третьей команде, тогда `distance_sum = distance_sum-(x[2]-x[1])+(x[3]-x[2])`
 3. Проходимся по всем нечетным командам и считаем distance_sum. Попутно запоминаем максимальное значение расстояния и позицию, где это произошло. Это и будет искомая команда, которая не будет участвовать в составлении пар.
 4. Теперь количество команд чётное. Переходим к пункту 2.

O(N log(N)) - сложность сортировки, O(N) поиск точки. Тогда итоговая сложность алгоритма равняется сложности сортировки, т.е O(N log(N)) 


# Реализация

In [1]:
import numpy as np
username = 'ShchegolevMaximMaximovich'

test_names = ['test_A','test_B','test_C','test_D']

players_file_name = 'players.txt'
teams_file_name = 'teams.txt'

def get_data(folder_name):
    """
    Load data from test folder
    """
    players = np.loadtxt('{0}/{1}'.format(folder_name, players_file_name), dtype='int32')
    teams = np.loadtxt('{0}/{1}'.format(folder_name,teams_file_name), dtype='int32')
    return players, teams

In [2]:
tests = dict(zip(test_names,[get_data(test_name) for test_name in test_names]))

In [3]:
for test_name in tests:
    print('{0}; number of teams: {1}'.format(test_name, len(tests[test_name][1])))

test_C; number of teams: 9999
test_B; number of teams: 9999
test_D; number of teams: 10001
test_A; number of teams: 100000


In [4]:
def get_team_ratings(players, teams):
    return np.sum(players[teams[:,1:],1],axis=1)

In [5]:
%%time
team_ratings = dict(zip(test_names,[get_team_ratings(*tests[test_name]) for test_name in test_names]))

CPU times: user 20 ms, sys: 8 ms, total: 28 ms
Wall time: 28.6 ms


In [6]:
def sort(team_ratings):
    sort_indexes = np.argsort(team_ratings)
    ordered_team_ratings = team_ratings[sort_indexes]
    
    return ordered_team_ratings, sort_indexes

В случае с python идти в цикле и высчитывать distance_sum чуть медленнее, чем по отдельности посчитать разницу между нечетными и четными  и отнять от нее разницу между четными и нечетными. В итоге получится последовательность, элементы которой нужно будет просто складывать, и тот элемент, на котором будет максимальная сумма - кандидат на вылет. 
С точки зрения теории, проходов по массиву рейтингов команд получается чуть больше(сначала получаем все четные элементы, потом нечётные), но с точки зрения использования numpy - быстрее. Приблизительно в четыре раза. 

In [7]:
def get_even_odd_difference(array):
    """
    Get total difference between even and odd elements.
    Parameters
    ----------
    array : numpy array of shape [n_samples]

    Returns
    -------
    diff : returns the difference
    
    Examples
    --------
    >>> get_even_odd_difference(np.array([1,5,15,20]))
    array([4, 5])
    >>> get_even_odd_difference(np.array([1,5,15,20,21]))
    array([4, 5])
    >>> get_even_odd_difference(np.array([1,7, 11, 16]))
    array([6, 5])
    """
        
    array_length = len(array)
    return array[np.arange(1,array_length,2)].astype(np.int64, copy=False) - array[np.arange(0,array_length-1,2)]

def get_odd_even_difference(array):
    """
    Get total difference between odd and even elements.
    Parameters
    ----------
    array : numpy array of shape [n_samples]

    Returns
    -------
    diff : returns the difference
    
    Examples
    --------
    >>> get_odd_even_difference(np.array([1,5,15,20,21]))
    array([10,  1])
    """
    
    array_length = len(array)
    return array[np.arange(2,array_length,2)].astype(np.int64, copy=False) - array[np.arange(1,array_length,2)]

In [8]:
def get_bad_team_index(ordered_team_ratings):
    """
    Returns the index of a bad team(the team that will not be used in our pairs)
    """
    if ordered_team_ratings.shape[0] % 2 == 0:
        raise ValueError('There is not a bad number')
    #all magic is here
    sequence = get_odd_even_difference(ordered_team_ratings)-get_even_odd_difference(ordered_team_ratings)
    odd_value_index = 0
    current_sum = max_sum = 0
    for i,num in enumerate(sequence):
        current_sum += num
        if current_sum > max_sum:
            max_sum = current_sum
            odd_value_index = i+1           
 
    return odd_value_index*2

def get_balanced_pairs(team_ratings):
    if type(team_ratings) is not np.ndarray:
        team_ratings = np.array(team_ratings)
        
    ordered_team_ratings,sort_indexes = sort(team_ratings)
    
    if ordered_team_ratings.shape[0] % 2 != 0:
        bad_team_index = get_bad_team_index(ordered_team_ratings)
        print('the team without a competitor: ', sort_indexes[bad_team_index])
        sort_indexes = sort_indexes[np.arange(len(sort_indexes))!=bad_team_index]
    return sort_indexes.reshape(-1,2)

In [9]:
def get_target_value(balanced_pairs, team_ratings):
    return np.sum(np.diff(team_ratings[balanced_pairs]))

In [10]:
%%time
a_balanced_pairs = get_balanced_pairs(team_ratings['test_A'])
print('total difference: ', get_target_value(a_balanced_pairs, team_ratings['test_A']), '\n')

total difference:  24092 

CPU times: user 12 ms, sys: 0 ns, total: 12 ms
Wall time: 12.1 ms


In [11]:
%%time
b_balanced_pairs = get_balanced_pairs(team_ratings['test_B'])
print('total difference: ', get_target_value(b_balanced_pairs, team_ratings['test_B']), '\n')

the team without a competitor:  1613
total difference:  19601 

CPU times: user 4 ms, sys: 0 ns, total: 4 ms
Wall time: 3.99 ms


In [12]:
%%time
c_balanced_pairs = get_balanced_pairs(team_ratings['test_C'])
print('total difference: ', get_target_value(c_balanced_pairs, team_ratings['test_C']), '\n')

the team without a competitor:  7618
total difference:  18923 

CPU times: user 8 ms, sys: 0 ns, total: 8 ms
Wall time: 5.12 ms


In [13]:
%%time
d_balanced_pairs = get_balanced_pairs(team_ratings['test_D'])
print('total difference: ', get_target_value(d_balanced_pairs, team_ratings['test_D']), '\n')

the team without a competitor:  7577
total difference:  18593 

CPU times: user 8 ms, sys: 0 ns, total: 8 ms
Wall time: 6 ms


In [14]:
for result in zip(test_names, [a_balanced_pairs, b_balanced_pairs, c_balanced_pairs, d_balanced_pairs]):
    file_name = '{0}_task_1_team_pairs/{1}_pairs.txt'.format(username, result[0])
    np.savetxt(file_name,result[1],fmt='%i')