<a href="https://www.kaggle.com/code/dogrose/max-clique?scriptVersionId=126524454" target="_blank"><img align="left" alt="Kaggle" title="Open in Kaggle" src="https://kaggle.com/static/images/open-in-kaggle.svg"></a>

# Решение поиском максимальных клик в графе

In [1]:
import pandas as pd
import numpy as np

# Загзрузка данных

In [2]:
data = pd.read_csv('../input/obj2node/triplets_all.csv')

$B$ - данная нам в данных матрица, у которой в ячейке ${B_i}_j$ находится мощность пересечения множеств $i$ и $j$.

In [3]:
N = 878
B = np.zeros((N, N))
for i in range(data.shape[0]):
    a, b = map(int, data.ids[i].split('_'))
    c = int(data.intersize[i])
    B[a][b] = c
    B[b][a] = c
print(B)

[[0. 5. 2. ... 0. 0. 0.]
 [5. 0. 8. ... 0. 0. 0.]
 [2. 8. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 3.]
 [0. 0. 0. ... 0. 3. 0.]]


Теперь рассмотрим следующую интерпретацию нашей задачи. Пусть нам дан неориентированный взешенный граф $gr$, где вершина графа под номером $i$ соответсвует $i$ - ому исходному множеству. Ребро ${e_i}_j$ с весом ${w_i}_j$ между вершинами $i$ и $j$ означает наличие ненулевого пересечения мощности ${w_i}_j$. Причем в данном графе у нас не будет кратных ребер, так как по условию задачи в допустимой ошибке не учитываются мощности самих множеств. 

In [4]:
ans = [[] for _ in range(N)]
gr = np.array(B)
for i in range(N):
    gr[i][i] = 0

# Некоторые соображения
*Клика в графе* - это полный подграф.  
*Максимальная клика* - это полный подграф, максимальной по числу вершин, входящих в него.  
Тогда вернемся к терминам исходной задачи. Пусть у нас есть некоторый пользователь, при этом этот пользователь есть в сообществах $v_1, v_2, ..., v_k$. Заметим, что в нашем графе $gr$ это подмножество вершин образует клику, так как у них есть общий элемент, то есть пересечение между каждыми не пусто. Тогда, если мы найдем клику в графе $gr$, то можем в каждое из сообществ положить нового уникального пользователя c номером $T$. 

# Алгоритм решения
1. В графе $gr$ находим максимальную клику: $v_1, v_2, ..., v_k$.  
2. В каждое из полученных множеств $v_1, v_2, ..., v_k$ добавляем одного нового уникального пользователя. При этом из весов всех ребер, соединяющих вершины этой клики, вычитаем 1.  
3. Если вес какого-то ребра стал равен 0, то удаялем это ребро из графа $gr$. 
4. Если в графе не осталось ребер, то завершаем алгоритм, иначе переходим на шаг 1.

# Обоснование алгоритма
1. Максималную клику мы берем, потому что она гарантирует нам, что пользователь, которого мы добавляем, не лежит больше в других множествах, то есть на каждом шаге мы добавляем $i$-го пользователя именно в те множества, которым он принадлежит (проблема заключается в том, что мы не умеет решать задачу поиска максимальной клики в графе за быстро, это NP-полная задача). Если бы мы умели искать максимальную клику точно, то нашли бы точное минимальное решение. 
2. Мы гарантированно найдем ответ, на котором абсолютная ошибка на внедиагональных элементах будет равно нулю. Это связано с тем, что на диагональных элементах располагаются мощности пересечений (то есть веса ребер в графе $gr$), а алгоритм у нас завершается, когда ребер не осталось, то есть все веса ребер обращаются в ноль. 

# Алгоритм поиска максимальной клики в графе
Мы поняли, что чем более точно находить максимальную клику в графе, тем лучший результат выдает решение. Будем искать приближенную максимальную клику следующим обрзаом: 
$max\_click$ - максимальная клика   
$max\_click\_without\_adding$ - максималная клика, найденная только на первом шаге, без добавления вершин  
1. Удаляем вершину минимальной степени из графа. Если оставшийся граф оказался кликой, то переходим на шаг 2, иначе переходим на шаг 1. 
2. Обозначим найденную клику через $cur\_click$. Пусть еще $copy\_cur\_click$ это копия этой клики. Далее проходимся по вершинам, не входящими в текущую клику. Если можем добавить вершину к $cur\_click$, чтобы она снова стала кликой, то обновляем $cur\_click$. Далее пытаемся релаксировать $max\_click$ с помощью $cur\_click$. Удаляем из графа $gr$ $copy\_cur\_click$ и соотвтетсвенно $gr$ пересчитывается. 
3. Если оказалось, что $|copy\_cur\_click|$ < $|max\_click\_without\_adding|$, то завершаемся, иначе присваиваем $max\_click\_without\_adding$ = $copy\_cur\_click$ и переходим на шаг 1.  

Алгоритм может быть еще улучшен тем, что если в какой-то момент размер компоненты связности получился небольшим (~20), то можно искать клику уже точно. Данная идея не была распробовала. 

# Реализация

In [5]:
from copy import copy 

T = 0; INF = 1000000000
while True:
    # прерываю здесь решение, потому что долго дожидаться ответа на python. ответ получался на C++
    if T > 3:  
        break
    arr = []
    prev = []
    tt = []
    gr_cp = np.zeros((N, N))
    for i in range(N):
        for j in range(N):
            if gr[i][j] != 0:
                gr_cp[i][j] = 1
    while True:
        v = np.zeros(N)
        gr_cp_cp = np.array(gr_cp)
        for i in range(N):
            sum = 0
            for j in range(N):
                sum += gr_cp[i][j]
            v[i] = sum
        
        while True:
            cnt = 0
            ind = -1; minn = INF
            for i in range(N):
                if v[i] != 0:
                    cnt += 1
                if v[i] < minn and v[i] != 0:
                    minn = v[i]
                    ind = i
            if ind == -1:
                break
            if minn < cnt - 1:
                for j in range(N):
                    if gr_cp[ind][j] == 1:
                        gr_cp[ind][j] = 0
                        gr_cp[j][ind] = 0
                        v[ind] -= 1
                        v[j] -= 1
            else:
                break
        arr.clear()
        for i in range(N):
            if v[i] != 0:
                arr.append(i)
        
        tmp = copy(arr)
        used = np.zeros(N)
        for it in arr:
            used[it] = 1
        for v in range(N):
            if not used[v]:
                count = 0
                for it in tmp:
                    if gr_cp_cp[v][it] == 1:
                        count += 1
                if count == len(tmp):
                    tmp.append(v)
        
        if len(tmp) > len(tt):
            tt = copy(tmp)
        if len(arr) > len(prev):
            prev = copy(arr)
            gr_cp = np.array(gr_cp_cp)
            for it in prev:
                for j in range(N):
                    gr_cp[it][j] = 0
                    gr_cp[j][it] = 0
        else:
            break
        
        arr = copy(tt)
        mn = 1
        
        for i in arr:
            for k in range(mn):
                ans[i].append(T + k)
        T += mn
        for i in arr:
            for j in arr:
                if i != j:
                    gr[i][j] = max(gr[i][j] - mn, 0)
        ss = 0
        for i in range(N):
            for j in range(N):
                ss += gr[i][j]
        print(T, len(arr), ss, sep=" ")
        
        if ss == 0:
            break
        
        if T % 5000:
            a = np.zeros((N, T))
            for i in range(N):
                for it in ans[i]:
                    a[i][it] = 1
            out = open("ans.txt", "w")
            for i in range(N):
                for j in range(T):
                    out.write(str(a[i][j]) + " ")
                out.write("\n")
            out.close()

1 349 4880092.0
2 299 4790990.0
3 259 4724168.0
4 245 4664388.0


# Сохранение решения

In [6]:
a = np.zeros((N, T))
for i in range(N):
    for it in ans[i]:
        a[i][it] = 1
out = open("ans.txt", "w")
for i in range(N):
    for j in range(T):
        out.write(str(a[i][j]) + " ")
    out.write("\n")

out.close()