## Домашнее здание №2 / Link Prediction

### Матушкин Александр, 399 группа

----
План выполнения домашнего задания:

1. Краткий обзор исходных данных
2. Генерация дополнительных данных
3. Создание матрицы признаков для ребер
4. Настройка модели и валидация качества модели
5. Отправка результатов в контест на Kaggle

----

В данном домашнем задании вам предстоит построить классификатор, который бы предсказывал наличие или отсутствия ребра в графе между двумя вершинами. Никакой дополнительной информации о вершинах, кроме ее соседей нет, поэтому вам придется создавать вектор признаков для каждой пары вершин на основе топологии графа.

Вершины графа - товары интернет магазина, наличие ребра символизируют о высокой частоте совместной покупки данных товаров вместе. Например если в нашем графе присутствую вершины молоко и хлеб и данные товары часто покупаются вместе, то между данными вершинами будет ребро. Если в нашем графе есть вершины молоко и кроссовки, то между данными вершинами ребра не будет. 

В данном датасете уровень относительной частоты по которому решается есть ребро между вершинами или его нет был определен за нас. Сам датасет был получен краулингом сайта Amazon.com в марте 2003 года, парсилась секция "Люди которые купили данный продукт, также преобретали это..."

Мотивация данного задания: Расширить список блока рекомендаций, за счет товаров которые с высокой вероятность могут оказаться в одной корзине покупателя.

----
Для создания модели и работы с данными мы будем использовать пакет GraphLab, структуры данных SFrame и SGraph идеально подходят для работы с графами. Распределенное хранение данных и применения функций для расчета метрик отдельных вершин сильно облегчают работу с графом.

Библиотека платная, но лицензия для академических целей получается в течении 5 минут, чтобы установить пакет следуйте шагам на сайте - https://turi.com/download/academic.html

----

Описание файлов:

1. the_graph.csv - файл содержащий ребра графа, две колонки: src,dst 
2. suspicions.csv - файл с ребрами, графа. Для данных ребер неизвестно присутствует ли оно в графе или нет.

Описание целевой метрики - в качестве целевой метрики будем использовать ROC AUC http://mlwiki.org/index.php/ROC_Analysis

----

In [1]:
import graphlab as gl
import numpy as np
import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt
%matplotlib inline

gl.canvas.set_target('ipynb')

### 1. Краткий обзор исходных данных - 10 Баллов

Загрузим данные, найдем ряд базовых статистик:

1. Количество вершин и ребер
2. Распределение степеней вершин графа (График log - log)
3. Плотность графа
4. Диаметр графа
5. Количество треугольников в графе
6. Краткие выводы о данных.
7. БОНУСЫ - сделайте красивую визулизацию или расчет дополнительных метрик с выводами и вы получите дополнительные баллы за задание

In [2]:
edges = gl.SFrame.read_csv('the_graph.csv', delimiter=',', verbose=False)
g = gl.SGraph().add_edges(edges, src_field='src', dst_field='dst')

This non-commercial license of GraphLab Create for academic use is assigned to matushkin@phystech.edu and will expire on November 06, 2017.


[INFO] graphlab.cython.cy_server: GraphLab Create v2.1 started. Logging: C:\Users\ASUS-PC\AppData\Local\Temp\graphlab_server_1479234964.log.0


In [3]:
def print_graph_info():
    vert_edgs = g.summary()
    print 'Number of vertices: {0}'.format(vert_edgs['num_vertices'])
    print 'Number of edges: {0}'.format(vert_edgs['num_edges'])
    
    deg = sorted(gl.degree_counting.create(g).graph.get_vertices()['total_degree'], reverse=True)
    plt.hist(deg, bins=20, log=True, facecolor='red', alpha=0.75)
    plt.xlabel('Degree')
    plt.ylabel('Number of vertices')
    plt.title('Histogram of degree distribution')
    # plt.xscale('log')
    plt.show()
    
    print 'Graph density: %f' % (float(vert_edgs['num_edges']) / vert_edgs['num_vertices'])
    print
    
    G = nx.Graph()
    G.add_nodes_from(range(vert_edgs['num_vertices']))
    G.add_edges_from(g.get_edges().to_numpy())
    eccs = nx.eccentricity(G, v=np.random.choice(range(vert_edgs['num_vertices']), size=100, replace=False))
    print 'Diameter of graph >= ', max(eccs.itervalues())
    # print 'Diameter of graph: %d' % nx.diameter(G)
    
    print 'Number of triangles: %d' % gl.triangle_counting.create(g, verbose=False).num_triangles

#### Найдем ряд базовых статистик

In [None]:
print_graph_info()

Выводы: большой разреженный граф с малым диаметром.

----
### 2. Генерация дополнительных данных - 20 Баллов

Перед нами стоит задача создания модели классификации, которая в дальнейшем будет использоваться для повышения разнообразия блока рекомендаций. Для большинства моделей классификации требуется минимум 2 класса объектов - негативный и позитивный. Но у нас есть только граф, ребра которые в нем присутствуют это позитивные примеры. Получается, что у нас нет негативных примеров. 

Ответьте на 3 вопроса:

1. Можем ли мы сами создать негативные примеры? Граф это описание связей между вершинами, если мы будем случайным образом выбирать две вершины и считать, что это ребро - негативный пример, имеет ли это смысл?
2. Если мы решим сгенерировать негативные примеры, как должна быть устроена процедура генерации, чтобы обобщаяющая способность модели была наилучшей?
3. Как зависит обобщающая способность модели от негативных примеров, которые мы ей покажем?

1. Можем. Имеет, но это не лучший способ.
2. Если каждый раз брать две случайные вершины, то мы часто будем получать вершины из разных кластеров, про которые "и так понятно", что они не соединены ребром. Стоит взять побольше негативных примеров, которые похожи на позитивные.
3. Отрицательные примеры, которые мы выделим на train-графе должны быть похожи на большинство пар несмежных вершин, тогда, возможно, все будет ОК, иначе модель будет обладать низкой обучающей способностью.

Создадим класс отрицательных примеров, сгенерировав его самым простым образом: берем две вершины, если ребро между ними отсутствует в графе, то это отрицательный пример.

1. Попробуйте улучшить генерацию отрицательных примеров

In [5]:
vert_edgs = g.summary()
vert = gl.degree_counting.create(g).graph.get_vertices()

# read in existing edges
graph_file = open('the_graph.csv')
graph_file.readline()
existing_edges = set()

for x in graph_file:
    start, end = x.split(',')
    start, end = int(start), int(end)
    existing_edges.add((start, end))

In [6]:
# generating negative examples, so that class balance is 50/50 
generated_nonexisting_edges = []
counter = 0
while True:
    start = np.random.randint(0, vert_edgs['num_vertices'])
    end = np.random.randint(0, vert_edgs['num_vertices'])
    if (start != end) & ((start, end) not in existing_edges):
        generated_nonexisting_edges.append([start, end, 0])
        
    counter += 1
    if counter == vert_edgs['num_edges']:
        break

# create SFrame with negative examples
generated_nonexisting_edges = pd.DataFrame(data=generated_nonexisting_edges, columns=['src', 'dst', 'class'])
generated_nonexisting_edges = gl.SFrame(data=generated_nonexisting_edges)

# add target function to the original dataset 
edges['class'] = [1] * edges.shape[0]

# add negative examples to the main data and shuffle
edges = edges.append(generated_nonexisting_edges)
edges = gl.cross_validation.shuffle(edges)

# update our graph g with fake edges
g = gl.SGraph().add_edges(edges, src_field='src', dst_field='dst')

vert_edgs = g.summary()

print 'Number of vertices = {0}'.format(vert_edgs['num_vertices'])
print 'Number of edges = {0}'.format(vert_edgs['num_edges'])

Number of vertices = 262111
Number of edges = 2769704


----
### 3. Создание матрицы признаков для ребер - 30 Баллов

Для создания модели классификации нам необходимы признаки, которые описывают каждое ребро. Вот базовый список того, что можно посчитать:

Для вершин:

1. Список и количество вершин, из которых ребра приходят в данную вершину
2. Список и количество вершин, в которые ребра приходят из данной вершины
3. Список и количество вершин связанных с данной вершиной
4. Список и количество вершин, которые связанны с данной вершиной как входящими, так и исходящими ребрами

Также можно добавить: вершины с которыми данная вершина образует треугольники, кластеризовать вершины и использовать кластер данной вершины и др.

Придумайте дополнительные интересные признаки для вершин и вы получите дополнительный балл за домашнюю работу!

In [7]:
all_vertices = g.get_vertices()
_ = all_vertices.rename({"__id": "id"})

# calculating each vertices in and out connections
out_vertices = edges.groupby("src", {"out_vertices": gl.aggregate.CONCAT("dst")})
out_vertices.rename({"src": "id"})

in_vertices = edges.groupby("dst", {"in_vertices": gl.aggregate.CONCAT("src")})
in_vertices.rename({"dst": "id"})
print




Мы получили базовый набор данных - список входящих и исходящих вершин, для каждой вершины. Теперь найдем количества вершин для метрик 1 и 2. Метрики 3 и 4 вы посчитаете сами

Рассчитаем метрики 3 и 4, вычислим коэффициенты Жаккара и Адамик-Адара, а также косинусную меру для списков из метрик 1-4.

In [8]:
all_vertices = all_vertices.join(in_vertices, on="id", how="outer")
all_vertices = all_vertices.fillna('in_vertices', [])
all_vertices['in_degree'] = all_vertices["in_vertices"].apply(lambda x: len(x))

all_vertices = all_vertices.join(out_vertices, on="id", how="outer")
all_vertices = all_vertices.fillna('out_vertices', [])
all_vertices['out_degree'] = all_vertices["out_vertices"].apply(lambda x: len(x))

all_vertices['adj_vertices'] =  all_vertices.apply(lambda x : list(set(x['in_vertices']) | set(x['out_vertices'])))
all_vertices['degree'] =  all_vertices['adj_vertices'].apply(lambda x: len(x))

all_vertices['dadj_vertices'] =  all_vertices.apply(lambda x : list(set(x['in_vertices']) & set(x['out_vertices'])))
all_vertices['ddegree'] = all_vertices['dadj_vertices'].apply(lambda x: len(x))

In [9]:
pr = gl.pagerank.create(g, verbose=False)
pr_out = pr['pagerank']
_ = pr_out.rename({'__id' : 'id'})

tc = gl.triangle_counting.create(g, verbose=False)
tc_out = tc['triangle_count']
_ = tc_out.rename({'__id' : 'id'})

In [10]:
all_vertices = all_vertices.join(tc_out, on='id', how='left')
all_vertices = all_vertices.join(pr_out, on='id', how='left')
all_vertices.remove_column('delta')

id,in_vertices,in_degree,out_vertices,out_degree
251434,"[186785, 57105, 187707, 255119, 250137, 173240, ...",11,"[109983, 213798, 240147, 120729, 77913, 255119, ...",12
211023,"[69431, 223453, 8927, 15744, 130553, 111522, ...",11,"[224381, 42617, 209929, 190100, 34545, 147802, ...",17
21855,"[217557, 49405, 191808, 25116, 39961, 38455, ...",13,"[208698, 25114, 21854, 25116, 15075, 25115, ...",7
233270,"[105601, 93151, 29698, 229329, 127229, 254122] ...",6,"[138297, 139583, 12446, 258684, 114321, 10760, ...",12
88004,"[88002, 186039, 130339, 88003, 132168, 72281, ...",9,"[183896, 88003, 88002, 204086, 64573, 72281, ...",8
79732,"[103248, 183618, 198593, 105532, 165700, 81408, ...",19,"[79734, 75040, 81407, 79730, 83186, 231402] ...",6
63664,"[116067, 63666, 58475, 80726, 195309, 187155, ...",10,"[63665, 110648, 46916, 22409, 189676, 80726, ...",8
127950,"[127952, 251251, 163381, 175281, 8107, 98108, ...",8,"[127952, 110645, 98108, 48378, 17388, 93037, ...",14
7899,"[167871, 15258, 7898, 65076, 6150, 8977, 7896, ...",13,"[160221, 13587, 104872, 229593, 17454, 8977, ...",13
25263,"[111709, 139715, 42349, 49187, 36274, 174885, ...",11,"[42349, 201015, 42350, 241384, 6965, 6961, 6 ...",9

adj_vertices,degree,dadj_vertices,ddegree,triangle_count,pagerank
"[126019.0, 91141.0, 255120.0, 255119.0, ...",21,"[250137.0, 255119.0]",2,0,1.05661299071
"[15744.0, 209929.0, 129442.0, 248527.0, ...",26,"[233626.0, 198886.0]",2,9,0.858398220862
"[191808.0, 25114.0, 15075.0, 121158.0, ...",17,"[15075.0, 25116.0, 21854.0] ...",3,16,0.989119322696
"[105601.0, 29698.0, 10760.0, 229329.0, ...",17,[229329.0],1,2,0.643848019416
"[88002.0, 130339.0, 88005.0, 132168.0, 35 ...",13,"[72281.0, 88002.0, 88003.0, 88005.0] ...",4,10,0.825575919244
"[81408.0, 198593.0, 183618.0, 165700.0, ...",20,"[75040.0, 83186.0, 79730.0, 79734.0, ...",5,10,1.72499415543
"[116067.0, 46916.0, 63665.0, 22409.0, ...",14,"[110648.0, 116067.0, 46916.0, 80726.0] ...",4,9,0.851492347195
"[57100.0, 127952.0, 36117.0, 169583.0, ...",20,"[127952.0, 98108.0]",2,1,0.906081999185
"[85569.0, 197892.0, 6150.0, 217678.0, 897 ...",23,"[27312.0, 8977.0, 7896.0]",3,11,1.28821225252
"[21921.0, 49187.0, 174885.0, 42350.0, ...",18,"[42349.0, 6965.0]",2,3,1.05117452819


In [11]:
all_vertices.head(1)

id,in_vertices,in_degree,out_vertices,out_degree,adj_vertices
251434,"[186785, 57105, 187707, 255119, 250137, 173240, ...",11,"[109983, 213798, 240147, 120729, 77913, 255119, ...",12,"[126019.0, 91141.0, 255120.0, 255119.0, ..."

degree,dadj_vertices,ddegree,triangle_count,pagerank
21,"[250137.0, 255119.0]",2,0,1.05661299071


In [12]:
edges.head(1)

src,dst,class
12062,161043,0


Мы получили характеристики для каждой вершины графа. Так как у нас задача предсказания наличия ребра, мы должны составить описание каждого ребра, используя метрики вершин. После составления характеристик ребер, мы можем перейти к генерации свойств ребер, взяв за основу метрики вершин ребра. Пример метрик для ребер, которые мы можем найти:

1. Общие друзья вершин ребра
2. Общее количество друзей вершин ребра
3. Коэффициенты Жаккара, Пирсона, Адамик - Адара, косинусная мера

Данные метрики находятся для каждого списка вершин, пунктов 1 - 4

In [13]:
edges = edges.join(pr_out, on={"src": "id"}, how="right")

In [14]:
edges = edges.join(all_vertices, on={"src": "id"}, how="right")
_ = edges.rename({"in_vertices": "src_in_vertices", "out_vertices": "src_out_vertices",
              "in_degree": "src_in_degree", "out_degree": "src_out_degree",
              "adj_vertices": "src_adj_vertices", "dadj_vertices": "src_dadj_vertices",
              "degree": "src_degree", "ddegree": "src_ddegree",
              "triangle_count" : "src_triangle_count", "pagerank" : "src_pagerank"})

edges = edges.join(all_vertices, on={"dst": "id"}, how="right")
_ = edges.rename({"in_vertices": "dst_in_vertices", "out_vertices": "dst_out_vertices",
              "in_degree": "dst_in_degree", "out_degree": "dst_out_degree",
              "adj_vertices": "dst_adj_vertices", "dadj_vertices": "dst_dadj_vertices",
              "degree": "dst_degree", "ddegree": "dst_ddegree",
              "triangle_count" : "dst_triangle_count", "pagerank" : "dst_pagerank"})

Найдем пункт 1 - общих друзей для списков вершин из пункта 1. Пункты 2 и 3 вы посчитаете самостоятельно

In [15]:
def common_friends(u, v, u_neighbors, v_neighbors):
    u_neighbors = set(u_neighbors)
    if v in u_neighbors:
        u_neighbors.remove(v)

    v_neighbors = set(v_neighbors)
    if u in v_neighbors:
        v_neighbors.remove(u)
        
    return len(u_neighbors & v_neighbors)

In [16]:
edges['common_in_vertices'] = (edges[['src', 'dst', 'src_in_vertices', 'dst_in_vertices']]
                               .apply(lambda x: common_friends(x['src'],
                                                               x['dst'],
                                                               x['src_in_vertices'],
                                                               x['dst_in_vertices'])))

edges['common_out_vertices'] = (edges[['src', 'dst', 'src_out_vertices', 'dst_out_vertices']]
                                .apply(lambda x: common_friends(x['src'],
                                                                x['dst'],
                                                                x['src_out_vertices'],
                                                                x['dst_out_vertices'])))

edges['common_adj_vertices'] = (edges[['src', 'dst', 'src_adj_vertices', 'dst_adj_vertices']]
                                .apply(lambda x: common_friends(x['src'],
                                                                x['dst'],
                                                                x['src_adj_vertices'],
                                                                x['dst_adj_vertices'])))

edges['common_dadj_vertices'] = (edges[['src', 'dst', 'src_dadj_vertices', 'dst_dadj_vertices']]
                                 .apply(lambda x: common_friends(x['src'],
                                                                 x['dst'],
                                                                 x['src_dadj_vertices'],
                                                                 x['dst_dadj_vertices'])))

In [17]:
def Jaccard(u, v, u_neighbors, v_neighbors):
    u_neighbors = set(u_neighbors)
    if v in u_neighbors:
        u_neighbors.remove(v)
    v_neighbors = set(v_neighbors)
    if u in v_neighbors:
        v_neighbors.remove(u)
    if len(u_neighbors) + len(v_neighbors) == 0:
        return 0
    else:
        return len(u_neighbors & v_neighbors) / float(len(u_neighbors | v_neighbors))

In [18]:
edges['Jaccard_in_vertices'] = (edges[['src', 'dst', 'src_in_vertices', 'dst_in_vertices']]
                                .apply(lambda x: Jaccard(x['src'],
                                                         x['dst'],
                                                         x['src_in_vertices'],
                                                         x['dst_in_vertices'])))

edges['Jaccard_out_vertices'] = (edges[['src', 'dst', 'src_out_vertices', 'dst_out_vertices']]
                                 .apply(lambda x: Jaccard(x['src'],
                                                          x['dst'],
                                                          x['src_out_vertices'],
                                                          x['dst_out_vertices'])))

edges['Jaccard_adj_vertices'] = (edges[['src', 'dst', 'src_adj_vertices', 'dst_adj_vertices']]
                                 .apply(lambda x: Jaccard(x['src'],
                                                          x['dst'],
                                                          x['src_adj_vertices'],
                                                          x['dst_adj_vertices'])))

edges['Jaccard_dadj_vertices'] = (edges[['src', 'dst', 'src_dadj_vertices', 'dst_dadj_vertices']]
                                  .apply(lambda x: Jaccard(x['src'],
                                                           x['dst'],
                                                           x['src_dadj_vertices'],
                                                           x['dst_dadj_vertices'])))

In [19]:
def cosine(u, v, u_neighbors, v_neighbors):
    u_neighbors = set(u_neighbors)
    if v in u_neighbors:
        u_neighbors.remove(v)
    v_neighbors = set(v_neighbors)
    if u in v_neighbors:
        v_neighbors.remove(u)
    inter_len = len(u_neighbors & v_neighbors)
    if len(u_neighbors) + len(v_neighbors) == 0:
        return 0
    else:
        return inter_len / np.sqrt(len(u_neighbors) + len(v_neighbors))

In [20]:
edges['cosine_in_vertices'] = (edges[['src', 'dst', 'src_in_vertices', 'dst_in_vertices']]
                               .apply(lambda x: cosine(x['src'],
                                                       x['dst'],
                                                       x['src_in_vertices'],
                                                       x['dst_in_vertices'])))

edges['cosine_out_vertices'] = (edges[['src', 'dst', 'src_out_vertices', 'dst_out_vertices']]
                                .apply(lambda x: cosine(x['src'],
                                                        x['dst'],
                                                        x['src_out_vertices'],
                                                        x['dst_out_vertices'])))

In [21]:
vert = gl.degree_counting.create(g).graph.get_vertices()
def aa_coef(u, v, u_neighbors, v_neighbors):
    u_neighbors = set(u_neighbors)
    if v in u_neighbors:
        u_neighbors.remove(v)
    v_neighbors = set(v_neighbors)
    if u in v_neighbors:
        v_neighbors.remove(u)
    inter = u_neighbors & v_neighbors
    union = u_neighbors | v_neighbors
    return sum([1 / np.log(vert[x]['total_degree'] + 1) for x in inter])

In [22]:
edges['aa_coef_in_vertices'] = (edges[['src', 'dst', 'src_in_vertices', 'dst_in_vertices']]
                                .apply(lambda x: aa_coef(x['src'],
                                                         x['dst'],
                                                         x['src_in_vertices'],
                                                         x['dst_in_vertices'])))

edges['aa_coef_out_vertices'] = (edges[['src', 'dst', 'src_out_vertices', 'dst_out_vertices']]
                                .apply(lambda x: aa_coef(x['src'],
                                                         x['dst'],
                                                         x['src_out_vertices'],
                                                         x['dst_out_vertices'])))

In [23]:
edges_copy = edges

In [25]:
_ = edges.remove_column('Jaccard_adj_vertices')
_ = edges.remove_column('Jaccard_dadj_vertices')

src,dst,class,src_pagerank,delta,src_in_vertices,src_in_degree
12062,161043,0,1.17889216687,3.12804113078e-06,"[65240, 12061, 173956, 14868, 5122, 44596, ...",13
180927,56278,0,0.690763410829,1.59269827582e-06,"[112081, 156549, 192368, 71897, 154667, 162750, ...",7
104396,158911,0,0.799518756983,1.98933159801e-06,"[171799, 146162, 63259, 198419, 35719, 9490, ...",8
42025,45522,1,1.47833525909,4.02305239167e-06,"[176359, 42026, 45523, 29851, 45522, 156807, ...",18
45789,255791,0,1.46845972674,4.12709697728e-06,"[183407, 52393, 181594, 33796, 45791, 119038, ...",14
167861,11160,0,0.634121788926,1.59558948609e-06,"[47167, 109781, 26729, 47716, 111536] ...",5
172452,169229,0,0.880193952516,2.12870329075e-06,"[225573, 118191, 210934, 140136, 74899, 114137, ...",12
79746,128920,0,1.61258672216,4.49333374597e-06,"[97557, 9443, 78143, 233036, 252030, 78141, ...",18
24689,128125,0,1.78389190402,4.89254858049e-06,"[100231, 29305, 18477, 116225, 53753, 67816, ...",18
13173,63238,0,0.755399336374,1.76922655082e-06,"[10116, 54996, 13002, 193913, 23262, 34786, ...",8

src_out_vertices,src_out_degree,src_adj_vertices,src_degree,src_dadj_vertices,src_ddegree
"[161043, 14151, 4376, 113332, 12061, 5277, ...",9,"[215360.0, 5122.0, 173956.0, 14151.0, ...",19,"[14868.0, 12061.0, 14151.0] ...",3
"[56278, 162750, 130795, 145408, 145409, 180315, ...",13,"[145408.0, 145409.0, 145410.0, 150571.0, ...",19,[162750.0],1
"[158911, 16806, 161129, 158917, 102112, 165330] ...",6,"[102112.0, 83205.0, 16806.0, 35719.0, ...",13,[102112.0],1
"[45522, 130695, 16741, 45521, 42024, 50010, ...",8,"[206144.0, 184004.0, 90757.0, 214343.0, ...",23,"[45521.0, 45522.0, 47166.0] ...",3
"[255791, 60373, 142659, 201476, 33796, 125399, ...",10,"[33795.0, 33796.0, 33797.0, 179087.0, ...",19,"[52393.0, 52394.0, 33795.0, 33796.0, ...",5
"[11160, 181499, 67102, 43856, 131795, 72135, ...",13,"[166661.0, 72135.0, 43856.0, 76051.0, ...",17,[109781.0],1
"[169229, 84172, 92309, 54774, 198829, 154236, ...",11,"[140867.0, 142006.0, 54774.0, 84172.0, ...",22,[198829.0],1
"[128920, 161235, 39988, 136605, 97557, 78141, ...",9,"[98119.0, 196618.0, 233036.0, 100624.0, ...",23,"[100624.0, 78143.0, 78141.0, 97557.0] ...",4
"[128125, 159231, 18576, 67436, 148567, 74080, ...",19,"[43200.0, 116225.0, 216258.0, 150403.0, ...",34,"[53752.0, 53753.0, 18477.0] ...",3
"[63238, 77117, 146314, 13002, 10116, 24440, ...",12,"[166720.0, 34786.0, 10115.0, 10116.0, ...",18,"[13002.0, 10116.0]",2

src_triangle_count,pagerank.1,dst_in_vertices,dst_in_degree,dst_out_vertices,dst_out_degree
3,1.17889216687,"[12062, 38451, 231409, 165423, 103163, 133563, ...",14,"[233352, 94002, 147649, 34698, 101761, 161042, ...",8
10,0.690763410829,"[180927, 56277, 72310, 72874, 48995, 161529, ...",14,"[56277, 51342, 48996, 250337, 72310, 56279, ...",9
0,0.799518756983,"[104396, 131834, 179410, 170337, 115085, 216755, ...",9,"[9042, 163382, 15136, 115085, 139635, 32777, ...",10
19,1.47833525909,"[42025, 121316, 194101, 47166, 80661, 42026, ...",13,"[140300, 42025, 42024, 47166, 238244, 141136, ...",11
18,1.46845972674,"[45789, 54712, 106311, 88980, 250870, 254943] ...",6,"[153041, 250870, 122296, 83000, 254943, 255630, ...",14
8,0.634121788926,"[167861, 53900, 20858, 183779, 84339, 240150, ...",31,"[63860, 10745, 28508, 26692, 28509, 57295, ...",10
12,0.880193952516,"[172452, 168242, 146110, 155708, 115590, 189758, ...",10,"[119635, 79826, 172920, 56726, 79828, 79827, ...",10
10,1.61258672216,"[79746, 202767, 125162, 101938, 93097, 162216, ...",9,"[53023, 29380, 93097, 116869, 87836, 117487, ...",7
31,1.78389190402,"[24689, 129241, 139334, 160750, 159924, 139335, ...",13,"[58457, 129241, 139334, 184803, 139335, 129239, ...",9
10,0.755399336374,"[13173, 62540, 59793, 87014, 208745, 52304, ...",9,"[63113, 59790, 38740, 59793, 256772, 89362, ...",10

dst_adj_vertices,dst_degree,dst_dadj_vertices,dst_ddegree,dst_triangle_count,dst_pagerank,common_in_vertices
"[147649.0, 147650.0, 101761.0, 233352.0, ...",19,"[147649.0, 147650.0, 161042.0] ...",3,4,1.11630945097,0
"[51342.0, 28753.0, 56277.0, 56279.0, ...",18,"[56281.0, 48996.0, 56277.0, 72310.0, ...",5,10,1.24096016639,0
"[15136.0, 170337.0, 210278.0, 32777.0, ...",17,"[115085.0, 158910.0]",2,5,0.817470454598,0
"[140300.0, 141136.0, 45521.0, 80661.0, ...",19,"[42024.0, 42025.0, 42026.0, 47166.0, ...",5,8,1.19710843281,3
"[122296.0, 20421.0, 106311.0, 255630.0, ...",18,"[250870.0, 254943.0]",2,0,0.749281583501,0
"[259331.0, 26692.0, 81459.0, 77658.0, ...",37,"[28508.0, 10745.0, 26692.0, 28509.0] ...",4,23,3.43329844767,0
"[130784.0, 245345.0, 172452.0, 115590.0, ...",19,[115590.0],1,12,0.9131461974,0
"[53023.0, 79746.0, 29380.0, 116869.0, ...",15,[93097.0],1,2,0.760388022925,0
"[109952.0, 162265.0, 128124.0, 139334.0, ...",18,"[129241.0, 129239.0, 139334.0, 139335.0] ...",4,14,1.06859967393,0
"[49664.0, 221136.0, 256772.0, 87014.0, ...",17,"[59793.0, 62540.0]",2,12,0.731996861659,0

common_out_vertices,common_adj_vertices,common_dadj_vertices,Jaccard_in_vertices,Jaccard_out_vertices
0,0,0,0.0,0.0
0,0,0,0.0,0.0
0,0,0,0.0,0.0
3,4,2,0.115384615385,0.214285714286
0,0,0,0.0,0.0
0,0,0,0.0,0.0
0,0,0,0.0,0.0
0,0,0,0.0,0.0
0,0,0,0.0,0.0
0,0,0,0.0,0.0

cosine_in_vertices,cosine_out_vertices,aa_coef_in_vertices,aa_coef_out_vertices
0.0,0.0,0.0,0.0
0.0,0.0,0.0,0.0
0.0,0.0,0.0,0.0
0.557086014531,0.727606875109,0.973533101091,1.01305474449
0.0,0.0,0.0,0.0
0.0,0.0,0.0,0.0
0.0,0.0,0.0,0.0
0.0,0.0,0.0,0.0
0.0,0.0,0.0,0.0
0.0,0.0,0.0,0.0


In [26]:
_ = edges.remove_column('src_ddegree')
_ = edges.remove_column('dst_ddegree')
_ = edges.remove_column('src_degree')
_ = edges.remove_column('dst_degree')
_ = edges.remove_column('common_dadj_vertices')
_ = edges.remove_column('common_adj_vertices')

In [27]:
_ = edges.remove_column('src_in_vertices')
_ = edges.remove_column('src_out_vertices')
_ = edges.remove_column('src_adj_vertices')
_ = edges.remove_column('src_dadj_vertices')
_ = edges.remove_column('dst_in_vertices')
_ = edges.remove_column('dst_out_vertices')
_ = edges.remove_column('dst_adj_vertices')
_ = edges.remove_column('dst_dadj_vertices')

In [28]:
_ = edges.remove_column('src_in_degree')
_ = edges.remove_column('src_out_degree')
_ = edges.remove_column('dst_in_degree')
_ = edges.remove_column('dst_out_degree')
_ = edges.remove_column('cosine_in_vertices')
_ = edges.remove_column('cosine_out_vertices')

In [29]:
_ = edges.remove_column('Jaccard_in_vertices')
_ = edges.remove_column('Jaccard_out_vertices')

In [31]:
_ = edges.remove_column('delta')

Результатом пункта 3 является матрица признаков. Теперь мы готовы занятся настройкой моделей. Главная ваша задача в пункте 3 - подготовить как можно больше качественных признаков, которые могли бы использоваться для настройки модели машинного обучения.

In [32]:
edges.head(1)

src,dst,class,src_pagerank,src_triangle_count,pagerank.1,dst_triangle_count,dst_pagerank,common_in_vertices
12062,161043,0,1.17889216687,3,1.17889216687,4,1.11630945097,0

common_out_vertices,aa_coef_in_vertices,aa_coef_out_vertices
0,0.0,0.0


----
### 4. Настройка модели и валидация качества модели - 20 Баллов

Исключим подозрительные ребра из рассмотрения, а затем разобьем датасет на 2 части, для обучения и проверки результатов. Настроим базовую модель классификации - логистическую регрессию.
Для улучшения качества модели вам предстоит выполнить следующие пункты:

1. Кросс - валидация для настройки гиперпараметров модели и регуляризации
2. Подбор модели машинного обучения (случайный лес, бустинг, нейронная сеть и т.д.)

In [33]:
susp = gl.SFrame.read_csv('suspicions.csv', delimiter=',', verbose=False)

In [None]:
#edges = gl.SFrame.read_csv('edges.csv', delimiter=',', verbose=False)

In [None]:
#pdframe = edges.to_dataframe()

In [None]:
#pdframe.to_csv("unmerged.csv")

In [None]:
#edges.export_csv("unmerged2.csv")

In [None]:
#edges = gl.SFrame.read_csv('edges.csv', delimiter=',', verbose=False)

In [None]:
print edges.shape
edges = edges.join(susp, on=['src', 'dst'], how='left')
print edges.shape

(2769704, 12)


In [None]:
#pdframe = edges.to_dataframe()
#pdframe.to_csv("merged.csv")

In [None]:
clean_edges = edges[edges['edge_id'] == None]
susp_edges = edges[edges['edge_id'] != None]
print clean_edges.shape, susp_edges.shape

In [None]:
clean_edges.remove_column('edge_id')
clean_edges.remove_column('src')
clean_edges.remove_column('dst')
print

In [None]:
clean_edges.head(1)

In [None]:
# split on train and test
test, train = clean_edges.random_split(0.2)

In [None]:
print test.shape, train.shape

In [None]:
#pdframe = clean_edges.to_dataframe()
#pdframe.to_csv("data2.csv")

In [None]:
#pdframe.to_csv("data2.csv")

In [None]:
#clean_edges = gl.SFrame.read_csv('data.csv', delimiter=',', verbose=False)

In [None]:
model = gl.classifier.logistic_classifier.create(clean_edges, 
                                                 target="class", max_iterations=10, 
                                                 features=[x for x in clean_edges.column_names() if 'class' not in x])

In [None]:
model.coefficients.print_rows(num_rows=21)

In [None]:
model = gl.classifier.boosted_trees_classifier.create(clean_edges, 
                                                 target="class", max_iterations=100,
                                                 features=[x for x in clean_edges.column_names() if 'class' not in x])

In [None]:
# fit basic classification model - LR
model = gl.classifier.boosted_trees_classifier.create(train, 
                                                 target='class',
                                                 features=[x for x in clean_edges.column_names() if 'class' not in x])
results = model.evaluate(test)
print results

----
### 5. Отправка результатов в контест на Kaggle - 20 Баллов


Завершая домашнюю работу, нам небходимо предсказать вероятности наличия ребер, для заданного списка ребер. Результат отправлется в контест на kaggle.com в формате: edge_id - probability

In [None]:
predicted = model.predict(susp_edges, output_type='probability')

In [None]:
print predicted[0:10]

In [None]:
pred = susp_edges['class']

In [None]:
susp_edges['probability'] = predicted

In [None]:
result = susp_edges['edge_id', 'probability']

In [None]:
result.save('result8.csv', format='csv')