# Меры центральности, граф социальной сети

#### Математика для лингвистов
#### Клышинский Э.С., 18.09.2020

### Теоретическое введение

##### Степень связности

Простейшим понятием является степень связности, которая определяется как число связей, инцидентных узлу (то есть число связей, которое узел имеет). Степень можно интерпретировать в терминах прямого риска узла подхватить что-то проходящее через сеть (таких как вирус или некая информация). В случае ориентированной сети (где связи имеют направление) обычно определяются две различные меры степени связности, а именно, полустепень захода и полустепень исхода. Соответственно, полустепень захода — это число связей с узлом, а полустепень исхода — это число связей узла с остальными узлами. Когда связь ассоциируется с некоторым положительным аспектом, таким как дружба или сотрудничество, полустепень захода часто интерпретируется как вид популярности, а полустепень исхода как общительность. 

##### Степень близости

В связном графе нормализованная степень близости узла равна средней длине кратчайшего пути между узлом и всеми другими узлами в графе. Тогда чем центральнее узел, тем ближе он ко все остальным узлам.

Степень близости определил Алекс Бавелас (1950) как обратную величину отдалённости, то есть
$C(x)={\frac {1}{\sum _{y}d(y,x)}}$

где d(y, x) равно расстоянию между вершинами x и y. Однако, когда говорят о степени близости к другим узлам, люди обычно имеют в виду её нормализованную форму, обычно получающющуюся из предыдущей формулы путём умножения на N − 1, где N равно числу узлов в графе. Калибровка позволяет сравнение между узлами графов различного размера. 

##### Степень посредничества

Степень посредничества — это мера центральности вершины в графе (существует также степень посредничества ребра, которая здесь не обсуждается). Степень посредничества выражает количественно число раз, когда узел служит мостом в кратчайшем пути между двумя другими узлами. Степень посредничества была введена Линтоном Фриманом как мера количественного выражения взаимодействия человека с другими людьми в социальной сети[21]. В этой концепции вершины, имеющие наибольшую вероятность оказаться на случайно выбранном кратчайшем пути между двумя случайно выбранными вершинами, имеют высокую степень посредничества.

Степень посредничества вершины v в графе G=(V, E)  с V вершинами вычисляется следующим образом:

- Для каждой пары вершин (s,t) вычисляются кратчайшие пути между ними.
- Для каждой пары вершин (s,t) определяется доля кратчайших путей, которые проходят через рассматриваемую вершину (здесь, вершину v).
- Суммируем эти доли по всем парам вершин (s,t).

Более компактно степень посредничества можно представить как:

$C_{B}(v)=\sum _{s\neq v\neq t\in V}{\frac {\sigma _{st}(v)}{\sigma _{st}}}$

где $\sigma _{st}$ равно общему числу кратчайших путей из узла s в узел t, а $\sigma _{st}(v)$ равно числу таких путей, которые проходят через v. Степень посредничества можно нормализовать путём деления на число пар вершин, не включающих v, что для ориентированных графов равно (n-1)(n-2), а для неориентированных графов равно(n-1)(n-2)/2}. Например, в неориентированной звезде центральная вершина (которая содержится в любом возможном кратчайшем пути) имеет степень посредничества (n-1)(n-2)/2} (1, если нормализовать), в то время как листья (которые не содержатся ни в одном кратчайшем пути) имеют степень посредничества 0.

С точки зрения вычислений, как степени посредничества, так и степени близости всех вершин графа вовлекают вычисление кратчайших путей между всеми парами вершин графа, что требует время $O(V^{3})$ при использовании алгоритма Флойда — Уоршелла. Однако на разреженных графах алгоритм Джонсона может оказаться более эффективным, работая за время $O(V^{2}\log V+VE)$. В случае невзвешенных графов вычисления могут быть выполнены с помощью алгоритма Брандеса, который затрачивает время O(VE). Обычно эти алгоритмы предполагают, что графы не ориентированы и связны с разрешением петель и кратных рёбер. При работе с сетевыми графами, отражающими простые связи, которые часто не имеют петель или кратных рёбер (где рёбра представляют связи между людьми). В этом случае использование алгоритма Брандеса конечный показатель центральности делится на 2, чтобы учесть, что каждый кратчайший путь подсчитывается дважды. 

##### Степень влиятельности

Степень влиятельности является мерой влияния узла в сети. Он назначает относительные показатели всем узлам в сети, основываясь на концепции, что связи с узлами с высоким показателем вкладывают больше в показатель рассматриваемого узла, чем такая же связь с узлом с низким показателем. Показатель PageRank компании Google и центральность узла по Кацу являются вариантами степени влиятельности.
Использование матрицы смежности для нахождения степени влиятельности

Для заданного графа G=(V,E) с |V| вершинами пусть $A=(a_{v,t})$ будет матрицей смежности, то есть a $a_{v,t}=1$, если вершина v связана с вершиной t, и a $a_{v,t}=0$ в противном случае. Относительный показатель центральности вершины v можно определить как

$x_{v}={\frac {1}{\lambda }}\sum _{t\in M(v)}x_{t}={\frac {1}{\lambda }}\sum _{t\in G}a_{v,t}x_{t}$

где M(v) представляет собой множество соседей вершины v, а λ является константой.

### Библиотека Natasha и извлечение именованных сущностей
При обработке текстов часто решают такие стандартные и связанные между собой задачи как извлечение именованных сущностей и извлечение фактов. При этом факты часто извлекаются именно для именованных сущностей - кто про кого что сказал, что купил, с чем выступил и т.д.

Сегодня мы попробуем решать первую задачу - извлечение именованных сущностей. Для этого используем библиотеку с романтичным названием Natasha ([статья на Хабре](https://habr.com/ru/post/516098/) и более понятная [документация](https://nbviewer.jupyter.org/github/natasha/natasha/blob/master/docs.ipynb)). На самом деле она обладает относительно (других библиотек) не очень высокой точностью работы и выделяет всего два типа именованных сущностей - фамильно-именные группы и адреса. Зато она точно легко ставится и работает с русским языком.

Гораздо лучше библиотекой является Stanford NER, но у него нет русского языка, а сама библиотека ставится под Java. В состав NLTK входит модуль, который предоставляет интерфейс работы со Stanford NER. В общем, если Вы работаете с английским языком, понимите у себя всё что надо для него.

Для сегодняшней задачи нам потребуются только имена, поэтому импортируем из Наташи только класс NamesExtractor.

Помимо этого будем использовать для контроля за процессом вычислений такую приятную вещь как tqdm. Он позволяет выводить на экран номер текщей итерации в цикле, оценивает скорость выполнения цикла, показывает прогресс и вообще позволяет увидеть, что программа всё еще не зависла.

In [1]:
import re
# Берем tqdm чтобы следить за прогрессом.
from tqdm import tqdm

Загрузим новости с Ленты.ру за лето 2018 года в список кортежей (название, дата, новость).

In [2]:
# Если не хочется долгих экспериментов, в папке лежит сокращенная версия файла с новостями:
# summer22.txt
with open("data/lenta2018_summer.txt", encoding="utf-8") as newsfile: # Файл с новостями.
    text_news = [(n.split("-----\n")[0].split('\n')[0], 
                  n.split("-----\n")[0].split('\n')[1], 
                  n.split("-----\n")[1]) for n in newsfile.read().split("=====\n")[1:]]
    

Давайте разберемся с тем, как работает библиотека. Для начала создаем объект типа NamesExtractor.

In [3]:
from natasha import (
    Segmenter,
    MorphVocab,
    
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,
    
    PER,
    NamesExtractor,

    Doc
)

Для того, чтобы извлечь все имена из какого-то текста его надо "передать" в объект типа NamesExtractor при помощи оператора круглые скобки. Для теста возьмем нулевую новость из загруженных из извлечем имена из нее.

Библиотека Natasha возвращает список объектов, которые могут возвращать описание полученной именованной сущности, например, в виде JSON.

In [4]:
segmenter = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
#syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

names_extractor = NamesExtractor(morph_vocab)

In [5]:
print(text_news[0][2])

doc = Doc(text_news[0][2])

doc.segment(segmenter)
doc.tag_morph(morph_tagger)
doc.tag_ner(ner_tagger)
display(doc.spans)
#doc.ner.print()

#token.lemmatize(morph_vocab)

Перспективный российский многофункциональный истребитель пятого поколения Су-57 не имеет мировых аналогов и о нем не могут судить «дилетанты из СМИ», поскольку его «ноу-хау являются тайной», о которых знают лишь «профессионалы, испытатели, военное руководство страны». Такую точку зрения РИА Новости высказал летчик-испытатель Магомед Толбоев. «Ни на одном самолете еще никогда не удавалось добиться того, чтобы на крейсерских сверхзвуковых скоростях (1600 километров в час) можно было летать в бесфорсажном режиме. Форсажный режим сопряжен с огромной тратой топлива, а Су-57 может развивать крейсерскую скорость "на номинале". Этого в мире еще не добился никто — ни Франция, ни Англия, ни Rolls-Royce, ни Pratt & Whitney — никто», — говорит Толбоев. Летчик-испытатель называет Су-57 «будущим российской боевой авиации». «В нем реализованы самые передовые технологии и то, что демонстрируется широкой общественности, — это лишь поверхность, остальное знаем только мы — профессионалы, испытатели, воен

[DocSpan(start=144, stop=147, type='ORG', text='СМИ', tokens=[...]),
 DocSpan(start=288, stop=299, type='ORG', text='РИА Новости', tokens=[...]),
 DocSpan(start=327, stop=342, type='PER', text='Магомед Толбоев', tokens=[...]),
 DocSpan(start=667, stop=674, type='LOC', text='Франция', tokens=[...]),
 DocSpan(start=679, stop=685, type='LOC', text='Англия', tokens=[...]),
 DocSpan(start=690, stop=701, type='ORG', text='Rolls-Royce', tokens=[...]),
 DocSpan(start=706, stop=721, type='ORG', text='Pratt & Whitney', tokens=[...]),
 DocSpan(start=742, stop=749, type='PER', text='Толбоев', tokens=[...]),
 DocSpan(start=751, stop=768, type='PER', text='Летчик-испытатель', tokens=[...]),
 DocSpan(start=778, stop=783, type='PER', text='Су-57', tokens=[...]),
 DocSpan(start=1072, stop=1075, type='ORG', text='СМИ', tokens=[...]),
 DocSpan(start=1216, stop=1237, type='ORG', text='The National Interest', tokens=[...]),
 DocSpan(start=1266, stop=1271, type='PER', text='Су-57', tokens=[...]),
 DocSpan(s

In [6]:
doc.spans[0].tokens[0].lemmatize(morph_vocab)
doc.spans[0].tokens[0].lemma

'сми'

In [7]:
doc.spans[0].as_json['text'], doc.spans[0].as_json['type']

('СМИ', 'ORG')

In [9]:
def NER_it(text):
    doc = Doc(text)

    doc.segment(segmenter)
    doc.tag_morph(morph_tagger)
    doc.tag_ner(ner_tagger)
    for s in doc.spans:
        s.tokens[-1].lemmatize(morph_vocab)
    return [(s.tokens[-1].lemma, s.type) for s in doc.spans]

def getPolitics(lenta):
    # Храним все упоминавшиеся имена...
    names={}
    # ... и связи между людьми, упоминавшимися в одной новости.
    connect={}
    # Перебираем все загруженные новости.
    for art in tqdm(lenta):
        # Извлекаем именные группы из текста новости.
        nfacts = NER_it(art[2])
        # Так как один участник может упоминаться несколько раз, строим список с единственными упоминаниями.
        nam=[fact[0].split(" ")[-1] for fact in nfacts if fact[1]=='PER']
        snam=list(set(nam))
        # Пробрасываем связи между людьми. Главное - не писать сколько раз человек связан между собой.
        for n in snam:
            names[n]=names.get(n, 0)+1
            pers=connect.get(n, {})
            for n2 in snam:
                if n!=n2:
                    pers[n2]=pers.get(n2, 0)+1
            connect[n]=pers
    return names, connect

In [10]:
names, connections = getPolitics(text_news)

100%|██████████| 10829/10829 [13:14<00:00, 13.63it/s]


In [11]:
connections

{'су-57': {'кнышов': 1,
  'толбоев': 3,
  'летчик-испытатель': 1,
  'оликер': 1,
  'подвиг': 1,
  'шойгу': 2,
  'купер': 1,
  'криворучко': 1,
  'гутенев': 1,
  'бронк': 1,
  'борисов': 3,
  'роблин': 1,
  'тревитик': 1,
  'кудрявцев': 1,
  'слюсарь': 2,
  'миг-41': 1,
  'тарасенко': 1,
  'бондарев': 1},
 'кнышов': {'су-57': 1, 'толбоев': 1, 'летчик-испытатель': 1},
 'толбоев': {'су-57': 3,
  'кнышов': 1,
  'летчик-испытатель': 1,
  'оликер': 1,
  'подвиг': 1,
  'шойгу': 1,
  'купер': 1},
 'летчик-испытатель': {'су-57': 1, 'кнышов': 1, 'толбоев': 1, 'квочура': 1},
 'витолиньша': {'знарк': 1, 'федосов': 1, 'знарок': 1, 'воробьев': 1},
 'знарк': {'витолиньша': 1, 'федосов': 1, 'знарок': 1, 'воробьев': 2},
 'федосов': {'витолиньша': 1, 'знарк': 1, 'знарок': 1, 'воробьев': 1},
 'знарок': {'витолиньша': 1, 'знарк': 1, 'федосов': 1, 'воробьев': 1},
 'воробьев': {'витолиньша': 1,
  'знарк': 2,
  'федосов': 1,
  'знарок': 1,
  'тресковый': 4,
  'дитрих': 1,
  'путин': 9,
  'марков': 7,
  'вамм

Возьмем не все действующие лица, а только самых упоминаемых героев, которые упоминались хотя бы в 21 статье.

In [12]:
# Возьмем тех, кто упоминается более 20 раз.
names2=[n+"_"+str(names[n]) for n in names.keys() if names[n]>20]
names2

['воробьев_153',
 'иванов_46',
 'васильев_21',
 'порошенко_157',
 'трамп_674',
 'ына_59',
 'лавров_48',
 'путин_815',
 'герман_25',
 'бабченко_28',
 'песок_138',
 'черчесов_83',
 ')_949',
 'джонсон_43',
 'салах_32',
 'молодой_21',
 'роналда_115',
 'неймар_42',
 'кудрявцев_85',
 'смит_28',
 'головин_59',
 '(_27',
 'марков_23',
 'ын_87',
 'ким_21',
 'кардашьян_58',
 'сенцов_44',
 'медведев_175',
 'дерипаска_25',
 'дерипаск_22',
 'орешкин_23',
 'луценко_21',
 'юнкер_21',
 'лукашенко_42',
 'петросян_25',
 'овечкин_26',
 'уэст_35',
 'эрдоган_61',
 'мэй_52',
 'климкин_23',
 'силуановый_41',
 'макрон_43',
 'уильямс_53',
 'вагнер_26',
 'вайнштейн_21',
 'столтенберг_21',
 'кузнецов_23',
 'асад_63',
 'месси_61',
 'скрипаля_61',
 'юлия_66',
 'фернандес_24',
 'смолов_41',
 'акинфей_35',
 'игнаш_29',
 'дзюба_63',
 'черышев_33',
 'маск_36',
 'обама_36',
 'владимир_26',
 'ii_52',
 'меркель_66',
 'мартин_23',
 'дженнер_26',
 'помпео_43',
 'коэн_22',
 'мбапп_24',
 'скрипаль_55',
 'захарченко_34',
 'топ

Связи будем отслеживать только между самыми заметными героями новостей. Для этого отсеем всех, кто не входит в список наиболее часто встречающихся.

In [13]:
pers2={n:{n2:connections[n][n2] for n2 in connections[n].keys() if names[n2]>20 and n2!=')'}
           for n in connections.keys() if names[n]>20 and n!=')'}
pers2

{'воробьев': {'путин': 9,
  'марков': 7,
  'кузнецов': 1,
  'макрон': 1,
  'собянин': 12,
  'шойгу': 2,
  'володин': 1,
  'медведев': 2,
  'захаров': 6,
  'борисов': 1,
  'лебедев': 1,
  'кирилл': 1,
  'акинфеев': 1},
 'иванов': {'васильев': 1,
  'герман': 1,
  'луценко': 1,
  'бабченко': 1,
  'медведев': 1,
  'путин': 4,
  'кадыров': 1,
  'макаров': 1,
  'сенцов': 2,
  'акинфеев': 1,
  'акинфей': 1,
  'трамп': 1,
  'столтенберг': 1,
  'шойгу': 2,
  'владимир': 1,
  'петросян': 1,
  'кудрявцев': 1},
 'васильев': {'иванов': 1,
  'путин': 4,
  'мбапп': 1,
  'головин': 3,
  'владимир': 1},
 'порошенко': {'путин': 18,
  'захарченко': 1,
  'бабченко': 1,
  'столтенберг': 5,
  'сенцов': 4,
  '.': 1,
  'климкин': 6,
  'москальков': 2,
  'гройсман': 5,
  'владимир': 3,
  'захаров': 1,
  'трамп': 9,
  'вид': 2,
  'юнкер': 2,
  'макрон': 2,
  'уэст': 1,
  'гюлен': 1,
  'эрдоган': 1,
  'омелян': 3,
  'луценко': 2,
  'болтон': 2,
  'медведев': 1,
  'меркель': 1},
 'трамп': {'ына': 52,
  'лавров': 

А теперь построим этот граф при помощи библиотеки <a href="https://networkx.github.io/documentation/stable/_downloads/networkx_reference.pdf">NetworkX</a>

In [14]:
%matplotlib notebook
import matplotlib.pyplot as plt
#import pygraphviz
import networkx as nx
import math
import numpy as np

Построим граф связей при помощи библиотеки networkx.

In [15]:
# Определим функцию отрисовки графа.
def formASocialGraph(persons):
    # Добавляем дуги в граф. Вершины добавятся из названий дуг.
    G=nx.Graph()
    # Перебираем все найденные персоны.
    for n in persons.keys():
        for n2 in persons[n].keys():
            # Собственно, добавляем дугу к графу. Вершины добавятся сами.
            G.add_edge(n, n2)
    return G

In [16]:
G1=formASocialGraph(pers2)

А теперь отобразим полученный граф. Вообще-то, по умолчанию для графа не задано расположение его вершин, а мы не хотим задавать их вручную. Используем для этого функцию spring_layout, которая считает, что каждая связь - это пружина, которая притягивает вершины поближе, тогда как вершины, между которыми нет связи, отталкиваются.

Помимо этого зададим линии дуги так, чтобы их ширина зависела от частоты связи, а размер вершины зависел ль частоты упоминания имени.


In [17]:
# Определим функцию отрисовки графа.
def drawASocialGraph(G, persons, freqs, colors='b', layout='spring'):
    # Строим расположение вершин графа на плоскости.
    if layout=='kawai':
        pstn=nx.kamada_kawai_layout(G)
    elif layout=='circle':
        pstn=nx.drawing.layout.circular_layout(G2)
    elif layout=='random':
        pstn=nx.drawing.layout.random_layout(G2)
    else:
        pstn=nx.spring_layout(G)
    # Размер вершины зависит от частоты упоминания.
    sz=[freqs[n] for n in G.nodes]
    # Толщина линии дуги зависит от логарифма частоты совместной встречаемости участников новости.
    lw=[math.log(persons[e[0]][e[1]], 10)+1 for e in G.edges]
    # Рисуем граф.
    nx.draw(G, pos=pstn, node_color=colors, edge_color='g', with_labels=True, node_size=sz, width=lw);

In [21]:
drawASocialGraph(G1, pers2, names)

<IPython.core.display.Javascript object>

Получился довольно-таки интересный граф, в котором видно несколько групп персонажей новостей: Путин связан с Трампом через Песок (Песков). С Порошенко связаны Захаров, Гройсман, Бабченко и другие (в том числе - Захарченко). К той же группе принадлежит девушка Рада по фамилии Верховная. Образуют кластер Фернандес, Черышев, Черчёс(ов), Акинфеев.




#### Меры центральности

Посмотрим как можно еще работать с графами. Подавляющее большинство функций находится собственно в библиотеке networx и вызывается из нее, в качестве параметра получая граф.

Рассчитываем параметр betweenness centrality для каждой вершины графа, приписываем каждой вершине графа параметр betweenness с вычисленным значением.


In [22]:
bb = nx.betweenness_centrality(G1)
# Кстати, значения можно просто приписать вершинам. Но мы здесь не будем это использовать.
nx.set_node_attributes(G1, bb, 'betweenness')

gclr=[bb[i] for i in G1.nodes()]
drawASocialGraph(G1, pers2, names, gclr)
#drawASocialGraph(G1, pers2, names)

<IPython.core.display.Javascript object>

Давайте попробуем убрать несколько наиболее упоминаемых политиков из графа чтобы понять через кто еще является ключевой фигурой в новостях.

In [23]:
from copy import deepcopy

G3=deepcopy(G1)

G3.remove_node('путин')
G3.remove_node('медведев')
G3.remove_node('песок')
G3.remove_node('трамп')
G3.remove_node('порошенко')
G3.remove_node('воробьев')
G3.remove_node('роналда')
G3.remove_node('клинтон')

In [24]:
bb2 = nx.betweenness_centrality(G3)
gclr=[bb2[i] for i in G3.nodes()]
drawASocialGraph(G3, pers2, names, gclr)

<IPython.core.display.Javascript object>

Как видите, граф перестал быть связным. Построим расположение вершин при помощи другого алгоритма, который берет максимальный связный подграф.

In [26]:
drawASocialGraph(G3, pers2, names, gclr, 'kawai')

<IPython.core.display.Javascript object>

А теперь посчитаем меру кластерности для всех вершин графа и пересчитаем ее после удаления тех же вершин.

In [27]:
сс = nx.clustering(G1)
gclr=[сс[i] for i in G1.nodes()]
drawASocialGraph(G1, pers2, names, gclr, 'kawai')

<IPython.core.display.Javascript object>

"Взвесим" вершины, умножив их меру кластерности на логарифм от количества соседей.

In [28]:
сс = nx.clustering(G1)
gclr=[сс[i]*math.log(len(G1[i].keys())) for i in G1.nodes()]
drawASocialGraph(G1, pers2, names, gclr, 'kawai')

<IPython.core.display.Javascript object>