# Семинар 2: разведочная работа, принципы анализа сообществ

В данном ноутбуке мы будем иметь дело c двумя задачами:

1. Проведение базового разведочного анализа (EDA), включая:
    1. Загрузку данных
    2. Первичную обработку данных
    3. Расчет базовых метрик и характеристик
    4. Визуализация показателей и метрик
2. Проведение анализа структуры сети --> применение метрик кластеризации (Newman, Louvain)
    1. Расчет метрик
    2. Визуализация метрик
    3. Возможный экспорт полученных данных
    
    
Нам понадобится:

- `networkx` для работы с сетевыми данными
- `matplotlib` для работы с визуализацией
- `pandas` для отгрузки некоторых результатов
- `numpy`, `statmodels` для расчета статистических метрик
- `os`, `shutil`, `request`, `zipfile`

## Описание задачи

Перед Вами встала задача анализа данных, имеющих лейбл `ia-infect-dublin`. Вам заранее известен источник загрузки данных. Вы не имеете представления о том, что именно хранится внутри данных. Ваша цель – решить задачи, представленные выше.

### «Логичная стратегия» при проведении EDA анализа

1. Произвести загрузку, распаковку и импорт данных в окружение Python.
2. С помощью методов препросмотра структуры данных попробуем понять, что там лежит
3. Выполним минимальный расчет метрик, чтобы сделать какие-то качественные выводы
4. ...
5. PROFIT!

### Приступим к работе
Для начала загрузим данные. Представим, что ни лежат на удаленном сервере. Сервер общедоступный, но файл завернут в архив. Поэтому здесь понадобится `requests` и `zipfile` для загрузки, распаковки данных и переноса в свою рабочую директорию.

Адрес данных (который как бы нам известно заранее):
1. http://nrvis.com/download/data/ia/ia-infect-dublin.zip
2. http://nrvis.com/download/data/soc/soc-FourSquare.zip

In [1]:
import os # для проверки путей
import shutil # для всяких действий
              # на системном уровне
# подгрузим модуль загрузки файлов
# и модуль для распаковки архива
# в текущее сессионное окружение
##################################
import requests
import zipfile as zp

print(os.getcwd()) # проверим наш путь, чтобы скачать архив
cur_path = os.getcwd() # потом передадим методам модуля zp

/Users/bookman/Nextcloud/SNA_DSO_2019/Воркшоп/Занятие_2


In [5]:
# наш первый адрес: http://nrvis.com/download/data/ia/ia-infect-dublin.zip
sna_zip = requests.get('http://nrvis.com/download/data/ia/ia-infect-dublin.zip')
open('sna_dublin.zip', 'wb').write(sna_zip.content)

sna_unzip = zp.ZipFile('sna_dublin.zip', 'r')
sna_unzip.extractall(cur_path)

# нам нужно увидеть файл данных с расшрением *.mtx*
os.listdir()

['ia-infect-dublin.mtx',
 '.DS_Store',
 'simple_graph.png',
 'Seminar_2_Workspace.ipynb',
 'simple_graph_1.png',
 'readme.html',
 'simple_graph_2.png',
 'sna_dublin.zip',
 '.ipynb_checkpoints',
 'Nodes_Level_Attributes_Dublin.xlsx']

In [4]:
sna_zip = requests.get('http://nrvis.com/download/data/ia/ia-infect-dublin.zip')
open('sna_dublin.zip', 'wb').write(sna_zip.content)

8551

### Промежуточные наблюдения

На данном этапе мы произвели успешно загрузку и распаковку данных в нашу рабочую директорию. Мы имеем файл `ia-infect-dublin.mtx`. Расширение **`.mtx`** – один из вариантов форматов сетевых данных в `networkx`. В этом формате хранятся матрицы пересечений.

##### Небольшое отступление: типы поддерживаемых данных в пакете `networkx`

Формально говоря, `networkx` поддерживает ограниченное число типов загружаемых данных. В отличие от R, где гораздо больше возможностей для работы с графовыми данными (особенно с разнообразием в форматах хранения данных), в Python основными типами являются *текстовые* данные, *табличные* данные (подгружаемые через `pandas`) и данные с визуализатора и аналитического инструмента Gephi.

Список команд для чтения и записи данных в `networkx` можно посмотреть здесь: https://networkx.github.io/documentation/stable/reference/readwrite/index.html .

##### Про формат .mtx

Если заглянуть в эту страницу --> https://www.azfiles.ru/extension/mtx.html --> то вы узнаете, что этот формат достаточно разнороден и используется в различных ситуациях. В нашем случае под этим понимается следующее:

    файл MTX может играть роль формата представления алгебраических матриц в рамках онлайн-сервиса Matrix Market, правообладателем которого является NIST (государственное учреждение технологий и стандартов США). По своей структуре формат относится к текстовым документам в кодировке ASCII, содержащим разнородную матрицу с представлением данных в виде координат или массива. Несмотря на уникальную структуру и область применения MTX расширения, оно может быть загружено в большинство известных программ, предназначенных для автоматизации процесса алгебраических вычислений
    
Помимо этого, этот формат является родным для [**Mathworks**](https://www.mathworks.com/help/map/ref/readmtx.html), поскольку речь идет о матрице числовых данных. Anyway, перед нами текстовый файл, который можно попытаться прочитать средстами Python, но будет это крайне непросто. Поэтому воспользуемся следующим рецептом:

In [6]:
from scipy import io # содержит метода `mmread` для обрабтки таких данных
                     # с помощью метода `mminfo` можно проверить файл

sna.dt = io.mmread('ia-infect-dublin.mtx') #не воспроизведется

ValueError: source is not in Matrix Market format

Получили не очень приятную новость о том, что формат не захотел читаться. Учитывая, что функция специально разработана для данного формата – получаем "тыкву". В R с этим форматом работается гораздо приятнее и удобнее. Тем не менее, Python гораздо универсальнее R, поэтому пойдем обходным путем:

In [7]:
# вначале сконвертируем формат в txt
shutil.copy('ia-infect-dublin.mtx', 'ia-infect-dublin.mtx.2') # бэкап данных превыше всего!
shutil.copy('ia-infect-dublin.mtx.2', 'ia-infect-dublin.mtx') # чтобы не было багов дальше!
os.rename('ia-infect-dublin.mtx', 'ia-infect-dublin.txt')

In [8]:
# теперь собственно попробуем внедрить данные, но уже с помощью pandas
import pandas as pds

pds.read_csv('ia-infect-dublin.txt', delim_whitespace=False).head()

Unnamed: 0,%MatrixMarket matrix coordinate pattern symmetric
0,410 410 2765
1,14 1
2,30 1
3,63 1
4,78 1


Важно не забывать пробовать самые разные варианты. Я поиграл немного с опцией `delim_whitespace=`. Также я почитал на сайте NIST (https://math.nist.gov/MatrixMarket/formats.html) о типичной структуре данных и пришел к выводу о том, что разделителем для формата является пробел. Поэтому, чтобы извлечь максимум полезной информации – включим назад опцию `delim_whitespace = TRUE`:

In [9]:
pds.read_csv('ia-infect-dublin.txt', delim_whitespace=True).head(5)

Unnamed: 0,%MatrixMarket,matrix,coordinate,pattern,symmetric
0,410,410,2765.0,,
1,14,1,,,
2,30,1,,,
3,63,1,,,
4,78,1,,,


In [10]:
pds.read_csv('ia-infect-dublin.txt', delim_whitespace=True).tail(5)

Unnamed: 0,%MatrixMarket,matrix,coordinate,pattern,symmetric
2761,390,383,,,
2762,399,384,,,
2763,391,386,,,
2764,398,386,,,
2765,408,392,,,


Теперь мы увидели, по крайней мере, 2 ключевые колонки: первую и вторую. Поскольку *у нас должно быть что-то, что напоминает сетевую структуру*, нам необходимо, по сути, вытащить данные первой и второй колонки начиная со строки 1. Заголовок при этом не представляет интереса, поскольку при чтении данных `networkx` он будет только мешать:

In [11]:
sna_dt = pds.read_csv('ia-infect-dublin.txt', delim_whitespace=True)
sna_dt[1:].head()

Unnamed: 0,%MatrixMarket,matrix,coordinate,pattern,symmetric
1,14,1,,,
2,30,1,,,
3,63,1,,,
4,78,1,,,
5,83,1,,,


Осталось только вычленить колонки, и можно приступать к анализу:

In [19]:
sna = sna_dt[1:]
sna
# далее убираем лишние колонки
sna = sna[['%MatrixMarket','matrix']]
# переименуем колонки
sna = sna.rename(columns = {'%MatrixMarket':'col1', 'matrix':'col2'}); sna

Unnamed: 0,col1,col2
1,14,1
2,30,1
3,63,1
4,78,1
5,83,1
6,97,1
7,120,1
8,125,1
9,130,1
10,144,1


### Предварительная теория: еще раз о типах матриц

Итак, давайте еще раз вспомним о том, что есть граф.

По Харрари [1973, стр. 21] и максимально упрощенно *Граф – это набор вершин (V, vertices) и ребер (E, edges), находящихся в некотором пространсте*. Аналитически это записывается как `graph G = <V,E>`. А еще проще: это набор точек и палочек, которые могут быть замысловатым образом соединены в пространстве и представлять собой определенную уникальную структуру. Поэтому ничего не обходится в сетевом социальном анализе без рисунков (как, впрочем, и в дискретной математике). Но вернемся к тому, что важно...

У нас есть несколько видов графов. Как минимум это:

###### Простые графы

[«Simple graphs are graphs whose vertices are **unweighted, undirected, & exclusive of multiple edges & self-directed loops**»](https://towardsdatascience.com/graph-theory-set-matrix-notation-7dfb04b8ed24). Пример может быть таким (рис. ниже). Он не подписан, ни имеет стрелочек (направлений) и все вершины у него связаны. «Непростой» граф, соответственно, будет отличаться тем, что будет иметь какие-то дополнительные черты/характеристики.

![Рис. 1: Это пример простого графа](simple_graph.png)

Впрочем, какой бы граф у не был, его можно не только визуально изображать, но и табличным образом. Существует два типа *матриц* (табличного представления), по которым можно также оперелять тип данных.

1. Матрица смежности – такая матрица, в которой каждая вершина имеет однозначное и **равнозначное** соединение с другой вершиной. Если нет дополнительных характеристик, то это хороший пример просто связи между двумя объектами – например, людьми или словами в тексте. Также это позволяет косвенно указывать на то, что наш граф является *ненаправленным*, т.е. у него нет "стрелочек"-направлений от одной вершины к другой. Матрицы можно представить так:

![Рис. 1: Это пример простого графа](simple_graph_1.png)

2. Матрица инцидентности – такая матрица, в которой каждая вершинка имеет какую-то «отсылку» к другой вершинке. Такая матрица косвенно указывает нам на то, что в графе есть направления чего-то (связей, отношений, передачи чего-то) от одной вершины к другой. Такой граф будет скорее всего направленным. В табличной форме для каждой вершины по вертикали представлены пути связи (фактически ребра). Цифра 1 будет обозначть факт связи A с B либо нет.

![Рис. 1: Это пример простого графа](simple_graph_2.png)

### Принцип определения типа матрицы из исходных данных --> списки ребер

Иногда непросто понять, что перед нами за исходные данные. Матрицы смежности и инцидентности так или иначе более качественно показывают нам структуру данных, в частности связи вершин между собой. Поэтому иногда важно выяснять опытным путем, что за исходные данные мы имеем. Рассмотрим наш случай. На странице описания датасета значилось следующее:

    A human contact network where nodes represent humans and edges between them represent proximity (i.e., contacts in the physical world).

Вершины – люди, ребра – связи между людьми. Вот небольшой отрывок:

In [18]:
sna.head(50)

Unnamed: 0,col1,col2
1,14,1
2,30,1
3,63,1
4,78,1
5,83,1
6,97,1
7,120,1
8,125,1
9,130,1
10,144,1


В нашем датасете это может быть и неоднозначно. Однако *базовое правило EDA – внимательно смотреть на исходный датасет*. Давайте посмотрим еще раз (объект `sna_dt`):

In [17]:
sna_dt.head(50)

Unnamed: 0,%MatrixMarket,matrix,coordinate,pattern,symmetric
0,410,410,2765.0,,
1,14,1,,,
2,30,1,,,
3,63,1,,,
4,78,1,,,
5,83,1,,,
6,97,1,,,
7,120,1,,,
8,125,1,,,
9,130,1,,,


На первой (нулевой) строчке мы видим нестандартную информацию 410-410-2765. Но если снова изучить спецификацию [NIST](https://math.nist.gov/MatrixMarket/formats.html), то нулевая строка будет обозначать **число уникальных чисел в строках, колонках и во всем массиве данных**! Запомним эту комбинацию для дальнейшей работы.

Теперь наша задача – понять, что там представлено в виде вершин, а что – ребер.

#### Формирование графа

Мы начнем с самого простого – действительно разберемся в количестве вершин и ребер. Из описания мы ожидаем, что это сеть контактов людей (возможно, в Дублине – не просто же так назван датасет на удаленном сервере?). Попробуем вычленить эти данные на рабочем массиве `sna`. Сперва сгенерируем сеть (граф) из данных:

In [20]:
import networkx as nx

# вначале удостоверимся, что за тип таблицы у нас
snag = nx.Graph(sna) # не воспроизведется

NetworkXError: Input is not a correct Pandas DataFrame edge-list.

Ошибка, но она полезная. Мы узнали о том, что наш файл данных является списком ребер. Теперь запомним, что список ребер имеет по крайней мере 2 колонки – откуда стартует ребро и куда примыкает. В ситуации с матрицами мы видим просто факт связи *вершин*. Соответственно, нам нужно применять методы `networkx`, которые работают со списками ребер: https://networkx.github.io/documentation/latest/reference/readwrite/edgelist.html

In [23]:
# проверим гипотезу о том, что у нас список ребер.
# Как минимум мы убеждены в том, что у нас работающий DF
nx.parse_edgelist(sna)
nx.read_edgelist(sna)

AttributeError: 'str' object has no attribute 'decode'

Good. У нас работающий список ребер (и, судя по подписи результата – фактический класс графа). Теперь, при загрузке данных `networkx` знает два типа данных: наименования вершин и их реберные соединения --> имеет представление о графе. Тогда попробуем проделать несколько простых метрик: посмотрим на вершины и ребра:

In [None]:
e_sna = nx.from_pandas_edgelist(sna)

Почему не получилось (снова)? Идем снова в мануал (https://networkx.github.io/documentation/latest/reference/generated/networkx.convert_matrix.from_pandas_edgelist.html) и там видим следующее:

- df (Pandas DataFrame) – An edge list representation of a graph
- **source (str or int) – A valid column name (string or integer) for the source nodes (for the directed case)**

У нас выскочило `KeyError: 'source'`. Это значит, что `networkx` не знает название колонок. Выше было сказано, что помимо колонок с переходами от одной ноды к другой могут быть атрибутивные параметры для каждой такой пары переходов вершин. Поэтому нам надо специфицировать колонки и все получится:

In [None]:
# вначале переназовем колонки для удобства:
sna = sna.rename(columns = {'col1':'StartNode', 'col2':'EndNode'})
e_sna = nx.from_pandas_edgelist(sna, 'StartNode', 'EndNode')
e_sna

Ура! Граф получился. Теперь идем проверять структуру данных на соответствие 410-410-2765: просто последовательно вызовем вершины и ребра у полученного графа:

In [None]:
e_sna.nodes()

In [None]:
e_sna.edges()

А теперь сравним это с исходными данными:

In [None]:
sna.sort_values(by=['StartNode', 'EndNode']) # имена колонок недавно поменяли!

In [None]:
# приведем в табличном формате данные по количеству вершин и ребер:
network_metric = pds.DataFrame({'Показатель': ['Число вершин в сети:', 'Число ребер в сети:'],
                     'Значение': [e_sna.number_of_nodes(), e_sna.number_of_edges()]})
network_metric

In [None]:
# еще один способ – воспользоваться компандой info(G, n=None)
# с функцией print отображение данных будет лучше
print(nx.info(e_sna))
print("####################################")
print(nx.info(e_sna, n = 6)) # посмотреть данные для конкретной вершины
print("####################################")
print("Статус направленности графа: ", nx.is_directed(e_sna))

Отлично. Наши расчеты совпадают с исходными. Значит, граф был опредлен `networkx` верно, и у нас действительно 410 точек (человек) и 2765 ребер (связей) между ними. Косвенно это означает, что у некоторого количества участников сети не по одной связи с другим участником. При этом у нас простой граф, потому что нет направления связей. Просто есть список тех самых связей.

## Исследование качественных характеристик графа

Продолжим EDA. Теперь нас интересуют следующие характеристики:

1. Характеристики работы сети в целом:
    1. Общая плотность сети
    2. Количество вершин и ребер (уже было посчитано)
    3. Уровень транзитивности сети
2. Характеристики сегментов сети:
    1. Центральность вершин (Total, In-Degree, Out-Degree)
    2. Уровень центральности посредничества (Betweenness Centrality)
    3. Уровень центральности (метрика Каца)
    4. ...
3. Визуализация структуры + визуализация каждой метрики
4. Складывание полученных данных в таблицу / архив визуализаций

Начнем с показателей работы сети:

###### Центральность сети

In [None]:
nx.degree(e_sna) # для каждой ноды

In [None]:
pds.DataFrame(nx.degree(e_sna))

In [None]:
import matplotlib.pyplot as plt
from pylab import * # для линий

x = pds.DataFrame(nx.degree(e_sna))[0]
h = pds.DataFrame(nx.degree(e_sna))[1]

plt.hist(h)

In [None]:
pds.DataFrame(nx.degree(e_sna)).loc[27]

In [None]:
nx.degree_histogram(e_sna)

In [None]:
plot(nx.degree_histogram(e_sna))

**Что вы тут можете увидеть**?

                                        *можно вписать себе сюда*







------------------

###### Количество вершин и ребер

In [None]:
# Повторим просто
print(nx.info(e_sna))
print("####################################")
print(nx.info(e_sna, n = 6)) # посмотреть данные для конкретной вершины
print("####################################")
print("Статус направленности графа: ", nx.is_directed(e_sna))

###### Уровень плотности сети

In [None]:
nx.density(e_sna)

print('Уровень плотности сети: ', nx.density(e_sna)*100, "%")

In [None]:
#  добавим в табличку:
network_metric = pds.DataFrame({'Показатель': ['Число вершин в сети: ', 'Число ребер в сети: ', 'Уровень плотности сети (%): '],
                     'Значение': [e_sna.number_of_nodes(), e_sna.number_of_edges(), nx.density(e_sna)*100]})
network_metric

In [None]:
###### Уровень транзитивности сети
nx.transitivity(e_sna)

print('Уровень транзитивности сети: ', nx.transitivity(e_sna)*100, "%")

In [None]:
#  добавим в табличку:
network_metric = pds.DataFrame({'Показатель': ['Число вершин в сети: ',
                                               'Число ребер в сети: ',
                                               'Уровень плотности сети (%): ',
                                               'Уровень транзитивности сети (%): '],
                     'Значение': [e_sna.number_of_nodes(),
                                  e_sna.number_of_edges(),
                                  nx.density(e_sna)*100,
                                  nx.transitivity(e_sna)*100]})

import openpyxl # чтобы записать в формат таблиц Excel

network_metric.to_excel('General_Attributes_Dublin.xlsx')
network_metric

Можно подвести некоторые итоги: мы получили первые данные о структуре сети. Мы можем судить о том, что сеть контактов состоит из относительно большого числа участников, однако многие из них имеют достаточно широкий круг знакомств. При этом это явно не объединенная социальная группа, поскольку уровень плотности около 3%. То есть перед нами достаточно распределенная в некотором пространстве сеть людей. Если учитывать наименование файла датасета, то это отчасти справедливо. Вполне возможно, речь идет о сообществе, который проживает в Дублине и располагает каким-то общим свойством. При этом уровень транзитивности в 44% говорит нам о том, что у почти половины участников налажены контакты таким образом, что очень многие из них выступают в роли брокеров – ключевых посредников для налаживания связей. То есть в 44% случаев есть некая триада A-B-C, где A-B, B-C => A-C.

Визуализируем полученный граф:

In [None]:
# Изначально рисунок будет маленький.
from matplotlib.pyplot import figure
####################################
figure(num=None, figsize=(14, 12), dpi=80, facecolor='w', edgecolor='k')

#nx.draw(e_sna, pos= nx.kamada_kawai_layout(e_sna))
graph_1 = nx.draw_kamada_kawai(e_sna, with_labels=True, node_size = 100, font_size = 10,
              node_color = 'y')

plt.title("The Network of People's Contacts in Dublin")
plt.savefig('Graph.pdf', format = "PDF")
plt.show()
plt.close()

## Исследование качественных характеристик внутри сети

Теперь займемся анализом характеристик уже на уровне отдельно взятых вершин и ребер. Чаще всего мы имеем дело с расчетами центральностей разного рода, визуализации функций плотности этих центральностей и (возможно) окрашивание вершин в заивисимости от показателей/метрик.

Как «обычно», начнем с расчетов всех метрик, а затем перейдем к визуализации и построению серии дополнительных графовых карт. В качестве референса используем страницу https://networkx.github.io/documentation/stable/reference/index.html, в которой представлены все основные функции пакета `networkx`.

In [None]:
# Расчет общей степени центральности, in-degree, out-degree centrality
print("1. Степень центральности графа составляет: ", nx.degree_centrality(e_sna))

In [None]:
pds.DataFrame.from_dict(nx.degree_centrality(e_sna), orient = 'index').loc[27]

In [None]:
pds.DataFrame.from_dict(nx.betweenness_centrality(e_sna), orient = 'index').loc[27]

In [None]:
#print("2. Степень входящей центральности графа составляет: ", nx.in_degree_centrality(e_sna))
#print("3. Степень исходящей центральности графа составляет: ", nx.out_degree_centrality(e_sna))

In [None]:
# завернем расчеты общей степени центральности в табличный формат --> pandas.DataFrame.from_dict
sna_centrality = pds.DataFrame.from_dict(nx.degree_centrality(e_sna),
                                        orient = 'index',
                                        dtype= None,
                                        columns = ['Центральность'])

sna_centrality.head()

Итак, мы убедились в том, что смогли рассчитать только общую центральность, поскольку при попытке посчитать входящую/исходящую центральности мы получаем ошибки. Оно и понятно – **граф то у нас ненаправленный; нет стрелок от одной вершинки к другой**. Также, поскольку при использовании функции `nx.degree_centrality(e_sna))` мы получаем кашу из данных, логично их представить в табличной форме. Поэтому мы также вводим функцию `pandas.DataFrame.from_dict`. Подробнее с методом можно ознакомиться здесь: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.from_dict.html


Поэтому в том же духе сделаем другие расчеты:

In [None]:
# Расчет степени центральности посредничества
print("2. Степень центральности посредничества графа составляет: ", nx.betweenness_centrality(e_sna))

In [None]:
# завернем расчеты общей степени центральности в табличный формат --> pandas.DataFrame.from_dict
sna_betweenness = pds.DataFrame.from_dict(nx.betweenness_centrality(e_sna),
                                        orient = 'index',
                                        dtype= None,
                                        columns = ['Посредничество'])

sna_betweenness.head()

На очереди – центральность по близости:

In [None]:
# Расчет общей центральности по близости
print("3. Степень центральности близости графа составляет: ", nx.closeness_centrality(e_sna))

In [None]:
# завернем расчеты общей степени центральности в табличный формат --> pandas.DataFrame.from_dict
sna_closeness = pds.DataFrame.from_dict(nx.closeness_centrality(e_sna),
                                        orient = 'index',
                                        dtype= None,
                                        columns = ['Близость'])

sna_closeness.head()

Наконец – центральность по Катцу (либо собственный вектор). Проблема с расчетом центральности Катца заключается в оптимальном объеме итераций, необходимых для подсчетов. Иногда и 4000 итераций не хватает (как в данном случае), поэтому можно производить расчет собственного вектора.

In [None]:
# Расчет общей центральности по близости
print("4. Степень центральности (Катц) графа составляет: ", nx.eigenvector_centrality(e_sna, max_iter=4000)[243])

In [None]:
# завернем расчеты общей степени центральности в табличный формат --> pandas.DataFrame.from_dict
sna_eigen = pds.DataFrame.from_dict(nx.eigenvector_centrality(e_sna),
                                        orient = 'index',
                                        dtype= None,
                                        columns = ['Соб. Вектор'])

sna_eigen.head()

Теперь объединим все полученные метрики в одну таблицу:

In [None]:
nodes_properties = pds.DataFrame()

# умножим каждый элемент на 100, чтобы получить как бы проценты
nodes_properties = nodes_properties.append(sna_centrality)
nodes_properties = nodes_properties.join(sna_betweenness)
nodes_properties = nodes_properties.join(sna_closeness)
nodes_properties = nodes_properties.join(sna_eigen)

# запишем в файл
nodes_properties.to_excel('Nodes_Level_Attributes_Dublin.xlsx')

nodes_properties.sort_values(by=['Центральность'])

Напоследок – немного визуализации. Совместим все графики в одном варианте:

In [None]:
pl1_1 = nodes_properties.reset_index()['index']
pl1_2 = nodes_properties.reset_index()['Центральность']*100
pl2_2 = nodes_properties.reset_index()['Посредничество']*100
pl3_2 = nodes_properties.reset_index()['Близость']*100
pl4_2 = nodes_properties.reset_index()['Соб. Вектор']*100

subplot(4,2,1)
hist(pl1_2)
subplot(4,2,2)
hist(pl2_2)


In [None]:
l1_2