# Семинар №3/4: Расширенный EDA + Исследование сообществ и эго-сетей

Приветствую Вас снова! Этот семинар посвящен трем основным вещам:

1. Как производить загрузку данных с атрибутами (более «боевые» данные)
2. Что можно сделать помимо простейшего EDA: пытаемся извлечь больше информации
3. Что делать, если очень хочется кластеризовать социальную сеть

На самом деле все очень сильно зависит от структуры данных. Не стоит думать, что можно сделать глубокий EDA либо выполнять более сложные статистические и etc. расчеты на каждом конкретном наборе данных. Все зависит очень сильно от того, что за входящие данные у нас есть и **что они из себя ДОЛЖНЫ преставлять**. Помните! Нужно всегда знать, что выступает (по крайней мере в этом) *в качестве вершин*. Без этой информации строить сети бесполезно. На прошлом семинаре Вы могли хорошо убедиться в том, что бывает, когда не знаешь о всей структуре графа.

В этой связи важно иметь не только матрицу инцидентности/смежности/список ребер, но какой-то источник данных об атрибутах – того, какие признаки могут иметь наши вершины (точки/"кружочки") в сети. Как мы уже говорили на прошлом семинаре, для хранения информации об атрибутах используется либо `список ребер`, либо `отдельный файл`. Редко Вы сможете увидеть атрибуты вершин в матрицах, потому что в таком случае пакеты будут дико "грустить" и отказываться работать (Вы его скармливаете матрицей, а он ее не видит – догадываетесь, почему? (: ). Поэтому в рамках этого семинара мы также будем играть с импортом атрибутов и приклеивания их к нашей сети.

Вначале произведем загрузку данных. В рамках этого семинара мы будем иметь дело с датасетом `Social circles: Facebook`. Его можно увидеть на странице > http://snap.stanford.edu/data/ego-Facebook.html . Здесь всего 10 сетей. И они не очень большие. Но в качестве последующего проектного задания Вы будете работать с данными Twitter и Google+ (которые имеют большее количество сетей (: ). Для начала будет достаточно небольшого датасета.

Снова разыграем ситуацию:

    Нам сказано "спарсить" набор данных о пользователях "нашей" социальной сети для того, чтобы адресовать наш новый продукт конкретной группе людей. В то же время, перед нами стоит задача внедрить продукт в такую группую, которая сможет в дальнейшем **самостоятельно** производить распространение этого продукта. У нас мало финансов для рассылки всей сети, поэтому таргетинг наше всё!

Как говорится, `*OKAY_FACE*`. ПМ сказал – что нам еще остается делать? Только копать эту группу...поэтому начнем качать данные:

In [None]:
import shutil
import requests
import tarfile

# Рекомендуется скачать это предварительно
data = requests.get('http://snap.stanford.edu/data/facebook.tar.gz') # это полный архив
open('facebook.tar.gz', 'wb').write(data.content)

description = requests.get('http://snap.stanford.edu/data/readme-Ego.txt') # это информация к данным
# К сожалению, для питона нет штатных и рабочих инструментов для вложенных архивов вроде
# такого. Это не просто .gzip файл. Это .tar архив, сжатый алгоритмом .gzip. Поэтому тут
# придется руками поработать
# распакуйте архив и убедитесь, что у Вас примерно такая структура получаемой папки с данными

# http://snap.stanford.edu/data/readme-Ego.txt
description.content

In [None]:
import os
pth = os.getcwd(); print(pth)

In [None]:
if os.path.exists(pth+"/facebook") is True:
    print(os.listdir(pth+"/facebook/"))
    
else:
    print("Такой структуры данных + папки нет")

Как Вы могли заметить, архив после распаковки имеет большое количество файлов. На самом деле у нас 10 сетей, но они содержат кучу дополнительных атрибутов, разложенных по файлам. Теперь представляется интересным рассмотреть структуру. Начнем это в следующее секции (после черты ниже).

---------------

## Экспресс анализ

Как обычно, перед процессом глубинного EDA необходимо выделить общую характеристику нашей сетевой модели ( = описание нашего графа). Поэтому начнем с того, что составим список файлов в табличной форме (+ в качестве бонуса *поиграем через `plotly`*:

In [None]:
import pandas as pds
# https://plot.ly/python/table/
#import plotly
#from plotly.offline import plot
#import plotly.graph_objs as go

In [None]:
slist = os.listdir(pth+"/facebook 2/")

# если это отдельно запустить – получаем список переменных
#for i in range(0,len(slist)):
#    print(slist[i].split('.'))

# я хочу здесь извлечь название и тип и разнести потом по колонкам
flist = pds.DataFrame({'Name':[i.split('.')[0] for i in slist],  # это у нас имя
                     'Type':[i.split('.')[1] for i in slist]}) # это у нас формат

# если хочется видеть в виде Plotly
#trace = go.Table(
#    header=dict(values=list(flist.columns),
#                fill = dict(color='#C2D4FF'),
#                align = ['left'] * 5),
#    cells=dict(values=[flist.Name, flist.Type],
#               fill = dict(color='#F5F8FF'),
#               align = ['left'] * 5))

#data = [trace] 
#plot(data, filename = 'pandas_table.html')
flist

Выберем какой-то один датасет :) Опять делаем небольшой велосипед с модулем `random`, чтобы получить в итоге

In [None]:
import random as rd

numb = set(pds.to_numeric(flist.Name))
working_data = rd.sample(numb, 1); print(working_data)

# случайным образом оказалось число 348

Окей, будем играть с массивом `348`. Еще раз взглянем тогда на структуру данных:

In [None]:
flist[25:30]

У нас есть 5 файлов, но с разными характеристиками. Мы должны разобраться в этих данных. Как минимум, посмотреть на названия файлов. К счатью кодировщики данных заботливо для нас заготовили все файлы и вместо того, чтобы обозначать их как `.txt` оставили в качестве расширений наименования файлов. Посмотрим примерно на то, что там лежит...

In [None]:
#os.chdir(os.getcwd()+'/facebook') # мы перешли к папке с данными
import networkx as nx
import matplotlib.pyplot as plt

edges = pds.read_csv('348.edges', sep = ' ', header = None, names = ['id1', 'id2'])
nodes = pds.read_csv('348.node_attributes.csv', sep = ' ', skiprows = 0)

In [None]:
pds.read_csv('348.edges', sep = ' ', header = None, names = ['id1', 'id2'])

По крайней мере, мы здесь видим список ребер (`.edges`), список атрибутов/фичей для списка ребер (`.feat`), названия атрибутов для списка фичей (`.featnames`) и эго-сеть (`ego`). А еще был файл с атрибутами вершин. Его не было в исходном датасете. Я его сгенерировал. Окей, давайте вначале проделаем штатный EDA и потом попробуем что-нибудь сложнее:

In [None]:
G = nx.Graph()
for index, row in nodes.iterrows():
    G.add_node(row["ID"], name = row["NAME"], gender = row["GENDER"], city = row["CITY"] )
for index, row in edges.iterrows():
    G.add_edge(row["id1"], row["id2"])
    
print(nx.info(G))

In [None]:
import numpy as np
pds.DataFrame({'Базовый показатель':
                          [
                              'Число вершин',
                              'Число ребер',
                              'Уровень транзитивности',
                              'Уровень плотности',
                              'Направленность сети',
                              'Взвешенность сети',
                              'Максимальная центральность',
                              'Максимальное посредничество',
                              'Максимальная близость',
                              'Средняя близость',
                              'Среднее посредничество',
                              'Средняя центральность'
                          ],
                          'Значения':[
                              round(nx.number_of_nodes(G), 2),
                              round(nx.number_of_edges(G), 2),
                              round(nx.transitivity(G)*100, 2),
                              round(nx.density(G)*100, 2),
                              nx.is_directed(G),
                              nx.is_weighted(G),
                              max(dict(nx.degree(G)).values()),
                              round(max(dict(nx.betweenness_centrality(G)).values())*100,2),
                              round(max(dict(nx.closeness_centrality(G)).values())*100,2),
                              round(np.mean(tuple(dict(nx.closeness_centrality(G)).values())),2),
                              round(np.mean(tuple(dict(nx.betweenness_centrality(G)).values())),2),
                              round(np.mean(tuple(dict(nx.degree_centrality(G)).values())),2)
                          ]})

In [None]:
from pylab import *

plt.figure(figsize=[20,10])
xticks([]), yticks([])

subplot(2,2,1)
title('Степень Центральности (в абсолютных значениях)')
xlabel('Номер наблюдаемой вершины')
ylabel('Кол-во связей (общее)')
plt.bar(dict(nx.degree(G)).keys(), dict(nx.degree(G)).values())
#plt.plot(nx.degree(G))

subplot(2,2,2)
title('Степень Центральности (в относительных значениях)')
xlabel('Номер наблюдаемой вершины')
ylabel('Степень (*100%)')
#plt.plot(nx.degree_centrality(G).values(), color = 'green')
plt.bar(dict(nx.degree_centrality(G)).keys(), dict(nx.degree_centrality(G)).values())

subplot(2,2,3)
title('Уровень Посредничества (в относительных значениях)')
xlabel('Номер наблюдаемой вершины')
ylabel('Степень (*100%)')
plt.plot(nx.betweenness_centrality(G).values(), color = 'red')

subplot(2,2,4)
title('Степень Близости (в относительных значениях)')
xlabel('Номер наблюдаемой вершины')
ylabel('Степень (*100%)')
plt.plot(nx.closeness_centrality(G).values(), color = 'black')

In [None]:
dict(nx.degree(G)).keys()

In [None]:
# я попробовал запихнуть все в одну таблицу
frt_table = pds.DataFrame({'Индикатор':
                          [
                              'Число ребер',
                              'Уровень транзитивности',
                              'Уровень плотности',
                              'Направленность сети',
                              'Взвешенность сети',
                              'Максимальная центральность',
                              'Максимальное посредничество',
                              'Максимальная близость',
                              'Средняя близость',
                              'Среднее посредничество',
                              'Средняя центральность'
                          ],
                          'Номер':[
                              round(nx.number_of_edges(G), 2),
                              round(nx.transitivity(G)*100, 2),
                              round(nx.density(G), 2),
                              nx.is_directed(G),
                              nx.is_weighted(G),
                              max(dict(nx.degree(G)).values()),
                              round(max(dict(nx.betweenness_centrality(G)).values())*100,2),
                              round(max(dict(nx.closeness_centrality(G)).values())*100,2),
                              round(np.mean(tuple(dict(nx.closeness_centrality(G)).values())),2),
                              round(np.mean(tuple(dict(nx.betweenness_centrality(G)).values())),2),
                              round(np.mean(tuple(dict(nx.degree_centrality(G)).values())),2)
                          ]})

In [None]:
sec_table = pds.DataFrame({
               'Имя': nx.get_node_attributes(G, 'name'),
               'Город': nx.get_node_attributes(G, 'city'),
               'Число связей': dict(nx.degree(G)),
               'Ст. Центр.': nx.degree_centrality(G),
               'Ст. Посред.': nx.betweenness_centrality(G),
               'Ст. Близости': nx.closeness_centrality(G),
               'Ст. Собс. Вектора': nx.eigenvector_centrality(G)
              })

In [None]:
print(frt_table, '\n\n', sec_table)

In [None]:
sec_table.sort_values(by = 'Ст. Центр.', ascending=False).head(5)

In [None]:
sec_table.sort_values(by = 'Ст. Центр.', ascending=False).tail(5)

In [None]:
import colorcet as cc
#cc.fire

plt.figure(figsize=[20,20])
graph_1 = nx.draw(G, labels = nx.get_node_attributes(G, 'name'),
                 font_size = 8,
                  node_size = np.array(tuple(list(nx.betweenness_centrality(G).values())))*10000,
                  node_color = cc.fire[0:224])

plt.title("The Facebook contacts network")
plt.savefig('Graph1.PDF', format = "PDF")
plt.show()
plt.close()

In [None]:
plt.figure(figsize=[20,20])

nx.draw_shell(G, node_color = 'red', with_labels = True,
             node_size = 200, font_size = 8)
plt.title("The Facebook contacts network")
plt.savefig('Graph2.PDF', format = "PDF")
plt.show()
plt.close()

In [None]:
plt.figure(figsize=[20,20])

nx.draw_kamada_kawai(G, node_color = 'aqua', with_labels = True,
             node_size = 200, font_size = 8)
plt.title("The Facebook contacts network")
plt.savefig('Graph3.PDF', format = "PDF")
plt.show()
plt.close()

In [None]:
nx.set_node_attributes(G, dict(nx.degree(G)), 'size_node')
np.array(nx.get_node_attributes(G, 'size_node'))

In [None]:
nx.get_node_attributes(G, 'name')