Импортируем <B>"Facebook SDK"</B> для более удобного общения с <i>fecabook.com</i>, а так же модуль <b>"requests"</b> для того, что бы работать с <i>HTTP</i> запросами.

Импортируем классы утилит, в которых скрыта работа с <b>БД "Elasticsearch"</b>

Так же для измирения времени работы некоторых участоков подключим модуль <b>"time"</b>

In [1]:
import time as t

In [2]:
def time():
    return int(round(t.time() * 1000))

Используемые константы

In [3]:
FACEBOOK_TOKEN = "1769775703259571|736fc7f9c5dc31707d40709a1d37813b"
FACEBOOK_POSTS_COUNT = 3000

ES_INDEX = "fb_group_posts"
ES_POSTS_DOC_TYPE = "post"
ES_NAMES_RELATIONS_DOC_TYPE = "name_relations"
ES_BULK_SIZE = 500

Сущьность описывающая заведомо известные данные о группе в <b>Facebook</b>:
* Имя
* Id на facebook.com
* Домен (класс) тематики группы

In [4]:
class Group(object):
    def __init__(self, name, id, domain):
        self.name = name
        self.id = id
        self.domain = domain

Список групп, которые будут использованы для работы

In [5]:
groups = [
#     Group(name="CNN Politics", id="219367258105115", domain="politics"),
#     Group(name="SinoRuss", id="1565161760380398", domain="politics"),
#     Group(name="Politics & Sociology", id="1616754815303974", domain="politics"),
#     Group(name="CNN Money", id="6651543066", domain="finances"),
#     Group(name="MTV", id="7245371700", domain="music"),
#     Group(name="CNET", id="7155422274", domain="tech"),
#     Group(name="TechCrunch", id="8062627951", domain="tech"),
#     Group(name="Sport Addicts", id="817513368382866", domain="sport"),
#     Group(name="Pokemon GO", id="1745029562403910", domain="pokemon go")
]

Для работы с Facebook будем использовать <b>Facebook Graph API</b>.

In [6]:
from facebook import GraphAPI

graph = GraphAPI(access_token=FACEBOOK_TOKEN)

Так же нам понадобится модуль для совершения <b>HTTP</b> запросов

In [7]:
import requests

За хранилище данных возьмем <b>Elasticsearch</b>.

In [8]:
from elasticsearch import Elasticsearch

database = Elasticsearch()

Вся работа с Elasticsearch скрыта в модуле <b>facebook_database_helper</b>, и управляется через главный класс <b>SimpleFacebookDBHelper</b>, который кеширует данные необходимые для работы с бд, предоставляя удобный интерфейс.

In [9]:
from facebook_database_helper import SimpleFacebookDBHelper

fdb = SimpleFacebookDBHelper(
    es=database,                                        # Cам Elasticsearch
    index=ES_INDEX,                                     # Индекс под которых будут хранится все данные
    post_doc_type=ES_POSTS_DOC_TYPE,                    # _type для постов
    name_relation_doc_type=ES_NAMES_RELATIONS_DOC_TYPE) # _type для отношений имя <=> пост

Функция загружающая последовательно посты пока не достигнет предела группы или ограничения по кол-ву.

In [10]:
def load_next_posts(posts, max_count):
    result = []
    count = 0

    while True:
        if count > max_count:
            break

        try:
            for post_data in posts['data']:
                keys = post_data.keys()  # Так как мы нам нужны сами сообщения
                                         # мы не включаем в результат посты без текстовых сообщений
                if 'message' in keys:
                    result.append(post_data)

            # Меняем размер запрашиваемого пака (страницы) с постами, в уже сформированном запросе 
            # от Facebook Graph API
            request = posts['paging']['next'].replace("limit=25", "limit=100")

            s_time = time()
            posts = requests.get(request).json()
            f_time = time()
            
            posts_count = len(posts['data'])
            count += posts_count
            
            print "Время загрузки пака постов ->", (f_time - s_time), "|", "кол-во:", posts_count, "|", "всего:", count
        except KeyError:
            break

    print "Общее кол-во загруженных постов группы ->", count

    return result

Используя ранее описанный список постов заполняем нашу базу данных

In [11]:
for group in groups:
    # Получаем данные о группе по ее id на facebook.com
    s_time = time()
    group_json = graph.get_object(group.id)
    f_time = time()
    
    print 'Время загрузки данных [', group_json['name'], '] группы ->', (f_time - s_time)
    
    # Получаем первый пак постов, используем уже для этого метод "get_connections"
    # который, грубо говоря, дает возможность запрашивать списки
    s_time = time()
    first_posts_pack = graph.get_connections(group_json['id'], 'feed')
    f_time = time()
    
    print 'Время загрузки первого пака постов ->', (f_time - s_time)
    
    # Последовательно загружаем все последующие посты
    posts = load_next_posts(posts=first_posts_pack, max_count=FACEBOOK_POSTS_COUNT)
    
    # Сохраняем все в базу данных
    s_time = time()
    fdb.save_posts(group.name, group.domain, posts)
    f_time = time()
    
    print "Время сохранение постов в БД ->", (f_time - s_time)
    print "-------------------------"

Перед тем как двигатся дальше мы должны вытащить все имена, сформировав отношение "имя <-> пост", для последующего использования этих отношений при поиске. Логично, что это следует сделать перед дальнейшей обработкой и работы с постами, так как мы можем утратить часть имен в дальнейшем.

Для того, что бы отискать все имена, мы воспользуемся регулярными выражениями, в данном случае, самой простой реализацией, которая даст много мусора, но в данном случае это не страшно.

In [12]:
import re

FIRST_LAST_NAME_PATTERN = "[A-Z]{1}[a-z]+\s+[A-Z]{1}[a-z]+"

Далее будем пользоваться уже сохраненными данными (тем что сохранили ранее в базу данных).

In [13]:
posts = fdb.get_all_posts() # Вытаскиваем все посты
name_relations = []

s_time = time()

for post in posts:
    message = post['_source']['message']
    names = re.findall(FIRST_LAST_NAME_PATTERN, message)

    if names:
        id = post['_id']

        for name in names:
            name = name.replace(".", "")
            relation = NameRelation(fl_name=name, post_id=id)
            name_relations.append(relation)

f_time = time()

print "Время поиска имен по шаблону ->", (f_time - s_time)
    
len(name_relations)

NameError: name 'NameRelation' is not defined

Поскольку все отношения мы так же будем хранить в базе данных, то очистим ранее созданные связи

In [None]:
s_time = time()
deleted_posts = fdb.delete_all_name_relations()
f_time = time()

print "Время удаления старых отношений 'сообщение <=> имя' ->", (f_time - s_time)
print "Удалено старых постов:", deleted_posts

In [None]:
s_time = time()
fdb.save_name_relations(name_relations)
f_time = time()

print "Время сохранения новых отношений 'сообщение <=> имя' ->", (f_time - s_time)

Проверим как работает поиск. 

In [14]:
searched_names = [
    "John Kerry",
    "Paul Reichler"
]

def find_messages_by_fl_name(fl_name):
    finded_relations = fdb.get_name_relations_by_fl(fl_name=fl_name)
    messages = []
    finded_post_ids = set() # Необходимо, что бы учитывать ранее найденные посты

    for relation in finded_relations:
        post_id = relation['_source']['post_id']

        if not post_id in finded_post_ids:
            finded_post_ids.add(post_id)
            
            message = fdb.get_post_by_id(post_id)['_source']['message']
            messages.append(message)

    return messages


for name in searched_names:
    messages = find_messages_by_fl_name(name)
    
    print "Имя [", name, "] найдено соответстивий (сообщений):", len(messages)

Имя [ John Kerry ] найдено соответстивий (сообщений): 19
Имя [ Paul Reichler ] найдено соответстивий (сообщений): 9


In [15]:
from stop_words_loader import StopWordsLoader

stop_words = StopWordsLoader("stop_words").get()
len(stop_words)

319

In [16]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction import text 

import nltk
from nltk import word_tokenize   
from nltk.stem.porter import *

stemmer = PorterStemmer()

def tokenize(text):
    tokens = nltk.word_tokenize(text)
    tokens = [i for i in tokens if i not in string.punctuation]
    return stem_tokens(tokens, stemmer)

def stem_tokens(tokens, stemmer):
    stemmed = []
    
    for item in tokens:
        stemmed.append(stemmer.stem(item))
    
    return stemmed

vectorizer = CountVectorizer()
vectorizer.stop_words = text.ENGLISH_STOP_WORDS.union(stop_words)
vectorizer

CountVectorizer(analyzer=u'word', binary=False, decode_error=u'strict',
        dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None,
        stop_words=frozenset(['all', 'show', 'anyway', 'four', 'go', 'mill', 'find', 'seemed', 'whose', 're', 'herself', 'whoever', 'behind', 'should', 'to', 'only', 'under', 'herein', 'do', 'his', 'get', 'very', 'de', 'myself', 'cannot', 'every', 'yourselves', 'him', 'is', 'cry', 'beforehand', 'these', 'sh...ho', 'most', 'eight', 'but', 'nothing', 'why', 'noone', 'sometimes', 'together', 'serious', 'once']),
        strip_accents=None, token_pattern=u'(?u)\\b\\w\\w+\\b',
        tokenizer=None, vocabulary=None)

In [26]:
messages = fdb.get_all_messages()
len(messages)

18137

In [24]:
matrix = vectorizer.fit_transform(messages)

len(vectorizer.vocabulary_)

52151

In [27]:
# def get_columns_sum(matrix):
#     rows_count = matrix.getnnz()
    
#     if rows_count == 0:
#         return 
    
#     first_row = matrix[0]
#     columns_count = first_row.getnnz()
    
#     result = []
    
#     for i in range(columns_count):
#         s_time = time()
#         result.append(sum(matrix[:,i])[0,0])
#         f_time = time()
        
#         print "time ->", (f_time - s_time)
    
#     return result

# summ = get_columns_sum(matrix)
# summ

def find_top_tokens(matrix, items, amount):
    s_time = time()
    counts = [(word, matrix.getcol(col_num).sum()) for word, col_num in items]
    tokens = sorted (counts, key = lambda x: -x[1])[:min(amount, len(counts))]
    f_time = time()
    
    print "Время поиска [", amount, "] популярных токенов ->", (f_time - s_time)
    
    return tokens

top_100_tokens,

s_time = time()
freqs = [(word, matrix.getcol(col_num).sum()) for word, col_num in vectorizer.vocabulary_.items()]
top_100_tokens = sorted (freqs, key = lambda x: -x[1])[:100]
f_time = time()

print "Время поиска 100 популярных токенов ->", (f_time - s_time)

top_100_tokens

Время поиска 100 популярных токенов -> 125252


[(u'http', 7451),
 (u'com', 3775),
 (u'https', 3131),
 (u'cnnmon', 2567),
 (u'www', 2235),
 (u'china', 2103),
 (u'news', 1893),
 (u'trump', 1846),
 (u'new', 1824),
 (u'donald', 1422),
 (u'media', 1337),
 (u'russia', 1302),
 (u'ukraine', 1295),
 (u'people', 1288),
 (u'isis', 1259),
 (u'like', 1250),
 (u'america', 1205),
 (u'2016', 1196),
 (u'world', 1193),
 (u'just', 1156),
 (u'clinton', 1098),
 (u'says', 1096),
 (u'jpg', 1074),
 (u'chinese', 1065),
 (u'youtube', 1053),
 (u'watch', 1037),
 (u'syria', 1018),
 (u'american', 1008),
 (u'die', 1001),
 (u'russian', 987),
 (u'war', 941),
 (u'cnn', 912),
 (u'time', 887),
 (u'hillary', 880),
 (u'pbs', 865),
 (u'twimg', 865),
 (u'en', 804),
 (u'president', 780),
 (u'video', 779),
 (u'der', 756),
 (u'military', 731),
 (u'state', 727),
 (u'today', 719),
 (u'don', 715),
 (u'year', 689),
 (u'forces', 654),
 (u'army', 654),
 (u'html', 643),
 (u'know', 637),
 (u'und', 634),
 (u'obama', 629),
 (u'syrian', 620),
 (u'make', 617),
 (u'years', 608),
 (u'ale

In [23]:
import operator

sorted_by_count = sorted(tokens.items(), key=operator.itemgetter(1), reverse=True)
sorted_by_count[0:100]


    
#     print "{:10}".format(token), "->", get_words_count(token, vectorizer.vocabulary_, matrix)

NameError: name 'tokens' is not defined

In [None]:
from nltk.stem.porter import *

stemmer = PorterStemmer()
stemmer.stem("running")
