# Topic Categorization + converstation thread effects - simple overview

This workbook will show how tweets categorized by keywords can then be expanded to take convesation thread concepts into account. 

For a fuller walkthrough with real examples, see the workbooks on [categorization of topics](https://github.com/sergegoussev/nlpru/blob/master/examples/nlpru_topic_categorization_walkthrough.ipynb) and [topic Categorization with converstation thread effects](https://github.com/sergegoussev/nlpru/blob/master/examples/Categorizing_by_topic_using_conversation_threads.ipynb).

In [13]:
from nlpru import FindTopics
from nlpru import Conversations

tweet_dict = {
                '1':{'text':'вот почему б не указать'},     #on topic by keyword
                '2':{'text':"наш Самарский расследование"}, #op topic by keyword
                '3':{'text':"вот он не бот"},               
                '4':{'text':'можно обратиться напрямую'},   #reply to 1 therefore on topic
                '5':{'text':"какое расследование"},         #quote to 2, therefore on topic
                '6':{'text':'обратиться ... напрямую'},     #quoting 4, a reply to topic, therefore on topic
                '7':{'text':"какое расследование"}          #retweet of 4, a reply to topic, therefore on topic
            }

In [14]:
topic_dict = {"topic 1":["почему", "наш"]}

replies = [('4','1')]
retweets = [('7','4')]
quotes = [('6','1'),('5','2')]

In [15]:
T = FindTopics(tweet_dict=tweet_dict)
r = T.Keyword_Match(topic_dict)
r

{'1': {'clean_words': ['почему', 'указать'],
  'text': 'вот почему б не указать',
  'topic': 'topic 1'},
 '2': {'clean_words': ['наш', 'самарский', 'расследование'],
  'text': 'наш Самарский расследование',
  'topic': 'topic 1'},
 '3': {'clean_words': ['бот'],
  'text': 'вот он не бот',
  'topic': 'none detected'},
 '4': {'clean_words': ['обратиться', 'напрямую'],
  'text': 'можно обратиться напрямую',
  'topic': 'none detected'},
 '5': {'clean_words': ['какой', 'расследование'],
  'text': 'какое расследование',
  'topic': 'none detected'},
 '6': {'clean_words': ['обратиться', 'напрямую'],
  'text': 'обратиться ... напрямую',
  'topic': 'none detected'},
 '7': {'clean_words': ['какой', 'расследование'],
  'text': 'какое расследование',
  'topic': 'none detected'}}

The basic method had categorized tweets `'1'` and `'2'` as on the topic

In [4]:
c = Conversations(reply_list=replies)
t = c.Recategorize_topics(topic_for_which_to_check="topic 1", tweet_dict=tweet_dict)
t

1 iteration completed, recategorized this round: 1
2 iteration completed, recategorized this round: 0


{'1': {'clean_words': ['почему', 'указать'],
  'text': 'вот почему б не указать',
  'topic': 'topic 1'},
 '2': {'clean_words': ['наш', 'самарский', 'расследование'],
  'text': 'наш Самарский расследование',
  'topic': 'topic 1'},
 '3': {'clean_words': ['бот'],
  'text': 'вот он не бот',
  'topic': 'none detected'},
 '4': {'clean_words': ['обратиться', 'напрямую'],
  'text': 'можно обратиться напрямую',
  'topic': 'topic 1'},
 '5': {'clean_words': ['какой', 'расследование'],
  'text': 'какое расследование',
  'topic': 'none detected'},
 '6': {'clean_words': ['обратиться', 'напрямую'],
  'text': 'обратиться ... напрямую',
  'topic': 'none detected'},
 '7': {'clean_words': ['какой', 'расследование'],
  'text': 'какое расследование',
  'topic': 'none detected'}}

Taking into account the *replies*, `'4'` is also categorized as on the topic

In [9]:
c = Conversations(reply_list=replies, retweet_list=retweets)
t = c.Recategorize_topics(topic_for_which_to_check="topic 1", tweet_dict=tweet_dict)
t

1 iteration completed, recategorized this round: 2
2 iteration completed, recategorized this round: 0


{'1': {'clean_words': ['почему', 'указать'],
  'text': 'вот почему б не указать',
  'topic': 'topic 1'},
 '2': {'clean_words': ['наш', 'самарский', 'расследование'],
  'text': 'наш Самарский расследование',
  'topic': 'topic 1'},
 '3': {'clean_words': ['бот'],
  'text': 'вот он не бот',
  'topic': 'none detected'},
 '4': {'clean_words': ['обратиться', 'напрямую'],
  'text': 'можно обратиться напрямую',
  'topic': 'topic 1'},
 '5': {'clean_words': ['какой', 'расследование'],
  'text': 'какое расследование',
  'topic': 'none detected'},
 '6': {'clean_words': ['обратиться', 'напрямую'],
  'text': 'обратиться ... напрямую',
  'topic': 'none detected'},
 '7': {'clean_words': ['какой', 'расследование'],
  'text': 'какое расследование',
  'topic': 'topic 1'}}

Taking *retweets* and *replies* into account now resulted in adding not just `'4'`, but also `'7'` as on the topic

In [12]:
c = Conversations(reply_list=replies, retweet_list=retweets, quote_list=quotes)
t = c.Recategorize_topics(topic_for_which_to_check="topic 1", tweet_dict=tweet_dict)
t

1 iteration completed, recategorized this round: 4
2 iteration completed, recategorized this round: 0


{'1': {'clean_words': ['почему', 'указать'],
  'text': 'вот почему б не указать',
  'topic': 'topic 1'},
 '2': {'clean_words': ['наш', 'самарский', 'расследование'],
  'text': 'наш Самарский расследование',
  'topic': 'topic 1'},
 '3': {'clean_words': ['бот'],
  'text': 'вот он не бот',
  'topic': 'none detected'},
 '4': {'clean_words': ['обратиться', 'напрямую'],
  'text': 'можно обратиться напрямую',
  'topic': 'topic 1'},
 '5': {'clean_words': ['какой', 'расследование'],
  'text': 'какое расследование',
  'topic': 'topic 1'},
 '6': {'clean_words': ['обратиться', 'напрямую'],
  'text': 'обратиться ... напрямую',
  'topic': 'topic 1'},
 '7': {'clean_words': ['какой', 'расследование'],
  'text': 'какое расследование',
  'topic': 'topic 1'}}

Great! Now all but `'3'` are considred as part of **topic 1**

In [16]:
c = Conversations(quote_list=quotes, retweet_list=retweets, reply_list=replies)
t = c.Recategorize_topics(topic_for_which_to_check="topic 1", tweet_dict=tweet_dict)
t

1 iteration completed, recategorized this round: 4
2 iteration completed, recategorized this round: 0


{'1': {'clean_words': ['почему', 'указать'],
  'text': 'вот почему б не указать',
  'topic': 'topic 1'},
 '2': {'clean_words': ['наш', 'самарский', 'расследование'],
  'text': 'наш Самарский расследование',
  'topic': 'topic 1'},
 '3': {'clean_words': ['бот'],
  'text': 'вот он не бот',
  'topic': 'none detected'},
 '4': {'clean_words': ['обратиться', 'напрямую'],
  'text': 'можно обратиться напрямую',
  'topic': 'topic 1'},
 '5': {'clean_words': ['какой', 'расследование'],
  'text': 'какое расследование',
  'topic': 'topic 1'},
 '6': {'clean_words': ['обратиться', 'напрямую'],
  'text': 'обратиться ... напрямую',
  'topic': 'topic 1'},
 '7': {'clean_words': ['какой', 'расследование'],
  'text': 'какое расследование',
  'topic': 'topic 1'}}

Changing the order of inputs also doesnt matter! All of them are recategorized correctly!