# Kinopoisk postings about Brat 1997

* Open a command shell and change into your working directory.
* The directory should contain the program below, `text_from_word.py`, and `брат_кинопоиск_рецензии.docx`.

## Imports

In [8]:
import text_from_word
import re
import nltk
from textblob import TextBlob

## Create a plain text file from the Word document

In [2]:
text = text_from_word.get_docx_text('брат_кинопоиск_рецензии.docx') # extract text from Word file
# replace non-breaking space characters with spaces, remove asterisks, and convert to lower case
text = text.replace(chr(160),' ').replace('*','').lower() 
tmp = re.split('\s{2,}',text) # split into paragraphs on empty lines
piter_paragraphs = [paragraph for paragraph in tmp if re.search('питер|петербург|ленинград', paragraph)] # keep only relevant paragraphs
full_text = ' '.join(piter_paragraphs)

## Create a text blob for exploration

Note: This can take several minutes.

In [3]:
blob=TextBlob(full_text)
dictionary=blob.np_counts
dictionary=dict(dictionary)
rankedList=sorted(dictionary,key=dictionary.get,reverse=True)

## Examine the collocations

The results aren’t very interesting. The only entire phrases that repeat with any frequency are personal names (forename and surname) or phrasal idioms, and they don’t tell us much about St. Petersburg.

In [4]:
for i in range(0, 50):
    key=rankedList[i]
    value=dictionary[key]
    print(key + " repeats " + str(value) + " times")

на мой взгляд repeats 7 times
к сожалению repeats 6 times
быть может repeats 4 times
данила багров repeats 4 times
а чем больше город repeats 3 times
можно сказать repeats 3 times
сергей бодров мл repeats 3 times
виктор сухоруков repeats 3 times
в то время repeats 3 times
казалось бы repeats 3 times
а тот repeats 3 times
прежде всего repeats 3 times
что ж repeats 3 times
вернувшийся с войны repeats 3 times
так сказать repeats 2 times
сергей бодров repeats 2 times
«город — злая сила repeats 2 times
тем не менее repeats 2 times
кроме того repeats 2 times
да так repeats 2 times
может быть repeats 2 times
он помогает людям repeats 2 times
гнида черножопая repeats 2 times
город забирает силу repeats 2 times
к слову repeats 2 times
на первый взгляд repeats 2 times
не задумываясь repeats 2 times
по сути repeats 2 times
и слава богу repeats 2 times
а главное repeats 2 times
тем он сильнее repeats 2 times
только сильный может выкарабкаться repeats 2 times
а петербург repeats 2 times
красивый го

## Create a concordance manually

In [6]:
words = full_text.split(' ')
results = []
for word in words:
    if re.search('питер|петербург|ленинград', word):
        results.append(' '.join(words[words.index(word) - 5:words.index(word) + 6]).replace('питер','ПИТЕР').replace('петербург','ПЕТЕРБУРГ').replace('ленинград','ЛЕНИНГРАД'))
[i for i in sorted(set(results))]

['(«дембель, не отгулял ещё»)отправляется в ПИТЕР, потому как, по словам матери,',
 '(виктор сухоруков) в ПИТЕР. в ПЕТЕРБУРГе данила знакомится со многими новыми',
 '10 не ЛЕНИНГРАД а ПЕТЕРБУРГ! ПИТЕР! красивый город, но провинция. мой',
 'ЛЕНИНГРАДе ("…не ЛЕНИНГРАД, а ПЕТЕРБУРГ, ПИТЕР!» — потом поправляет виктор данилу)',
 'балабанова и музыка от бутусова.в санкт-ПЕТЕРБУРГе всегда снимали качественное российское кино,',
 'без проблем удалось снять типично ПИТЕРское кино. атмосферу санкт-ПЕТЕРБУРГа 90-х годов',
 'в живого мальчика.место действия — санкт-ПЕТЕРБУРГ. место мрачное. надо быть «парфюмером»,',
 'времен. основное место действия — ПЕТЕРБУРГ. выбор на него пал думается',
 'времени. 8 из 10 не ЛЕНИНГРАД а ПЕТЕРБУРГ! ПИТЕР! красивый город,',
 'встречает людей различных слоев населения: ПИТЕРская мафия, рэкетиры, наркоманы-неформалы, кавказцы, кладбищенские',
 'всё удалось передать отнюдь не санкт-ПЕТЕРБУРГским музыкантам.классика современного русского кино. 10',
 'всё это атмосфе

## Create a concordance with NLTK

To use the NLTK `concordance()` method, we need to convert our `full_text` string object into an NLTK Text object.

In [32]:
c = nltk.Text(full_text.split())

Find all form of Питер, Петербург, and Ленинград that occur in the text.

In [53]:
targets = sorted(set([word for word in c if re.search('питер|петербург|ленинград', word)]))

['«питерские',
 'ленинград',
 'ленинград,',
 'ленинграде',
 'ленинградских',
 'ленинградцы»,',
 'петербург',
 'петербург!',
 'петербург,',
 'петербург.',
 'петербурга',
 'петербурга,',
 'петербурга.',
 'петербурге',
 'петербурге.',
 'петербургом',
 'петербургской',
 'петербургу',
 'питер',
 'питер!',
 'питер!»',
 'питер,',
 'питер-',
 'питер.',
 'питер:',
 'питера',
 'питера,',
 'питера.',
 'питера…',
 'питере',
 'питере,',
 'питере.',
 'питеремне',
 'питерская',
 'питерским',
 'питерских',
 'питерского',
 'питерское',
 'питерском',
 'питерскому',
 'питер…для',
 'санкт-петербург',
 'санкт-петербург,',
 'санкт-петербург.',
 'санкт-петербурга',
 'санкт-петербурга,',
 'санкт-петербурга.',
 'санкт-петербурге',
 'санкт-петербурге,',
 'санкт-петербурге.',
 'санкт-петербургом.',
 'санкт-петербургским']

In [61]:
for item in targets:
    c.concordance(item)

Displaying 1 of 1 matches:
еспроста: сырая дождливая погода, «питерские дворы», в которых так легко скрыт
Displaying 1 of 1 matches:
 зеркалом того времени. 8 из 10 не ленинград а петербург! питер! красивый город
Displaying 4 of 4 matches:
го, что было снято на плёнку.«-не ленинград, а петербург. питер. красивый горо
незнакомый и неуютный еще недавно ленинград, а теперь уже санкт-петербург, к б
ылое зрелище. в фильме показан не ленинград, и не санкт-петербург. это какой-т
но обосновался в ленинграде ("…не ленинград, а петербург, питер!» — потом попр
Displaying 2 of 2 matches:
следует, на лесоповале. а место в ленинграде долго пустовать не будет. старых 
ор уже давным-давно обосновался в ленинграде ("…не ленинград, а петербург, пит
Displaying 1 of 1 matches:
ным фильмом. чувствуется серость ленинградских улиц, которую мастерски смог пер
Displaying 1 of 1 matches:
билия. круг замкнулся. «коренные ленинградцы», пережившие 600 дней блокады, нег
Displaying 7 of 7 matches:
смело говорить, чт