In [None]:
with open('city_smell.txt', 'r') as file:
    text = file.read().replace('\n', '')

In [5]:
# my_file = open('city_smell.txt', 'r')

text = """Помните запах свежевыпеченного хлеба на дождливой улочке из той булочной, в которую вы заходили в прошлом месяце?
А как он смешался с запахом смолотого кофе?
А запах свежескошенной травы в парке освежающим вечером после жаркого дня?
Запахи ежеминутно сопровождают нас в городе, но они мимолетны и невидимы, поэтому часто ускользают от внимания урбанистов и исследователей городской среды.
Группа ученых из разных университетов мира в рамках проекта Smelly Maps решила исправить эту несправедливость и занялась исследованием городских запахов.
Самый первый и важный вопрос, с которым они столкнулись — откуда брать данные для работы? Один из очевидных ответов — собирать данные на месте при помощи так называемых «smell walks».
Принцип прост: группа добровольцев идет по маршруту и записывает все запахи, которые чувствует по пути, отмечая конкретные места на карте.
На основе таких прогулок и нескольких исследований был составлен «словарь запахов», который состоял из всех слов, которыми добровольцы описывали запахи во время прогулки.
Просто, эффективно и дешево.
Но у такого метода есть недостатки: на обход даже небольшого города несколько десятков добровольцев потратит очень много времени, а если мы хотим еще и рассмотреть динамику, этот способ не подходит совсем.
Остается обратиться к добровольно собираемым и публикуемым в сети большим данным, а именно к данным социальных сетей.
Взять 17 миллионов фотографий из Flickr, 5.1 миллиона снимков из публичных аккаунтов Instagram и 5.3 миллиона твитов из Твиттера, каждый из которых обладает геотегом — и с этим уже можно работать.
Набор данных из Твиттера был очищен от ретвитов и ответов, после чего в сумме для анализа было готово 1.7 миллиона твитов.
Тексты твитов и подписей к фотографиям был распарсен, и из всего массива слов были отобраны только те, которые имеют отношение к запахам.
На основе этих данных был построен взвешенный граф связей между словами, в вершинах которого закреплены сами слова, а вес ребра соответствует количеству раз, когда эти два слова встречаются в одном тексте. Такой анализ выявил несколько четко определенных категорий запахов, например, «природные», «индустриальные», «еда», «выбросы/выхлопы», «мусор».
Внутри категорий иногда можно было выделить подкатегории и определить самые часто встречающиеся слова-метки этой категории.
Схему этих категорий можно увидеть ниже.
Цвета выбраны не просто так.
Исследователи нашли связи между запахами и цветами, преобладающими на анализируемых фотографиях.
Запахи также связаны с негативными или позитивными эмоциями, например, категория «мусор» будет положительно коррелировать с негативными эмоциями, отвращением и печалью, но отрицательно — с радостью.

В современных городах существуют программы мониторинга качества воздуха, позволяющие городским службам оперативно реагировать на аномалии, а обычным горожанам следить за составом воздуха, которым они дышат. Массив данных о городских запахах сравнили и с такими данными и сделали вывод о том, что данные о более низком качестве воздуха с примесями положительно коррелируют с такими категориями, как «выбросы/выхлопы», и отрицательно — с категорией «природа».
Такой вывод кажется логичным, но теперь он доказан научно.

По геотегам исследователи сделали интерактивные карты, где можно узнать, чем пахнут улицы таких городов мира, как Лондон и Барселона (два первых города, для которых были собраны и проанализированы данные).
Есть также карты Мадрида, Рима, Милана, Нью-Йорка и еще шести крупных американских городов.
Авторы утверждают, что список будет пополняться и дальше.

Для картографирования использовались открытые данные Open Street Map, внутри которых были выделены сегменты улиц от перекрестка до перекрестка, к которым были привязаны геотеги оригинальных данных.
На странице проекта, путешествуя по интерактивным картам, можно посмотреть соотношение запахов по каждому сегменту, например, в Барселоне на улице Бальмес запах еды преобладает:

Вместе запахи складываются в комплексный и сложный ландшафт, уникальный для каждого города, и он нуждается в исследовании так же, как и ландшафт визуальный или звуковой.
Кстати, по запросу от авторов можно получить также данные, на которых основывался проект, если есть желание исследовать их самостоятельно.

Источники:
Страница проекта Smelly Maps
Интерактивные карты проекта
Нелли Бурцева"""

In [13]:
def normalize(text):
    normalized = text.lower().strip("!\"#$%&'()*+, -./:;<=>?@[\]^_`{|}~").split()
    return normalized

In [15]:
list_words = normalize(text)

In [19]:
print(list_words)

['помните', 'запах', 'свежевыпеченного', 'хлеба', 'на', 'дождливой', 'улочке', 'из', 'той', 'булочной,', 'в', 'которую', 'вы', 'заходили', 'в', 'прошлом', 'месяце?', 'а', 'как', 'он', 'смешался', 'с', 'запахом', 'смолотого', 'кофе?', 'а', 'запах', 'свежескошенной', 'травы', 'в', 'парке', 'освежающим', 'вечером', 'после', 'жаркого', 'дня?', 'запахи', 'ежеминутно', 'сопровождают', 'нас', 'в', 'городе,', 'но', 'они', 'мимолетны', 'и', 'невидимы,', 'поэтому', 'часто', 'ускользают', 'от', 'внимания', 'урбанистов', 'и', 'исследователей', 'городской', 'среды.', 'группа', 'ученых', 'из', 'разных', 'университетов', 'мира', 'в', 'рамках', 'проекта', 'smelly', 'maps', 'решила', 'исправить', 'эту', 'несправедливость', 'и', 'занялась', 'исследованием', 'городских', 'запахов.', 'самый', 'первый', 'и', 'важный', 'вопрос,', 'с', 'которым', 'они', 'столкнулись', '—', 'откуда', 'брать', 'данные', 'для', 'работы?', 'один', 'из', 'очевидных', 'ответов', '—', 'собирать', 'данные', 'на', 'месте', 'при', 'по

In [18]:
num_words = len(list_words)

In [20]:
num_symbols = 0
for word in list_words:
    num_symbols += len(word)
#     num_symbols = num_symbols + len(word)

average_word_len = num_symbols / num_words
print(average_word_len)

6.141914191419142


In [21]:
import re
sentences = re.split("(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?)\s", text)
print(sentences)

['Помните запах свежевыпеченного хлеба на дождливой улочке из той булочной, в которую вы заходили в прошлом месяце?', 'А как он смешался с запахом смолотого кофе?', 'А запах свежескошенной травы в парке освежающим вечером после жаркого дня?', 'Запахи ежеминутно сопровождают нас в городе, но они мимолетны и невидимы, поэтому часто ускользают от внимания урбанистов и исследователей городской среды.', 'Группа ученых из разных университетов мира в рамках проекта Smelly Maps решила исправить эту несправедливость и занялась исследованием городских запахов.', 'Самый первый и важный вопрос, с которым они столкнулись — откуда брать данные для работы?', 'Один из очевидных ответов — собирать данные на месте при помощи так называемых «smell walks».', 'Принцип прост: группа добровольцев идет по маршруту и записывает все запахи, которые чувствует по пути, отмечая конкретные места на карте.', 'На основе таких прогулок и нескольких исследований был составлен «словарь запахов», который состоял из всех 

In [22]:
len(sentences)

32

In [23]:
list_num_words = []

for sentence in sentences:
    num_words = len(normalize(sentence))
    list_num_words.append(num_words)
print(list_num_words)

[17, 8, 11, 21, 20, 15, 15, 20, 23, 4, 31, 17, 31, 21, 22, 31, 14, 15, 6, 5, 11, 25, 25, 37, 9, 29, 13, 8, 25, 48, 19, 10]


In [26]:
list_num_words = sorted(list_num_words)

proportion = list_num_words[-1]/list_num_words[0]
print(proportion)

12.0


In [29]:
num_punkt = []
all_punct = '.,?!-«»:'
print(list_punct)
for sentence in sentences:
    punct_per_sentence = 0
    for symbol in sentence:
        if all_punct.find(symbol)>-1:
            punct_per_sentence += 1
    num_punkt.append(punct_per_sentence)
print(num_punkt)

['.', ',', '?', '!', '-', '«', '»', ':']
[2, 1, 1, 3, 1, 2, 3, 4, 5, 2, 4, 2, 5, 3, 3, 4, 17, 2, 1, 1, 2, 7, 4, 8, 2, 5, 5, 2, 3, 9, 4, 1]


In [30]:
average_punkt = sum(num_punkt)/len(num_punkt)
average_punkt

3.6875

In [31]:
unique_words = set(list_words)

{'фотографий', 'запахом', 'свежескошенной', 'добровольцев', 'научно.', 'освежающим', 'нас', 'map,', '«индустриальные»,', 'подкатегории', 'раз,', 'места', 'именно', 'улицы', '5.1', 'воздуха', 'исследовать', 'работы?', 'очень', 'категория', 'мира,', 'нью-йорка', 'так', 'нескольких', 'ответов,', 'этих', '17', 'прогулок', 'сети', 'которого', 'ниже.', 'этой', 'связаны', 'парке', 'встречающиеся', 'реагировать', 'словами,', 'занялась', 'посмотреть', 'городских', 'сумме', 'существуют', 'о', 'городской', 'анализируемых', 'запахами', 'рима,', 'каждого', 'твитов.', 'программы', 'десятков', 'были', 'невидимы,', 'университетов', 'позволяющие', 'ландшафт', 'которыми', 'мира', 'отмечая', 'схему', 'также', 'проект,', 'дождливой', 'подходит', '«природные»,', 'геотеги', 'слов', 'первый', 'flickr,', 'между', 'городским', 'самостоятельно.', 'запах', 'массив', 'один', 'список', 'перекрестка', 'на', 'данным,', 'очевидных', 'пахнут', 'будет', 'улиц', 'ребра', 'одном', 'вместе', 'способ', 'дешево.', 'остается

In [33]:
len(unique_words)/len(list_words)

0.7062706270627063