# Занятие 6.4. Работа с грязными текстами

1. Скачивание страниц из интернета (scraping)
2. Работа с API провайдеров информации
3. Нормализация текста

## 1. Scraping

### 1.1. Скачивание отдельных страниц

`Grab` — модуль для обкачивания веб-страниц и создания асинхронных краулеров.

Иногда он не устанавливается через обычный `pip install`, выдавая ошибку про неправильную версию `libcurl`, помогает установка `pycurl` через `conda install pycurl`

In [1]:
import grab
import logging  # будем отслеживать лог от Grab

In [2]:
logging.basicConfig(level=logging.DEBUG)  # Так мы будем видеть все сообщения, которые логируются с уровнем logging.DEBUG

In [3]:
g = grab.Grab()

In [4]:
doc = g.go('http://ya.ru')

DEBUG:grab.network:[01] GET http://ya.ru
DEBUG:grab.network:[02] GET https://ya.ru/


`Grab` должен автоматически определить кодировку и преобразовать результат в юникод

In [5]:
doc.unicode_body()[:1000]

'<!DOCTYPE html><html class="i-ua_js_no i-ua_css_standart i-ua_browser_firefox m-stat i-ua_browser_desktop i-ua_platform_other" lang="ru"><head xmlns:og="http://ogp.me/ns#"><meta http-equiv="X-UA-Compatible" content="IE=edge"><title>Яндекс</title><link rel="shortcut icon" href="//yastatic.net/iconostasis/_/8lFaTHLDzmsEZz-5XaQg9iTWZGE.png"><meta http-equiv=Content-Type content="text/html;charset=UTF-8"><link rel="apple-touch-icon" href="//yastatic.net/iconostasis/_/5mdPq4V7ghRgzBvMkCaTzd2fjYg.png" sizes="76x76"><link rel="apple-touch-icon" href="//yastatic.net/iconostasis/_/s-hGoCQMUosTziuARBks08IUxmc.png" sizes="120x120"><link rel="apple-touch-icon" href="//yastatic.net/iconostasis/_/KnU823iWwj_vrPra7x9aQ-4yjRw.png" sizes="152x152"><link rel="apple-touch-icon" href="//yastatic.net/iconostasis/_/wT9gfGZZ80sP0VsoR6dgDyXJf2Y.png" sizes="180x180"><link rel="alternate" type="application/rss+xml" title="Новости Яндекса" href="https://yandex.ru/company/press_releases/news.rss"><link rel="alte

Если по какой-то причине этого не произошло, можно получить контент в изначальном виде

In [6]:
doc.body[:1000]

b'<!DOCTYPE html><html class="i-ua_js_no i-ua_css_standart i-ua_browser_firefox m-stat i-ua_browser_desktop i-ua_platform_other" lang="ru"><head xmlns:og="http://ogp.me/ns#"><meta http-equiv="X-UA-Compatible" content="IE=edge"><title>\xd0\xaf\xd0\xbd\xd0\xb4\xd0\xb5\xd0\xba\xd1\x81</title><link rel="shortcut icon" href="//yastatic.net/iconostasis/_/8lFaTHLDzmsEZz-5XaQg9iTWZGE.png"><meta http-equiv=Content-Type content="text/html;charset=UTF-8"><link rel="apple-touch-icon" href="//yastatic.net/iconostasis/_/5mdPq4V7ghRgzBvMkCaTzd2fjYg.png" sizes="76x76"><link rel="apple-touch-icon" href="//yastatic.net/iconostasis/_/s-hGoCQMUosTziuARBks08IUxmc.png" sizes="120x120"><link rel="apple-touch-icon" href="//yastatic.net/iconostasis/_/KnU823iWwj_vrPra7x9aQ-4yjRw.png" sizes="152x152"><link rel="apple-touch-icon" href="//yastatic.net/iconostasis/_/wT9gfGZZ80sP0VsoR6dgDyXJf2Y.png" sizes="180x180"><link rel="alternate" type="application/rss+xml" title="\xd0\x9d\xd0\xbe\xd0\xb2\xd0\xbe\xd1\x81\xd1\x

`g.doc` содержит в себе результат последнего вызова `g.go`

`g.doc.select(xpath)` позволяет делать XPath-запросы по документу

In [7]:
for item in g.doc.select('//title'):
    print (item.node())
    print (item.html())
    print (item.text())
    
    node = item.node()

<Element title at 0x1044403b8>
<title>Яндекс</title>
Яндекс


Попробуем вытащить результаты поиска в Яндексе ( https://yandex.ru/search/?text=data%20science&from=os&clid=1836588&lr=213 )

In [8]:
g.go('https://yandex.ru/search/?text=data%20science&from=os&clid=1836588&lr=213')

DEBUG:grab.network:[03] GET https://yandex.ru/search/?text=data%20science&from=os&clid=1836588&lr=213


<grab.document.Document at 0x10428e360>

Попробуем вытащить все ссылки

In [9]:
for item in g.doc.select('//a'):
    print (g.make_url_absolute(item.attr('href')))

https://yandex.ru/?clid=1836588
https://yandex.ru
https://yandex.ru/images/search?text=data%20science&parent-reqid=1506747919627822-256752388476244913753258-vla1-3401
https://yandex.ru/video/search?text=data%20science&parent-reqid=1506747919627822-256752388476244913753258-vla1-3401
https://yandex.ru/maps/?text=data%20science&source=serp_navig
https://market.yandex.ru/search.xml?clid=521&text=data%20science&cvredirect=2
https://news.yandex.ru/yandsearch?text=data%20science&rpt=nnews2&grhow=clutop
https://translate.yandex.ru/?text=data%20science
https://disk.yandex.ru
https://music.yandex.ru/search?text=data%20science
https://mail.yandex.ru
https://yandex.ru/all?text=data science
https://passport.yandex.ru/registration?retpath=https%3A%2F%2Fyandex.ru%2Fsearch%2F%3Ftext%3Ddata%2520science%26clid%3D1836588%26lr%3D213%26ncrnd%3D78778&reqid=1506747919627822-256752388476244913753258-vla1-3401&origin=serp_desktop_auth_new
https://passport.yandex.ru/auth?retpath=https%3A%2F%2Fyandex.ru%2Fsearch

Очень много лишнего.

Применим волшебную силу XPath! Возьмем все элементы `li`, у которых есть класс `serp-item` (SERP — страница результатов поиска), и все ссылки элементы `a` внутри них с классом `organic__url`

In [10]:
for i, item in enumerate(g.doc.select('//li[contains(@class, "serp-item")]//a[contains(@class, "organic__url")]')):
    print (i+1, g.make_url_absolute(item.attr('href')))

1 http://yabs.yandex.ru/count/0WvwNhoPi2e40000gQ00022Els3od0LIbG6R0cv3jm4bYBfTjf01YG6Uh6B00PsMK0wQjqdTKGAc68gzytd94TouMY2v4RsoCuxZ2gekfQJX4X2yfnOA48q1tG7Ua2JqaRUS438Ab_292yorY2CD1PE53Pa5GeoKI-Esap14jPR9EQ2br8e3hvHBuxESZEQqbiavsQ1OW0JQeFWa0PINpnAdaSi9gAlgbUQZ0QxulG1Avt9m-GIn0xAq4002GFdulG1Avt9m-GJy2hcMK0x1__________yFmlfipCjX0oqi3SG1nOyFql__________3zF__________m_k0T-53V2W061OyXdbaF8hxOCezSMkins6lVRVmcLe4QPL-vHButqY?q=data+science
2 http://yabs.yandex.ru/count/0WvwNkY7Ptm40000gQ00022Els3od0LIbG6R0cv3jm4bCeYnLv1m18czO-kr1fwiOi01dQhzf0McHegpUESf3zoyJQN03xszQ2F-2QekfQNKf0wygg_V0eq1tG7Ua2JqaRUS438Ab_292yorY2CD1PE53Pa5GeoaaJ01jfnUMxMRRasWgcR60Q-aaJ01ivc6SxIRRatPgcR60TgPXdEKb4GIfvl_2wYmG5bp1wC1hlYz04hdSd3v1B41iiGG00902FdulG1Avt9m-GJy2hcg_QG5mV__________3yBwRCpBOGCjB0t5Zm_I__________yFq___________3-u1tuKDyA00O5ZbaF8hxOCezSMkins6lVRVmcLe4QPL-wIHC05-8W00?q=data+science
3 https://ru.wikipedia.org/wiki/%D0%9D%D0%B0%D1%83%D0%BA%D0%B0_%D0%BE_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85
4 http://www.ProfGuid

Отфильтруем рекламные ссылки: у них есть класс `serp-adv-item`

In [11]:
for i, item in enumerate(g.doc.select('//li[contains(@class, "serp-item") and not(contains(@class, "serp-adv-item"))]//a[contains(@class, "organic__url")]')):
    print (i+1, g.make_url_absolute(item.attr('href')))

1 https://ru.wikipedia.org/wiki/%D0%9D%D0%B0%D1%83%D0%BA%D0%B0_%D0%BE_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85
2 http://www.ProfGuide.ru/professions/data_scientist.html
3 https://en.wikipedia.org/wiki/Data_science
4 https://meduza.io/cards/data-science-eto-voobsche-rabotaet
5 https://habrahabr.ru/post/148856/
6 https://vk.com/datascience
7 https://rb.ru/opinion/data-scientist/
8 https://antirabstvo.ru/razobratsya-v-data-science-podborka-statej-kursov-i-konferentsij/
9 https://proglib.io/p/learn-data/
10 http://datascientist.one/


А теперь давайте вытащим тройки: `(ссылка, заголовок, сниппет)` для каждого нерекламного результата

In [12]:
def extract_snippets():
    results = []

    return results

In [13]:
extract_snippets()

[]

Часто роботов банят. Для того. чтобы такого не было, нужно маскироваться и прятаться. `Grab` автоматически устанавливает заголовок `User-Agent` в случайное значение из списка реальных значений от браузеров. Между частыми запросами лучше делать таймаут, можно случайный.

При этом все равно скорее всего когда-нибудь забанят по ip. Для того, чтобы обойти это, можно пользоваться списком прокси-серверов. В `Grab` есть втроенный механизм для этого.

Сам список прокси можно взять, например, отсюда: https://www.sslproxies.org/

In [14]:
g.setup(proxy='91.227.158.117:65103')  # он, скорее всего, уже не работает
g.config['proxy']

'91.227.158.117:65103'

Прокси обычно медленные, так что имеет смысл увеличить таймаут подключения

In [15]:
g.setup(connect_timeout=10)

In [16]:
g.go('http://ya.ru')
g.doc.unicode_body()

DEBUG:grab.network:[04] GET http://ya.ru via 91.227.158.117:65103 proxy of type None


GrabTimeoutError: ('Connection timed out after 10003 milliseconds', error(28, 'Connection timed out after 10003 milliseconds'))

Список прокси можно задать так

In [17]:
g.proxylist.load_file('proxies.txt')

In [18]:
g.config['proxy']

'91.227.158.117:65103'

In [19]:
g.go('http://ya.ru')

DEBUG:grab.network:[05] GET http://ya.ru via 221.133.44.142:8080 proxy of type http
DEBUG:grab.network:[06] GET https://ya.ru/ via 149.56.42.236:80 proxy of type http


GrabNetworkError: ('Received HTTP code 403 from proxy after CONNECT', error(56, 'Received HTTP code 403 from proxy after CONNECT'))

In [20]:
g.go('http://ya.ru')

DEBUG:grab.network:[07] GET http://ya.ru via 223.204.124.2:8080 proxy of type http


GrabTimeoutError: ('Connection timed out after 10000 milliseconds', error(28, 'Connection timed out after 10000 milliseconds'))

Чтобы прокси-сервер не менялся каждый раз, можно поставить свойство `proxy_auto_change` в `False` и менять его вручную (например, раз в 10 переходов)

In [21]:
g.setup(proxy_auto_change=False)
g.change_proxy()

In [22]:
g.go('http://ya.ru')

DEBUG:grab.network:[08] GET http://ya.ru via 45.32.183.221:3128 proxy of type http
DEBUG:grab.network:[09] GET https://ya.ru/ via 45.32.183.221:3128 proxy of type http


<grab.document.Document at 0x10428eeb8>

## 1.2. Создание краулеров

У модуля `Grab` есть инструменты для создания краулеров, которые будут многопоточно качать страницы, переходя по ссылкам в указанном режиме.

Более мощный инструмент (мега-комбайн) — `Scrapy`, но мы его рассматривать не будем

In [23]:
from grab.spider import Task, Spider

In [24]:
class NewsSpider(Spider):
    # С этого списка начинается краулинг.
    # Дальше мы можем добавлять задания на основе контента каждого элемента списка (но может быть и один, конечно)
    initial_urls = ['https://meduza.io/']

    def prepare(self):
        # Здесь мы можем подготовить все, что нам надо: соединиться с базой данных, открыть нужные файлы для записи и так далее
        # Мы будем писать результаты в виде html на диск
        self.results = []
        self.counter = 1
        self.template = 'news_{}.txt'
    
    def task_initial(self, grab, task):
        # Здесь происходит обработка изначальных урлов и отсюда генерируются новые задачи
        
        logging.debug ('Обработка изначальных URLов')

        # Вытащим новости с главной страницы
        for elem in grab.doc.select('//article//a[contains(@class, "NewsTitle")]'):
            # Для каждой статьи создадим задачу другого типа, которая будет обработана функцией task_<название_типа>
            yield Task('post', url=g.make_url_absolute(elem.attr('href')))

    def task_post(self, grab, task):
        logging.debug ('Скачиваем статью по адресу {}'.format(task.url))
        
        article_text = grab.doc.select('//div[@class="NewsMaterial"]')
        text = '{}\n\n{}'.format(task.url, article_text[0].text() if len(article_text) else 'no text')

        # Теперь нам нужно сохранить результат
        path = self.template.format(self.counter)
        grab.response.save(path)
        
        with(open(path, 'w', encoding='utf-8')) as out_file:
            out_file.write(text)
        
        self.counter += 1

In [25]:
bot = NewsSpider(thread_number=2)
bot.run()

DEBUG:grab.spider.base:Using memory backend for task queue
DEBUG:grab.network:[10] GET https://meduza.io/
DEBUG:root:Обработка изначальных URLов
DEBUG:grab.network:[11] GET https://ya.ru/short/2017/09/28/fbk-rasskazal-o-nedvizhimosti-vladimira-solovieva-na-milliard-rubley-televeduschiy-nashel-chto-otvetit
DEBUG:grab.network:[12] GET https://ya.ru/cards/startuet-avtomobilnaya-chernaya-pyatnitsa-komu-eto-vygodno
DEBUG:grab.network:[13] GET https://ya.ru/news/2017/09/29/umerla-olimpiyskaya-chempionka-po-figurnomu-kataniyu-lyudmila-belousova
DEBUG:root:Скачиваем статью по адресу https://ya.ru/short/2017/09/28/fbk-rasskazal-o-nedvizhimosti-vladimira-solovieva-na-milliard-rubley-televeduschiy-nashel-chto-otvetit
DEBUG:grab.network:[14] GET https://ya.ru/news/2017/09/29/na-navalnogo-sostavili-protokol-o-povtornom-narushenii-pravil-provedeniya-mitinga
DEBUG:root:Скачиваем статью по адресу https://ya.ru/cards/startuet-avtomobilnaya-chernaya-pyatnitsa-komu-eto-vygodno
DEBUG:grab.stat:RPS: 2.81 [

## 2. Получение текстов через API

### 2.1. Twitter

Для работы с твиттером нужно получить набор ключей, зарегистрировав свое приложение. Делается это по адресу https://apps.twitter.com/

In [26]:
import tweepy
from tweepy import OAuthHandler
 
consumer_key = 'WcQdDhJv2gRbNEtmiOafKOoyx'
consumer_secret = 'cgtXneP6mzwHv11cxRDeR3eov5CpH7ZKmclF2jZJXEKum11E0D'
access_token = '28351287-YH9RhMn3qxhWCzUR1ZWENq6cDFR66wvV2T73oz9wO'
access_secret = 'pbB0FWZeTXyH0TWOOaqbaEjAoNY5m2eMK2P27EQB3L6lE'
 
auth = OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_secret)
 
api = tweepy.API(auth)

Для начала получим список своих постов.

`Cursor` упрощает работу с твитами, потому что сам заботится о пагинации

In [27]:
for status in tweepy.Cursor(api.home_timeline).items(10):
    # Process a single status
    print(status.text)

INFO:tweepy.binder:PARAMS: {}
DEBUG:requests_oauthlib.oauth1_auth:Signing request <PreparedRequest [GET]> using client <Client client_key=WcQdDhJv2gRbNEtmiOafKOoyx, client_secret=****, resource_owner_key=28351287-YH9RhMn3qxhWCzUR1ZWENq6cDFR66wvV2T73oz9wO, resource_owner_secret=****, signature_method=HMAC-SHA1, signature_type=AUTH_HEADER, callback_uri=None, rsa_key=None, verifier=None, realm=None, encoding=utf-8, decoding=None, nonce=None, timestamp=None>
DEBUG:requests_oauthlib.oauth1_auth:Including body in call to sign: False
DEBUG:oauthlib.oauth1.rfc5849:Collected params: [('oauth_nonce', '73285268636685248691506747984'), ('oauth_timestamp', '1506747984'), ('oauth_version', '1.0'), ('oauth_signature_method', 'HMAC-SHA1'), ('oauth_consumer_key', 'WcQdDhJv2gRbNEtmiOafKOoyx'), ('oauth_token', '28351287-YH9RhMn3qxhWCzUR1ZWENq6cDFR66wvV2T73oz9wO')]
DEBUG:oauthlib.oauth1.rfc5849:Normalized params: oauth_consumer_key=WcQdDhJv2gRbNEtmiOafKOoyx&oauth_nonce=73285268636685248691506747984&oauth_

how could I ever forget why I hated falls. bits of naïveté aka hope that something is not so bad have survived, though. // fin septembre
RT @alanohnsman: 🤖 car pioneer @SebastianThrun &amp; @udacity to help @Lyft get engineers -- and fix our #flyingcar shortage via @Forbes https:…
Prepare for future graduate studies in the US with new @UMichiganAI @pamelash #MOOC designed for global learners. https://t.co/Vv3bqDJ7eQ
RT @mbithenzomo: Powered by @Google @Udacity @Andela 🔥 🔥  Don't miss this! Your chance to be a kick-ass mobile dev https://t.co/igUEFcU0WE…
Yay! I dreamed about this method in the standard library for years. https://t.co/HOlpacLcyQ
New to #socialmedia advertising? Learn how to target audiences, manage budgets + measure success w/ our FREE guide! https://t.co/9cbQrx23kq
How difficult is it to train a #neuralnetwork to "write" the next #gameofthrones book? 32,000+ words difficult. https://t.co/Vmq7pWVuVt
RT @BasedDrWorm: Has anyone taken a look at Zuckerberg's facebook? https

Отключим назойливые дебаговые сообщения

In [112]:
logging.disable(logging.INFO)

Посмотрим, что там у них в твиттере Медузы

In [29]:
for item in tweepy.Cursor(api.user_timeline, id="meduzaproject").items(10):
    print (item)

Status(_api=<tweepy.api.API object at 0x1050d9358>, _json={'created_at': 'Fri Sep 29 18:17:38 +0000 2017', 'id': 913830142283325449, 'id_str': '913830142283325449', 'text': 'Навального отпустили из\xa0полиции\n\nhttps://t.co/eM7TQ8xlru', 'truncated': False, 'entities': {'hashtags': [], 'symbols': [], 'user_mentions': [], 'urls': [{'url': 'https://t.co/eM7TQ8xlru', 'expanded_url': 'https://meduza.io/news/2017/09/29/navalnogo-otpustili-iz-politsii', 'display_url': 'meduza.io/news/2017/09/2…', 'indices': [33, 56]}]}, 'source': '<a href="https://meduza.io" rel="nofollow">MyLovelyTuring</a>', 'in_reply_to_status_id': None, 'in_reply_to_status_id_str': None, 'in_reply_to_user_id': None, 'in_reply_to_user_id_str': None, 'in_reply_to_screen_name': None, 'user': {'id': 2803786405, 'id_str': '2803786405', 'name': 'Meduza', 'screen_name': 'meduzaproject', 'location': '', 'description': 'Это «Медуза». Только самые важные новости и тексты https://t.co/s0cFqJ6kOv https://t.co/wCrm5RGmEv https://t.co

In [30]:
for item in tweepy.Cursor(api.user_timeline, id="meduzaproject").items(100):
    print (item.text)

Навального отпустили из полиции

https://t.co/eM7TQ8xlru
Сразу пять новых членов президиума РАН связаны с диссертациями, в которых нашли некорректные заимствования.

https://t.co/2lPCbeglpY
Что осталось от склада боеприпасов под Винницей

https://t.co/nDkDxcVELd
Идея Илона Маска про пассажирские ракеты как будто взята из рассказа Филипа Дика «Человек в высоком замке»

https://t.co/fJXSvQgwK9
Андрей Козенко поехал в Нижний Новгород на митинг сторонников Алексея Навального, но попал на что-то очень странное

https://t.co/I5SS10ViRz
Ни деньги, ни слава не способны спасти человека от депрессии: это болезнь, которая может случиться с кем угодно

https://t.co/hmshGhg08j
Начинается 2-й сезон сериала «Оккупированные», по сюжету которого Россия вторглась в Норвегию (с санкции Евросоюза!)
https://t.co/GhyBcDGnyP
Как «озеленяют» губернаторов, почему Олег Тиньков простил «Немагию», зачем Виктор Пелевин прячется от мира. Подкаст!
https://t.co/OhxryxFGol
Умерла олимпийская чемпионка по фигурному кат

Последний способ взаимодействия с твиттером — стриминг сообщений в реальном времени по хэштегу или ключевому слову

In [32]:
from tweepy import Stream
from tweepy.streaming import StreamListener
 
class MLStrListener(StreamListener):
 
    def on_status(self, status):
        print(status.text)
 
    def on_error(self, status):
        print(status)
        return True
 
twitter_stream = Stream(api.auth, MLStrListener())
twitter_stream.filter(track=['#machinelearning'])

RT @Ronald_vanLoon: Python vs R – Who Is Really Ahead in Data Science, Machine Learning? | #MachineLearning #R #RT… 
These assets are seeing a jump in tweets #Machinelearning $AIQUY $ETH https://t.co/0hRKMKxVii https://t.co/DGeszxALNg
RT @bvudata: Opening 'black box' #machinelearning models: https://t.co/ncv75Sf6j8 https://t.co/y6BuF2wFtN
RT @bvudata: Opening 'black box' #machinelearning models: https://t.co/ncv75Sf6j8 https://t.co/y6BuF2wFtN
Artificial Intelligence Is Our Future. But Will It Save Or Destroy Humanity? https://t.co/trcqUZAOyO via @Futurism #AI #MachineLearning
RT @DeepLearn007: Five Ways To Boost Your Strategy With Machine Learning
#AI #MachineLearning #BigData #Marketing #ML #martech #tech… 
RT @DeepLearn007: Five Ways To Boost Your Strategy With Machine Learning
#AI #MachineLearning #BigData #Marketing #ML #martech #tech… 
RT @grep_security: Artificial Intelligence Is Our Future. But Will It Save Or Destroy Humanity? https://t.co/trcqUZAOyO via @Futurism #AI #…
RT @Bi

KeyboardInterrupt: 

Попробуем теперь обработать твиты от Медузы, выделив оттуда имена и организации

In [34]:
import natasha

In [42]:
combinator = natasha.Combinator(natasha.DEFAULT_GRAMMARS)

In [45]:
for match in combinator.extract('На развитие Крыма дополнительно потратят 72 миллиарда рублей'):
    print (match)

(<Location.Object: [{'labels': [functools.partial(<function is_capitalized at 0x105eeb268>, True), functools.partial(<function gram at 0x105eee9d8>, 'Geox')], 'normalization': <NormalizationType.Inflected: 1>, 'interpretation': {'attribute': <Attributes.Name: 0>}}]>, [Token('Крыма', (12, 17), [{'grammemes': {'NOUN', 'gent', 'masc', 'Sgtm', 'sing', 'inan', 'Geox'}, 'normal_form': 'крым', 'score': 1.0, 'methods_stack': ((<DictionaryAnalyzer>, 'крыма', 1321, 1),)}])])
(<Money.ObjectWithPrefix: [{'labels': [functools.partial(<function gram at 0x105eee9d8>, 'NUMBER')]}, {'labels': [functools.partial(<function dictionary at 0x105ef0950>, {'миллион', 'миллиард', 'триллион', 'тысяча'})]}, {'labels': [functools.partial(<function gram at 0x105eee9d8>, 'PUNCT')], 'optional': True}, {'labels': [functools.partial(<function dictionary at 0x105ef0950>, {'доллар', 'рубль', 'евро'})]}]>, [Token(72, (41, 43), [{'grammemes': {'INT', 'NUMBER'}, 'normal_form': '72'}]), Token('миллиарда', (44, 53), [{'gramm

In [104]:
for grammar, match in combinator.extract('На развитие Крыма дополнительно потратят 72 миллиарда рублей'):
    words = [x.value for x in match]
    print (grammar, match[0].value, words, match[0].forms[0]['normal_form'])

Location.Object Крыма ['Крыма'] крым
Money.ObjectWithPrefix 72 [72, 'миллиарда', 'рублей'] 72
Money.ObjectWithoutActualNumber миллиарда ['миллиарда', 'рублей'] миллиард


Теперь вытащим все объекты из первых 100 записей Медузы:

### 2.2. Amazon

Для извлечения отзывов из Амазона можно использовать модуль [Amazon Scraper](https://pypi.python.org/pypi/amazon_scraper). При помощи него можно извлечь отзывы о продуктах.
Для получения доступа, нужно получить доступ на http://aws.amazon.com и affiliate tag вот здесь: https://affiliate-program.amazon.com/

Amazon Scraper — гибридная библиотека: когда можно использовать API, она использует API, когда нет, скрейпит страницы. Под капотом у него для этого библиотека [bottlenose](https://github.com/lionheart/bottlenose).

In [113]:
product_ids = ['B00DDZPC9S', 'B00WJ049VU', 'B00ZJNH0G0']

In [124]:
access_key = 'AKIAJWKWHAINH5KYR66Q'
secret_key = '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'
tag = 'maxionov-20'

In [125]:
import amazon_scraper
amzn = amazon_scraper.AmazonScraper(access_key, secret_key, tag)

In [126]:
for item in amzn.search(Keywords='python', SearchIndex='Books'):
    print (item.title, item.product.asin)

Python Crash Course: A Hands-On, Project-Based Introduction to Programming 1593276036
Learning Python, 5th Edition 1449355730
Python: Programming: Your Step By Step Guide To Easily Learn Python in 7 Days (Python for Beginners, Python Programming for Beginners, Learn Python, Python Language) 1521155488
Automate the Boring Stuff with Python: Practical Programming for Total Beginners 1593275994
Python Pocket Reference: Python In Your Pocket (Pocket Reference (O'Reilly)) 1449357016
Python for Everybody: Exploring Data in Python 3 1530051126
Python Programming For Beginners: Learn The Fundamentals of Python in 7 Days 1521432341
Python: For Beginners: A Crash Course Guide To Learn Python in 1 Week 1549776673
Fluent Python: Clear, Concise, and Effective Programming 1491946008
Introducing Python: Modern Computing in Simple Packages 1449359361
Python Programming for Intermediates: Learn the Fundamentals of Python in 7 Days 1521439559
Learn Python 3 the Hard Way: A Very Simple Introduction to th

In [143]:
prod_id = product_ids[1]
p = amzn.lookup(ItemId=prod_id)

In [150]:
p.url

'http://www.amazon.com/dp/B00WJ049VU'

In [144]:
print (p.title)

Automate the Boring Stuff with Python: Practical Programming for Total Beginners


## 3. Нормализация текста: спеллчек

In [151]:
import enchant

In [152]:
d = enchant.Dict("en_US")

In [155]:
d.check('pyton')

False

In [156]:
d.suggest('pyton')

['python', 'piton', 'pylon', 'Python', 'Payton', 'Peyton', 'Paton']

Enchant использует словари myspell, которые устанавливаются, например, с OpenOffice (можно и отдельно). Скопировать их надо сюда:
`<python_dir>/site-packages/enchant/share/enchant/myspell`

In [157]:
enchant.list_languages()

['de_DE', 'en_AU', 'en_GB', 'en_US', 'fr_FR']