## Twitter

Twitter - источник текстов довольно интересного жанра (микроблог), а еще возможность мониторить отражения событий, происходящих в мире. Существуют питоновские модули для работы с Twitter API (application programming interface -- средство для автоматизированного обращения к приложению), например, Twython, Tweepy, twitter, python-twitter.

Попробуем поработать с Tweepy -- pip install tweepy

Для того, чтобы работать с Twitter через Python, нужно иметь аккаунт в Twitter.

Имея аккаунт в Twitter, нужно создать приложение. Учтите, что если вы будете писать бота, то он будет постить твиты под тем аккаунтом, в котором вы создаете приложение (т.е. вы можете написать бота, который спамит в вашем личном аккаунте, или же зарегистрировать новый аккаунт специально под бота).

Для того чтобы создать приложение, нужно:
* перейти на https://apps.twitter.com/
* нажать Create New App
* ввести имя, описание и сайт приложения (в качестве сайта можно использовать профиль в твиттере, например twitter.com/username)
* согласиться с Twitter Developer Agreement и нажать Create your Twitter application

Теперь у вас есть приложение, но нет ключей доступа. Для того, что бы их сгенерировать нужно:
* перейти во вкладку Permissions и убедиться, что там указано Read and Write,
* перейти во вкладку Keys and Access Tokens и нажать кнопку Create my access token

Токены, которые мы создали, нужно записать в специальный файл, например, `credentials.py`. Эти токены можно будет импортировать в другие модули строчкой `from credentials import *`.

Файл `credentials.py` будет выглядеть так:

In [None]:
consumer_key = '.....Consumer Key (API Key).......'
consumer_secret = '....Consumer Secret (API Secret)..............'
access_token = '........Access Token...............'
access_token_secret = '......Access Token Secret..........'

In [5]:
import tweepy
from credentials import *

Авторизация в Twitter через Python

In [6]:
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)
api = tweepy.API(auth)

Посмотреть, что можно делать с экземпляром api можно в [документации](http://docs.tweepy.org/en/v3.5.0/api.html)

Можно получить юзера, к которому привязано приложение:

In [9]:
me = api.me()

Переменная `me` содержит объект типа `User`, у юзера есть множество атрибутов - имя, логин, количество фолловеров, лайков, постов, дата регистрации и т.д. Чтобы посмотреть, какие атрибуты есть у данного юзера, напечатайте в консоли `vars(me)`.

In [10]:
print('My name is %s'%me.name)
print('My screen name is %s'%me.screen_name)
print('I have %d followers'%me.followers_count)
print('I follow %d accounts'%me.friends_count)

My name is Arina Ageeva
My screen name is ArinaAgeeva1
I have 1 followers
I follow 0 accounts


С помощью api можно публиковать посты:

In [None]:
tweet = "A long time ago in a galaxy far, far away...."
api.update_status(tweet)

Чтобы ответить на какой-то твит, в `update_status` нужно указать параметр `in_reply_to_status_id`:

In [None]:
api.update_status("This is the static blue text featured in every Star Wars opening crawl.", 
                  in_reply_to_status_id=my_last_tweet.id)

Чтобы ретвитнуть твит, используем метод retweet - ему нужно передать id твита:

In [None]:
api.retweet(my_last_tweet.id)

Чтобы **скачать все твиты конкретного юзера**, используется метод [`user_timeline`](http://docs.tweepy.org/en/v3.5.0/api.html#API.user_timeline). Например, нас с вами интересует твиттер [Python Software Foundation](https://twitter.com/ThePSF)

In [13]:
username = "ThePSF"
num_tweets = 5  # максимум 200 твитов за раз
tweets = api.user_timeline(screen_name=username, count=num_tweets)

for i, tweet in enumerate(tweets):
    print('%d: %s (%s)\n'%(i, tweet.text, tweet.created_at))

0: PyHou - Houston Python Enthusiasts! Monthly Meetup Dec. 18 #PyHou: https://t.co/lLqVPqvis1 (2017-12-15 00:00:08)

1: RT @Binarybotstech: @ThePSF We're hosting FREE workshops at @Highcross this weekend to teach children how to code using the BBC Micro:bit -… (2017-12-14 22:57:04)

2: Boston Python Dec. 18 Presentation Night - Douglas Landgraf: Controlling a Surveillance Camera with Python.… https://t.co/DOTr1ivDoe (2017-12-14 21:00:06)

3: Kubernetes and Python - London Python Meetup Dec. 18: https://t.co/X34LFhE38S. @python_london (2017-12-14 18:00:11)

4: Django Software Foundation travel grants available for PyCon Namibia 2018: https://t.co/HiilxvPArW (2017-12-13 23:00:07)



Чтобы получить следующие 5 твитов, используем параметр `page`:

In [14]:
tweets = api.user_timeline(screen_name=username, count=num_tweets, page=2)

for i, tweet in enumerate(tweets):
    print('%d: %s (%s)\n'%(i, tweet.text, tweet.created_at))

0: Python listed as one of the most common skills for emerging jobs in Linkedin 2017 U.S. emerging jobs report: https://t.co/uJkzPFapHh (2017-12-13 16:18:01)

1: PyCon Pune 2018 welcomes Brett Cannon as keynote speaker. Register and meet with Brett: https://t.co/nwhrK8aue7 (2017-12-13 12:00:03)

2: RT @jdorfman: Proud 2018 @ThePSF sponsor/partner. https://t.co/2jinaRcDLB (2017-12-12 23:51:41)

3: RT @ewa_jodlowska: Registration will open in January 2018. https://t.co/JBRAhJjIKQ (2017-12-12 23:32:59)

4: RT @ewa_jodlowska: I am _very_ excited to attend @pyconpune in February 2018. It will be my first PyCon Pune and my first trip to India. I… (2017-12-12 22:10:29)



Чтобы узнать, сколько у юзера твитов, достанем объект, соответствующий ему, с помощью `get_user`:

In [15]:
user = api.get_user(username)
print('%s have %d twits'%(username, user.statuses_count))

ThePSF have 3393 twits


Значит, чтобы получить все твиты пользователя, нужно сначала узнать сколько у него всего постов, а затем в цикле скачать все посты.

Так делать можно, но есть более короткий вариант - с использованием `tweepy.Cursor`. Курсор перебирает твиты и обрабатывает страницы за нас, параметры, которые нужно передать в функцию `user_timeline` мы теперь передаем в сам курсор, а общее количество постов которые мы хотим получить указываем внутри `items()`, например можно написать `.items(5)`. Если мы хотим вообще все посты данного юзера, то можно написать просто `items()`. 

In [16]:
for i, tweet in enumerate(tweepy.Cursor(api.user_timeline, screen_name=username).items(5)):
    print('%d: %s (%s)\n'%(i, tweet.text, tweet.created_at))

0: PyHou - Houston Python Enthusiasts! Monthly Meetup Dec. 18 #PyHou: https://t.co/lLqVPqvis1 (2017-12-15 00:00:08)

1: RT @Binarybotstech: @ThePSF We're hosting FREE workshops at @Highcross this weekend to teach children how to code using the BBC Micro:bit -… (2017-12-14 22:57:04)

2: Boston Python Dec. 18 Presentation Night - Douglas Landgraf: Controlling a Surveillance Camera with Python.… https://t.co/DOTr1ivDoe (2017-12-14 21:00:06)

3: Kubernetes and Python - London Python Meetup Dec. 18: https://t.co/X34LFhE38S. @python_london (2017-12-14 18:00:11)

4: Django Software Foundation travel grants available for PyCon Namibia 2018: https://t.co/HiilxvPArW (2017-12-13 23:00:07)



Может случиться так, что ваш курсор падает с ошибкой `RateLimitError` - это значит, что вы отправляете слишком много запросов. Чтобы обойти ошибку, нужно, чтобы бот после каждого превышения лимита ждал 15 минут: [Handling the rate limit using cursors](http://docs.tweepy.org/en/v3.5.0/code_snippet.html#handling-the-rate-limit-using-cursors).

С помощью данного модуля можно **искать посты по запросам**.
Для поиска нужно функцию [`search`](http://docs.tweepy.org/en/v3.5.0/api.html#API.search). 

Эта функция ожидает на вход обязательный параметр `q` - строка, которую мы ищем, и необязательные параметры, например, `lang`, `geocode`.
Предположим, мы хотим найти 10 упоминаний слова "добро" в твитах на русском языке, исключая ретвиты.

In [17]:
i = 0
for tweet in tweepy.Cursor(api.search, q='добро', lang='ru').items():
    if (not tweet.retweeted) and ('RT @' not in tweet.text):
        print(tweet.user.screen_name, tweet.text, '\n')
        i += 1
    if i >= 10:
        break

Jarik_Bulle жевачки из автоматов - это добро. всегда ношу с собой в баночке и жую, когда мне грустно. 

dm_e Добро пожаловать в Сечню 

valsemyur с одной стороны люблю свой размер груди, а с другой, когда ты по сути офисный планктон на домашней основе, начинают… https://t.co/TKtFlIrpu0 

vovagkh @umnicakrasa @therusfed @SonicaIrina - добро нельзя распылить куда-то, оно есть, или нет!:) 

inesplac Если человек сделал тебе больно, не отвечай ему тем же, сделай добро. Ты другой человек. Ты лучше! 

sokoloff1937 С Наступающим!
Подарим детям добро! https://t.co/cTpqJeXfZv 

kvn65 Вас интересует здоровый образ жизни?! Добро пожаловать в группу "Как быть в хорошей форме?!" -... https://t.co/o8HGQ9zQBf 

kvn65 Вас интересует здоровый образ жизни?! Добро пожаловать в группу "Как быть в хорошей форме?!" -… https://t.co/vm12hjrHMI 

Zverovski @misyats мне пока не дали добро на смену авы 

Fedya_Rat Ну, дорогой ты наш, в этом и твоя немалая заслуга. Сам же служил государству, был частью высшего ру

** Работа с потоком твитов **

Если нам нужно отслеживать определенные твиты и реагировать на них, как только они появляются, нам нужно использовать [Streaming API](http://docs.tweepy.org/en/v3.5.0/streaming_how_to.html).

Например, как только кто-то упоминает в твиттере "Звездные войны", наш бот будет твитить об этом. 
Создадим массив фраз, которые мы будем постить:

In [39]:
import random

phrases = ["Кто-то только что написал твит о звездных войнах!", 
           "Опять говорят о стар варс", 
           "стар варс форевер", 
           "Еще один твит о звездных войнах!",
           "Нет, мне еще не надоели Звездные войны.",
           "Люк, я твой отец."]

Теперь нам нужно создать класс, который будет собственно писать пост:

In [63]:
class StarWarsListener(tweepy.StreamListener):

    def on_status(self, status):
        if status.user.screen_name != "FarGalaxyBot":
            print('Reply to user @{}, tweet: {}'.format(status.user.screen_name, status.text))
            
            api.update_status('@{} {} https://twitter.com/{}/status/{}'.format(
                    status.user.screen_name, 
                    random.choice(phrases),
                    status.user.screen_name,
                    status.id
                ), 
                              in_reply_to_status_id=status.id)  # постим рандомную фразу в ответ

        
    def on_error(self, status_code):
        if status_code == 420:
            # если окажется, что мы посылаем слишком много запросов, то отсоединяемся
            return False
        # если какая-то другая ошибка, постараемся слушать поток дальше
        return True

Создаем поток, который будет фильтровать твиты:

In [64]:
starWarsListener = StarWarsListener()
myStream = tweepy.Stream(auth = api.auth, listener=starWarsListener)

Начинаем фильтровать:

In [None]:
myStream.filter(track=['звездные войны', 'star wars'])

Теперь вы умеете делать твиттерботов, но использовать это умение нужно во благо. Рекомендуем вам ознакомиться с правилами автоматизации в Twitter (то есть с правилами создания ботов) - https://support.twitter.com/articles/20174733. 

Приложение для твиттера может делать много всего интересного и с исследовательской точки зрения. Например, [классификацию пользователей по тому, как они пишут](http://www.aaai.org/ocs/index.php/ICWSM/ICWSM11/paper/download/2886/3262), [выяснение того, насколько людям понравился какой-то фильм](https://habrahabr.ru/company/dca/blog/274027/) и т.д. Это мощный инструмент изучения общественного мнения (но и языка тоже), а ещё с помощью твиттер-ботов можно [стать русским хакером и повлиять на выборы в США](https://ain.ua/2016/11/11/kak-boty-v-twitter-vliyali-na-vybory-v-ssha).