# Cеминар 5. Работа с API социальных сетей на примере Instagram

## Содержание:
* [Как разобраться в работе api](#Как-разобраться-в-работе-api)
* [Подключаемся к api](#Подключаемся-к-api)
* [Собираем информацию о посте](#Собираем-информацию-о-посте)
* [Собираем посты по хэштегу](#Собираем-посты-по-хэштегу)
* [Сбор постов по упоминаниям](#Сбор-постов-по-упоминаниям)
* [Задачи](#Задачи)
    * [Задача 1](#Задача-1)
    * [Задача 2](#Задача-2)
    * [Задача 3](#Задача-3)


Что такое **api**? - Простыми словами, это набор функций, которые позволяют взаимодейстовать со структурой определенного прилложения.

На этом занятии мы разберем пример работы api Instagram, чтобы вы потом могли воспользоваться этими знаниями при взаимодествиями с другими api социальных сетей

### Как разобраться в работе api

- **Читать документацию разработчиков**

В каждом открытом api разработчики публикуют документацию, в которой описаны функции, методы и остальный функционал api. Также там можно найти примера ввода и результаты использования функций, что тоже полезно при ознакомлением с api
- **Посмотреть примеры рабочих кодов**

Разработчики также могут размещать ссылку на свой репозиторий, где опубликованы различные примеры кодов, которые написаны с помощью их api. Этот код можно разобрать самому и посмотреть как можно сочитать функционал. На практике всегда проще разобраться



Мы будем работать с api Instagram, через библиотеку **instgrapi**, которая дает доступ к основному api этой социальной сети

Ссылка на подробную документацию библиотеки **instgrapi** с примерами кодов здесь: https://adw0rd.github.io/instagrapi/

### Подключаемся к api

In [160]:
import os
from instagrapi import Client

In [161]:
ACCOUNT_USERNAME = os.environ.get("IG_USERNAME")
ACCOUNT_PASSWORD = os.environ.get("IG_PASSWORD")

In [162]:
cl = Client()
cl.login(username = ACCOUNT_USERNAME, password = ACCOUNT_PASSWORD)

True

In [163]:
user_id = cl.user_id_from_username('RBC_RU')

In [164]:
media = cl.user_medias(user_id)

Посмотрим как выглядит информация о посте:

In [165]:
media[0]

Media(pk=2691590499544679746, id='2691590499544679746_3054826302', code='CVac0x2LUVC', taken_at=datetime.datetime(2021, 10, 24, 13, 36, 52, tzinfo=datetime.timezone.utc), media_type=1, product_type='', thumbnail_url=HttpUrl('https://instagram.fhel3-1.fna.fbcdn.net/v/t51.2885-15/sh0.08/e35/s640x640/248137369_743838013240105_2210807792800799311_n.jpg?_nc_ht=instagram.fhel3-1.fna.fbcdn.net&_nc_cat=1&_nc_ohc=WfR35HJxoG4AX_l8H6L&edm=APU89FABAAAA&ccb=7-4&oh=4bace0bf789285b828299eb16cd9507d&oe=617C9130&_nc_sid=86f79a', scheme='https', host='instagram.fhel3-1.fna.fbcdn.net', tld='net', host_type='domain', path='/v/t51.2885-15/sh0.08/e35/s640x640/248137369_743838013240105_2210807792800799311_n.jpg', query='_nc_ht=instagram.fhel3-1.fna.fbcdn.net&_nc_cat=1&_nc_ohc=WfR35HJxoG4AX_l8H6L&edm=APU89FABAAAA&ccb=7-4&oh=4bace0bf789285b828299eb16cd9507d&oe=617C9130&_nc_sid=86f79a'), location=None, user=UserShort(pk=3054826302, username='rbc_ru', full_name='', profile_pic_url=None, profile_pic_url_hd=None, 

Пока сложно, но скоро станет понятнее!

In [171]:
type(media[0])

instagrapi.types.Media

Данные о посте имеют отдельный тип данных, так что структура обращения у них отличная от привычных нам типов

In [172]:
media[0].pk

2691590499544679746

Зная короткий id поста (pk) мы можем получить информацию о посте и преобразовать ее в словарь:

In [190]:
cl.media_info(media[0].pk).dict()

{'pk': 2691590499544679746,
 'id': '2691590499544679746_3054826302',
 'code': 'CVac0x2LUVC',
 'taken_at': datetime.datetime(2021, 10, 24, 13, 36, 52, tzinfo=datetime.timezone.utc),
 'media_type': 1,
 'product_type': '',
 'thumbnail_url': HttpUrl('https://instagram.fhel3-1.fna.fbcdn.net/v/t51.2885-15/fr/e15/s1080x1080/248137369_743838013240105_2210807792800799311_n.jpg?_nc_ht=instagram.fhel3-1.fna.fbcdn.net&_nc_cat=1&_nc_ohc=WfR35HJxoG4AX_l8H6L&edm=AP_V10EBAAAA&ccb=7-4&oh=972426760e1865e4caa98513b7126345&oe=617D6427&_nc_sid=4f375e', scheme='https', host='instagram.fhel3-1.fna.fbcdn.net', tld='net', host_type='domain', path='/v/t51.2885-15/fr/e15/s1080x1080/248137369_743838013240105_2210807792800799311_n.jpg', query='_nc_ht=instagram.fhel3-1.fna.fbcdn.net&_nc_cat=1&_nc_ohc=WfR35HJxoG4AX_l8H6L&edm=AP_V10EBAAAA&ccb=7-4&oh=972426760e1865e4caa98513b7126345&oe=617D6427&_nc_sid=4f375e'),
 'location': None,
 'user': {'pk': 3054826302,
  'username': 'rbc_ru',
  'full_name': 'РБК',
  'profile_pic

In [173]:
media[0].taken_at

datetime.datetime(2021, 10, 24, 13, 36, 52, tzinfo=datetime.timezone.utc)

In [174]:
media[0].user

UserShort(pk=3054826302, username='rbc_ru', full_name='', profile_pic_url=None, profile_pic_url_hd=None, is_private=None, stories=[])

In [176]:
media[0].caption_text

'Эксперты ВШЭ оценили масштабы занятости в российской науке за последние десять лет. Согласно исследованию Института статистических исследований и экономики знаний, число российских специалистов, занятых исследованиями и разработками, с 2011 года сократилось до 346,5 тыс. человек.\n⠀\nКроме того, в России стало меньше исследователей, имеющих степень кандидата или доктора наук, — их численность снизилась со 109,5 тыс. человек в 2011 году до 99,1 тыс. человек к концу 2020 года.\n⠀\nПри этом Россия по-прежнему остается одним из мировых лидеров по абсолютным масштабам занятости в науке. По оценкам экспертов, численность персонала, занятого в исследованиях и разработках в 2020 году составила 748,7 тыс. человеко-лет, — по этому показателю Россию опережают только Китай, США и Япония'

### Собираем информацию о посте

In [40]:
limit = 200
res = []
i = 0

In [41]:
import datetime

In [42]:
for post in media:
    info = {'date': '',
           'comments': '',
           'likes': '',
           'text': '',
           }
    if i == limit:
        break
    date = post.taken_at.strftime('%d/%m/%Y') #Можно посчитать в точности до секунд если нужно будет
    info['date'] = date
    comments = post.comment_count
    info['comments'] = comments
    likes = post.like_count
    info['likes'] = likes
    text = post.caption_text
    info['text'] = text
    i += 1
    res.append(info)

In [137]:
import pandas as pd

In [None]:
df = pd.DataFrame(res)

In [46]:
df.to_csv('rbc_df')

In [5]:
df = pd.read_csv('rbc_df')

In [6]:
df

Unnamed: 0.1,Unnamed: 0,date,comments,likes,text
0,0,18/10/2021,80,3425,"Анализируя клавиатурный почерк сотрудников, ра..."
1,1,18/10/2021,288,3235,Электронные паспорта россиянам будут выдавать ...
2,2,17/10/2021,251,5028,"Рыбы ранимые, а со Скорпионами лучше не связыв..."
3,3,17/10/2021,107,5806,В Керчи открыли мемориал в память о жертвах тр...
4,4,17/10/2021,109,5728,Рут Порат встретила «черный понедельник» 1987 ...
...,...,...,...,...,...
195,195,04/08/2021,126,4783,Многие заманчивые инвестиционные предложения —...
196,196,04/08/2021,93,2802,Новости под заголовком «Британцы раскритиковал...
197,197,04/08/2021,279,4310,После повышения ключевой ставки Банка России с...
198,198,03/08/2021,257,8337,UPD: Дизайнера проекта Метро 2030 зовут Конста...


In [7]:
del df ['Unnamed: 0']

In [8]:
df

Unnamed: 0,date,comments,likes,text
0,18/10/2021,80,3425,"Анализируя клавиатурный почерк сотрудников, ра..."
1,18/10/2021,288,3235,Электронные паспорта россиянам будут выдавать ...
2,17/10/2021,251,5028,"Рыбы ранимые, а со Скорпионами лучше не связыв..."
3,17/10/2021,107,5806,В Керчи открыли мемориал в память о жертвах тр...
4,17/10/2021,109,5728,Рут Порат встретила «черный понедельник» 1987 ...
...,...,...,...,...
195,04/08/2021,126,4783,Многие заманчивые инвестиционные предложения —...
196,04/08/2021,93,2802,Новости под заголовком «Британцы раскритиковал...
197,04/08/2021,279,4310,После повышения ключевой ставки Банка России с...
198,03/08/2021,257,8337,UPD: Дизайнера проекта Метро 2030 зовут Конста...


### Собираем посты по хэштегу

In [98]:
import os

from typing import List

from instagrapi import Client
from instagrapi.types import Media

In [99]:
ACCOUNT_USERNAME = os.environ.get("IG_USERNAME")
ACCOUNT_PASSWORD = os.environ.get("IG_PASSWORD")

In [100]:
cl = Client()
cl.login(username = ACCOUNT_USERNAME, password = ACCOUNT_PASSWORD)

Status 429: Too many requests
Ignore 429: Continue login


True

##### 1. Зададим количество хэштегов, затем введем сами хэштеги, посты с коотрыми мы хотим найти.

In [143]:
n = int(input('Введите число искомых хэштегов: '))
i = 0 
hashtags = []
print('Введите хэштеги:')
while i < n:
    hashtags.append(input().strip())
    i += 1

Введите число искомых хэштегов: 3
Введите хэштеги:
science
inovations
discovery


Посмотрим на то как выглядят наша переменна с хэштегами

In [144]:
print(hashtags)

['science', 'inovations', 'discovery']


##### 2. Теперь напишем функцию, которая будет собирать для нас посты из ленты

In [145]:
def get_medias(hashtags, ht_type='top', amount= 10): 
    '''По умолчанию будут собираться 10 самых популярных постов, но
    эти параметры можно изменить вручную при обращении к функции'''    
    ht_medias = []
    for hashtag in hashtags:
        if ht_type == 'top': # Ищем самые популярные посты
            ht_medias.extend(
                cl.hashtag_medias_top(
                    name = hashtag,
                    amount = amount
                )
            )
        elif ht_type == 'recent': #Или ищем самые последние посты
            ht_medias.extend(
                cl.hashtag_medias_recent(
                    name = hashtag,
                    amount = amount
                )
            )
    return list(dict([(media.pk, media) for media in ht_medias]).values())

Отлично, посты мы полуили, но теперь мы хотим как-то отбросить посты, которые могут неудовлетворить нас по определенным критериям, исходя из наших запросов (давность публикации и мин./макс. кол-во лайков/комментов) поэтому
##### 3. Напишем фукцию отбора удовлетворяющих нас постов

In [146]:
def filter_medias(
        medias: List[Media],
        like_count_min=None,
        like_count_max=None,
        comment_count_min=None,
        comment_count_max=None,
        days_ago_max=None
):
    from datetime import datetime, timedelta
    
    medias = list(
        filter(lambda x: True if like_count_min is None else x.like_count >= like_count_min, medias))
    medias = list(
        filter(lambda x: True if like_count_max is None else x.like_count <= like_count_max, medias))
    medias = list(filter(
        lambda x: True if comment_count_min is None else x.comment_count >= comment_count_min, medias
        )
    )
    medias = list(filter(
        lambda x: True if comment_count_max is None else x.comment_count <= comment_count_max, medias
        )
    )
    if days_ago_max is not None:
        days_back = datetime.now() - timedelta(days = days_ago_max)
        medias = list(filter(
            lambda x: days_ago_max is None or x.taken_at is None or x.taken_at > days_back.astimezone(
                x.taken_at.tzinfo),
            medias))
    return list(medias)

С функциями покончено, и настало время воспользоваться ими

In [147]:
info = get_medias(hashtags, amount = 20)
info = filter_medias(info, like_count_min = 1, days_ago_max = 365)

Теперь мы получили информация к постам по хэштегу, осталось сделать тоже самое с этой информацией, что мы делали в начале, но попробуем усовершенствовоть эти действия и сделать функцию, к которой в будущем можно будет обратиться

#### 4. Напишем функцию для обработки информации поста

In [148]:
def  get_media_info(
    media_information: List[Media],
):
    
    import datetime
    res = []
    description= {'date': None,
                'comments': None,
                'likes': None,
                'text': None,
                'link': None,
                'username': None,
                'code': None,
                'ID': None,
                'media_likers': None
                   
    }
    
    for media in media_information:
        date = media.taken_at.strftime('%d/%m/%Y') #Можно посчитать в точности до секунд если нужно будет
        description['date'] = date
        
        comments = media.comment_count
        description['comments'] = comments
        
        likes = media.like_count
        description['likes'] = likes
        
        text = media.caption_text
        description['text'] = text
        
        url = 'https://www.instagram.com/p/{}/'.format(media.code)
        description['link'] = url
        
        username = media.user.username
        description['username'] = username
         
        code = media.code
        description['code'] = code
        
        
        ID = media.id
        description['ID'] = ID
            
        
        list_of_usernames = []
        users = cl.media_likers(media.id)
        for user in users:
            list_of_usernames.append(user.username)
        description['media_likers'] = list_of_usernames
            
        res.append(description.copy())  
    return res

In [153]:
res = get_media_info(media_information = info)

In [154]:
res

[{'date': '24/10/2021',
  'comments': 571,
  'likes': 75799,
  'text': 'Follow @thescientistfacts for more.\n@thescientistfacts\n@thescientistfacts\n@thescientistfacts\n@thescientistfacts\n.\n.\n.\n.\n.\n.\n.\n.\n\n#fact #facts #didyouknow #instafacts #science #scientist #dailyfacts #facts💯 #factz \n#thescaryfacts #allfacts #facts_of_mind \n#didyouknowfacts #facts\n#kpopfacts #factsoninstagram #didyouknow\n#wtffunfacts #creepyfacts #factsb #sciencefacts\n#dailyfacts #astrologyfacts\n#instaeducation #factsonly\n#factsdailys #factsss #factsdaily',
  'link': 'https://www.instagram.com/p/CVZXyyLFz19/',
  'username': 'thescientistfacts',
  'code': 'CVZXyyLFz19',
  'ID': '2691286897247337853_6242211225',
  'media_likers': ['diva_kavita',
   '_kiriaziss',
   'salvarado18',
   'adityapalekar66',
   'vince.ballack',
   'lunasfel_world',
   'flavorgawd.96',
   'peymandarabi',
   'konain_ullah07',
   'md_yh_hridoy',
   '_halime_08_',
   'audrycmoreno20',
   'rohanthakur.1998',
   'letsbuilditbabe

Для удобства преобразуем полученные результаты в табличку

In [155]:
df = pd.DataFrame(res)

In [156]:
df

Unnamed: 0,date,comments,likes,text,link,username,code,ID,media_likers
0,24/10/2021,571,75799,Follow @thescientistfacts for more.\n@thescien...,https://www.instagram.com/p/CVZXyyLFz19/,thescientistfacts,CVZXyyLFz19,2691286897247337853_6242211225,"[diva_kavita, _kiriaziss, salvarado18, adityap..."
1,24/10/2021,7,533,I guess hiking 10 miles will be a regular part...,https://www.instagram.com/p/CVZhG7xr718/,karenpiranha,CVZhG7xr718,2691327864366677372_12989650,"[marjanvafai, k__diya, genetics.medical, grace..."
2,24/10/2021,22,2089,🍨 A very short and somewhat rigorous discussio...,https://www.instagram.com/p/CVZosI2MB0y/,physics.infographics,CVZosI2MB0y,2691361207347060018_43809910260,"[blais.rey, sam_arnache0506, fittererjared, el..."
3,24/10/2021,30,3827,We are all stardust! ✨🌌\n\n.\n\nFollow @scienc...,https://www.instagram.com/p/CVap1aGM_x7/,scienceoftheuniverse,CVap1aGM_x7,2691647717367872635_4289311928,"[fayelfoster, south.bankai, d4m13n_88, berkiea..."
4,24/10/2021,50,7176,Do you think just a screw is enough?\nDoes it ...,https://www.instagram.com/p/CVZnkE0KY8K/,industrial.gadgets,CVZnkE0KY8K,2691356255215783690_27213469507,"[spauloronaldo, nemesio67, larra.ion, haitham_..."
5,24/10/2021,19,789,There are many ways to fight against the black...,https://www.instagram.com/p/CVZ-BvvqlBF/,roberto_garcia_roa,CVZ-BvvqlBF,2691455051199303749_5467294680,"[fotos_isilva, traveltheworld7581, zihita, jav..."
6,24/10/2021,45,1887,Have you ever proposed your crush? 👀💞\n\nFollo...,https://www.instagram.com/p/CVZl6pTDz0i/,love_chemistry_143,CVZl6pTDz0i,2691349010124324130_12265773158,"[fuocofatuo_, mybiochemlife, pgomes56, _its._m..."
7,05/02/2021,12,343,What do you think of this setup? Will it boost...,https://www.instagram.com/p/CK6KcGWFnQi/,ipcstorecom,CK6KcGWFnQi,2502358454381212706_6971148654,"[zarmpanis_engineering, 07kemal33, ing_grcnr, ..."
8,22/06/2021,33,1743,🚀Непромокаемый асфальт — будущее умных городов...,https://www.instagram.com/p/CQaifkPBtIc/,avtoyurist_russia,CQaifkPBtIc,2601543437551850012_15165529290,"[nas_tenich, irshimka, karaseva_kira, xenia_su..."
9,28/09/2021,9,522,"Two wheel Tuesday 26"" Pk Ripper, 27.5"" Beastm...",https://www.instagram.com/p/CUXaYFNl_fn/,rizzo_916,CUXaYFNl_fn,2672720907941181415_6426084771,"[vfs.bryan, nathan_1806, andresvasquez0911, le..."


Теперь мы научились искать посты о хэштегам и собирать информацию о них. Осталось только научиться искать посты в которых упоминается определнный пользователь

### Сбор постов по упоминаниям

In [157]:
import os

from instagrapi import Client

In [158]:
ACCOUNT_USERNAME = os.environ.get("IG_USERNAME")
ACCOUNT_PASSWORD = os.environ.get("IG_PASSWORD")

In [159]:
cl = Client()
cl.login(username = ACCOUNT_USERNAME, password = ACCOUNT_PASSWORD)

True

In [167]:
user_id = cl.user_id_from_username('elonofficiall')

In [182]:
info = cl.usertag_medias_gql(user_id, amount = 20)

Воспользуемся функцией для обработки данных с прошлого пункта и соберем все в одну табличку

In [180]:
res = get_media_info(info)

In [181]:
res

[{'date': '24/10/2021',
  'comments': 571,
  'likes': 75799,
  'text': 'Follow @thescientistfacts for more.\n@thescientistfacts\n@thescientistfacts\n@thescientistfacts\n@thescientistfacts\n.\n.\n.\n.\n.\n.\n.\n.\n\n#fact #facts #didyouknow #instafacts #science #scientist #dailyfacts #facts💯 #factz \n#thescaryfacts #allfacts #facts_of_mind \n#didyouknowfacts #facts\n#kpopfacts #factsoninstagram #didyouknow\n#wtffunfacts #creepyfacts #factsb #sciencefacts\n#dailyfacts #astrologyfacts\n#instaeducation #factsonly\n#factsdailys #factsss #factsdaily',
  'link': 'https://www.instagram.com/p/CVZXyyLFz19/',
  'username': 'thescientistfacts',
  'code': 'CVZXyyLFz19',
  'ID': '2691286897247337853_6242211225',
  'media_likers': ['_sidshirke_',
   'oliver_wijaya',
   'sweth_.a',
   'digitaldiaryofms',
   'derik.samson',
   'alexandrosgeorgotas',
   '_.karol7._',
   'shamil_.786',
   'masoudbahadoran',
   'i_am__ran',
   'kirandhani25',
   'd.merizaj',
   'xkemonox',
   '_.kasperb._',
   'stevesanto

In [183]:
df = pd.DataFrame(res)

In [185]:
df

Unnamed: 0,date,comments,likes,text,link,username,code,ID,media_likers
0,24/10/2021,571,75799,Follow @thescientistfacts for more.\n@thescien...,https://www.instagram.com/p/CVZXyyLFz19/,thescientistfacts,CVZXyyLFz19,2691286897247337853_6242211225,"[_sidshirke_, oliver_wijaya, sweth_.a, digital..."
1,24/10/2021,7,533,I guess hiking 10 miles will be a regular part...,https://www.instagram.com/p/CVZhG7xr718/,karenpiranha,CVZhG7xr718,2691327864366677372_12989650,"[marjanvafai, k__diya, genetics.medical, maxim..."
2,24/10/2021,22,2089,🍨 A very short and somewhat rigorous discussio...,https://www.instagram.com/p/CVZosI2MB0y/,physics.infographics,CVZosI2MB0y,2691361207347060018_43809910260,"[michael_my76, ali.srhan000, blais.rey, fitter..."
3,24/10/2021,30,3827,We are all stardust! ✨🌌\n\n.\n\nFollow @scienc...,https://www.instagram.com/p/CVap1aGM_x7/,scienceoftheuniverse,CVap1aGM_x7,2691647717367872635_4289311928,"[apark_11, map291, xiejieyou, nouredine_abbass..."
4,24/10/2021,50,7176,Do you think just a screw is enough?\nDoes it ...,https://www.instagram.com/p/CVZnkE0KY8K/,industrial.gadgets,CVZnkE0KY8K,2691356255215783690_27213469507,"[ing.guerrero, cosminpastraveanu, ccvi37, paol..."
5,24/10/2021,19,789,There are many ways to fight against the black...,https://www.instagram.com/p/CVZ-BvvqlBF/,roberto_garcia_roa,CVZ-BvvqlBF,2691455051199303749_5467294680,"[fotos_isilva, traveltheworld7581, zihita, jav..."
6,24/10/2021,45,1887,Have you ever proposed your crush? 👀💞\n\nFollo...,https://www.instagram.com/p/CVZl6pTDz0i/,love_chemistry_143,CVZl6pTDz0i,2691349010124324130_12265773158,"[fuocofatuo_, mybiochemlife, pgomes56, _its._m..."
7,05/02/2021,12,343,What do you think of this setup? Will it boost...,https://www.instagram.com/p/CK6KcGWFnQi/,ipcstorecom,CK6KcGWFnQi,2502358454381212706_6971148654,"[zarmpanis_engineering, 07kemal33, ing_grcnr, ..."
8,22/06/2021,33,1743,🚀Непромокаемый асфальт — будущее умных городов...,https://www.instagram.com/p/CQaifkPBtIc/,avtoyurist_russia,CQaifkPBtIc,2601543437551850012_15165529290,"[nas_tenich, irshimka, karaseva_kira, xenia_su..."
9,28/09/2021,9,522,"Two wheel Tuesday 26"" Pk Ripper, 27.5"" Beastm...",https://www.instagram.com/p/CUXaYFNl_fn/,rizzo_916,CUXaYFNl_fn,2672720907941181415_6426084771,"[vfs.bryan, nathan_1806, andresvasquez0911, le..."


###  Задачи

#### Задача 1

Найдите сумарное количество коментариев под постами, опубликованными за последние 5 дней в профиле Валерия Меладзе (ник: meladzevalerian)

##### Решение:

#### Задача 2

Из профиля аккаунта Медузы (ник: meduzapro) из 30 последних публикаций отберите те, которые набрали больше **10 тыс** лайков выведите на них ссылку

##### Решение:

#### Задача 3

Получите данные (ник, полное имя) последних 30 человек, которые поставили лайк под последним постом Дмитрия Гордона (ник: gordondmytro)

##### Решение: