# Программирование для всех

*Алла Тамбовцева, НИУ ВШЭ*

## Практикум 5. Работа с API ВКонтакте: собираем посты со стены

Загружаем модули и библиотеки, необходимые для работы:

In [2]:
import requests
import time
import pandas as pd

Для начала давайте посмотрим на документацию API и посмотрим, как к нему формировать запросы: https://dev.vk.com/api/api-requests.

В прошлый раз по инструкции мы получили доступ к API, вспомним шаги.

In [3]:
# вводим id своего приложения
# и проходим по ссылке с этим id

app_id = input("Enter your client id: ")
url = f"https://oauth.vk.com/authorize?client_id={app_id}&display=page&redirect_uri=http://oauth.vk.com/blank.html&scope=all&response_type=token"
print(url)

Enter your client id: 51450878
https://oauth.vk.com/authorize?client_id=51450878&display=page&redirect_uri=http://oauth.vk.com/blank.html&scope=all&response_type=token


In [4]:
# копируем токен доступа

token = input("Enter your token here: ")

Enter your token here: vk1.a.JBYGwPfNuubHb78kt9rX4nw8_Qg87gqVLUAD1rxtYGMd1z5c1Kvt-dIV2pj7A-q0ZuShzodBPX2FH9xZJwkeZ5f5i-TGA4-XTr5NBC6xHzkR6SpzK1Zg1wFQZ9nOyQbAxCRiI5pOTbbcV0_jVPRR_lpRVAIqOMaNLl3F2OI-x9LgebR7QnTaNrTLzO1y1cPV


На этом практическом занятии мы будем выгружать посты из сообщества [Цитатник ВШЭ](https://vk.com/hseteachers). Сохраним в переменные версию API, ссылку для метода работы со стеной сообщества и название сообщества:

In [5]:
v = "5.131"
main_wall = "https://api.vk.com/method/wall.get"
domain = "hseteachers"

Функция `get()` из библиотеки `requests` умеет подставлять в запрос необходимые параметры и объединять их с помощью `?` и `&`. Сохраним необходимые параметры в виде словаря:

In [6]:
params_wall = {"access_token" : token, 
              "domain" : domain, 
              "count" : 100,
              "v" : v}

А теперь сформируем запрос и выгрузим результаты в формате JSON – в Python данные в таком формате будут представлены в виде словаря:

In [8]:
req_wall = requests.get(main_wall, params = params_wall)

In [9]:
json_wall = req_wall.json()
#json_wall

In [10]:
req_wall.url

'https://api.vk.com/method/wall.get?access_token=vk1.a.JBYGwPfNuubHb78kt9rX4nw8_Qg87gqVLUAD1rxtYGMd1z5c1Kvt-dIV2pj7A-q0ZuShzodBPX2FH9xZJwkeZ5f5i-TGA4-XTr5NBC6xHzkR6SpzK1Zg1wFQZ9nOyQbAxCRiI5pOTbbcV0_jVPRR_lpRVAIqOMaNLl3F2OI-x9LgebR7QnTaNrTLzO1y1cPV&domain=hseteachers&count=100&v=5.131'

Извлечём из этого большого словаря элемент, который хранит непосредственно результаты – список из маленьких словарей с информацией о постах (1 словарь = 1 пост):

In [11]:
items_wall = json_wall['response']['items']

Посмотрим на один элемент такого списка:

In [12]:
i = items_wall[0]
i

{'id': 37509,
 'from_id': -63442801,
 'owner_id': -63442801,
 'date': 1665934500,
 'marked_as_ads': 0,
 'is_favorite': False,
 'post_type': 'post',
 'text': '*студент презентует идею газеты*\nПреподаватель: Душно или мне кажется?\n\n#Выжутович_ВШЭ #Печатные_медиа',
 'post_source': {'type': 'api'},
 'comments': {'can_post': 1, 'count': 0},
 'likes': {'can_like': 1, 'count': 152, 'user_likes': 0, 'can_publish': 1},
 'reposts': {'count': 20, 'user_reposted': 0},
 'views': {'count': 3834},
 'donut': {'is_donut': False},
 'short_text_rate': 0.8,
 'hash': '0Vso_-46GGMl8-U2miccMZP1nac'}

Поработаем с ним!

### Задача 1

Извлечь из элемента `i` следующие компоненты:

* id поста;
* дата поста;
* текст поста;
* число лайков;
* число репостов;
* число просмотров;
* число комментариев.

In [13]:
print(i["id"], i["date"], i["text"])
print(i["likes"]["count"], i["reposts"]["count"], i["views"]["count"], i["comments"]["count"])

37509 1665934500 *студент презентует идею газеты*
Преподаватель: Душно или мне кажется?

#Выжутович_ВШЭ #Печатные_медиа
152 20 3834 0


### Задача 2

Напишите функцию `get_posts()`, которая принимает на вход словарь, аналогичный сохранённому в `i`, и возвращает список из следующих характеристик:

* id поста;
* дата поста;
* текст поста;
* число лайков;
* число репостов;
* число просмотров;
* число комментариев.

In [14]:
def get_posts(i):
    try:
        id_ = i["id"]
        date = i["date"]
        text = i["text"]
        likes = i["likes"]["count"]
        repos = i["reposts"]["count"]
        views = i["views"]["count"]
        comments = i["comments"]["count"]
        id_ = i["id"]
        date = i["date"]
    except:
        text = ""
        likes = -100
        repos = -100
        views = -100
        comments = -100
    L = [id_, date, text, likes, repos, views, comments]
    return L

### Задача 3

Примените функцию `get_posts()` ко всем элементам списка `items_wall` и сохраните полученные результаты в список `posts`. 

In [15]:
posts = []
for i in items_wall:
    p = get_posts(i)
    posts.append(p)

In [16]:
#posts

### Задача 4

Прочитайте в документации к API ВКонтакте про аргумент `offset` в методе `wall.get`. Используя полученную информацию и блоки кода ниже, выгрузите и сохраните в список `items_more` данные ещё по 9300 постам на стене сообщества.

**Подсказка:** чтобы расширять список правильным образом, используйте метод `.extend()`, а не `.append()`, он добавляет не один элемент, а сразу несколько.

In [17]:
params_wall_long = {"access_token" : token, 
              "domain" : domain, 
              "count" : 100,
              "v" : v,
              "offset" : 100}

In [18]:
items_more = []

for i in range(93):
    req_wall_long = requests.get(main_wall, params = params_wall_long)
    json_wall_long = req_wall_long.json()
    items_wall_long = json_wall_long['response']['items']
    items_more.extend(items_wall_long)
    params_wall_long["offset"] = params_wall_long["offset"] + 100
    time.sleep(1.5)
    print(i)

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92


Теперь извлечём из каждого элемента `items_more` нужную информацию и расширим список `posts`, который у нас уже был до этого:

In [19]:
for i in items_more:
    p = get_posts(i)
    posts.append(p)

In [20]:
len(posts)  # все идёт по плану

9400

Преобразуем результат в датафрейм, добавим названия столбцов:

In [21]:
dat = pd.DataFrame(posts)
dat.columns = ["id", "timestamp", "post", "likes", 
               "reposts", "views", "comments"]

Несколько строк датафрейма для примера:

In [22]:
dat.head()

Unnamed: 0,id,timestamp,post,likes,reposts,views,comments
0,37509,1665934500,*студент презентует идею газеты*\nПреподавател...,152,20,3834,0
1,37503,1665923700,Без любви ничего не выйдет.\n\n#Гаджиев_ВШЭ #Г...,320,43,6788,4
2,37501,1665912900,В одиночку можно только сойти с ума. Больше в ...,179,33,5058,2
3,37497,1665848100,"Ты приходишь в чебуречную, там граненый стакан...",91,14,5410,2
4,37495,1665837300,П: Назовите мне какой-нибудь luxury brand в Ро...,227,21,6512,0


Разобьём текст поста по `#`, чтобы извлечь тэги:

In [23]:
dat["post"][0] 

'*студент презентует идею газеты*\nПреподаватель: Душно или мне кажется?\n\n#Выжутович_ВШЭ #Печатные_медиа'

In [24]:
with_tags = dat["post"].str.split("#", expand = True)
with_tags

Unnamed: 0,0,1,2,3,4,5
0,*студент презентует идею газеты*\nПреподавател...,Выжутович_ВШЭ,Печатные_медиа,,,
1,Без любви ничего не выйдет.\n\n,Гаджиев_ВШЭ,Гражданское_право,,,
2,В одиночку можно только сойти с ума. Больше в ...,Буровский_ВШЭ,ПМ,,,
3,"Ты приходишь в чебуречную, там граненый стакан...",Сафронов_ВШЭ,Актуальная_социальная_теория,ФКМД,,
4,П: Назовите мне какой-нибудь luxury brand в Ро...,Влахов_ВШЭ,Социолингвистика,,,
...,...,...,...,...,...,...
9395,,,,,,
9396,,,,,,
9397,,,,,,
9398,,,,,,


Основная информация – это первые два тэга, имя преподавателя и курс (по крайней мере, в большинстве случаев это так). Заберём для дальнейшей работы только их:

In [25]:
small = with_tags.loc[:, 0:2] 
small.columns = ["text", "teacher", "course"] 

In [26]:
small

Unnamed: 0,text,teacher,course
0,*студент презентует идею газеты*\nПреподавател...,Выжутович_ВШЭ,Печатные_медиа
1,Без любви ничего не выйдет.\n\n,Гаджиев_ВШЭ,Гражданское_право
2,В одиночку можно только сойти с ума. Больше в ...,Буровский_ВШЭ,ПМ
3,"Ты приходишь в чебуречную, там граненый стакан...",Сафронов_ВШЭ,Актуальная_социальная_теория
4,П: Назовите мне какой-нибудь luxury brand в Ро...,Влахов_ВШЭ,Социолингвистика
...,...,...,...
9395,,,
9396,,,
9397,,,
9398,,,


Склеим датафрейм `dat` с датафреймом `small` по столбцам:

In [27]:
final = pd.concat([dat, small], axis = 1) 

Заполним пропуски – добавим «пустой» текст в ячейки, где нет никаких значений:

In [28]:
final = final.fillna("") 

Избавимся от лишних пробелов и отступов в текстовых данных:

In [29]:
final["text"] = final["text"].apply(lambda x: x.strip())
final["teacher"] = final["teacher"].apply(lambda x: x.strip())
final["course"] = final["course"].apply(lambda x: x.strip())

Осталось поработать с форматом времени в столбце `timestamp`.

In [30]:
final["timestamp"]

0       1665934500
1       1665923700
2       1665912900
3       1665848100
4       1665837300
           ...    
9395    1388324186
9396    1388324026
9397    1388323985
9398    1388323757
9399    1388259686
Name: timestamp, Length: 9400, dtype: int64

In [31]:
t = final["timestamp"][0]
t

1665934500

Импортируем из модуля `datetime` функцию `datetime`, она поможет нам получить дату и время в привычном формате:

In [32]:
from datetime import datetime

In [33]:
datetime.utcfromtimestamp(t)

datetime.datetime(2022, 10, 16, 15, 35)

In [34]:
datetime.utcfromtimestamp(t).strftime('%Y-%m-%d %H:%M:%S')

'2022-10-16 15:35:00'

Напишем функцию для преобразования временной метки:

In [35]:
def time_transform(t):
    r = datetime.fromtimestamp(t).strftime('%Y-%m-%d %H:%M:%S')
    return r

Применим её ко всем элементам столбца:

In [36]:
final["datetime"] = final["timestamp"].apply(time_transform)

In [37]:
final.head() 

Unnamed: 0,id,timestamp,post,likes,reposts,views,comments,text,teacher,course,datetime
0,37509,1665934500,*студент презентует идею газеты*\nПреподавател...,152,20,3834,0,*студент презентует идею газеты*\nПреподавател...,Выжутович_ВШЭ,Печатные_медиа,2022-10-16 18:35:00
1,37503,1665923700,Без любви ничего не выйдет.\n\n#Гаджиев_ВШЭ #Г...,320,43,6788,4,Без любви ничего не выйдет.,Гаджиев_ВШЭ,Гражданское_право,2022-10-16 15:35:00
2,37501,1665912900,В одиночку можно только сойти с ума. Больше в ...,179,33,5058,2,В одиночку можно только сойти с ума. Больше в ...,Буровский_ВШЭ,ПМ,2022-10-16 12:35:00
3,37497,1665848100,"Ты приходишь в чебуречную, там граненый стакан...",91,14,5410,2,"Ты приходишь в чебуречную, там граненый стакан...",Сафронов_ВШЭ,Актуальная_социальная_теория,2022-10-15 18:35:00
4,37495,1665837300,П: Назовите мне какой-нибудь luxury brand в Ро...,227,21,6512,0,П: Назовите мне какой-нибудь luxury brand в Ро...,Влахов_ВШЭ,Социолингвистика,2022-10-15 15:35:00


Теперь можем разбить дату-время по пробелу, чтобы получить отдельные столбцы с датой и временем (механизм нам уже известен, мы разбивали пост по `#` выше):

In [38]:
dt = final["datetime"].str.split(" ", expand = True)
dt.columns = ["date", "time"] 

In [39]:
final2 = pd.concat([final, dt], axis = 1)

In [40]:
final2

Unnamed: 0,id,timestamp,post,likes,reposts,views,comments,text,teacher,course,datetime,date,time
0,37509,1665934500,*студент презентует идею газеты*\nПреподавател...,152,20,3834,0,*студент презентует идею газеты*\nПреподавател...,Выжутович_ВШЭ,Печатные_медиа,2022-10-16 18:35:00,2022-10-16,18:35:00
1,37503,1665923700,Без любви ничего не выйдет.\n\n#Гаджиев_ВШЭ #Г...,320,43,6788,4,Без любви ничего не выйдет.,Гаджиев_ВШЭ,Гражданское_право,2022-10-16 15:35:00,2022-10-16,15:35:00
2,37501,1665912900,В одиночку можно только сойти с ума. Больше в ...,179,33,5058,2,В одиночку можно только сойти с ума. Больше в ...,Буровский_ВШЭ,ПМ,2022-10-16 12:35:00,2022-10-16,12:35:00
3,37497,1665848100,"Ты приходишь в чебуречную, там граненый стакан...",91,14,5410,2,"Ты приходишь в чебуречную, там граненый стакан...",Сафронов_ВШЭ,Актуальная_социальная_теория,2022-10-15 18:35:00,2022-10-15,18:35:00
4,37495,1665837300,П: Назовите мне какой-нибудь luxury brand в Ро...,227,21,6512,0,П: Назовите мне какой-нибудь luxury brand в Ро...,Влахов_ВШЭ,Социолингвистика,2022-10-15 15:35:00,2022-10-15,15:35:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
9395,154,1388324186,,-100,-100,-100,-100,,,,2013-12-29 17:36:26,2013-12-29,17:36:26
9396,153,1388324026,,-100,-100,-100,-100,,,,2013-12-29 17:33:46,2013-12-29,17:33:46
9397,152,1388323985,,-100,-100,-100,-100,,,,2013-12-29 17:33:05,2013-12-29,17:33:05
9398,150,1388323757,,-100,-100,-100,-100,,,,2013-12-29 17:29:17,2013-12-29,17:29:17


In [41]:
final2.to_excel("posts.xlsx")