# Python для сбора и анализа данных

*Алла Тамбовцева*

## Практикум 3*. Работа с API ВКонтакте: собираем посты со стены

## Подготовка к работе

Загружаем модули и библиотеки, необходимые для работы:

In [1]:
import requests
import time
import pandas as pd

Для начала давайте посмотрим на документацию API и посмотрим, как к нему формировать запросы: https://dev.vk.com/api/api-requests.
По [инструкции](https://allatambov.github.io/pypolit/vk-auth.pdf) мы можем получить доступ к API, создадим приложение и скопируем его ID, чтобы получить ссылку для токена доступа:

In [2]:
app_id = input("Enter your client id: ")
url = f"https://oauth.vk.com/authorize?client_id={app_id}&display=page&redirect_uri=http://oauth.vk.com/blank.html&scope=all&response_type=token"
print(url)

Enter your client id: 51852748
https://oauth.vk.com/authorize?client_id=51852748&display=page&redirect_uri=http://oauth.vk.com/blank.html&scope=all&response_type=token


Переходим по ссылке выше и копируем ссылку (полностью!) из адресной строки:

In [3]:
full_link = input()

https://oauth.vk.com/blank.html#access_token=vk1.a.VDVZZI2oO4uGuuil23wLfQJoONJivjl8H813ElPM1h671JrNIHJknPJpiKhkDBXgMMk1eEqbrtXcxuO9NllrCTtb17VEMHSEXFpb5EErAE6OBjFWMktFZmWbhEtTgI91Ypdkbf20-gQZBi77LQvmGsaY0A_97EM3dBbJSe7wG_tZ33xSkUMU-akFBzebhHLS&expires_in=86400&user_id=20473269


Разбиваем полученную ссылку (сначала по `access_token=`, потом часть после `=` по `&`) и забираем токен в чистом виде:

In [5]:
token = full_link.split("access_token=")[1].split("&")[0]

Ура! Теперь токен доступа у нас есть, всё готово к работе!

## Выгружаем посты со стены сообщества

На этом практическом занятии мы будем выгружать посты из сообщества [скалодрома Rock Zona](https://vk.com/rzclimbing). Сохраним в переменные версию API, ссылку для метода работы со стеной сообщества и название сообщества:

In [6]:
v = "5.131"
main_wall = "https://api.vk.com/method/wall.get"
domain = "rzclimbing"

Функция `get()` из библиотеки `requests` умеет подставлять в запрос необходимые параметры и объединять их с помощью `?` и `&`. Сохраним необходимые параметры в виде словаря:

In [7]:
params_wall = {"access_token" : token, 
              "domain" : domain, 
              "count" : 100,
              "v" : v}

А теперь сформируем запрос и выгрузим результаты в формате JSON – в Python данные в таком формате будут представлены в виде словаря:

In [8]:
req_wall = requests.get(main_wall, params = params_wall)

In [9]:
json_wall = req_wall.json()
#json_wall

Извлечём из этого большого словаря элемент, который отвечает за общее число постов на стене:

In [10]:
nposts = json_wall['response']['count']
print(nposts)

1751


Теперь извлечём элемент, который хранит результаты – список из маленьких словарей с информацией о постах (1 словарь = 1 пост):

In [11]:
items_wall = json_wall['response']['items']

Посмотрим на один элемент такого списка:

In [13]:
i = items_wall[8]
i

{'inner_type': 'wall_wallpost',
 'donut': {'is_donut': False},
 'comments': {'can_post': 1, 'count': 0, 'groups_can_post': True},
 'marked_as_ads': 0,
 'short_text_rate': 0.8,
 'hash': 'kMGbq4JaNr6LsmtMpCUuN5j2D1Q',
 'type': 'post',
 'attachments': [{'type': 'photo',
   'photo': {'album_id': -7,
    'date': 1708447649,
    'id': 457244859,
    'owner_id': -38936316,
    'access_key': 'a9519a4ce5229a8cc9',
    'post_id': 4414,
    'sizes': [{'height': 75,
      'type': 's',
      'width': 75,
      'url': 'https://sun9-30.userapi.com/impg/Mcg7DKm-h8HT8l893J9uwwwsDG7_c9iYdH-5Qg/UfWJT52r-QA.jpg?size=75x75&quality=95&sign=75a332503a72bbf0d337d09021dfd06f&c_uniq_tag=03rGRSczzLZCLx_5jIswF0NSFa4f0t7XLAve2qsVufs&type=album'},
     {'height': 130,
      'type': 'm',
      'width': 130,
      'url': 'https://sun9-30.userapi.com/impg/Mcg7DKm-h8HT8l893J9uwwwsDG7_c9iYdH-5Qg/UfWJT52r-QA.jpg?size=130x130&quality=95&sign=7fba5de423a35721eb90e61a87fc1a1e&c_uniq_tag=1aYPTeML_LgRx9zQsXtckKkiusCq3Fe1CmMnD

### Задача 1

Извлеките из элемента `i` следующие компоненты:

* id поста;
* дата поста;
* текст поста;
* число лайков;
* число репостов;
* число просмотров;
* число комментариев.

In [14]:
print(i["id"], i["date"], i["text"])
print(i["comments"]["count"], i["likes"]["count"], i["views"]["count"])

4414 1708447649 КАК УПРАВЛЯТЬ НАПРЯЖЕНИЕМ НА СЛОЖНЫХ ТРАССАХ

Резкие движения, страх падения и неуверенность в том, что будет дальше, могут способствовать появлению непродуктивных мыслей и физического напряжения, которое нарастает с огромной скоростью. 

Если это напряжение не контролировать, оно приведет к тому, что вы устанете и, скорее всего, сорветесь.

Даже опытные скалолазы время от времени испытывают стресс во время лазания, однако они умеют контролировать его на лету.  

Стратегии для развития самоконтроля: 

1. Контролируйте дыхание

Глубокое, ровное дыхание помогает снять напряжение благодаря механизму обратной связи. Мы склонны дышать неглубоко, а иногда даже задерживать дыхание во время сложных движений, что только увеличивает напряжение. 

Старайтесь дышать медленно и глубоко, когда это возможно, а также восстанавливайте ровное дыхание, когда оно сбивается после сложных движений.

Если маршрут предусматривает места отдыха, используйте их, чтобы выровнять дыхание и восстано

### Задача 2

Изучить один пост и понять, что нам от него нужно, это хорошо, но, конечно, мы захотим выгрузить все посты сразу, а уже потом разобраться, какую информацию о них нам оставить. Ограничения данного API таковы, что за один раз мы можем выгрузить только 100 постов. Хорошие новости: каждый раз при выгрузке мы можем начинать с того поста, на котором закончили, то есть сначала выгрузить первые 100 постов, потом – следующие 100 постов, и так до тех пор, пока не заполучим все. 

Общее число постов сохранено в `nposts`. Посчитайте, сколько раз нужно будет выполнить выгрузку по 100 постов, чтобы собрать все тексты, и сохраните его в переменную `iterate`.

In [15]:
# 1751 - надо 18 раз выгрузить по 100
# в общем виде делим нацело на 100 и прибавляем 1

iterate = nposts // 100 + 1

### Задача 3

Прочитайте в документации к API ВКонтакте про аргумент `offset` в методе `wall.get`. Используя полученную информацию и блоки кода ниже, выгрузите и сохраните в список `items_all` данные по всем постам на стене сообщества.

**Подсказка:** чтобы расширять список правильным образом, используйте метод `.extend()`, а не `.append()`, он добавляет не один элемент, а сразу несколько.

In [16]:
params_wall_long = {"access_token" : token, 
              "domain" : domain, 
              "count" : 100,
              "v" : v,
              "offset" : 0}

In [17]:
items_all = []

for i in range(iterate):
    req_wall_long = requests.get(main_wall, params = params_wall_long)
    json_wall_long = req_wall_long.json()
    items_wall_long = json_wall_long['response']['items']
    
    # YOUR CODE HERE
    items_all.extend(items_wall_long)
    params_wall_long["offset"] += 100
    
    time.sleep(1)
    print(i)

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17


Проверяем длину списка – все ли посты собраны:

In [18]:
len(items_all)

1751

### Задача 4

Создайте на основе списка `items_all` датафрейм `df` со следующими столбцами:

* id поста (`id`);
* дата поста (`date`);
* текст поста (`text`);
* число лайков (`nlikes`);
* число просмотров (`nviews`);
* число комментариев (`ncomments`).

**Подсказка:** отберите сначала необходимую информацию из каждого элемента в `items_all`, а затем переходите к датафрейму.

In [20]:
# вариант без функций, просто цикл по мотивам кода из задачи 1
# только пишем условие для views,
# в старых постах просмотры не фиксировались,
# в словарях с постами просто нет ключа views

items_clean = []

for i in items_all:
    id_ = i["id"]
    date = i["date"]
    text = i["text"]
    nlikes = i["likes"]["count"]
    ncomments = i["comments"]["count"]
    
    if i.get("views") is None:
        nviews = None
    else:
        nviews = i["views"]["count"]
                                    
    results = [id_, date, text, nlikes, nviews, ncomments]
    items_clean.append(results)

In [21]:
import pandas as pd

In [22]:
df = pd.DataFrame(items_clean)

In [23]:
df

Unnamed: 0,0,1,2,3,4,5
0,4424,1709314161,✅ Эта часовая тренировка отлично подходит для ...,11,958.0,2
1,4421,1709142054,🏆 Победители и призеры фестиваля Boulderhouse....,20,628.0,2
2,4420,1709117429,"✨ Фестиваль фестивалем, а новые трассы по расп...",17,887.0,0
3,4419,1708968819,"🔥🔥🔥 Друзья, напоминаем вам, что у нас есть при...",16,1379.0,0
4,4418,1708782383,,20,513.0,0
...,...,...,...,...,...,...
1746,5,1337884016,Внимание!!!С 28 мая скалодром работает с понед...,1,,0
1747,4,1337617123,Внимание!2.06 финал фестиваля будет совмещен с...,0,,0
1748,3,1337344257,Отличный скалодром))),2,,0
1749,2,1337239769,На скалодроме добавилось еще три новых фестива...,2,,0


In [25]:
# добавляем заголовки столбцов

df.columns = ["id", "date", "text", "nlikes", "nviews", "ncomments"]
df

Unnamed: 0,id,date,text,nlikes,nviews,ncomments
0,4424,1709314161,✅ Эта часовая тренировка отлично подходит для ...,11,958.0,2
1,4421,1709142054,🏆 Победители и призеры фестиваля Boulderhouse....,20,628.0,2
2,4420,1709117429,"✨ Фестиваль фестивалем, а новые трассы по расп...",17,887.0,0
3,4419,1708968819,"🔥🔥🔥 Друзья, напоминаем вам, что у нас есть при...",16,1379.0,0
4,4418,1708782383,,20,513.0,0
...,...,...,...,...,...,...
1746,5,1337884016,Внимание!!!С 28 мая скалодром работает с понед...,1,,0
1747,4,1337617123,Внимание!2.06 финал фестиваля будет совмещен с...,0,,0
1748,3,1337344257,Отличный скалодром))),2,,0
1749,2,1337239769,На скалодроме добавилось еще три новых фестива...,2,,0


In [26]:
# сохраняем в Excel

df.to_excel("rock_zona.xlsx")