# ДЗ 3. API VK

## VK API введение

Методы API, которые могут использоваться при работе с VK доступны по ссылке [API methods | Developers (vk.com)](https://vk.com/dev/methods). Этой ссылкой мы будем пользоваться постоянно. Каким образом будет продемонстировано далее.

Для простоты работы с VK API предлагаем воспользоваться библиотекой vk_api, которая представляет собой обертку для Python над функциями VK API и готова к использованию. Документация к библиотеке доступна тут - [Документация vk_api — vk_api 11.9.4 documentation (vk-api.readthedocs.io)](https://vk-api.readthedocs.io/en/latest/).

Установка vk_api является стандартной и выполняется при помощи pip install

In [None]:
!pip install vk_api

## Получение доступа к выполнению запросов к VK API

Для получения информации о страницах, группах и т.д. VK требует авторизацию (точно так же как и с простым просмотром через браузер), поэтому необходимо показать VK, что у вас есть такое право. Достигается это при помощи точно такой же авторизации, какую вы выполняете через браузер или телефон, путем ввода логина и пароля.

Для начала импортируем библиотеку vk_api

In [None]:
import vk_api

Теперь создадим объект сессии VK, указав для нее наш логин и пароль и попросим VK авторизовать нас.

In [None]:
login = ''
password = ''

vk_session = vk_api.VkApi(login, password)
vk_session.auth()

Теперь, выполнив авторизацию и получив право выполнять методы API, получим объект, который позволит нам работать с API.

In [None]:
vk = vk_session.get_api()

## Как этим пользоваться

Теперь посмотрим какие методы нам доступны. Эта информация прописана на странице VK для разработчиков -  [API methods | Developers (vk.com)](https://vk.com/dev/methods).

Попробуем отыскать в этом обилии метод, который позволит нам получить пост по его идентификатору.

Для начала, что такое идентификатор поста?

Идентификатор поста это те циферки, которые видно, когда вы открываете этот пост.

Например:

![Untitled](https://github.com/hse-python-jour/hse_intro_to_data_journalism/blob/main/images/hw3/1.png?raw=true)

Идентификатором будет все, что стоит после слова wall. В данном случае он равен -41670861_2507472 (кстати, отрицательное число (-41670861) представляет собой идентификатор для групп, в то время как положительные идентификаторы представляют собой индентификатор для стен пользователей).

Теперь, зная этот идентификатор нам нужно как-то получить этот пост и загрузить его в питон. Вооружившись кружкой чая, гуглом и терпением обнаруживаем, что VK предоставляет именно тот метод, который нам нужен [wall.getById | Developers (vk.com)](https://vk.com/dev/wall.getById). На странице с описанием этого метода мы можем посмотреть на параметры, которые принимает этот метод

![Untitled](https://github.com/hse-python-jour/hse_intro_to_data_journalism/blob/main/images/hw3/2.png?raw=true)

Из описания параметров видим, что для получения информации о посте (или даже постах) нам нужно передать идентификаторы постов через запятые в параметр **posts**.

Итого, мы знаем что есть некий параметр posts, а так же имеем ссылку на страницу с документацией. Как нам теперь ~~со всем этим взлететь~~ этим воспользоваться?

Обратите внимание на то, как в ссылке значится этот метод - wall.getById

![Untitled](https://github.com/hse-python-jour/hse_intro_to_data_journalism/blob/main/images/hw3/3.png?raw=true)

vk_api дает нам возможность вызывать этот метод напрямую из объекта API (в нашем случае vk, который мы создали ранее) и передать в него параметры, которые указаны на странице с документацией

In [None]:
vk.wall.getById(posts='-41670861_2507472') # vk.com/dev/wall.getById

В ответ нам вернется список словарей (для каждого из идентификатора, который был передан в параметр posts), которые содержат информацию о посте. Если был указан лишь один идентификатор, то список будет содержать лишь один словарь. Далее можно приступать к работе с полученными данными.

## Задания

### Задание 1 (0.5)

Найдите нужный метод в документации и получите 300 постов из вашей любимой группы ВК. По итогу должен получиться список из словарей, которые содержат информацию о посте (именно о посте, а не о результате запроса, который возвращается из метода)

In [None]:
posts = #╰( ͡° ͜ʖ ͡° )つ──☆*:

print("Totally got: {} posts".format(posts["count"]))

posts_list = # (￣^￣)ゞ

print(posts_list[0])

### Задание 2 (2.5)

Допишите функцию, которая преобразует словарь для одного поста в словарь с ключами для текста поста, ссылкой на изображение в самом высоком разрешении (если есть, иначе пустая строка), количество комментариев, количество лайков, количество репостов, дату поста.

Если изображений в посте несколько, все равно возьмите то, у которого самое высокое разрешение.

Проверьте, что функция корректно отрабатывает на одном любом посте из списка, который вы получили в предыдущем задании

In [None]:
from datetime import datetime
from typing import Dict, Any


def transform(post: Dict[str, Any]) -> Dict[str, Any]:
    # для преобразования чиселки из поля date
    # во время, вам возможно поможет datetime.fromtimestamp
    pictures = list(
        map(
            lambda x: x["photo"],
            filter(
                lambda x: x and x["type"] == "photo",
                post.get("attachments") or [],
            ),
        )
    )
    # YOUR CODE HERE (੭•̀ω•́)੭̸*✩⁺˚
    for pic in pictures:
        # YOUR CODE HERE ‿︵‿︵ヽ(°□° )ノ︵‿︵‿
    
    return # YOUR CODE HERE (∩ ￣ー￣)⊃ ✳✨✳✨✳✨✳

### Задание 3 (0.5)

При помощи функции map и функции, которую вы написали на предыдущем этапе, обработайте весь список из задания 1 и создайте новый обработанный список

In [None]:
preprocessed_posts = # YOUR CODE HERE (´◕▽◕)⊃━☆

### Задание 4 (0.5)

При помощи Pandas создайте и сохраните в формат csv датасет последних 300 постов из вашей любимой группы ВК со следующими колонками: текст поста, ссылка на изображение в самом высоком разрешении (если есть, иначе пустая строка), количество комментариев, количество лайков, количество репостов, дату поста

In [None]:
import pandas as pd

df = # YOUR CODE HERE (∩ᄑ_ᄑ)⊃━☆ﾟ*･｡*

### Задание 5 (0.5)

Преобразуйте датасет из задания 4 так, чтобы в нем появилась новая колонка с указанием времени суток в которое было опубликован пост и новая колонка с указанием дня недели (см. datetime), постарайтесь избегать прямого использования циклов Python, попытайтесь решить задание лишь с помощью методов, которые предлагаются Pandas.

In [None]:
df["day_week"] = # YOUR CODE HERE (>ω<)ノ—==ΞΞ☆*✲ﾟ

### Задание 6 (0.5)

При помощи меотда hist ([pandas.DataFrame.hist — pandas 1.3.4 documentation (pydata.org)](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.hist.html)) постройте гистограммы с распределением постинга постов по времени суток и с распределением постов по дням недели

In [None]:
# YOUR CODE HERE (∩｀-´)⊃━☆ﾟ.*･｡ﾟ

### Задание 7 (2.5)

Из датасета получите список всех описаний постов, при помощи команд replace и split преобразуйте все посты в список из слов.

In [None]:
import string
from typing import List


punctuation_tokens = string.punctuation  # получаем все знаки пунктуации


def get_wordlist(texts: List[str]) -> List[str]:
    # получаем на вход список текстов
    # удаляем пунктуацию, разбиваем на слова
    # возвращаем список всех слов
    
    all_words = []
    
    # YOUR CODE HERE ༼つ ಠ益ಠ༽つ ─=≡ΣO))
    
    return all_words

In [None]:
all_words = # YOUR CODE HERE ༼つ ಠ益ಠ༽つ ─=≡ΣO))

### Задание 8 (0.5)

При помощи списка из задания 7 постройте частотный словарь для вашей любимой группы, и выведите топ-20 слов с указанием их частотности

In [None]:
from collections import Counter

# YOUR MAGIC HERE (≧ ◡ ≦)━★☆.*･｡ﾟ

### Задание 9 (2)

При помощи VK API получите комментарии (не менее 100) к любому посту и повторите задания 7 и 8.

In [None]:
# YOUR CODE HERE ┐_(ツ)_┌━☆ﾟ.*･｡ﾟ