# VK API Tutorial



### Цель: Научиться получать информацию о пользователях из соц. сети `Вконтакте` и формировать **датафрейм**

### Что понадобится:
* Аккаунт **Вконтакте**
* Веб-браузер
* Установленные библиотеки   **requests**, **json**,**pandas**

In [2]:
import json
import pandas as pd
import requests


## Итак, поехали

# ШАГ 1: Регистрация приложения

Переходим по [**ссылке**](https://vk.com/apps?act=manage) и создаем свое приложение ВКонтакте

Создаем именно **Standalone-приложение**, так как оно подходит для тренировок и экспериментов и не накладывает на нас никаких лишних обязательств

![image.png](attachment:4124948d-1003-4028-a8e5-8dd91bb9543e.png)

После чего мы попадаем на страницу с настройкой приложения, там вы можете кастомизировать ваше приложение добавив ему описание, картинку и т.д. 

![image.png](attachment:7fd8dd44-4b98-44f4-a823-610db14173a3.png)

Далее мы должны перейти на вкладку настройки, установить состояние приложения **Включено и видно всем** и запомнить **ID** нашего приложения - оно нам понадобится позже

В моем случае это `7940085`

![image.png](attachment:01fea64f-087c-487c-bbae-98afbdcdbcc9.png)

# ШАГ 2: Авторизация, получение токена доступа

Токен — это ваш ключ доступа.

При выполнении определенных условий человек, получивший ваш токен, может нанести существенный ущерб вашим данным и данным других людей.
Поэтому очень важно не передавать свой токен третьим лицам.

Для получения токена доступа необходимо авторизоваться переходом по специальной ссылке, которую мы сейчас сформируем, более подробно [тут](https://vk.com/dev/implicit_flow_user)

**Чтобы получить токен для своего приложения, введите вместо `client_id` id своего приложения** ( можно этого и не делать )

In [3]:
url = 'https://oauth.vk.com/authorize'

authorize_params = {
    'client_id': 7940085,
    'redirect_uri': 'https://oauth.vk.com/blank.html',
    'display': 'mobile',
    'scope': 2**12-1,
    'response_type': 'token',
    'revoke': 1,
}

request = requests.get(url=url, params=authorize_params)
print(request.url)


https://oauth.vk.com/authorize?client_id=7940085&redirect_uri=https%3A%2F%2Foauth.vk.com%2Fblank.html&display=mobile&scope=4095&response_type=token&revoke=1


Теперь переходим по ссылке выше *( вас могут попросить войти в свой аккаунт если вы еще не были авторизованы)* и нажимаем **разрешить** 

После чего вы попадете на страницу, на которой вас попросят ничего не копировать из адресной строки. Адресная строка содержит в себе нужные нам значения, разделенные с помощью `&`.

Выглядит она примерно следующим образом:

![image.png](attachment:ffca05a1-8864-499c-a9f0-498585fe5eed.png)

Нам из нее надо извлечь и сохранить значения параметров `access_token`, `expires_in` и `user_id`  в моем случае это:

**access_token** : 9cce123d5423c03165a9c65302c0039b21e5e12e0d99d63572ac3be9b526dbaf21dc41555803f55e427da

**expires_in** : 86400  

**user_id** : 135069842

*Кстати, 86400 секунд - ровно сутки, это означает что токен дейтвует всего сутки и вы не сможете нанести мне вреда по токену, указанному в этом туториале*

**Заносим полученные данные в переменные**

In [7]:
access_token= '9cce123d5423c03165a9c65302c0039b21e5e12e0d99d63572ac3be9b526dbaf21dc41555803f55e427da'
expires_in= 86400  
user_id=135069842

### Проверим валидность токена

Сделаем запрос, выводящий информацию со страницы, для которой мы получили токен

`user_ids` -  id пользователя (или нескольких пользователей), информацию о котором мы хотим узнать

`fields` -  поля, которые мы хотим запросить

`access_token` - неожиданно, токен доступа

`v`  -  текущая версия VK API


In [8]:
url = 'https://api.vk.com/method/users.get'
fields =  ['photo_id',
          'verified',
          'sex',
          'bdate',
          'city'
          ]


user_info_request_params = {
    'user_ids': user_id,                                                                    
    'fields': fields,  
    'access_token': access_token,                
    'v': 5.131
}

In [9]:
r = requests.get(url= url, params=user_info_request_params)
result  = json.loads(r.text)
pd.Series(result['response'][0])[:10]

first_name                                    Кирилл
id                                         135069842
last_name                                   Ляхнович
can_access_closed                               True
is_closed                                      False
city                 {'id': 244, 'title': 'Витебск'}
dtype: object

### Как видно, токен валидный и запросы к API работаю корректно

# ШАГ 3: Получаем информацию о пользователях, живущих в областных центрах беларуси

Чтобы узнать пользователей из конкретного города, нам нужно передать id этого города в запрос.

Я раздобыл id областных центров Беларуси:

In [97]:
cities  = {
    "Витебск":244,
    "Минск":282,
    "Брест":281,
    "Гомель":392,
    "Могилёв":467,
    "Гродно":649
}

In [98]:
def get_users_by_city(city, count, fields):
    url = 'https://api.vk.com/method/users.search'
    fields = ', '.join(fields)
    users_search_request_params = {
        'sort' : 1,
        'city': cities[city],
        'count': count,
        'fields' : fields,
        'access_token': access_token,                
        'v': 5.131
    }
    r = requests.get(url= url, params=users_search_request_params)
    result  = json.loads(r.text)
    return result['response']['items']
    
    

## Пробуем получить жителей Минска

In [99]:
fields = ['photo_id',
          'verified',
          'sex',
          'bdate',
          'city',
          'home_town',
          'has_photo', 
          'has_mobile',
          'site',
          'education', 
          'followers_count', 
          'connections', 
          'activities',
          'interests', 
          'music',
          'movies',
          'tv', 
          'books',
          'games',
          'quotes',
          'timezone']
pd.DataFrame(get_users_by_city('Минск',3, fields))

Unnamed: 0,first_name,id,last_name,can_access_closed,is_closed,sex,verified,bdate,city,photo_id,...,music,site,followers_count,university,university_name,faculty,faculty_name,graduation,home_town,track_code
0,Ирина,672915104,Цвиркомошенская,True,False,1,0,28.12.1965,"{'id': 282, 'title': 'Минск'}",672915104_457239017,...,,,0,0.0,,0.0,,0.0,,676ddfb6E0tc0wkB7Ag252FVy1Fq13GssRv6zcmrvmTplJ...
1,Gogan,672913164,Gogan,True,False,2,0,16.10.1998,"{'id': 282, 'title': 'Минск'}",672913164_457239018,...,,,1,,,,,,,9bb890a6BR62YMZ_xjky_WobaXiusmvtAi9jDuoEgowvOE...
2,Никита,672912576,Галуза,True,False,2,0,9.6.2006,"{'id': 282, 'title': 'Минск'}",,...,,,0,0.0,,0.0,,0.0,,3dc83f58R0UCb9V3wgRhyDJ7LOrGeudatNau2raob_4XOK...


# ШАГ 4: Собери их всех в *pandas.Dataframe* !

In [100]:
users_df = pd.DataFrame()
users = []
fields = ['photo_id',
          'verified',
          'sex',
          'bdate',
          'city',
          'home_town',
          'has_photo', 
          'has_mobile',
          'site',
          'education', 
          'followers_count', 
          'connections', 
          'activities',
          'interests', 
          'music',
          'movies',
          'tv', 
          'books',
          'games',
          'quotes',
          'timezone']

dfs = []
for city in cities.keys():
     dfs.append( pd.DataFrame( get_users_by_city(city, 100, fields)))
users_df = pd.concat(dfs)
         
    

In [101]:
users_df.head(5)

Unnamed: 0,first_name,id,last_name,can_access_closed,is_closed,sex,verified,bdate,city,has_photo,...,faculty,faculty_name,graduation,home_town,track_code,photo_id,education_form,facebook,facebook_name,education_status
0,Павел,672917045,Шалохин,True,False,2,0,26.7.2004,"{'id': 244, 'title': 'Витебск'}",0,...,0.0,,0.0,,b72ef803vC0EnCTZeIlScNvN9X2_Lk1YyYAn6jSpjS0cnI...,,,,,
1,Alexey,672913531,Argent,True,False,2,0,19.7.2007,"{'id': 244, 'title': 'Витебск'}",1,...,0.0,,0.0,,4daaf704nH81G9ibC199IwSqz4eI8mB1DDAz_jjGCrbjqL...,672913531_457239020,,,,
2,Милана,672911841,Троцкая,True,False,1,0,,"{'id': 244, 'title': 'Витебск'}",1,...,0.0,,0.0,,fab5a69dhSiPND0cHS_UQQuGxvvZnHBI9VlKvH93BVd93u...,672911841_457239017,,,,
3,Анна,672909079,Новак,True,False,1,0,9.5.1971,"{'id': 244, 'title': 'Витебск'}",0,...,0.0,,0.0,,622777a4K6co3MMgLp4hUsmy5yMZjLHB0jUSWoa5Nk9lFQ...,,Очное отделение,,,
4,Иван,672906172,Иванов,True,False,2,0,3.5.2002,"{'id': 244, 'title': 'Витебск'}",0,...,,,,,ca932d9bnBqsQg4uhXwPFZV1H6A83EUJmdtVSuFXO-kS6R...,,,,,


In [102]:
users_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 596 entries, 0 to 99
Data columns (total 33 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   first_name         596 non-null    object 
 1   id                 596 non-null    int64  
 2   last_name          596 non-null    object 
 3   can_access_closed  596 non-null    bool   
 4   is_closed          596 non-null    bool   
 5   sex                596 non-null    int64  
 6   verified           596 non-null    int64  
 7   bdate              564 non-null    object 
 8   city               566 non-null    object 
 9   has_photo          596 non-null    int64  
 10  has_mobile         596 non-null    int64  
 11  interests          525 non-null    object 
 12  books              525 non-null    object 
 13  tv                 525 non-null    object 
 14  quotes             525 non-null    object 
 15  games              525 non-null    object 
 16  movies             525 non-

### Датасет для дальнейшего анализа сформирован, profit!

*by Ляхнович Кирилл, 30.08.2021 Минск*


In [None]:
# ----- REVIEWER'S OPINION -----
# На мой взгляд, здоровский туториал, в котором нас провели
# по всем шагам до конечной цели - создания датасета. Что можно
# дополнить - рассмотреть способ получения комментариев, быть может
# постов, и дополнительно прокомментировать структуру запроса, откуда
# взялись конкретные имена фич и как мы собрали датасет. В остальном
# же - на выходе имеется датасет, который не требует большой очистки
# или большого количества проблемных фич, которые надо было бы
# перевести в какой-то более приемлемый тип, и т.д. Прокликав 
# туториал, у меня всё получилось без каких-то эксепшенов 
# или ошибок, а это тоже немаловажно :)