# Часть 1: Парсим VK, продолжаем работать с API

- Коротко что это и зачем
- VK developers, API
- Создаём свое приложение, получаем токен 
- Первый запрос, выкачиваем свою стенку
- Список групп для парсинга, что хотим скачать и как
#Скачиваем всех людей, состоящих в группах
#Получаем соцдем
#Получаем стенки и записи

# Подготовка

Нельзя просто взять и нажать на одну кнопку, чтобы получить все данные из Вконтакте.

<img align="center" src="pictures/csv.png" height="600" width="600">

Поэтому нам нужен API.

С помощью API Вконтакте можно получить большой объем данных без серьёзных ограничений. Например, Facebook по своему API отдаст вам информацию только о тех людях, которые установили ваше приложение, API Одноклассников потребует написать им письмо с объяснением того, зачем это вам понадобились их данные, а API Вконтакте отдаст вам всё практически задаром. Единственное, что он попросит — это не обращаться к сайту очень часто.

Ознакомиться со способами взаимодействия с Вконтакте можно по [ссылке](https://dev.vk.com/ru/guide) в специальной документации разработчика. Понятная документация — лучший друг для парсера. 


Для того, чтобы получить доступ к выгрузке данных, нужно пройти ряд бюрократических процедур.

Первая такая процедура заключается в создании своего приложения. Для этого переходим по [ссылке](https://dev.vk.com/ru/mini-apps/management/creating-new-apps) и проходимся по необходимым процедурам:

<img align="center" src="pictures/app_creation_1.jpg" height="600" width="600">

После подтверждения своей личности по номеру телефона, попадаем на страницу свежесозданного приложения
<img align="center" src="pictures/app_creation_2.jpg" height="600" width="600">

Слева нам будем доступна вкладка с настройками, перейдя в неё мы увидим все необходимые нам для работы с приложением параметры 
<img align="center" src="pictures/app_creation_3.jpg" height="600" width="600">


Для работы с частью методов API этого вполне достаточно (обычно в заголовке такого метода стоит соответствующая пометка). Для части методов, используемых нами, может понадобиться ключ доступа.

Для того, чтобы получить его, необходимо сделать ещё пару странных манипуляций:

Переходим по ссылке вида (на месте звездочек должен стоять ID созданного вами приложения):

> https://oauth.vk.com/authorize?client_id=**********&scope=14&redirect_uri=https://oauth.vk.com/blank.html&display=page&v=5.103&response_type=token

<img align="center" src="pictures/app_creation_4.jpg" height="600" width="600">

Нажав кнопку "Продолжить как **пользователь**" будет сформирована ссылка с токеном следующего вида:
> https://oauth.vk.com/blank.html#access_token=vk1.a.token&expires_in=86400&user_id=*******

Первый набор символов, который следует за access_token= и начинается с **_vk1_** является токеном, т.е. ключом доступа. Это важные данные для подключения к API и получения данных.

Вторая цифра (expires_in=) время работы маркера доступа в секундах (одни сутки). По истечению суток нужно будет получить новый маркер доступа. Последняя цифра (user_id=) ваш ID Вконтакте. 

Нам в дальнейшем понадобится токен. Для удобства сохраним его в отдельном файле **token.txt** в той же директории что и файл с кодом. В целях безопасности ваших данных не стоит нигде светить токенами и тем более выкладывать их в открытый доступ.

Также обратите внимание на странный параметр scope=14 внутри ссылки с токеном. Эта загадочная цифра ничто иное, как права доступа к социальной сети. Подробнее познакомиться с взаимно-однозначным соответствием между числами и правами можно в документации. Например, если мы хотим получить доступ к друзьям, фото и аудио, мы подставим в scope цифру 2+4+8=14.

# Первые шаги

In [1]:
# Загружаем необходимые библиотеки

import datetime                  # Пакет для работы с временными форматами
import pickle                    # Пакет для подгрузки данных специфического для питона формата
import requests                  # Пакет для скачки данных из этих ваших интернетов
import pandas as pd              # Пакет для работы с таблицами
import numpy as np               # Пакет для работы с векторами и матрицами
import matplotlib.pyplot as plt  # Пакет для строительства графиков
import time            # Пакет для работы со временем. Например, помогает ставить заглушки 
                       # time.sleep(секунды), необходимые для того что ВК не банил нащего
                       # сборщика данных из-за слишком частых запросов
        
# Пакет для красивых циклов. При желании его можно отключить. Тогда из всех циклов придётся 
# удалять команду tqdm_notebook.
from tqdm import tqdm_notebook   # подробнее: https://github.com/tqdm/tqdm

In [6]:
# мой номер странички
my_user_id = 21519895
# версия используемого API
version = '5.103' 
# подгружаем токен
with open('token.txt') as f:
    token = f.read()

Чтобы задать вопрос API вконтакте, нужно сформировать ссылку следующего вида:

> https://api.vk.com/method/METHOD_NAME?PARAMETERS&access_token=ACCESS_TOKEN&v=API_VERSION

> https://название_api/используемый_метод?параметры_метода&другие_опции&ключ_доступа&версия_API

В ссылку сначала встраивается метод, с помощью которого мы осуществляем запрос и какие-то параметры для этого метода. Список всех существующих методов и параметров можно изучить, конечно же, в документации.

Попробуем узнать своё имя. Метод `users.get` возвращает расширенную информацию о пользователе. Параметр `user_ids` отвечает за `id` пользователей, информацию о которых нам хотелось бы вытащить.

In [7]:
url = "https://api.vk.com/method/users.get?user_ids={user_id}&access_token={token}&v={version}"
url = url.format(user_id=my_user_id, token=token, version=version)

In [8]:
response = requests.get(url) 
response

<Response [200]>

Ура! Благословенный 200-ответ! Мы получили его в удобном json формате, который python воспринимает как словарик.

In [9]:
name = response.json()
name

{'response': [{'id': 21519895,
   'first_name': 'Ксения',
   'last_name': 'Орлова',
   'can_access_closed': True,
   'is_closed': False}]}

Со словарями очень удобно работать, поэтому выведем первый и единственный элемент из списка response

In [None]:
name['response'][0]

Оформим всё, что мы сделали выше в виде удобной функции, которая будет пригодна для любых методов и параметров.

In [26]:
def vkDownload(method, parameters, token=token, version=version):
    """
        Возвращает результат запроса по методу
        
        method: string
            метод из документации, который хотим использовать
            
        parameters: string
            параметры используемого метода
            
        token: string
            токен Oauth доступа
        
        version: string
            версия API
    """
    
    # составляем ссылку
    url = 'https://api.vk.com/method/{method}?{parameters}&access_token={token}&v={version}'
    url = url.format(method=method, parameters=parameters, token=token, version=version)
    # запрашиваем ссылку и переводим в json (словарь)
    response = requests.get(url).json()
    
    return response

Снова скачаем имя пользователя, чтобы убедиться, что всё работает

In [None]:
vkDownload('users.get','user_ids=21519895')

In [None]:
vkDownload('users.get','user_ids=21519895,1&fields=bdate,city')

Попробуем выкачать записи со стены

In [None]:
wall = vkDownload('wall.get','user_ids=21519895')

In [None]:
wall['response']

In [None]:
# обратимся к первой записи, которая лежит в поле response по ключу items
wall['response']['items']

## Способ 2

та же функция по сути

In [10]:
def vk_download1(method, parameters):
    url = 'https://api.vk.com/method/' + method + \
'?' + parameters + '&v=' + version + '&access_token=' + token
    
    response = requests.get(url)
    return response.json()['response']

In [None]:
wall = vk_download1('wall.get','user_ids=21519895')

In [None]:
wall

В принципе это всё. Дальнейшая стратегия будет такой: открываем документацию, находим нужные метод и параметры и применяем их.

# Забираем посты из групп

В качестве примера выбираем группу "хайер скул оф мемс" https://vk.com/hsemem 

<img align="center" src="pictures/meme1.jpg" height="600" width="600">

In [52]:
group_id = '-139105204'

wall = vk_download1('wall.get','owner_id=' + group_id)
wall

{'count': 1541,
 'items': [{'inner_type': 'wall_wallpost',
   'comments': {'can_post': 0, 'count': 0, 'groups_can_post': True},
   'marked_as_ads': 0,
   'hash': 'ilVtltugSUBJVTll-U45eQa-6v0',
   'type': 'post',
   'push_subscription': {'is_subscribed': False},
   'donut_miniapp_url': 'https://vk.com/app51528700#/?owner_id=-139105204&type=donut_badges&params=%257B%2522item_id%2522%253A%2522101801%2522%257D',
   'attachments': [{'type': 'photo',
     'photo': {'album_id': -7,
      'date': 1740579372,
      'id': 457269784,
      'owner_id': -139105204,
      'access_key': '0c84a8b691cf752443',
      'post_id': 101798,
      'sizes': [{'height': 73,
        'type': 's',
        'width': 75,
        'url': 'https://sun1-85.userapi.com/s/v1/ig2/GbFs4Nwso2TT4soUbxHBohj8zXq5i9D2bF5AemiaDQEmAhaSTwsv90YGK6QNO58ELxQ6JuT2bE7SnsLECiBLWvo2.jpg?quality=95&as=32x31,48x47,72x70,108x106,160x156,240x235,360x352,480x469,540x528,640x625,720x704,1080x1056,1280x1251&from=bu&cs=75x73'},
       {'height': 1

In [53]:
wall.keys()

dict_keys(['count', 'items'])

In [54]:
wall['count']

1541

In [55]:
len(wall['items'])

20

In [56]:
from tqdm import tqdm_notebook
import time

n = vk_download1('wall.get','owner_id=' + group_id)['count']
n

1541

In [57]:
infa = { 
    'id': [ ],
    'text': [ ],
    'likes': [ ],
}

for i in tqdm_notebook(range(0, 2000, 100)):
    time.sleep(0.4)
    wall = vk_download1('wall.get','owner_id=' + group_id + \
                       '&count=100&offset=' + str(i)
                      )['items']
    
    infa['likes'].extend([item['likes']['count'] for item in wall])
    infa['id'].extend([item['id'] for item in wall])
    infa['text'].extend([item['text'] for item in wall])

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for i in tqdm_notebook(range(0, 2000, 100)):


  0%|          | 0/20 [00:00<?, ?it/s]

In [58]:
infa

{'id': [101801,
  101800,
  101799,
  101795,
  101794,
  101790,
  101788,
  101787,
  101786,
  101785,
  101783,
  101782,
  101776,
  101774,
  101772,
  101771,
  101767,
  101766,
  101762,
  101761,
  101760,
  101758,
  101756,
  101753,
  101752,
  101749,
  101746,
  101745,
  101744,
  101743,
  101737,
  101736,
  101734,
  101733,
  101732,
  101731,
  101730,
  101729,
  101728,
  101723,
  101722,
  101721,
  101720,
  101719,
  101715,
  101714,
  101713,
  101704,
  101703,
  101702,
  101701,
  101700,
  101699,
  101698,
  101696,
  101694,
  101693,
  101684,
  101683,
  101682,
  101681,
  101678,
  101677,
  101676,
  101675,
  101674,
  101673,
  101672,
  101671,
  101667,
  101666,
  101665,
  101661,
  101660,
  101659,
  101656,
  101654,
  101653,
  101652,
  101650,
  101649,
  101646,
  101639,
  101638,
  101637,
  101634,
  101633,
  101632,
  101630,
  101628,
  101626,
  101624,
  101616,
  101612,
  101611,
  101609,
  101607,
  101604,
  101603,
  10

In [59]:
len(infa['id'])

1542

In [60]:
import pandas as pd
df = pd.DataFrame(infa)
df.head()

Unnamed: 0,id,text,likes
0,101801,,9
1,101800,,139
2,101799,,113
3,101795,,44
4,101794,,176


In [61]:
df

Unnamed: 0,id,text,likes
0,101801,,9
1,101800,,139
2,101799,,113
3,101795,,44
4,101794,,176
...,...,...,...
1537,95767,,1655
1538,95760,"Доброе утро, не забудьте позавтракать ❤️",992
1539,95759,пов ты на первом курсе получаешь оценочки,2024
1540,95748,препод: читайте методичку там важная информаци...,1124


# Соц-дем пользователей

In [62]:
# Основные параметры, которые мы хотим получить
fields = 'bdate, city, home_town, sex, education'

Делаем словарь из списка университетских неофициальных групп

In [63]:
university_groups = {
     'хайер скул оф мемс' : 'hsemem',
     'Подслушано МГТУ им. Баумана' : 'lovebmstu',
     'мемгу' : 'msuofmems',
     'Подслушано ВШЭ' : 'hse_overheard',
     'Подслушано ИТМО' : 'overhearitmo'
    }

In [64]:
group_id = 'overhearitmo'

In [65]:
count = vkDownload('groups.getMembers','group_id=' + group_id)['response']['count']

In [66]:
count

20161

In [67]:
def getGroupMembers(group_id):
    """
        Возвращает список всех пользователей данной группы
        Итерации идут батчами по 1000 пользователей
        
        group_id: string
            идентификатор группы (ссылка)
    """
    
    # Узнаём число запросов, которое надо сделать 
    count = vkDownload('groups.getMembers','group_id=' + group_id)['response']['count']
    
    # выясняем, сколько запросов нам понадобиться
    n = int(np.ceil(count/1000))  
    
    # вектор, где мы будем хранить id пользователей
    members = []     
    
    for i in tqdm_notebook(range(n)): 
        # при помощи метода groups.getMembers получаем пользователей группы
        current_members = vkDownload('groups.getMembers','group_id='+group_id+'&offset='+str(1000*i))
        members.extend(current_members['response']['items'])
        # перед следующим запросом немножко подождем
        time.sleep(0.4)
        
    return members

Попробуем выкачать группу с минимальным числом подписчиков, возьмем Подслушано ИТМО (для скорости)

In [68]:
university_groups['Подслушано ИТМО']

'overhearitmo'

In [69]:
itmo_members = getGroupMembers(university_groups['Подслушано ИТМО'])

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for i in tqdm_notebook(range(n)):


  0%|          | 0/21 [00:00<?, ?it/s]

In [70]:
len(itmo_members)

20161

In [71]:
itmo_members[:10]

[1127, 2461, 2619, 3768, 4023, 4041, 4579, 5450, 5840, 6371]

In [72]:
itmo_members

[1127,
 2461,
 2619,
 3768,
 4023,
 4041,
 4579,
 5450,
 5840,
 6371,
 7047,
 13592,
 13753,
 14195,
 16944,
 17192,
 17338,
 18994,
 19866,
 20047,
 20498,
 20923,
 22158,
 23532,
 24147,
 24961,
 26253,
 26380,
 27460,
 29031,
 31563,
 32059,
 32866,
 35320,
 35646,
 36264,
 36788,
 37435,
 41033,
 43101,
 43421,
 45610,
 46012,
 47314,
 48817,
 49082,
 49264,
 51142,
 53366,
 58801,
 59089,
 60056,
 60692,
 66191,
 68686,
 69693,
 71029,
 72058,
 75340,
 78801,
 81784,
 85806,
 86002,
 87014,
 87982,
 88186,
 88416,
 93238,
 93528,
 110703,
 115715,
 116602,
 116665,
 118291,
 128698,
 129921,
 135556,
 142301,
 143646,
 144725,
 148065,
 158752,
 166625,
 173104,
 173550,
 173582,
 177350,
 179245,
 184757,
 187288,
 187989,
 188178,
 189470,
 198206,
 200848,
 202395,
 203209,
 203846,
 204272,
 210925,
 212956,
 214300,
 217487,
 218298,
 222771,
 233307,
 235676,
 235702,
 246481,
 262371,
 262432,
 263929,
 264428,
 266442,
 266525,
 270170,
 272432,
 277510,
 278261,
 279325,


Прекрасно, получили список из 20161 идентификатора пользователей, подписанных на группу Послушано ИТМО. Всех остальных подписчиков можно выгрузить аналогично.

In [73]:
# Цикл для выгрузки всех участников групп
# Выкачиваем членов каждой группы 

university_people = {}
for university, group_id in university_groups.items():
    university_people[university] = getGroupMembers(group_id)

# Сохраняем словарик с id пользователей
with open('university_people', 'wb') as f:
    pickle.dump(university_people, f)

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for i in tqdm_notebook(range(n)):


  0%|          | 0/89 [00:00<?, ?it/s]

  0%|          | 0/43 [00:00<?, ?it/s]

  0%|          | 0/50 [00:00<?, ?it/s]

  0%|          | 0/49 [00:00<?, ?it/s]

  0%|          | 0/21 [00:00<?, ?it/s]

Когда нужно подгрузить готовый словарь id пользователей

In [None]:
# Подгружаем словарь с пользователями
#with open('candidate_people', 'rb') as f:
#candidate_people = pickle.load(f)

Посмотрим на число подписчиков

In [74]:
for university, people in university_people.items():
    print("Группа университета: {}, число подписчиков: {}".format(university, len(people)))

Группа университета: хайер скул оф мемс, число подписчиков: 88247
Группа университета: Подслушано МГТУ им. Баумана, число подписчиков: 42033
Группа университета: мемгу, число подписчиков: 49415
Группа университета: Подслушано ВШЭ, число подписчиков: 48547
Группа университета: Подслушано ИТМО, число подписчиков: 20161


In [75]:
count = sum(university_people.values(), [])
count

[1257,
 1389,
 2050,
 2932,
 4913,
 6559,
 8612,
 9147,
 9804,
 10615,
 10942,
 17365,
 29658,
 30166,
 35374,
 41372,
 42159,
 42495,
 43668,
 50385,
 53771,
 56572,
 56613,
 62335,
 65433,
 65995,
 66203,
 66778,
 68046,
 71090,
 71426,
 71885,
 71947,
 74008,
 75791,
 81206,
 84894,
 85414,
 91221,
 93245,
 97723,
 100453,
 111145,
 111195,
 111952,
 123696,
 127387,
 129910,
 131984,
 133910,
 136773,
 139259,
 141498,
 142252,
 151817,
 151979,
 157555,
 158814,
 175846,
 179627,
 192662,
 198166,
 201219,
 225701,
 229145,
 229578,
 230307,
 231043,
 236730,
 240199,
 241907,
 249661,
 258980,
 266700,
 272832,
 283162,
 287568,
 291662,
 322193,
 324578,
 326105,
 335913,
 353634,
 355081,
 364844,
 385594,
 386542,
 396809,
 398266,
 398616,
 416407,
 431834,
 442103,
 443897,
 445760,
 453778,
 455134,
 469854,
 483633,
 496047,
 502620,
 504092,
 511020,
 512776,
 517992,
 522144,
 526190,
 529919,
 536684,
 543725,
 552502,
 555692,
 558683,
 568641,
 569437,
 577425,
 57928

 также составим список из уникальных пользователей и посмотрим, сколько их у нас всего

In [76]:
# объединяем всех подписчиков в один лист
unique_people = sum(university_people.values(), [])
# берем только уникальных людей
unique_people = list(set(unique_people))

len(unique_people)

201843

Отлично, 201842 уникальных пользователей, подписанных на неофициальные группы, у нас есть. Теперь скачаем немножко соцдема по этим людям.

Для выкачки соц-дема будем использовать метод `users.get`. За раз можно скачать информацию о 100 пользователях. Если на запрос будет уходить секунда, то скачка соц-дема займет около 1 часа.

In [39]:
round(201842/100/60/60, 2)

0.56

Для пробы пера возьмем первых (по дате регистрации в вк) 10 человек, подписанных на мемгу

In [77]:
msuofmems = university_people['мемгу'][:10]
# объединяем лист с int в строку
msuofmems = ','.join([str(user) for user in msuofmems])

In [78]:
vkDownload('users.get', 'user_ids={}&fields={}'.format(msuofmems, fields))

{'response': [{'id': 3226,
   'bdate': '21.6.1988',
   'city': {'id': 1937764, 'title': 'Paris'},
   'sex': 1,
   'first_name': 'Ekaterina',
   'last_name': 'Besse',
   'can_access_closed': False,
   'is_closed': True},
  {'id': 7441,
   'bdate': '31.12.1980',
   'city': {'id': 1, 'title': 'Москва'},
   'university': 1,
   'university_name': 'СПбГУ',
   'faculty': 15,
   'faculty_name': 'Филологический факультет',
   'graduation': 2004,
   'education_form': 'Очное отделение',
   'education_status': 'Выпускница (специалист)',
   'home_town': 'Санкт-Петербург',
   'sex': 1,
   'first_name': 'Лидия',
   'last_name': 'Кузнецова',
   'can_access_closed': True,
   'is_closed': False},
  {'id': 8837,
   'bdate': '7.8',
   'city': {'id': 1, 'title': 'Москва'},
   'sex': 2,
   'first_name': 'Илья',
   'last_name': 'Кудряшов',
   'can_access_closed': True,
   'is_closed': False},
  {'id': 15572,
   'bdate': '27.11.1990',
   'sex': 2,
   'first_name': 'Шамиль',
   'last_name': 'Джабоев',
   'can_

Обернем сбор информации по юзерам в функцию

In [79]:
def getUserInformation():
    """
        Возвращает словарь с выгруженными социально-демографическими данными 
        по всем пользователям, подписанным на группы
    """
    
    # инициализируем пустой словарь, где будут хранитсья пользователи с их соцдемом
    university_people_information = {}
    # проходимся по всем кандидатам
    for university, people in university_people.items():
        # текущий список пользователей с соц-демом
        current_info = []
        #посчитаем число пользователей для группы
        count = len(people)
        # Выяснили число запросов
        n = int(np.ceil(count/500))  
        
        for i in tqdm_notebook(range(n)):
            # берем текущий срез подписчиков
            ids = people[i*500:(i+1)*500]
            ids = ','.join([str(user) for user in ids])
            # выгружаем их и берем данные
            info = vkDownload('users.get','user_ids={}&fields={}'.format(ids, fields))
            info = info['response']
            # записываем в текущий лист
            current_info.extend(info)
            # ждем перед следующим запросом
            time.sleep(0.4)
        
        # записываем в финальный словарь
        university_people_information[university] = current_info
    
    return university_people_information

In [80]:
university_people_information = getUserInformation()

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for i in tqdm_notebook(range(n)):


  0%|          | 0/177 [00:00<?, ?it/s]

  0%|          | 0/85 [00:00<?, ?it/s]

  0%|          | 0/99 [00:00<?, ?it/s]

  0%|          | 0/98 [00:00<?, ?it/s]

  0%|          | 0/41 [00:00<?, ?it/s]

In [81]:
#спрячем данные в дамп pickle
with open('university_people_information', 'wb') as f:
     pickle.dump(university_people_information, f)

#если нужно открыть дамп из pickle
#with open('university_people_information', 'rb') as f:
    #candidate_people_information = pickle.load(f)

А теперь преобразуем полученный словарь в удобный датафрейм для последующей работы

In [82]:
# инициализируем датафрейм
people_information_df = pd.DataFrame()

# идем по всем кандидатам и соц-дему их подписчиков
for university, people in university_people_information.items():
    # преобразуем в словарь в датафрейм
    df = pd.DataFrame(people)
    # добавляем столбец с городом
    df['city'] = df.city.apply(lambda x: x['title'] if x is not np.nan else np.nan)
    # добавляем столбец с городом
    df['university'] = university
    # добавляем преобразованный датафрейм к финальному
    people_information_df = people_information_df.append(df, ignore_index=True)

  people_information_df = people_information_df.append(df, ignore_index=True)
  people_information_df = people_information_df.append(df, ignore_index=True)
  people_information_df = people_information_df.append(df, ignore_index=True)
  people_information_df = people_information_df.append(df, ignore_index=True)
  people_information_df = people_information_df.append(df, ignore_index=True)


In [83]:
people_information_df

Unnamed: 0,id,bdate,city,sex,first_name,last_name,can_access_closed,is_closed,university,university_name,faculty,faculty_name,graduation,home_town,education_form,education_status,deactivated
0,1257,19.10.1989,Sliema,2,Олег,Уржумцев,True,False,хайер скул оф мемс,,,,,,,,
1,1389,24.12.1986,Нижний Новгород,2,Иван,Безбородый,False,True,хайер скул оф мемс,,,,,,,,
2,2050,27.4,Санкт-Петербург,1,Катя,Лебедева,True,False,хайер скул оф мемс,НИУ ВШЭ - Санкт-Петербург,0.0,,2012.0,Ленинград,,,
3,2932,,Санкт-Петербург,2,Кирилл,Когортов,False,True,хайер скул оф мемс,,,,,,,,
4,4913,5.2.1984,Санкт-Петербург,1,Марина,Секачева,False,True,хайер скул оф мемс,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
248398,1026429726,27.8.1995,,2,Захар,Литвинов,False,True,Подслушано ИТМО,,,,,,,,banned
248399,1029386637,19.2.2011,,1,Олеся,Работа,True,False,Подслушано ИТМО,,,,,,,,banned
248400,1029757427,9.2.2006,,2,Василий,Солдатов,False,True,Подслушано ИТМО,,,,,,,,banned
248401,1030885157,,,2,Majid,A,True,False,Подслушано ИТМО,,,,,,,,


In [84]:
people_information_df.shape

(248403, 17)

In [85]:
people_information_df.to_csv('university-nonofficial.csv', sep=',')

In [86]:
people_information_df = pd.read_csv('university-nonofficial.csv')

In [87]:
people_information_df

Unnamed: 0.1,Unnamed: 0,id,bdate,city,sex,first_name,last_name,can_access_closed,is_closed,university,university_name,faculty,faculty_name,graduation,home_town,education_form,education_status,deactivated
0,0,1257,19.10.1989,Sliema,2,Олег,Уржумцев,True,False,хайер скул оф мемс,,,,,,,,
1,1,1389,24.12.1986,Нижний Новгород,2,Иван,Безбородый,False,True,хайер скул оф мемс,,,,,,,,
2,2,2050,27.4,Санкт-Петербург,1,Катя,Лебедева,True,False,хайер скул оф мемс,НИУ ВШЭ - Санкт-Петербург,0.0,,2012.0,Ленинград,,,
3,3,2932,,Санкт-Петербург,2,Кирилл,Когортов,False,True,хайер скул оф мемс,,,,,,,,
4,4,4913,5.2.1984,Санкт-Петербург,1,Марина,Секачева,False,True,хайер скул оф мемс,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
248398,248398,1026429726,27.8.1995,,2,Захар,Литвинов,False,True,Подслушано ИТМО,,,,,,,,banned
248399,248399,1029386637,19.2.2011,,1,Олеся,Работа,True,False,Подслушано ИТМО,,,,,,,,banned
248400,248400,1029757427,9.2.2006,,2,Василий,Солдатов,False,True,Подслушано ИТМО,,,,,,,,banned
248401,248401,1030885157,,,2,Majid,A,True,False,Подслушано ИТМО,,,,,,,,


## Преобразование данных

Меняем значения для гендера (переменная - sex)

In [88]:
#Способ 1. Текст
people_information_df['sex'] = np.where(people_information_df['sex']==1, 'Female', 'Male')

In [89]:
people_information_df['sex']

0           Male
1           Male
2         Female
3           Male
4         Female
           ...  
248398      Male
248399    Female
248400      Male
248401      Male
248402    Female
Name: sex, Length: 248403, dtype: object

In [90]:
#Способ 2. Булевы значения
people_information_df['sex_female'] = np.where(people_information_df['sex']==1, True, False)

In [91]:
#Способ 3. Метод replace
people_information_df['sex_female'] = np.where(people_information_df['sex']==1, True, False)

In [92]:
# Способ 4. Метод map
people_information_df['sex'] = people_information_df['sex'].map({1:'Female',2:'Male'})

In [None]:
#удаление лишних или мусорных столбцов
#people_information_df = people_information_df.drop(['sex_female'], axis=1)
#people_information_df

In [93]:
people_information_df

Unnamed: 0.1,Unnamed: 0,id,bdate,city,sex,first_name,last_name,can_access_closed,is_closed,university,university_name,faculty,faculty_name,graduation,home_town,education_form,education_status,deactivated,sex_female
0,0,1257,19.10.1989,Sliema,,Олег,Уржумцев,True,False,хайер скул оф мемс,,,,,,,,,False
1,1,1389,24.12.1986,Нижний Новгород,,Иван,Безбородый,False,True,хайер скул оф мемс,,,,,,,,,False
2,2,2050,27.4,Санкт-Петербург,,Катя,Лебедева,True,False,хайер скул оф мемс,НИУ ВШЭ - Санкт-Петербург,0.0,,2012.0,Ленинград,,,,False
3,3,2932,,Санкт-Петербург,,Кирилл,Когортов,False,True,хайер скул оф мемс,,,,,,,,,False
4,4,4913,5.2.1984,Санкт-Петербург,,Марина,Секачева,False,True,хайер скул оф мемс,,,,,,,,,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
248398,248398,1026429726,27.8.1995,,,Захар,Литвинов,False,True,Подслушано ИТМО,,,,,,,,banned,False
248399,248399,1029386637,19.2.2011,,,Олеся,Работа,True,False,Подслушано ИТМО,,,,,,,,banned,False
248400,248400,1029757427,9.2.2006,,,Василий,Солдатов,False,True,Подслушано ИТМО,,,,,,,,banned,False
248401,248401,1030885157,,,,Majid,A,True,False,Подслушано ИТМО,,,,,,,,,False


In [94]:
people_information_df['university'].unique()

array(['хайер скул оф мемс', 'Подслушано МГТУ им. Баумана', 'мемгу',
       'Подслушано ВШЭ', 'Подслушано ИТМО'], dtype=object)

## Определение возвраста пользователя по дате рождения

Дата рождения пользователей указана в разных форматах: не указана открыто (NaN), указаны день и месяц без года, указано польность дд.мм.гг. Для нормализации данных по этой переменной нам проще всего пойти путм разделения текст bdate на три столбца по символу "."

In [95]:
people_information_df['bdate'].str.split('.', expand=True)
#агрумент expand=True значит создание новых столбцов из разденного

Unnamed: 0,0,1,2
0,19,10,1989
1,24,12,1986
2,27,4,
3,,,
4,5,2,1984
...,...,...,...
248398,27,8,1995
248399,19,2,2011
248400,9,2,2006
248401,,,


пока мы никак не сохранили результат, а просто посмотрели, как это выглядит

Создаем вспомогательный датафрейм для извлечения информации о количестве лет пользователя, чтобы сохранить исходный датафрейм

In [96]:
df_bdate = people_information_df

In [97]:
#датафрейм df_ нужен для временного хранения данных о дате рождения в разных столбцах
df_ = df_bdate['bdate'].str.split('.', expand=True)

In [98]:
#объединяем два датарфрейиа по index
df_bdate = pd.concat([df_bdate, df_], axis=1)

In [99]:
df_bdate

Unnamed: 0.1,Unnamed: 0,id,bdate,city,sex,first_name,last_name,can_access_closed,is_closed,university,...,faculty_name,graduation,home_town,education_form,education_status,deactivated,sex_female,0,1,2
0,0,1257,19.10.1989,Sliema,,Олег,Уржумцев,True,False,хайер скул оф мемс,...,,,,,,,False,19,10,1989
1,1,1389,24.12.1986,Нижний Новгород,,Иван,Безбородый,False,True,хайер скул оф мемс,...,,,,,,,False,24,12,1986
2,2,2050,27.4,Санкт-Петербург,,Катя,Лебедева,True,False,хайер скул оф мемс,...,,2012.0,Ленинград,,,,False,27,4,
3,3,2932,,Санкт-Петербург,,Кирилл,Когортов,False,True,хайер скул оф мемс,...,,,,,,,False,,,
4,4,4913,5.2.1984,Санкт-Петербург,,Марина,Секачева,False,True,хайер скул оф мемс,...,,,,,,,False,5,2,1984
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
248398,248398,1026429726,27.8.1995,,,Захар,Литвинов,False,True,Подслушано ИТМО,...,,,,,,banned,False,27,8,1995
248399,248399,1029386637,19.2.2011,,,Олеся,Работа,True,False,Подслушано ИТМО,...,,,,,,banned,False,19,2,2011
248400,248400,1029757427,9.2.2006,,,Василий,Солдатов,False,True,Подслушано ИТМО,...,,,,,,banned,False,9,2,2006
248401,248401,1030885157,,,,Majid,A,True,False,Подслушано ИТМО,...,,,,,,,False,,,


In [100]:
df_bdate = df_bdate.rename(columns={0: 'day_bdate', 1: 'month_bdate', 2: 'year_bdate'})

In [101]:
df_bdate

Unnamed: 0.1,Unnamed: 0,id,bdate,city,sex,first_name,last_name,can_access_closed,is_closed,university,...,faculty_name,graduation,home_town,education_form,education_status,deactivated,sex_female,day_bdate,month_bdate,year_bdate
0,0,1257,19.10.1989,Sliema,,Олег,Уржумцев,True,False,хайер скул оф мемс,...,,,,,,,False,19,10,1989
1,1,1389,24.12.1986,Нижний Новгород,,Иван,Безбородый,False,True,хайер скул оф мемс,...,,,,,,,False,24,12,1986
2,2,2050,27.4,Санкт-Петербург,,Катя,Лебедева,True,False,хайер скул оф мемс,...,,2012.0,Ленинград,,,,False,27,4,
3,3,2932,,Санкт-Петербург,,Кирилл,Когортов,False,True,хайер скул оф мемс,...,,,,,,,False,,,
4,4,4913,5.2.1984,Санкт-Петербург,,Марина,Секачева,False,True,хайер скул оф мемс,...,,,,,,,False,5,2,1984
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
248398,248398,1026429726,27.8.1995,,,Захар,Литвинов,False,True,Подслушано ИТМО,...,,,,,,banned,False,27,8,1995
248399,248399,1029386637,19.2.2011,,,Олеся,Работа,True,False,Подслушано ИТМО,...,,,,,,banned,False,19,2,2011
248400,248400,1029757427,9.2.2006,,,Василий,Солдатов,False,True,Подслушано ИТМО,...,,,,,,banned,False,9,2,2006
248401,248401,1030885157,,,,Majid,A,True,False,Подслушано ИТМО,...,,,,,,,False,,,


In [None]:
#Фильтруем аудиторию по признаку открытости страницы
#df_bdate = df_bdate.loc[((df_bdate['can_access_closed'] == True))] 

In [102]:
#удаляем столбцы с днем и месяцем рождения, нам нужен только год
df_bdate = df_bdate.drop(['day_bdate', 'month_bdate'], axis=1)

In [103]:
df_bdate.isnull().sum()

Unnamed: 0                0
id                        0
bdate                 42942
city                  82590
sex                  248403
first_name                0
last_name              9063
can_access_closed         0
is_closed                 0
university                0
university_name      192965
faculty              169330
faculty_name         210781
graduation           169330
home_town            205437
education_form       229206
education_status     227205
deactivated          229631
sex_female                0
year_bdate           154572
dtype: int64

Удаляем все строки, если в столбце year_bdate NaN

In [104]:
df_bdate = df_bdate.dropna(subset=['year_bdate'])

In [105]:
df_bdate

Unnamed: 0.1,Unnamed: 0,id,bdate,city,sex,first_name,last_name,can_access_closed,is_closed,university,university_name,faculty,faculty_name,graduation,home_town,education_form,education_status,deactivated,sex_female,year_bdate
0,0,1257,19.10.1989,Sliema,,Олег,Уржумцев,True,False,хайер скул оф мемс,,,,,,,,,False,1989
1,1,1389,24.12.1986,Нижний Новгород,,Иван,Безбородый,False,True,хайер скул оф мемс,,,,,,,,,False,1986
4,4,4913,5.2.1984,Санкт-Петербург,,Марина,Секачева,False,True,хайер скул оф мемс,,,,,,,,,False,1984
5,5,6559,13.1.1984,Барнаул,,Федор,Клименко,True,False,хайер скул оф мемс,АлтГУ,3238.0,Филологический,2009.0,Барнаул - столица МИРА!!!,Очное отделение,Выпускник (специалист),,False,1984
6,6,8612,1.4.1996,Phuket,,Анастасия,Оболенская,True,False,хайер скул оф мемс,СПбГЭТУ «ЛЭТИ»,324.0,"Компьютерных технологий и информатики (ФКТИ, Ф...",2004.0,,Очное отделение,Выпускница (магистр),,False,1996
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
248397,248397,1026426427,25.4.2001,,,Андрей,Барсуков,False,True,Подслушано ИТМО,,,,,,,,banned,False,2001
248398,248398,1026429726,27.8.1995,,,Захар,Литвинов,False,True,Подслушано ИТМО,,,,,,,,banned,False,1995
248399,248399,1029386637,19.2.2011,,,Олеся,Работа,True,False,Подслушано ИТМО,,,,,,,,banned,False,2011
248400,248400,1029757427,9.2.2006,,,Василий,Солдатов,False,True,Подслушано ИТМО,,,,,,,,banned,False,2006


In [None]:
#df_bdate['age'] = year_today - df_bdate['year_bdate'].astype (int)

In [None]:
df_bdate.dtypes

In [None]:
df_bdate

Для вычисления возраста нам нужно от текущего года вычесть год рождения. Для этого переменная year_bdate должна быть числом

In [106]:
df_bdate['year_bdate'] = pd.to_numeric(df_bdate['year_bdate'], errors= 'coerce')

In [107]:
df_bdate.dtypes

Unnamed: 0             int64
id                     int64
bdate                 object
city                  object
sex                   object
first_name            object
last_name             object
can_access_closed       bool
is_closed               bool
university            object
university_name       object
faculty              float64
faculty_name          object
graduation           float64
home_town             object
education_form        object
education_status      object
deactivated           object
sex_female              bool
year_bdate             int64
dtype: object

In [108]:
df_bdate['age'] = 2024 - df_bdate['year_bdate']

In [109]:
df_bdate

Unnamed: 0.1,Unnamed: 0,id,bdate,city,sex,first_name,last_name,can_access_closed,is_closed,university,...,faculty,faculty_name,graduation,home_town,education_form,education_status,deactivated,sex_female,year_bdate,age
0,0,1257,19.10.1989,Sliema,,Олег,Уржумцев,True,False,хайер скул оф мемс,...,,,,,,,,False,1989,35
1,1,1389,24.12.1986,Нижний Новгород,,Иван,Безбородый,False,True,хайер скул оф мемс,...,,,,,,,,False,1986,38
4,4,4913,5.2.1984,Санкт-Петербург,,Марина,Секачева,False,True,хайер скул оф мемс,...,,,,,,,,False,1984,40
5,5,6559,13.1.1984,Барнаул,,Федор,Клименко,True,False,хайер скул оф мемс,...,3238.0,Филологический,2009.0,Барнаул - столица МИРА!!!,Очное отделение,Выпускник (специалист),,False,1984,40
6,6,8612,1.4.1996,Phuket,,Анастасия,Оболенская,True,False,хайер скул оф мемс,...,324.0,"Компьютерных технологий и информатики (ФКТИ, Ф...",2004.0,,Очное отделение,Выпускница (магистр),,False,1996,28
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
248397,248397,1026426427,25.4.2001,,,Андрей,Барсуков,False,True,Подслушано ИТМО,...,,,,,,,banned,False,2001,23
248398,248398,1026429726,27.8.1995,,,Захар,Литвинов,False,True,Подслушано ИТМО,...,,,,,,,banned,False,1995,29
248399,248399,1029386637,19.2.2011,,,Олеся,Работа,True,False,Подслушано ИТМО,...,,,,,,,banned,False,2011,13
248400,248400,1029757427,9.2.2006,,,Василий,Солдатов,False,True,Подслушано ИТМО,...,,,,,,,banned,False,2006,18


In [110]:
df_bdate['sex']

0         NaN
1         NaN
4         NaN
5         NaN
6         NaN
         ... 
248397    NaN
248398    NaN
248399    NaN
248400    NaN
248402    NaN
Name: sex, Length: 93831, dtype: object

In [111]:
df_bdate.groupby(
    by=['university'])[['age']].mean().sort_values(by='age', ascending=False)

Unnamed: 0_level_0,age
university,Unnamed: 1_level_1
Подслушано ИТМО,29.730833
Подслушано МГТУ им. Баумана,29.431502
Подслушано ВШЭ,28.675658
мемгу,26.921421
хайер скул оф мемс,26.841103


In [112]:
df_bdate.groupby(
    by=['sex'])[['age']].mean().sort_values(by='age', ascending=False)

Unnamed: 0_level_0,age
sex,Unnamed: 1_level_1


## Откуда аудитория - анализов городов

In [113]:
people_information_df['city'].unique()

array(['Sliema', 'Нижний Новгород', 'Санкт-Петербург', ..., 'Rabat',
       'Ḑubay`ah', 'ЦИК СССР'], dtype=object)

In [114]:
df['city'].nunique()

813

In [115]:
df_bdate.groupby(
    by=['city'])[['id']].count().sort_values(by='id', ascending=False).head(100)

Unnamed: 0_level_0,id
city,Unnamed: 1_level_1
Москва,37703
Санкт-Петербург,7680
Нижний Новгород,1014
Пермь,699
Казань,422
...,...
Баку,41
Ногинск,41
Тирасполь,41
Донецк,41
