# Регулярные выражения и парсинг социальных сетей

## 1. Регулярные выражения

Теперь начнем с регулярных выражений. Выучить регулярки можно за 10 минут:

переходим **СЮДА**: https://regexone.com/.

Особым любителям регулярок [сюда](https://alf.nu/RegexGolf).

Обязательно к прочтению дома:

* [Регулярные выражения, пособие для новичков. Часть 1](https://habr.com/ru/post/115825/)

* [Регулярные выражения, пособие для новичков. Часть 2](https://habr.com/ru/post/115436/)

* https://ru.wikipedia.org/wiki/Регулярные_выражения

Загружаем библиотеку для регулярных выражений:

In [23]:
import re

Правильный подход к вычислению регулярных выражений длинный и поэтапный:

 1. "Компиляция" регулярного выражения. На этом этапе "шаблон" преобразуется в сложный объект языка, содержащий в себе механизмы эффективного поиска ДАННОГО шаблона.
 2. "Применение" регулярного выражения к тексту. На этом этапе происходит обработка текста в объекте, созданном в пункте 1. 

1. Компиляция RE:

ничего удивительного, команда `re.compile()`, в скобках передаем само регулярное выражение

In [39]:
pattern = re.compile(r"[А-ЯЁ][а-яё]+")  # что означает эта регулярка?

2. Применение регулярного выражения:

In [41]:
text = "кот Василий выпил компот, а кот Ёван выпил лимонад"

result = pattern.findall(text)
print(result)

['Василий', 'Ёван']


Все тоже самое можно делать в одну строку:

In [42]:
result2 = re.findall(r"[А-ЯЁ][а-яё]+", text)
print(result2)

['Василий', 'Ёван']


Кроме `re.findall()` можно использовать `re.match()`, `re.finditer()`. Их можно изучить самостоятельно [тут](https://habr.com/ru/post/115825/). Мы же с вами рассмотрим автоматическую замену и деление по регулярному выражению.

1. Замена подстрок, найденных регуляркой на другую подстроку.

Команда: `re.sub("что заменяем", "на что заменяем", "где заменяем")`

Например, мы скачали много постов с ссылками и хотим эти ссылки удалить. А в тексте оставить строку "[здесь была ссылка]", чтобы мы всегда могли подсчитать, сколько ссылок было изначально.

In [86]:
text = """13 сентября будем ходить ходуном. Прямо  48asd7h во дворе Пауэрхауса. Всё, как обычно, только соскучившись. Новые песни, старые песни. Прыжки и кувырки. Радость и смех.
Такое надо в корне пресекать!
Билеты: https://sbp4band.ticketscloud.org 

Пожалуйста, планируйте приобретение билетов заранее. Высока вероятность, что продажа на входе осуществляться не будет"""

print(text)

13 сентября будем ходить ходуном. Прямо  48asd7h во дворе Пауэрхауса. Всё, как обычно, только соскучившись. Новые песни, старые песни. Прыжки и кувырки. Радость и смех.
Такое надо в корне пресекать!
Билеты: https://sbp4band.ticketscloud.org 

Пожалуйста, планируйте приобретение билетов заранее. Высока вероятность, что продажа на входе осуществляться не будет


In [87]:
text = re.sub(r"https://.+\b", "", text)

print(text)

13 сентября будем ходить ходуном. Прямо  48asd7h во дворе Пауэрхауса. Всё, как обычно, только соскучившись. Новые песни, старые песни. Прыжки и кувырки. Радость и смех.
Такое надо в корне пресекать!
Билеты:  

Пожалуйста, планируйте приобретение билетов заранее. Высока вероятность, что продажа на входе осуществляться не будет


А теперь, наконец-таки, мы научимся ПРАВИЛЬНО делить слова на предложения:

In [80]:
re.split(r"(.+?[\.!\?]{1,}\s)", text)

['',
 '13 сентября будем ходить ходуном. ',
 '',
 'Прямо во дворе Пауэрхауса. ',
 '',
 'Всё, как обычно, только соскучившись. ',
 '',
 'Новые песни, старые песни. ',
 '',
 'Прыжки и кувырки. ',
 '',
 'Радость и смех.\n',
 '',
 'Такое надо в корне пресекать!\n',
 'Билеты:  \n\n',
 'Пожалуйста, планируйте приобретение билетов заранее. ',
 'Высока вероятность, что продажа на входе осуществляться не будет']

In [82]:
[i.strip() for i in re.split(r"(.+?[\.!\?]{1,}\s)", text) if i.strip()]

['13 сентября будем ходить ходуном.',
 'Прямо во дворе Пауэрхауса.',
 'Всё, как обычно, только соскучившись.',
 'Новые песни, старые песни.',
 'Прыжки и кувырки.',
 'Радость и смех.',
 'Такое надо в корне пресекать!',
 'Билеты:',
 'Пожалуйста, планируйте приобретение билетов заранее.',
 'Высока вероятность, что продажа на входе осуществляться не будет']

_NB! Безусловно, это неидеальная регулярка для деления текста на предложения. Подумайте, как вы можете ее улучшить и какие ситуации она не покрывает?_

Существует регулярное выражение, позволяющее делить текст на слова (ну, точнее, находить слова в тексте):

In [88]:
re.findall(r"\w+", text)

['13',
 'сентября',
 'будем',
 'ходить',
 'ходуном',
 'Прямо',
 '48asd7h',
 'во',
 'дворе',
 'Пауэрхауса',
 'Всё',
 'как',
 'обычно',
 'только',
 'соскучившись',
 'Новые',
 'песни',
 'старые',
 'песни',
 'Прыжки',
 'и',
 'кувырки',
 'Радость',
 'и',
 'смех',
 'Такое',
 'надо',
 'в',
 'корне',
 'пресекать',
 'Билеты',
 'Пожалуйста',
 'планируйте',
 'приобретение',
 'билетов',
 'заранее',
 'Высока',
 'вероятность',
 'что',
 'продажа',
 'на',
 'входе',
 'осуществляться',
 'не',
 'будет']

**Задание:** напишите регулярное выражение, извлекающее все способы написания фамилии философа:

In [90]:
philosophy = """Киркегор -датский философ, богослов и писатель, один из предшественников экзистенциализма.
С. Кьеркегор окончил теологический факультет Копенгагенского университета в 1840 году. 
Степень магистра получил в 1841 году, защитив диссертацию “О понятии иронии, с постоянным обращением к Сократу”, посвященную концепциям иронии у древнегреческих авторов и романтиков. 
Работы С. Кьеркегора отличаются исключительной психологической точностью и глубиной. 
Вклад в развистие философии, сделанный Кьеркегаардом. неоценим.
Сёрен Киркегаард: немецкое издание Сёрена Киркегаарда.
Спецкурс “С. Керкегор и история христианства в XIX в.” посвящен датскому философу Серену Керкегору."""

In [125]:
# your code here
# "К[иеь]е?ркег[оа]{1,2}рд?[уао]?м?"
# "К[а-яё]+"
# "К\w+р\w+\b"
# "К[^о]\w+"

re.findall(r"К[^о]\w+", philosophy)

['Киркегор',
 'Кьеркегор',
 'Кьеркегора',
 'Кьеркегаардом',
 'Киркегаард',
 'Киркегаарда',
 'Керкегор',
 'Керкегору']

In [1]:
[i[0] for i in re.findall("(I love (cats|dogs))", "I love cats, I love dogs")]

NameError: name 're' is not defined

Самая короткая регулярка прибавляет 1 балл ко второй домашке (1 балл из финальных 10, 11 баллов за домашку тоже возможно)

#  2. Социальные сети

Вернемся к нашим баранам с прошлого семинара:

## VK

In [2]:
import json
import vk

In [3]:
token = "90f384c490f384c490f384c4a39080791d990f390f384c4cf969f9ca0718c325fdf3dfe"  # Сервисный ключ доступа
session = vk.Session(access_token=token)  # Авторизация
vk_api = vk.API(session)

Под рукой всегда должна быть документация https://vk.com/dev/methods

#### Найти участников сообщества:

In [4]:
from time import time
def get_members(groupid, fields=('sex', 'bdate', 'city', 'country', 'domain')):
    first = vk_api.groups.getMembers(group_id=groupid, fields=fields, v=5.92)  # Первое выполнение метода
    data = first["items"]  # Присваиваем переменной первую тысячу id'шников
    count = first["count"] // 1000  # Присваиваем переменной количество тысяч участников
    # С каждым проходом цикла смещение offset увеличивается на тысячу
    # и еще тысяча id'шников добавляется к нашему списку.
    for i in range(1, count+1):  
        data = data + vk_api.groups.getMembers(group_id=groupid, fields=fields, v=5.92, offset=i*1000)["items"]    
    time.sleep(3)
    return data

In [6]:
m = get_members("krovostok_official")

#### Выгрузить посты из сообщества:

In [132]:
def get_posts(owner_id):
    first = vk_api.wall.get(domain=owner_id, count=100, filter="owner", v=5.124)
    data = first["items"]  # Присваиваем переменной первую тысячу id'шников
    count = first["count"] // 100  # Присваиваем переменной количество тысяч участников
    # С каждым проходом цикла смещение offset увеличивается на тысячу
    # и еще тысяча id'шников добавляется к нашему списку.
    for i in range(1, count+1):  
        data += vk_api.wall.get(domain=owner_id, v=5.124, filter="owner", count=100, offset=i*100)["items"]
    return [i['text'] for i in data]

#### Поиск пабликов по запросу:

In [144]:
# https://vkhost.github.io/

personal_token = "380c3137f8f32fe09956adfa376750f3c32aeba4f238baf41f886c86b58cc8f1fb2a3deeed787e79de9cd"
session = vk.Session(access_token=personal_token)  # Авторизация
vk_personal_api = vk.API(session)  # Авторизация

Обратите внимание — даже при использовании параметра offset для получения информации доступны только первые 1000 результатов.

In [179]:
def get_groups(query):
    first = vk_personal_api.groups.search(q=query, count=1000, type="group", v=5.124)
    data = first["items"]  # Присваиваем переменной первую тысячу id'шников
    count = first["count"]
    return [(i['name'], i['id']) for i in data]

In [177]:
found_groups = get_groups("музыка")
len(found_groups)

1000

Великолепно. Мы собрали информацию по подписчикам, выгрузили все посты паблика и умеем искать паблики по запросу.

Теперь наша задача -- почистить данные с помощью регулярок и сохранить в файлы.

**Немного про ваш проект:** предполагается, что вы таким образом (или вручную) ищете и находите нужные вам паблики, далее для каждого паблика выгружаете нужную информацию: например, подписчиков (смотрите, из какого они города, их пол и возраст, строите графики) и посты (извлекаете информацию о концертах или об альбомах, клипах, и т.д.)

#### 1. get_groups

Для начала разберемся с найденным списком групп, сохраним его в файл:

In [155]:
my_groups = get_groups("французский")

In [156]:
with open("found_vk_groups.tsv", 'w', encoding="utf-8") as f:
    for group_name, group_id in my_groups:
        f.write(f"{group_name}\t{group_id}\n")

Теперь вы всегда можете его заново открыть и использовать в дальнейшем

#### 2. get_members

Теперь разберемся с подписчиками

In [160]:
sbp4_members = get_members("5722")
len(sbp4_members)

85492

In [189]:
with open("members.tsv", 'w', encoding='utf-8') as f:
    for member in sbp4_members:
        _id = member["id"]
        first_name = member["first_name"]
        last_name = member["last_name"]
        
        sex = member["sex"]
        if int(sex) == 1:
            sex = "F"
        elif int(sex) == 2:
            sex = "M"
        else:
            sex = "-"
            
        bdate = member.get('bdate', "-")
        if len(bdate.split(".")) == 3:
            bdate = bdate.split(".")[-1]
        else:
            bdate = "-"
        
        city = member.get('city', {}).get("title", "-")
        country = member.get('country', {}).get("title", "-")
        f.write(f"{_id},\t{first_name}\t{last_name}\t{sex}\t{bdate}\t{city}\t{country}\n")

#### 3. get_posts

и, наконец, с постами

In [163]:
sbp4_posts = get_posts("sbp4band")
len(sbp4_posts)

1110

In [168]:
# your regexps below
http_pattern = re.compile(r"https://.+\b")
user_tag_pattern = re.compile(r"\[.+?\]")

In [169]:
def clean_text(text):
    """
    удалить ссылки, удалить отметки пользователей, удалить переводы строк
    """
    text = re.sub(http_pattern, "WEBLINK", text)
    text = re.sub(user_tag_pattern, "USERTAG", text)
    text = text.replace("\n", " ")
    return text

In [174]:
with open("texts3333.txt", 'w', encoding="utf-8") as f:
    for post in sbp4_posts:
        cleaned = clean_text(post)
        f.write(cleaned+"\n")

**Задание:** Лемматизируйте тексты и запишите их в файл `lemmatized_texts.txt` (каждый пост на отдельной строке):

In [None]:
def lemmatize_text(text):
    m = Mystem()
    lemmas = m.lemmatize(text)
    lemmatized_text = ''.join(lemmas)
    return lemmatized_text

In [None]:
# your code here