# Сбор данных

### 1.3 Запросы

Доступ к веб-страницам позволяет получать модуль requests

In [1]:
from requests import get

import numpy as np
import pandas as pd
import time

In [2]:
page_link = "https://knowyourmeme.com/" # Сохраним адрес

In [3]:
response = get(page_link)
response

<Response [403]>

403-я ошибка выдается, если сервер доступен и способен обрабатывать запросы, но по некоторым причинам отказывается это делать

Проверим, как выглядел финальный запрос, отправленный нами на сервер

In [4]:
response.request.headers

{'User-Agent': 'python-requests/2.26.0', 'Accept-Encoding': 'gzip, deflate, br', 'Accept': '*/*', 'Connection': 'keep-alive'}

User-Agent: 'python-requests/2.26.0'. Мы дали понять серверу, что запрос исходит от библиотеки python-requests. Это вызвало у сервера подозрения относительно наших намерений и он решил вернуть ошибку 403

Можем притвориться более человечными

Используем библиотеку fake-useragent. При вызове метода из различных кусочков будет генерироваться случайное сочетание операционной системы, спецификаций и версии браузера, которые можно передавать в запрос

In [7]:
from fake_useragent import UserAgent

In [8]:
UserAgent().chrome

'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/531.0 (KHTML, like Gecko) Chrome/3.0.191.0 Safari/531.0'

In [9]:
response = get(page_link, headers={'User-Agent': UserAgent().chrome})
response

<Response [200]>

Ответ 200 - Соединение установлено и данные получены

In [11]:
html = response.content
html[:1000]

b"<!DOCTYPE html>\n<html xmlns:fb='https://www.facebook.com/2008/fbml' xmlns='https://www.w3.org/1999/xhtml'>\n<head>\n<meta content='text/html; charset=utf-8' http-equiv='Content-Type'>\n\n\n<meta property='og:title' content='Know Your Meme' />\n<meta property='og:site_name' content='Know Your Meme' />\n<meta property='og:image' content='https://s.kym-cdn.com/assets/kym-logo-large.png' />\n<meta property='og:image:width' content='600' />\n<meta property='og:image:height' content='315' />\n<meta property='og:type' content='article' />\n<meta property='fb:app_id' content='104675392961482' />\n<meta property='fb:pages' content='88519108736' />\n<meta property='article:publisher' content='https://www.facebook.com/knowyourmeme' />\n<meta name='twitter:card' content='summary_large_image' />\n<meta name='twitter:site' content='@knowyourmeme' />\n<meta name='twitter:creator' content='@knowyourmeme' />\n<meta name='twitter:title' content='Know Your Meme' />\n<meta name='twitter:description' co

### 1.4 Библиотека Beautiful Soup

BeautifulSoup - Библиотека, которая из необработанного HTML кода страницы создаёт структурированный массив данных, по которому удобно искать необходимые теги, классы, атрибуты, тексты и прочие элементы веб страниц.

In [13]:
from bs4 import BeautifulSoup

Передадим функции BeautifulSoup текст веб-страницы, которую скачали выше

In [14]:
soup = BeautifulSoup(html, 'html.parser')
soup

<!DOCTYPE html>

<html xmlns="https://www.w3.org/1999/xhtml" xmlns:fb="https://www.facebook.com/2008/fbml">
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="Know Your Meme" property="og:title">
<meta content="Know Your Meme" property="og:site_name"/>
<meta content="https://s.kym-cdn.com/assets/kym-logo-large.png" property="og:image"/>
<meta content="600" property="og:image:width"/>
<meta content="315" property="og:image:height"/>
<meta content="article" property="og:type"/>
<meta content="104675392961482" property="fb:app_id"/>
<meta content="88519108736" property="fb:pages"/>
<meta content="https://www.facebook.com/knowyourmeme" property="article:publisher"/>
<meta content="summary_large_image" name="twitter:card"/>
<meta content="@knowyourmeme" name="twitter:site"/>
<meta content="@knowyourmeme" name="twitter:creator"/>
<meta content="Know Your Meme" name="twitter:title"/>
<meta content="Know Your Meme" name="twitter:description"/>
<meta cont

Можем извлечь из переменной soup титульник сайта, который находится в блоке head

In [15]:
soup.html.head.title

<title>Internet Meme Database | Know Your Meme</title>

Можно извлечь непосредственно текст

In [16]:
soup.html.head.title.text

'Internet Meme Database | Know Your Meme'

Зная адрес элемента, мы можем сразу найти его. Можно сделать это по классу. След. команда должна найти элемент, который лежит внутри тега $а$ и имеет класс $newsfeed-title$

In [20]:
x = soup.find_all('a', {'class': 'newsfeed-title'})
[item.text for item in x]

["The Best Memes Of Shakira and Karol G New Song 'TQG'",
 '15 Pictures To Get You To Facepalm',
 "That Back Stretch Cammy Did In 'Street Fighter 6' Trailer Must Have Soooooo Good",
 'Careers',
 'The Coffin Dancers Remain A Classic Meme Two Years After Going Viral']

In [22]:
x = soup.find('a', {'class': 'newsfeed-title'})
x.get('href')

'/memes/shakira-and-karol-g-tqg-music'

Полученный после поиска объект обладает структурой bs4. Поэтому можно продолжить искать нудные нам объекты уже в нём. Извлечём ссылку на этот мем. Сделать это можно по атрибуту href, в котором лежит наша ссылка

In [23]:
type(x)

bs4.element.Tag

In [24]:
type(x.text)

str

$findall$ позволяет получить все объекты с параметрами в скобках (в нашем случае с определенным классом)

In [25]:
x = soup.find_all('a', {'class': 'newsfeed-title'})
meme_links = [meme.get('href') for meme in x]
meme_links[:3]

['/memes/shakira-and-karol-g-tqg-music',
 '/editorials/collections/15-pictures-to-get-you-to-facepalm',
 '/memes/cammy-stretch']

In [26]:
len(meme_links)

5

Но мы собираем ссылки только с первой страницы, на сайте страниц более 1000.

## 2. Собираем ссылки

После того, как мы скачали все ссылки с текущей страницы, нам нужно каким-то образом перейти на следующую страницу и скачать ссылки с неё.

Обычно, все параметры, которые мы устанавливаем на сацте для поиска, отражаются на структуре ссылки. Если мы хотим получить первую страницу с мемами, мы должны обратиться по ссылке

`https://knowyourmeme.com/page/1`

Если мы хотим получить вторую страницу, нам придется заменить номер страницы на 2

`https://knowyourmeme.com/page/2`

Так мы пройдемся по всем страницам

In [86]:
from typing import List, Tuple

def getPageLinks(page_number: int) -> List[str]:
    # составляем ссылку на страницу поиска
    page_link = 'https://knowyourmeme.com/page/{}'.format(page_number)
    
    # Запрашиваем данные по ней
    response = get(page_link, headers={'User-Agent': UserAgent().chrome})
    
    if not response.ok:
        # Если сервер нам отказал, то возвращаем пустой список для текущей страницы
        return []
    
    # получаем содержимое страницы
    html = response.content
    soup = BeautifulSoup(html, 'html.parser')
    
    # Ищем ссылки на мемы и очищаем их от ненужных тегов
    meme_links = soup.find_all('a', {'class':'newsfeed-title'})
    meme_links = ['https://knowyourmeme.com'+meme.get('href') for meme in meme_links]
    
    return meme_links

In [58]:
meme_links = getPageLinks(23)
meme_links[:2]

['https://knowyourmeme.com/editorials/collections/15-times-people-technically-told-the-truth',
 'https://knowyourmeme.com/news/social-media-creeped-out-again-by-youth-pastor-celebrating-that-his-wife-finally-turned-18']

In [30]:
len(meme_links)

5

Теперь мы можем достать ссылки на мемы на всех страницах сайта(13366 страниц). Но серверу будет плохо))))))


Чуть позже это сделаем

In [33]:
print('Всего соберем {} мемов'.format(13366*5))

Всего соберем 66830 мемов


## 3 Скачиваем информацию об одном меме

По аналогии со ссылками можно извлечь что угодно. Для этого надо сделать несколько шагов:
1. Открываем страничку с мемом
2. Находим любым способом тег для нужной информации
3. Вызываем Beautiful Soap
4. chill...
5. profit!

Извлечем число просмотров мема

In [47]:
meme_page = 'https://knowyourmeme.com/memes/doge'

response = get(meme_page, headers={'User-Agent':UserAgent().chrome})

html = response.content
soup = BeautifulSoup(html, 'html.parser')

In [48]:
type(soup)

bs4.BeautifulSoup

Посмотрим, как можно извлечь статистика просмотров комментариев, а также числа загруженных видео и фото, связанных с нашим мемом. Всё это хранится справа вверху под тегами `dd` и с классами `views`, `videos`, `photos`, `comments`

In [39]:
views = soup.find('dd', attrs={'class':'views'})
views

<dd class="views" title="14,026,823 Views">
<a href="/memes/doge" rel="nofollow">14,026,823</a>
</dd>

In [40]:
type(views)

bs4.element.Tag

In [41]:
views = views.find('a').text
views

'14,026,823'

In [42]:
views = int(views.replace(',',''))
views

14026823

Напишем функцию для сбора статистики.

In [50]:
def getStats(soup: BeautifulSoup, stats: str) -> int:
    
    try:
        obj = soup.find('dd', {'class': stats})
        obj = obj.find('a').text
        obj = int(obj.replace(',',''))
    except:
        obj = None
    return obj

In [59]:
views = getStats(soup, stats='views')
videos = getStats(soup, stats='videos')
comments = getStats(soup, stats='comments')
photos = getStats(soup, stats='photos')

print("Просмотры: {}\nВидео: {}\nФото: {}\nКомментарии: {}".format(views, videos, photos, comments))

Просмотры: 14027123
Видео: 104
Фото: 1791
Комментарии: 924


Также исследователю может быть интересно - дата и время добавления мема. Если посмотреть на страницу, можно подумать, что максимум информации, которую мы можем извлечь - это число лет, прошедших с момента публикации. Однако посмотрим что находится в html-коде страницы.

Да, там есть эти подробности

In [62]:
date = soup.find('abbr', {'class':'timeago'}).attrs['title']
date

'2021-05-25T15:42:58-04:00'

Как только парсер встречает отсутствие какого-либо элемента, который мы собираем, он выдаёт ошибку и останавливается. Чтобы нормально собрать все данные, приходится писать исключения. Для этого используем конструкцию `try-except`

Например, мы хотим извлечь статус мема, для этого найдем окружающие его теги

In [75]:
info = soup.find('aside', {'class':'left'})
meme_status = info.dl.dd

In [77]:
meme_status.text.strip()

'Confirmed'

Однако, если выяснится, что у мема нет статуса, метод `find` вернет пустотую. Метод `text` в свою очередь, не сможет найти в тегах текст и выдаст ошибку. Есть 2 способа обработать ошибку

In [80]:
meme_status = None
# Первый способ try... except
try:
    print(meme_status.text.strip())
# Если возникает ошибка, статус не найден, выдаем пустоту
except:
    print("Exception")
    
# Второй способ if... else
if meme_status:
    print(meme_status.text.strip())
else:
    print("Exception")

Exception
Exception


Такой код позволяет обезопасть себя от ошибок во время работы кода. 

In [79]:
properties = soup.find('aside', attrs={'class':'left'})
meme_status = properties.find('dd')

meme_status = "Empty" if not meme_status else meme_status.text.strip()
print(meme_status)

Confirmed


По аналогии можно извлечь всю остальную информацию со страницы

In [99]:
def getProperties(soup: BeautifulSoup) -> Tuple[str]:
    # название - заголовок уровня h1
    meme_name = (
        soup
        .find('section', {'class':'info'})
        .find('h1')
        .text
        .strip()
        )
    # Достаём все данные справа от картинки
    properties = soup.find('aside', {'class':'left'})
    
    # Статус идет первым - можно не уточнять класс
    meme_status = properties.find('dd')
    # Обработка пустых данных
    meme_status = "" if not meme_status else meme_status.text.strip()
    
    # Тип мема - обладает уникальным классом
    meme_type = properties.find('a', {'class':'entry-type-link'})
    meme_type = "" if not meme_type else meme_type.text
    
    # Год происхождения
    meme_origin_year = properties.find(text='\nYear\n')
    meme_origin_year = "" if not meme_origin_year else meme_origin_year.parent.find_next()
    meme_origin_year = meme_origin_year.text.strip()
    
    # Сам первоисточник
    meme_origin_place = properties.find('dd', attrs={'class':'entry_origin_link'})
    meme_origin_place = "" if not meme_origin_place else meme_origin_place.text.strip()
    
    # Теги
    meme_tags = properties.find('dl', {'id':'entry_tags'}).find('dd')
    meme_tags = "" if not meme_tags else meme_tags.text.strip()
    return meme_name, meme_status, meme_type, meme_origin_year, meme_origin_place, meme_tags


In [100]:
getProperties(soup)

('Doge',
 'Confirmed',
 'Animal',
 '2010',
 'Tumblr',
 'animal, dog, shiba inu, shibe, such doge, super shibe, japanese, super, tumblr, much, very, many, comic sans, photoshop meme, such, shiba, shibe doge, doges, dogges, reddit, comic sans ms, tumblr meme, hacked, bitcoin, dogecoin, shitposting, stare, canine')

Свойства мема собрали. Теперь собираем по аналогии его текстовое описание

In [95]:
def getText(soup: BeautifulSoup) -> Tuple[str]:
    # достаём все тексты под картинкой
    body = soup.find('section', {'class':'bodycopy'})
    
    # раздел about (если есть), должен идти первым, берем его без уточнения класса
    meme_about = body.find('p')
    meme_about = "" if not meme_about else meme_about.text
    
    # раздел origin можно найти после заголовка Origin или History,
    # находим заголовок, определяем родителя и ищем следущего ребенка - наш раздел
    meme_origin = body.find(text='Origin') or body.find(text='History')
    meme_origin = "" if not meme_origin else meme_origin.parent.find_next().text
    
    # Весь остальной текст (если есть) можно положить в одно текстовое поле
    if body.text:
        other_text = body.text.strip().split('\n')[4:]
        other_text = " ".join(other_text).strip()
    else:
        other_text = ""
    
    return meme_about, meme_origin, other_text

In [98]:
meme_about, meme_origin, other_text = getText(soup)

print("О чем мем:\n{}\nПроисхождение:\n{}\nОстальной текст:\n{}..."
      .format(meme_about, meme_origin, other_text[:150]))

О чем мем:
Doge (pronounced /ˈdoʊdʒ/ DOHJ) is a slang term for "dog" that is primarily associated with pictures of Shiba Inus (nicknamed "Shibe") and internal monologue captions on Tumblr. These photos may be photoshopped to change the dog's face or captioned with interior monologues in Comic Sans font. Starting in 2017, Ironic Doge formats gained prevalence over the original wholesome version.
Происхождение:
The use of the misspelled word "doge" to refer to a dog dates back to June 24th, 2005, when it was mentioned in an episode of Homestar Runner's puppet show. In the episode titled "Biz Cas Fri 1"[2], Homestar calls Strong Bad his "d-o-g-e" while trying to distract him from his work.
Остальной текст:
The use of the misspelled word "doge" to refer to a dog dates back to June 24th, 2005, when it was mentioned in an episode of Homestar Runner's puppet...


Наконец, создадим функцию, возвращающую всю информацию по текущему мему

In [113]:
def getMemeData(meme_page: str):
    # Запрашиваем данные по ссылке
    response = get(meme_page, 
                    headers={'User-Agent': UserAgent().chrome})
    
    if not response.ok:
        return response.status_code
    
    # Получаем содержимое страницы
    html = response.content
    soup = BeautifulSoup(html, 'html.parser')
    
    # Используем ранее написанные функции
    views = getStats(soup, stats='views')
    videos = getStats(soup, stats='videos')
    photos = getStats(soup, stats='photos')
    comments = getStats(soup, stats='comments')
    
    # Дата
    date = soup.find('abbr', {'class':'timeago'}).attrs['title']
    
    # Имя, статус и т.д.
    meme_name, meme_status, meme_type, meme_origin_year, meme_origin_place, meme_tags = getProperties(soup)
    
    # Текстовые поля
    meme_about, meme_origin, other_text = getText(soup)
    
    # Составляем словарь, в котором будут хранится все данные
    data_row = {'name':meme_name, 'status':meme_status,
               'type':meme_type, 'origin_year':meme_origin_year,
                'origin_place':meme_origin_place,
                'date_added':date, 'views':views,
                'videos':videos, 'photos':photos, 'comments':comments,
                'tags':meme_tags,
                'about':meme_about, 'origin':meme_origin, 'other_text':other_text
               }
    return data_row

In [114]:
data_row = getMemeData('https://knowyourmeme.com/memes/doge')

In [115]:
data_row

{'name': 'Doge',
 'status': 'Confirmed',
 'type': 'Animal',
 'origin_year': '2010',
 'origin_place': 'Tumblr',
 'date_added': '2021-05-25T15:42:58-04:00',
 'views': 14027123,
 'videos': 104,
 'photos': 1791,
 'comments': 924,
 'tags': 'animal, dog, shiba inu, shibe, such doge, super shibe, japanese, super, tumblr, much, very, many, comic sans, photoshop meme, such, shiba, shibe doge, doges, dogges, reddit, comic sans ms, tumblr meme, hacked, bitcoin, dogecoin, shitposting, stare, canine',
 'about': 'Doge (pronounced /ˈdoʊdʒ/ DOHJ) is a slang term for "dog" that is primarily associated with pictures of Shiba Inus (nicknamed "Shibe") and internal monologue captions on Tumblr. These photos may be photoshopped to change the dog\'s face or captioned with interior monologues in Comic Sans font. Starting in 2017, Ironic Doge formats gained prevalence over the original wholesome version.',
 'origin': 'The use of the misspelled word "doge" to refer to a dog dates back to June 24th, 2005, when i

Теперь подготовим табличку, чтобы в неё записывать все данные, добавим в неё первую полученную строку

In [116]:
final_df = pd.DataFrame(columns=['name','status','type','origin_year',
                                'origin_place','date_added','views',
                                'videos','photos','comments',
                                'tags','about','origin','other_text'])

In [117]:
final_df = final_df.append(data_row, ignore_index=True)

In [118]:
final_df

Unnamed: 0,name,status,type,origin_year,origin_place,date_added,views,videos,photos,comments,tags,about,origin,other_text
0,Doge,Confirmed,Animal,2010,Tumblr,2021-05-25T15:42:58-04:00,14027123,104,1791,924,"animal, dog, shiba inu, shibe, such doge, supe...",Doge (pronounced /ˈdoʊdʒ/ DOHJ) is a slang ter...,"The use of the misspelled word ""doge"" to refer...","The use of the misspelled word ""doge"" to refer..."


## 4. Итоговый цикл

Осталось написать итоговый цикл. Обернем его в `try-except`

In [121]:
from tqdm import tqdm_notebook # Бегунок при скачке

In [122]:
meme_links

['https://knowyourmeme.com/editorials/collections/15-times-people-technically-told-the-truth',
 'https://knowyourmeme.com/news/social-media-creeped-out-again-by-youth-pastor-celebrating-that-his-wife-finally-turned-18',
 'https://knowyourmeme.com/news/microsoft-announcing-cod-on-nintendo-consoles-leads-to-clowning-the-nintendo-switch',
 'https://knowyourmeme.com/memes/ai-joe-rogan-experience-parodies',
 'https://knowyourmeme.com/editorials/guides/who-is-the-serbian-dancing-lady-and-is-she-real-explained']

In [125]:
for meme_link in tqdm_notebook(meme_links):
    try:
        data_row = getMemeData(meme_link)
        final_df = final_df.append(data_row, ignore_index=True)
    except:
        print(meme_link)

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for meme_link in tqdm_notebook(meme_links):


  0%|          | 0/5 [00:00<?, ?it/s]

https://knowyourmeme.com/editorials/collections/15-times-people-technically-told-the-truth
https://knowyourmeme.com/news/social-media-creeped-out-again-by-youth-pastor-celebrating-that-his-wife-finally-turned-18
https://knowyourmeme.com/news/microsoft-announcing-cod-on-nintendo-consoles-leads-to-clowning-the-nintendo-switch
https://knowyourmeme.com/editorials/guides/who-is-the-serbian-dancing-lady-and-is-she-real-explained


В итоге собрали данные только с одного мема, т.к. остальные ссылки - это новости, видео, картинки и т.д.

In [127]:
final_df.head()

Unnamed: 0,name,status,type,origin_year,origin_place,date_added,views,videos,photos,comments,tags,about,origin,other_text
0,Doge,Confirmed,Animal,2010,Tumblr,2021-05-25T15:42:58-04:00,14027123,104,1791,924,"animal, dog, shiba inu, shibe, such doge, supe...",Doge (pronounced /ˈdoʊdʒ/ DOHJ) is a slang ter...,"The use of the misspelled word ""doge"" to refer...","The use of the misspelled word ""doge"" to refer..."
1,AI Joe Rogan Experience Parodies,Submission,Parody,2023,Twitter,2023-02-22T13:53:09-05:00,3335,3,1,5,"ai, joe rogan, ben shapiro, ratatouille, voice...",AI Joe Rogan Experience Parodies are a genre o...,Early 2023 saw the development of several AI p...,"Following this, the format of AI-generating th..."


Код ниже лучше не запускать (много страниц и не очень эффективно)

In [None]:
from tqdm import tqdm_notebook # Бегунок при скачке

final_df = pd.DataFrame(columns=['name','status','type','origin_year',
                                'origin_place','date_added','views',
                                'videos','photos','comments',
                                'tags','about','origin','other_text'])

for page_number in tqdm_notebook(range(13366), desc='Pages'):
    
    # Собрали ссылки с текущей страницы
    meme_links = getPageLinks(page_number)
    
    for meme_link in tqdm_notebook(meme_links, desc='Memes', leave=False):
        
        # Иногда с первого раза страничка не прогружается
        for i in range(5):
            try:
                # Пытаемся собрать данные
                data_row = getMemeData(meme_link)
                final_df = final_df.append(data_row, ignore_index=True)
                # Если всё получилось - выходим из внутреннего цикла
                break
            except:
                # Иначе пробуем еще несколько раз, пока не закончатся попытки
                print('Err. ', meme_link)
                continue


#### Более подробно изучай сайт, на примере выше мы собираем с главной страницы информацию, а могли использовать вкладку memes

## 5. Проблемы с сервером

- Вы решили собрать немного данных
- Сервер не в восторге от ковровой бомбардировки автоматическими запросами
- Error 403, 404, 504, ...
- Капча, требования зарегистрироваться
- Заботливые сообщения, что с вашего устройства обнаружен подозрительный трафик

#### Будь терпеливым)

- Слишком частые запросы раздражают сервер
- Ставьте между запросами временные задержки
- Сервер любит временные задержки, т.к. боится сломаться от перегрузок

In [129]:
import time
time.sleep(3) # Отдохни 3 секунды

#### Общайся через посредника

Например через прокси

In [None]:
proxies = {
    'http':'182.53.206.47:47592',
    'https':'182.53.206.47:47592'
}

r = requests.get('https://httpbin.org/ip', proxies=proxies)

print(r.json())

Запрос работал немного подольше, ip адрес сменился. Большая часть прокси-серверов работают плохо. Иногда запрос идёт очень долго и выгоднее сбросить его. Это можно настроить опцией `timeout`. Например, так если сервер не будет отвечать секунду, код перестаёт работать

In [None]:
import requests
requests.get('http://www.google.com', timeout=1)

#### Уходим глубже

Можно попытаться обходить злые сервера через тор

#### Совместим всё

- Начните с простых приёмов, например с `time.sleep`
- Новые приемы
- Каждый приём замедляет скорость работы
- Использовать способы из библиотеки `requests` (http://docs.python-requests.org/en/v0.10.6/user/advanced/)

Напоследок, хотелось бы сказать пару слов о парсинге вообще и при помощи Тора в частности. Собирать себе данные самостоятельно - это стильно, модно и в принципе интересно, можно получить наборы, которых еще никто никогда не обрабатывал, сделать что-то новое, посмотреть, наконец, на все мемы мира сразу. Однако не стоит забывать, что ограничения, введенные сервером, в том числе баны, появились не просто так, а в целях защиты сайта от DDoS-атак. К чужому труду стоит относится с уважением, и даже если у сервера никакой защиты нет, - это еще не повод неограниченно забрасывать его своими запросами, особенно если это может привести к его отключению - [уголовное наказание](http://sd-company.su/article/security/ddosataka-ugolovnaya-otvetstvennost) никто не отменял. Успешных и безопасных вам исследований!

[Парсим мемы в python](https://habr.com/ru/company/ods/blog/346632/) - подробная статья на Хабре

[Продвинутое использование requests](https://2.python-requests.org/en/master/user/advanced/)

[Репозиторий](https://github.com/DmitrySerg/memology) с исследованием мемов