## Общее описание:

С помощью библиотеки requests, BeautifulSoup, UserAgent и time будем собирать данные с портала с мемами для последующего анализа. Ссылка на сайт:
https://memepedia.ru/memoteka/
<br><br>
По каждому мему будем собирать следующую информацию:

- `название мема` 
- `кол-во просмотров мема` 
- `автор мема` 
- `дата создания мема`
- `происхождение мема`
- `значение мема`


### План

**1. Подготовка к работе. Импорт необходимых библиотек и отправка запроса на сайт**
   
**2. Создание функции для сбора ссылок на мемы на каждой странице портала**

**3. Создание функции для сбора св-в мема (название, просмотры и дата появления)**

**4. Создание функции для сбора данных о значении и происхождении мема**

**5. Создание цикла по обходу страниц сайта и мемов с каждой страницы. Создание датафрейма**



<hr style='border: 1px solid'>

## 1. Подготовка к работе. Импорт необходимых библиотек

In [84]:
from fake_useragent import UserAgent
import requests
import time
import pandas as pd
from bs4 import BeautifulSoup
from tqdm.notebook import tqdm
from random import randint

In [3]:
# Создаем переменную с фейковым UserAgent для отправки запросов на портал

ua = UserAgent().random

In [5]:
# Создаем переменную сайта

link = 'https://memepedia.ru/memoteka/'

In [6]:
# Создаем объект response, содержащий ответ на запрос на сайт

response = requests.get(link, headers = {'User-Agent':ua })

In [7]:
response.ok

True

In [8]:
# С помощью BeautifulSoup и ответа сервера создаем дерево для парсинга страницы сайта

soup = BeautifulSoup(response.text, 'lxml')

In [9]:
soup.body

<body class="bp-legacy page-template-default page page-id-19596 zombify-light no-sidebar badge-text-angle badges-inside-left bb-stretched-view essb-7.9 no-js"><div id="mobile-nav-bg"></div><div class="bb-mobile-navigation" id="mobile-navigation">
<button class="close" id="menu-close">
<i class="bb-icon bb-ui-icon-close"></i>
</button><div class="holder"><div class="more-menu"><div class="more-menu-header"></div>
<nav class="main-navigation"><ul class="" id="menu-osnovnoe"><li class="menu-item menu-item-type-post_type menu-item-object-page current-menu-item page_item page-item-19596 current_page_item menu-item-81923" id="menu-item-81923"><a href="https://memepedia.ru/memoteka/">Мемотека</a></li><li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-19500" id="menu-item-19500"><a href="https://memepedia.ru/category/articles/">Статьи</a></li><li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-2925" id="menu-item-2925"><a href="https:/

<hr style='border: 1px solid'>

## 2. Создание функции для сбора ссылок на информацию о меме на каждой странице портала

In [15]:
def get_page_links(p_number):
    page_link = f'https://memepedia.ru/memoteka/page/{p_number}'
    
    response = requests.get(page_link, headers = {'User-Agent':UserAgent().random })
    
    # В случае плохого ответа сервера возвращаем пустой массив
    
    if not response.ok:
        return []
    
    html = response.text
    soup = BeautifulSoup(html,'lxml')
    
    # На каждой страницы портала ссылки на каждый мем содержатся внутри тега ul.
    # Находим его и кладем в переменную block
    
    block = soup.find('ul',id='post-items')
    
    # Находим внутри block списки мемов
    
    mems = block.find_all('li',class_='post-item post-item-masonry-boxed')
    
    # Достаем из список ссылки на мем
    
    links = [link.find('div',class_="post-thumbnail").find('a').get('href') for link in mems]
    
    # Возвращаем список со ссылками на мемы
    
    return links

In [16]:
# Проверяем работу функции - собираем ссылки с первой странциы

links = get_page_links(1)

In [17]:
links

['https://memepedia.ru/ispugannaya-sobaka/',
 'https://memepedia.ru/davaj-ispravlyaj-moyu-zhizn/',
 'https://memepedia.ru/chipi-chipi-chapa-chapa/',
 'https://memepedia.ru/xomyak-v-shlyape/',
 'https://memepedia.ru/ix-vil-nixt/',
 'https://memepedia.ru/tinkov-ocenivaet/',
 'https://memepedia.ru/kozel-i-kot/',
 'https://memepedia.ru/potomu-chto-ponabirayut-vsyakix-dolboebov/',
 'https://memepedia.ru/damy-i-gospoda-shvarcenegger-v-kostyume/',
 'https://memepedia.ru/kot-xrustit/',
 'https://memepedia.ru/ni-mozgov-ni-deneg/',
 'https://memepedia.ru/vlitsya-v-obshhestvo-ili-byt-schastlivym/',
 'https://memepedia.ru/britni-spirs-tancuet-s-nozhami/',
 'https://memepedia.ru/surprise-surprise/',
 'https://memepedia.ru/chelovek-pauk-i-ego-temnaya-storona/',
 'https://memepedia.ru/tolstyak-est-piccu-i-bet-alligatora/',
 'https://memepedia.ru/kevin-dzhejms-uxmylyaetsya/',
 'https://memepedia.ru/samouverennyj-sharikov/']

In [18]:
meme_page = 'https://memepedia.ru/magshot-donalda-trampa/'

In [19]:
response = requests.get(meme_page, headers = {'User-Agent':UserAgent().random })

html = response.text
soup = BeautifulSoup(html,'lxml')

In [20]:
soup

<!DOCTYPE HTML>
<html lang="ru-RU" prefix="og: http://ogp.me/ns# fb: http://ogp.me/ns/fb#"><head> <script async="" src="https://yandex.ru/ads/system/header-bidding.js" type="e21a82a1e249c74416f1b7e8-text/javascript"></script> <script src="https://ads.digitalcaramel.com/js/memepedia.ru.js" type="e21a82a1e249c74416f1b7e8-text/javascript"></script> <script type="e21a82a1e249c74416f1b7e8-text/javascript">window.yaContextCb=window.yaContextCb||[]</script> <script async="" src="https://yandex.ru/ads/system/context.js" type="e21a82a1e249c74416f1b7e8-text/javascript"></script> <link href="https://memepedia.ru/wp-content/themes/boombox-child/memepedia-icon.ico" rel="shortcut icon" type="image/x-icon"/><link href="https://memepedia.ru/wp-content/themes/boombox-child/memepedia-icon.png" rel="icon"/><meta charset="utf-8"/><meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no" name="viewport"/><style id="kirki-css-vars">:root{}</style><title>Магшот Дональда Трамп

<hr style='border: 1px solid'>

## 3. Создание функции для сбора св-в мема (название, просмотры и дата появления)

In [36]:
def get_properties(soup):
    
        # Находим внутри объекта с деревом HTML разметки страницы с мемом тег главого заголовка
        # и достаем его содержание
    
        name = soup.find('h1',class_='entry-title s-post-title bb-mb-el')
        name = '' if not name else name.text
        
        # Находим тег с кол-вом просмотров мема внутри тега с классом col-r d-table-cell

        views = soup.find('div',class_='col-r d-table-cell col-md-6 col-sm-6 text-right-sm text-right'). \
        find('span',class_='count')
        views = '' if not views else int(views.text.replace('.','').replace('k','00'))
        
        # Находим внутри тега div с классом author-info тег span с классом auth-name 
       
        auth_name = soup.find('div',class_='author-info').find('span',class_='auth-name')
        auth_name = '' if not auth_name else auth_name.text.strip()
        
        # Находим дату создания мема - внутри тега span с классом auth-posted-on
    
        date = soup.find('div',class_='author-info').find('span',class_='auth-posted-on')
        date = '' if not date else date.text.strip().split(' ')[0]
        
        # Возвращаем словарь с полученными данными
        
        return {'name': name, 'views': views, 'auth_name': auth_name, 'date':date}

## собираем описание мема

In [59]:
def get_description_mem2(soup):
        l = []
        d = {}
        section = soup.find('div',class_="js-mediator-article s-post-content s-post-small-el bb-mb-el")
        
        s = section.findChildren()
        
        
           
        return s[0].text

In [60]:
get_description_mem2(soup)

'Магшот Дональда Трампа (Тюремное фото Дональда Трампа, Donald Trump’s Mugshot) – мем на основе фотографии Дональда Трампа, сделанной во время его ареста.'

<hr style='border: 1px solid'>

## 4. Создание функции для сбора данных о значении и происхождении мема

In [61]:
def get_description_mem(soup):
        # Создаем пустой список, в который будем класть данные мема
        # Создаем также словарь, который будем возвращать с данными мема
        
        l = []
        d = {}
        
        section = soup.find('div',class_="js-mediator-article s-post-content s-post-small-el bb-mb-el")
        
        s = section.findChildren()
        
        # Проходимся в цикле по тегам-потомкам основного блока с информацией о меме и собираем нужные данные
        
        for child in s:
            if s.index(child) == 0:
                l.append({'descr':child.text})
            
            if child.text == 'Происхождение':
                l.append({'origin':child.next_sibling.text})
            
            if child.text == 'Значение':
                l.append({'meaning': child.next_sibling.text})
            else:
                pass
        
        for v in l:
            d.update(v)
        return d



In [65]:
# На основе созданных выше функций создаем единую функцию

def get_mem_data(meme_page):
    response = requests.get(meme_page, headers = {'User-Agent':UserAgent().random })
    
    if not response.ok:
        return response.status_code
    
    html = response.text
    soup = BeautifulSoup(html,'lxml')
    
    properties = get_properties(soup=soup)
    
    description = get_description_mem(soup=soup)
    
    properties.update(description)
    
    # Кладем в словарь properties данные о меме
    
    return properties

In [66]:
# Проверяем работу функции на примере мема с Д. Трампом

result = get_mem_data('https://memepedia.ru/magshot-donalda-trampa/')

In [82]:
result

{'name': 'Магшот Дональда Трампа',
 'views': 5900,
 'auth_name': 'Mememaster',
 'date': '26.08.2023',
 'descr': 'Магшот Дональда Трампа (Тюремное фото Дональда Трампа, Donald Trump’s Mugshot) – мем на основе фотографии Дональда Трампа, сделанной во время его ареста.',
 'origin': '24 августа 2023 года\xa0офис шерифа округа Фултон опубликовал официальную фотографию Дональда Трампа из тюрьмы. Бывший президент США\xa0сдался властям после обвинений в попытке повлиять на итоги выборов 2020 года. Фото стало первым в истории магшотом президента США.',
 'meaning': 'Магшот Дональда Трампа – это фото с суровым экс-президентом США. Героя пикчи сравнивают с другими персонажами, которые смотрят исподлобья. Также много абстрактных мемов, карикатур и коллажей.'}

<hr style='border: 1px solid'>

## 5. Создание цикла по обходу страниц сайта и мемов с каждой страницы. Создание датафрейма



In [85]:
# Создаем основу для будущего датафрейма - в качестве названий столбцов возьмем ключи получившегося словаря

final_df = pd.DataFrame(columns=list(result.keys()))

# Проходимся циклом по первым 10 страницам сайта, чтобы сервер не забанил за частые запросы - 
# с помощью библиотеки time и функции sleep устанавливаем паузу от 3 до 6 секунд между выполнением кода по сбору данных

for page_number in tqdm(range(1,10), desc='Pages'):
    time.sleep(randint(3,6))
    
    # кладем в переменную meme_links результат сбора ссылок на мемы с каждой из страниц
    
    meme_links = get_page_links(page_number)
    
    # Открываем каждую из ссылок с мемами и собираем данные о меме
    
    for meme_link in tqdm(meme_links, desc='Memes', leave='False'):
        time.sleep(randint(3,8))
        
        for i in range(2):
            try:
                data_row = get_mem_data(meme_link)
                
                # Заполняем датафейм собранными данными
                
                final_df = pd.concat([final_df, pd.DataFrame(data_row, index=[0])], ignore_index=True)
                break
                
            except:
                print('Пытаемся снова!', meme_link)
                continue

Pages:   0%|          | 0/9 [00:00<?, ?it/s]

Memes:   0%|          | 0/18 [00:00<?, ?it/s]

Memes:   0%|          | 0/18 [00:00<?, ?it/s]

Memes:   0%|          | 0/18 [00:00<?, ?it/s]

Memes:   0%|          | 0/18 [00:00<?, ?it/s]

Memes:   0%|          | 0/18 [00:00<?, ?it/s]

Memes:   0%|          | 0/18 [00:00<?, ?it/s]

Memes:   0%|          | 0/18 [00:00<?, ?it/s]

Memes:   0%|          | 0/18 [00:00<?, ?it/s]

Memes:   0%|          | 0/18 [00:00<?, ?it/s]

In [86]:
final_df

Unnamed: 0,name,views,auth_name,date,descr,origin,meaning
0,Испуганная собака,180,Mememaster,23.12.2023,"Испуганная собака (I’m listening dog, confused...",Мемного пса зовут Ригли (Rigley). У него есть ...,"Чаще всего мем “Испуганная собака” используют,..."
1,"Давай, исправляй мою жизнь",158,Mememaster,23.12.2023,"Давай, исправляй мою жизнь (Ну же, сделай что-...","Рисунок, ставший шаблоном для мема, появился е...",Мем с белым ниндзей в оригинальном виде высмеи...
2,Чипи Чипи Чапа Чапа,1200,Axelots,22.12.2023,Чипи Чипи Чапа Чапа – запоминающийся припев из...,Путь трека к популярности начался благодаря ан...,"Мем “Чипи чипи чaпа чaпа” – это вирусный трек,..."
3,Хомяк в шляпе,7100,Mememaster,09.12.2023,Хомяк в шляпе – мем по мотивам треда из твитте...,7 декабря 2023 года пользовательница твиттера ...,"Мем “хомяк в шляпе” – это ситуационный мем, ос..."
4,Их виль нихт,41100,Mememaster,30.11.2023,"Их виль нихт – мем с волком, танцующим под пес...",Трек Komm tanzen? Ich will nicht (Ком танзен? ...,Мем “Их виль нихт” с танцующим волком – это ме...
...,...,...,...,...,...,...,...
157,А что случилось?,34700,Mememaster,31.03.2022,"А что случилось? – ироничный мем, высмеивающий...",С начала вторжения российских войск в Украину ...,Мем “А что случилось-то?” – это ироничная реак...
158,"Боже, яке кончене",12300,Mememother,30.03.2022,"Боже, яке кончене (Боже, какое конченное) – ме...",16 февраля 2020 года пользовательница Тиктока ...,"Фраза “Боже, яке кончене” выражает отношение ч..."
159,Оккупант Чмоня,85600,Mememother,30.03.2022,Оккупант Чмоня (Андрей Рязанцев) – пленный сол...,1 марта 2022 года около Горловки украинские во...,"Оккупант Чмоня – мем, с помощью которого украи..."
160,Уилл Смит бьет Криса Рока,11200,Mememaster,28.03.2022,Уилл Смит бьет Криса Рока (Уилл Смит ударил ве...,Церемония награждения кинопремии “Оскар 2022” ...,Мем “Уилл Смит ударил Криса Рока” в широком см...
