### Подключение библиотек

In [50]:
from bs4 import BeautifulSoup as bs
import requests
import pandas as pd
import json
import pymupdf
import io
import re
import glob

# Парсинг сайта

#### Получение информации с сайта

In [5]:
# GET - запрос
url = 'https://store.steampowered.com/search/?filter=topsellers&ndl=1'
page = requests.get(url)
page.encoding = 'utf-8'

In [6]:
page.status_code

200

In [7]:
soup = bs(page.text, 'html.parser')

In [8]:
page.text



In [9]:
soup

<!DOCTYPE html>

<html class="responsive DesktopUI" lang="en">
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="width=device-width,initial-scale=1" name="viewport"/>
<meta content="#171a21" name="theme-color"/>
<title>Steam Search</title>
<link href="/favicon.ico" rel="shortcut icon" type="image/x-icon"/>
<link href="https://store.cloudflare.steamstatic.com/public/shared/css/motiva_sans.css?v=gcaj3D0J0rdC&amp;l=english&amp;_cdn=cloudflare" rel="stylesheet" type="text/css"/>
<link href="https://store.cloudflare.steamstatic.com/public/shared/css/shared_global.css?v=YJI88-nWk5KF&amp;l=english&amp;_cdn=cloudflare" rel="stylesheet" type="text/css"/>
<link href="https://store.cloudflare.steamstatic.com/public/shared/css/buttons.css?v=zHbJC_Ap8iNW&amp;l=english&amp;_cdn=cloudflare" rel="stylesheet" type="text/css"/>
<link href="https://store.cloudflare.steamstatic.com/public/css/v6/store.css?v=EF648k1z4gjy&amp;l=english&amp;_cdn=cloudflare" rel="style

In [10]:
result_list = {'title': [], 'description': [], 'date': [], 'tags': [], 'rating': []}

### Алгоритм

In [12]:
games = soup.find_all('a', class_='search_result_row')[:200]
for idx, game in enumerate(games, 1):
    title = game.find('span', class_='title').text.strip()
    if title.__contains__('Steam Deck'):
        continue
    print(title)
    result_list['title'].append(title)
    date = game.find('div', class_='search_released').text.strip()
    print(date)
    result_list['date'].append(date)
    game_url = game['href']
    print(game_url)
    game_page = requests.get(game_url)
    game_soup = bs(game_page.text, 'html.parser')
    description_tag = game_soup.find("div", {"id": "game_area_description"})
    description = description_tag.text.replace('\n', ' ').replace('\t','').replace('About This Game','').replace('About This Software','').strip() if description_tag else 'No description'
    print(description)
    result_list['description'].append(description)
    tags = ', '.join([tag.text.strip() for tag in game_soup.select('.glance_tags.popular_tags a')])
    print(tags)
    result_list['tags'].append(tags)
    if game_soup.find('div', class_='summary column').text.__contains__('No'):
        review_text = 'No user reviews'
    else:
        review_text = game_soup.find('meta', itemprop='ratingValue').attrs['content'] + ' / 10'
    print(review_text + "\n")
    result_list['rating'].append(review_text)

Counter-Strike 2
21 Aug, 2012
https://store.steampowered.com/app/730/CounterStrike_2/?snr=1_7_7_7000_150_1
For over two decades, Counter-Strike has offered an elite competitive experience, one shaped by millions of players from across the globe. And now the next chapter in the CS story is about to begin. This is Counter-Strike 2.A free upgrade to CS:GO, Counter-Strike 2 marks the largest technical leap in Counter-Strike’s history. Built on the Source 2 engine, Counter-Strike 2 is modernized with realistic physically-based rendering, state of the art networking, and upgraded Community Workshop tools.In addition to the classic objective-focused gameplay that Counter-Strike pioneered in 1999, Counter-Strike 2 features:All-new CS Ratings with the updated Premier modeGlobal and Regional leaderboardsUpgraded and overhauled mapsGame-changing dynamic smoke grenadesTick-rate-independent gameplayRedesigned visual effects and audioAll items from CS:GO moving forward to CS2
FPS, Shooter, Multiplay

In [13]:
print(len(result_list['title']))
print(len(result_list['rating']))
print(len(result_list['date']))
print(len(result_list['description']))
print(len(result_list['tags']))

50
50
50
50
50


### Создание датафрейма и запись в файл

In [15]:
file_name = 'games.csv'
df = pd.DataFrame(data=result_list)
df.to_csv(file_name)
df.head()

Unnamed: 0,title,rating,date,tags,description
0,Counter-Strike 2,9 / 10,"21 Aug, 2012","FPS, Shooter, Multiplayer, Competitive, Action...","For over two decades, Counter-Strike has offer..."
1,Squad,9 / 10,"23 Sep, 2020","Military, Realistic, FPS, Multiplayer, Tactica...",Squad is the embodiment of tactical military a...
2,Dota 2,9 / 10,"9 Jul, 2013","Free to Play, MOBA, Multiplayer, Strategy, eSp...","The most-played game on Steam.Every day, milli..."
3,Clair Obscur: Expedition 33,9 / 10,"24 Apr, 2025","Turn-Based Combat, Story Rich, Fantasy, Explor...","Once a year, the Paintress wakes and paints up..."
4,Rust,9 / 10,"8 Feb, 2018","Survival, Crafting, Multiplayer, Open World, O...",The only aim in Rust is to survive. Everything...


In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   title        50 non-null     object
 1   rating       50 non-null     object
 2   date         50 non-null     object
 3   tags         50 non-null     object
 4   description  50 non-null     object
dtypes: object(5)
memory usage: 2.1+ KB


# Парсинг PDF файла

In [78]:
# загрузка в list пути всех нужных pdf файлов
all_pdf = glob.glob(r"PDF2\*.pdf")
pattern = r'(\d{1,2})\s([а-я]{3})\sв\s(\d{2}:\d{2})'

In [80]:
len(all_pdf)

11

In [82]:
all_pdf

['PDF2\\Cocoapods, Carthage, SPM как выбрать менеджер зависимостей в iOS.pdf',
 'PDF2\\imgonline-com-ua-site2pdfB28eKGLy6EjA.pdf',
 'PDF2\\OSINT & Hacking — как работает фишинг для нельзяграма _ Хабр3.pdf',
 'PDF2\\Быстрое начало работы с Gitlab CICD.pdf',
 'PDF2\\Генеральный директор Mozilla покинула свой пост _ Хабр.pdf',
 'PDF2\\ИИ-агенты в Альфа-Банке_ нейросети создают автотесты без участия человека _ Хабр.pdf',
 'PDF2\\Инструменты наблюдаемости, о которых нужно знать в 2023 году.pdf',
 'PDF2\\История российской науки_ напишем вместе_ _ Хабр.pdf',
 'PDF2\\Как создать аппаратный эмулятор CD-ROM без паяльника _ Хабр.pdf',
 'PDF2\\Может ли chatGPT забронировать столик в ресторане через WhatsApp.pdf',
 'PDF2\\Новые утечки.pdf']

#### Получение информации с файла

In [85]:
for i in all_pdf:
    pdf_document = i
    doc = pymupdf.open(pdf_document)
    print("Исходный документ: ", doc)
    print("\nКоличество страниц: %i\n\n------------------\n\n" % doc.page_count)
    print(doc.metadata)
    for current_page in range(len(doc)):
        page = doc.load_page(current_page)
        page_text = page.get_text("text")
        print("Стр. ", current_page+1, "\n")
        print(page_text)

Исходный документ:  Document('PDF2\Cocoapods, Carthage, SPM как выбрать менеджер зависимостей в iOS.pdf')

Количество страниц: 29

------------------


{'format': 'PDF 1.7', 'title': 'Aspose', 'author': 'Aspose', 'subject': 'Aspose', 'keywords': '', 'creator': 'Aspose Pty Ltd.', 'producer': 'Aspose.PDF for .NET 23.2.0', 'creationDate': "D:20230320172822+00'00'", 'modDate': "D:20230320172822+00'00'", 'trapped': '', 'encryption': None}
Стр.  1 

117.94
Рейтинг
red_mad_robot
№1 в разработке цифровых решений для бизнеса
 6 часов назад
Средний18 мин
redmadrobot
Cocoapods, Carthage, SPM: как выбрать
менеджер зависимостей в iOS
179
Блог компании red_mad_robot
, 
Разработка под iOS*
FAQ
КАК СТАТЬ АВТОРОМ

Стр.  2 

Старший iOS-разработчик red_mad_robot Аня Кочешкова
рассказывает, чем отличаются три менеджера зависимостей, в каких
случаях и для каких задач подойдёт тот или иной. Материал будет
полезен джун-специалистам, которые только начали погружаться
в разработку: специально для них подробно

In [86]:

def extract_text_from_pdf(pdf):
    doc = pymupdf.open(pdf)
    print(pdf)
    text = ''
    for current_page in range(len(doc)):
        page = doc.load_page(current_page)
        page_text = page.get_text("text")
        text += page_text
    return text.replace('8 минTAU15', '').replace('+1','1').replace('+9','9').replace('+7','7').replace('Средний1','').replace('Простой','').replace('1.1K','1100').replace('3 мин','').replace('Простой  3 мин','').replace('Cloud4Y OSINT','OSINT').replace('Cloud4Y 5 часов назад','5 часов назад').replace('КАК СТАТЬ АВТОРОМ','').replace('1 мин','').replace('Простой9 мин','').replace('8 мин','').replace('5 мин','').replace('zubarek','').replace('Средний18 мин','').replace('5 минArnak', '').replace('redmadrobot','').replace('ru_vds','').replace('Средний19 минartyomsoft', '').replace('Средний18 минredmadrobot', '').replace('5 минzubarek', '').replace('technokratiya','').replace('5 часов назад\tCloud4Y','5 часов назад').replace('Простой3 мин','').replace('Exosphere ','').replace('AlfaTeam ','').replace('AnnieBronson ','').replace('redmadrobot ','').replace('red_mad_robot ','').replace('Средний18 мин ','').replace('artyomsoft','').replace('Arnak','').replace('RUVDS.com','').replace('VDS/VPS-хостинг. Скидка 15% по коду HABR15','').replace('Средний19 мин','').replace('RUVDS.com VDS/VPS-хостинг. Скидка 15% по коду HABR15','').replace('TAU15','').replace('RUVDS.com VDS/VPS-хостинг. Скидка 15% по коду HABR15','')


### Алгоритм

In [88]:

def pars_pdf(text):
    text2 = text.split('\n')
    text2 = [x for x in text2 if x.strip()]
    name = ''
    if 'Рейтинг' in text2:
        num = text2.index('Рейтинг')
        raiting = text2[num - 1]
    for i in range(0, len(text2) - 1):
        if 'назад' in text2[i] and name == '':
            num3 = i
            date_publish = text2[num3].strip()
            if text2[num3 + 1].__contains__('Cloud4Y'):
                name = text2[num3 + 2] + ' ' + text2[num3 + 3]
            else:
                if not f'{text2[num3 + 2]}'.strip().isalnum():
                    name = text2[num3 + 1] + ' ' + text2[num3 + 2]
                else:
                    name = text2[num3 + 1]
        elif re.search(pattern, text2[i]):
            num3 = i
            date_publish = text2[num3].strip()
            if text2[num3 + 1].__contains__('Cloud4Y'):
                name = text2[num3 + 2] + ' ' + text2[num3 + 3]
            else:
                if not f'{text2[num3 + 2]}'.strip().isalnum():
                    name = text2[num3 + 1] + ' ' + text2[num3 + 2]
                else:
                    name = text2[num3 + 1]
        if 'Хабы' in text2[i]:
            hubs = ''
            j = i
            while not f'{text2[j]}'.strip().isnumeric() and not text2[j].__contains__('Редакторский дайджест'):
                hubs += text2[j] + ' '
                j += 1
            break
    return name, raiting, date_publish, hubs



In [89]:
Brak = []
NameCompany = []
Description = []
Raiting = []
Hubs = []
DatePublish = []

In [94]:
for pdf in all_pdf:
    try:
        x = extract_text_from_pdf(pdf)
        N, R, D, H = pars_pdf(x)
        D2 = ''.join(x).replace('\n', ' ')
        NameCompany.append(N)
        print(f'{N}\t')
        Raiting.append(R)
        print(f'{R}\t')
        DatePublish.append(D)
        print(f'{D}\t')
        Description.append(D2)
        print(f'{D2}\t')
        Hubs.append(H)
        print(f'{H}\n')
    except Exception as e:
        print(e)
        Brak.append(pdf)


PDF2\Cocoapods, Carthage, SPM как выбрать менеджер зависимостей в iOS.pdf
Cocoapods, Carthage, SPM: как выбрать менеджер зависимостей в iOS	
117.94	
6 часов назад	
117.94 Рейтинг red_mad_robot №1 в разработке цифровых решений для бизнеса  6 часов назад   Cocoapods, Carthage, SPM: как выбрать менеджер зависимостей в iOS 179 Блог компании red_mad_robot ,  Разработка под iOS* FAQ  Старший iOS-разработчик Аня Кочешкова рассказывает, чем отличаются три менеджера зависимостей, в каких случаях и для каких задач подойдёт тот или иной. Материал будет полезен джун-специалистам, которые только начали погружаться в разработку: специально для них подробно объясняем, что такое семантическое версионирование, как устроены модули кода и в чём разница между динамическими и статическими библиотеками. Что такое менеджер зависимостей и зачем он нужен В современной разработке зависимость — это написанный кем-то другим код, который используется в вашей программе. Добавление зависимости позволяет воспользоват

In [95]:
print(len(NameCompany))
print(len(Description))
print(len(Raiting))
print(len(Hubs))
print(len(DatePublish))

11
11
11
11
11


### Создание датафрейма

In [97]:
df = pd.DataFrame({
'NameCompany': NameCompany,
'Description': Description,
'Hubs': Hubs,
'Rating': Raiting,
'DatePublish': DatePublish,
})
df

Unnamed: 0,NameCompany,Description,Hubs,Rating,DatePublish
0,"Cocoapods, Carthage, SPM: как выбрать менеджер...",117.94 Рейтинг red_mad_robot №1 в разработке ц...,"Хабы: Блог компании red_mad_robot , Разработ...",117.94,6 часов назад
1,OSINT & Hacking — как работает фишинг для нель...,71.07 Рейтинг Cloud4Y #1 Корпоративный облачны...,"Хабы: Блог компании Cloud4Y, Информационная б...",71.07,5 часов назад
2,OSINT & Hacking — как работает фишинг для нель...,71.07 Рейтинг Cloud4Y #1 Корпоративный облачны...,"Хабы: Блог компании Cloud4Y , Информационная...",71.07,5 часов назад
3,Быстрое начало работы с Gitlab CI/CD: пайплайн...,4.29 Оценка 280.79 Рейтинг Southbridge Обеспеч...,"Хабы: Блог компании Southbridge , Тестирован...",280.79,2 часа назад
4,Генеральный директор Mozilla покинула свой пост,"Митчелл Бейкер, гендиректор Mozilla с 2020 год...","Хабы: IT-компании, Управление персоналом, Кар...",145.1,12 минут назад
5,ИИ-агенты в Альфа-Банке: нейросети создают авт...,404.32 Рейтинг Альфа-Банк Лучший мобильный бан...,"Хабы: Блог компании Альфа-Банк, Искусственный ...",404.32,2 часа назад
6,"9 мин Инструменты наблюдаемости, о которых",2376.9 Рейтинг Автор оригинала: Lahiru Hewaw...,"Хабы: Блог компании , Open source , Хранени...",2376.9,4 часа назад
7,История российской науки: напишем вместе? 1.3K,4.58 Оценка 353.18 Рейтинг Хабр Экосистема для...,"Хабы: Блог компании Хабр, Научно-популярное",353.18,10 часов назад
8,Как создать аппаратный эмулятор CD-ROM без пая...,"2394.92 Рейтинг Несмотря на то, что постепен...","Хабы: Блог компании , Системное администриров...",2394.92,20 мар в 14:00
9,Может ли chatGPT забронировать столик в рестор...,Идея А почему бы не использовать возможности ...,"Хабы: Мессенджеры , Python , Искусственный и...",14.0,6 часов назад


### Запись в файл

In [102]:
df.to_csv("articles.csv", index=False)
df2 = pd.read_csv("articles.csv")
df2

Unnamed: 0,NameCompany,Description,Hubs,Rating,DatePublish
0,"Cocoapods, Carthage, SPM: как выбрать менеджер...",117.94 Рейтинг red_mad_robot №1 в разработке ц...,"Хабы: Блог компании red_mad_robot , Разработ...",117.94,6 часов назад
1,OSINT & Hacking — как работает фишинг для нель...,71.07 Рейтинг Cloud4Y #1 Корпоративный облачны...,"Хабы: Блог компании Cloud4Y, Информационная б...",71.07,5 часов назад
2,OSINT & Hacking — как работает фишинг для нель...,71.07 Рейтинг Cloud4Y #1 Корпоративный облачны...,"Хабы: Блог компании Cloud4Y , Информационная...",71.07,5 часов назад
3,Быстрое начало работы с Gitlab CI/CD: пайплайн...,4.29 Оценка 280.79 Рейтинг Southbridge Обеспеч...,"Хабы: Блог компании Southbridge , Тестирован...",280.79,2 часа назад
4,Генеральный директор Mozilla покинула свой пост,"Митчелл Бейкер, гендиректор Mozilla с 2020 год...","Хабы: IT-компании, Управление персоналом, Кар...",145.1,12 минут назад
5,ИИ-агенты в Альфа-Банке: нейросети создают авт...,404.32 Рейтинг Альфа-Банк Лучший мобильный бан...,"Хабы: Блог компании Альфа-Банк, Искусственный ...",404.32,2 часа назад
6,"9 мин Инструменты наблюдаемости, о которых",2376.9 Рейтинг Автор оригинала: Lahiru Hewaw...,"Хабы: Блог компании , Open source , Хранени...",2376.9,4 часа назад
7,История российской науки: напишем вместе? 1.3K,4.58 Оценка 353.18 Рейтинг Хабр Экосистема для...,"Хабы: Блог компании Хабр, Научно-популярное",353.18,10 часов назад
8,Как создать аппаратный эмулятор CD-ROM без пая...,"2394.92 Рейтинг Несмотря на то, что постепен...","Хабы: Блог компании , Системное администриров...",2394.92,20 мар в 14:00
9,Может ли chatGPT забронировать столик в рестор...,Идея А почему бы не использовать возможности ...,"Хабы: Мессенджеры , Python , Искусственный и...",14.0,6 часов назад


# Парсинг json файла

#### Получение информации с файла

In [106]:
with open(r'Data\GooseGaming.json', 'r', encoding="utf8") as file:
    data = json.load(file)

### Алгоритм

In [109]:
all_ref_text = []
all_ref_day = []
all_ref_month = []
all_ref_time = []
all_ref_rate = []
all_ref_views = []
def parse_json(local_data):
    for i in local_data['refs']:
        all_ref_text.append(i[0])
        all_ref_day.append(i[1]['day'])
        all_ref_month.append(i[1]['month'])
        all_ref_time.append(i[1]['time'])
        all_ref_rate.append(i[2]['rate'])
        all_ref_views.append(i[2]['views'])
parse_json(data)

### Создание датафрейма

In [112]:
df = pd.DataFrame({
    'ref text': all_ref_text,
    'ref day': all_ref_day,
    'ref month': all_ref_month,
    'ref time': all_ref_time,
    'ref rate': all_ref_rate,
    'ref views': all_ref_views
})
df

Unnamed: 0,ref text,ref day,ref month,ref time,ref rate,ref views
0,7 декабря состоялась церемония награждения лау...,8,декабря,09:30,6,2300
1,Из новостей на этой неделе: Unity сменила лого...,13,октября,19:44,6,2500
2,"На игровую консоль не очень похоже, скорее — н...",9,июня,16:18,41,8800
3,"Всем привет, в июне OTUS вновь запускает курс ...",30,мая,04:12,7,4000
4,Источник: knowyourmeme\n\r\nИгра-мем Untitled ...,31,октября,12:44,12,3700
5,"Похоже, сегодня все стали крякать чуть больше ...",10,октября,10:28,24,6100
6,"В Оксфорде наступает яркое утро четверга, и в ...",28,сентября,16:01,19,16000


### Запись в файл

In [115]:
df.to_csv("articles.csv", index=False)
df2 = pd.read_csv("articles.csv")
df2.head()

Unnamed: 0,ref text,ref day,ref month,ref time,ref rate,ref views
0,7 декабря состоялась церемония награждения лау...,8,декабря,09:30,6,2300
1,Из новостей на этой неделе: Unity сменила лого...,13,октября,19:44,6,2500
2,"На игровую консоль не очень похоже, скорее — н...",9,июня,16:18,41,8800
3,"Всем привет, в июне OTUS вновь запускает курс ...",30,мая,04:12,7,4000
4,Источник: knowyourmeme\n\r\nИгра-мем Untitled ...,31,октября,12:44,12,3700
