## Парсинг статей Хабр PDF

<strong>Задача.</strong> При помощи библиотеки fitz провести парсинг 25 статей хабр в формате pdf-файла. В результирующую выборку должны войти следующие данные: название компании/пользователя, рейтинг компании/пользователя, дата публикации статьи, описание компании/пользователя, текст статьи и её название. 

### 1.1 Импорт модулей

In [1]:
# Для чтения pdf файлов
import fitz

# Для работы с данными
import pandas as pd

# Для получения пути всех pdf файлов
import glob

# Регулярные выражения для поиска нужной информации
import re

# Для парсинга даты
import os
from datetime import datetime

### 1.2 Парсинг

Для начала запишем все пути до pdf-ов

In [2]:
# загрузка в list пути всех нужных pdf файлов
all_pdf = glob.glob(r"pdfs\*.pdf")

In [3]:
len(all_pdf)

25

Всего 25 pdf-файлов

In [4]:
all_pdf

['pdfs\\5 основополагающих советов по управлению базами данных Greenplum _ Хабр.pdf',
 'pdfs\\Cocoapods, Carthage, SPM как выбрать менеджер зависимостей в iOS.pdf',
 'pdfs\\DeepSeek против ChatGPT_ конец эры ChatGPT_ _ Хабр.pdf',
 'pdfs\\Deutsche Telekom и Perplexity объявили о новом «AI Phone» стоимостью менее 1 000 долларов _ Хабр.pdf',
 'pdfs\\imgonline-com-ua-site2pdfB28eKGLy6EjA.pdf',
 'pdfs\\n8n. Создаём AI Telegram agent с установкой и настройкой _ Хабр.pdf',
 'pdfs\\OSINT & Hacking — как работает фишинг для нельзяграма _ Хабр3.pdf',
 'pdfs\\Yandex N.V. запретили в\xa0течение пяти лет создавать аналогичные «Яндексу» сервисы _ Хабр.pdf',
 'pdfs\\Бесплатная система учета торговли и управления интернет магазином Trinion Торговля _ Хабр.pdf',
 'pdfs\\Быстрое начало работы с Gitlab CICD.pdf',
 'pdfs\\Генеральный директор Mozilla покинула свой пост _ Хабр.pdf',
 'pdfs\\За что безопасники будут гореть в аду_ _ Хабр.pdf',
 'pdfs\\Заезжаем в Kotlin Multiplatform. Но какой ценой_ _ Хабр.p

Прочитаем 1 pdf файл, чтобы на примере понятя, какую структуру имеет файл

In [5]:
pdf_document = r"pdfs\Быстрое начало работы с Gitlab CICD.pdf"
doc = fitz.open(pdf_document)
print("Исходный документ: ", doc)
print("\nКоличество страниц: %i\n\n------------------\n\n" % doc.page_count)
print(doc.metadata)
for current_page in range(len(doc)):
    page = doc.load_page(current_page)
    page_text = page.get_text("text")
    print("Стр. ", current_page+1, "\n")
    print(page_text)

Исходный документ:  Document('pdfs\Быстрое начало работы с Gitlab CICD.pdf')

Количество страниц: 14

------------------


{'format': 'PDF 1.7', 'title': 'Aspose', 'author': 'Aspose', 'subject': 'Aspose', 'keywords': '', 'creator': 'Aspose Pty Ltd.', 'producer': 'Aspose.PDF for .NET 23.2.0', 'creationDate': "D:20230320171750+00'00'", 'modDate': "D:20230320171803+00'00'", 'trapped': '', 'encryption': None}
Стр.  1 

4.29
Оценка
280.79
Рейтинг
Southbridge
Обеспечиваем стабильную работу highload-проектов
Автор оригинала: Seifeldin Mahjoub
Перевели статью о создании пайплайна для развертывания
статического веб-сайта на AWS S3 Bucket на примере Gitlab
CI/CD, чтобы быстро вникнуть в основы технологии и начать
применять ее в работе. В статье рассматриваются базовые
концепции CI и CD, а также этапы CI/CD-пайплайна.
 2 часа назад
5 мин
zubarek
Быстрое начало работы с Gitlab CI/CD:
пайплайн для веб-сайта на AWS S3 Bucket
362
Блог компании Southbridge
, 
Тестирование IT-систем*
, 
Системное админ

Здесь, статью написала компания, однако бывают и статьи, которые пишет один пользователь и структура у такого pdf-файла может быть другой. Но есть момент, который позволяет вытаскивать информацию и о компании и о пользователе - это Рейтинг. При помощи нахождения рейтинга, можно и найти всю остальную информацию.

Пропишем функцию, которая будет читать текст из статьи

In [6]:
def extract_text_from_pdf(pdf):
    # Открываем pdf
    doc = fitz.open(pdf)
    # Инициализируем список с текстом
    text = []
    # Читаем каждую страницу, записывая её в список
    for current_page in range(len(doc)):
        page = doc.load_page(current_page)
        page_text = page.get_text("text")
        print(page_text)
        print('\n\n\n')
        text.append(page_text)
    # Возвращаем текст
    return text

In [7]:
extract_text_from_pdf('pdfs\\Генеральный директор Mozilla покинула свой пост _ Хабр.pdf')

Митчелл Бейкер, гендиректор Mozilla с 2020 года, объявила, что покидает свой пост и
возвращается на должность председателя совета директоров Mozilla Corporation, которую она
занимала ранее. Временным генеральным директором компании станет член правления Лора
Чемберс.
«За 25 лет работы в Mozilla я побывала на многих должностях. Мой теперешний шаг вызван
желанием сосредоточить внимание на предстоящих задачах. Я руководила бизнесом Mozilla в
период преобразований, а также курировала миссию Mozilla в более широком смысле. Стало
очевидно, что оба направления требуют преданного и постоянного руководства», — заявила
Бейкер в сообщении в блоге Mozilla.
Митчелл работает в Mozilla с эпохи Netscape Communications. Она основала Mozilla Foundation и
учредила лицензию Mozilla Public License.
AnnieBronson 12 минут назад
Генеральный директор Mozilla покинула свой пост
1 мин
107
IT-компании, Управление персоналом*, Карьера в IT-индустрии
КАК СТАТЬ АВТОРОМ
Зарплаты IT-специалистов
Новый год → новая жизн

['Митчелл Бейкер, гендиректор Mozilla с 2020 года, объявила, что покидает свой пост и\nвозвращается на должность председателя совета директоров Mozilla Corporation, которую она\nзанимала ранее. Временным генеральным директором компании станет член правления Лора\nЧемберс.\n«За 25 лет работы в Mozilla я побывала на многих должностях. Мой теперешний шаг вызван\nжеланием сосредоточить внимание на предстоящих задачах. Я руководила бизнесом Mozilla в\nпериод преобразований, а также курировала миссию Mozilla в более широком смысле. Стало\nочевидно, что оба направления требуют преданного и постоянного руководства», — заявила\nБейкер в сообщении в блоге Mozilla.\nМитчелл работает в Mozilla с эпохи Netscape Communications. Она основала Mozilla Foundation и\nучредила лицензию Mozilla Public License.\nAnnieBronson 12 минут назад\nГенеральный директор Mozilla покинула свой пост\n1 мин\n107\nIT-компании,\xa0Управление персоналом*,\xa0Карьера в IT-индустрии\nКАК СТАТЬ АВТОРОМ\nЗарплаты IT-специалист

Теперь пропишем саму функцию парсинга

In [28]:
def pars_pdf(pdf):
    # Сначала запишем текст текст статьи
    text = extract_text_from_pdf(pdf)
    article_text = ''.join(text[1:]).replace('\n',' ')
    article_text = article_text.split(' ')
    new_article_text = []
    # Текст статьи кончается примерно на слове 'Теги', до него и будем парсить
    for word in article_text:
        if 'Теги' in word:
            break
        new_article_text.append(word)
    new_article_text = ' '.join(new_article_text)

    # Далее из названия pdf-файла вытащим название статьи
    article_name = pdf.split('\\')[-1].split('.pdf')[0]

    # Теперь переходим к парсингу остальной информации
    text = "\n".join(text)
    text2 = text.split('\n')
    # Удаляем ненужные пробелы
    text2 = [word.strip() for word in text2]

    print(text2)
    # Ориентируясь на рейтинг находим описание и имя компании, ну и само собой записываем сам рейтинг
    if 'Рейтинг' in text2:
        num = text2.index('Рейтинг')
        raiting = text2[num-1]
        name = text2[num+1]
        if '@' not in name:
            num = text2.index('Оценка') - 1
            num2 = text2.index('')
            print(f'От - {num} до {num2}')

            del text2[num:num2]
            new_article_text = '\n'.join(text2)
        
        activity = text2[num+2]

    # Если же рейтинга нет, то оставляем поля пустыми
    else:
        raiting = 0
        name = "None"
        activity = "None"

    # Получаем timestamp изменения файла
    date_publish = os.path.getmtime(pdf)
    
    # Конвертируем в читаемый формат
    date_publish = datetime.fromtimestamp(date_publish)
    # Выводим для проверки
    print(raiting, name, activity, date_publish, new_article_text)
    
    return  name, raiting, activity, date_publish, new_article_text, article_name

Посмотрим на примере, как парситься pdf-файл

In [37]:
x = pars_pdf(r"pdfs\\История российской науки_ напишем вместе_ _ Хабр.pdf")
pars_pdf(r'pdfs\\Новые утечки.pdf')

4.58
Оценка
353.18
Рейтинг
Хабр
Экосистема для развития людей, вовлеченных в IT
8 февраля — день российской науки. Этот праздник отмечается в Академии Наук, в НИИ,
вузах, исследовательских лабораториях по всей стране. Судьба российской науки непростая,
всегда переплетённая с историей страны и ею же обусловленная: непростой путь к открытию
МГУ, талантливые кулибины (и И.Кулибин) из глубинки, учёные в изгнании, Туполевская шарага,
достижения института Гамалеи… Всё смешано, переплетено и влияло и влияет на весь мир.
Величие российской науки прежде всего в людях, которые её создают, которые разрабатывают,
изобретают, экспериментирую и точно знают, что делают. 
В этот день всегда спорят медики, биологи, инженеры, программисты, филологи, физики, химики
— чьи учёные научнее и главнее, кто определял и создавал будущее? Ответ простой: все,
каждый — в своей сфере. Предлагаем сегодня собрать российские  открытия и учёных, которые
вас вдохновляют, впечатляют, будоражат воображение и влияют (или по

('getmatch',
 '414.35',
 'Мы знаем, что и Intel, и Microsoft готовятся к поддержке работы',
 datetime.datetime(2023, 3, 20, 22, 23, 58, 778313),
 '\nтакже последние действия AMD и направление развития Bing.\nМы знаем, что и Intel, и Microsoft готовятся к поддержке работы\nWindows 12 на новых процессорах. Об этом нам говорит утечка от\nleaf_hobby, который известен тем, что раскрывает полные\nспецификации чипов Intel Xeon перед их запуском. На этот раз\nleaf_hobby опубликовали подробности аппаратных показателей\nдесктопной платформы Intel Meteor Lake, которую планируется\nвыпустить в этом или в следующем году. Сейчас их твиты уже\nзащищены, но интернет помнит™, а у журналистов отдельных\nизданий, вроде Insider и The Verge, к ним есть доступ.\nСообщается, что Intel в имейле для своих сотрудников упоминает,\nчто ее процессоры следующего поколения будут поддерживать\nWindows 12. Для этого Meteor Lake должен содержать 20 линий PCIe\nGen5.\nХотя Microsoft не объявляла о каких-либо планах в от

<font color='red'>Стриать данные от Оценка до Имени компании и от Даты публикации до пустого элемента<font>

Отлично, теперь запарсим все файлы

In [30]:
# Создаём списки куда будем записывать основную информацию о статье
# Также список статей, которые не получится запарсить
Brak = []
NameCompany = []
Raiting = []
DataPublish = []
Activity = []
ArticleName = []
TextArticle = []

# Перебираем все статьи в цикле
for pdf in all_pdf:
    try:  
        # Парсим статью
        N, R, A, D, T, AN = pars_pdf(pdf)

        # Записыаем информацию в списки
        NameCompany.append(N)
        Raiting.append(R)
        DataPublish.append(D)
        Activity.append(A)
        TextArticle.append(T)
        ArticleName.append(AN)
    except:
        # В случае ошибки, записываем название стать в брак
        Brak.append(pdf)

721.07
Рейтинг
OTUS
Цифровые навыки от ведущих экспертов
Подписаться
Автор оригинала: Jingyu Wang
Greenplum — это массивно‑параллельная (MPP) база данных с открытым исходным кодом,
предназначенная для организации хранилищ данных и высокопроизводительной
аналитики. Как и в случае с другими MPP‑СУБД, она требует регулярной оптимизации
запросов, корректировки распределения ресурсов и защиты данных. В этой статье мы
рассмотрим пять рекомендаций, обязательных для эффективного управления Greenplum.
1. Правильно подбирайте политику распределения данных
Greenplum можно рассматривать как MPP‑адаптацию PostgreSQL. Она расширяет
возможности PostgreSQL, внедряя в ее операции параллелизм. И чтобы обеспечить
параллельное выполнение запросов Greenplum распределяет данные по множеству
машин, называемых сегментами. Greenplum предоставляет пользователям возможность
выбрать один из трех методов распределения данных: хэш, случайное и реплицированное
распределение.
По умолчанию Greenplum использует хэш‑рас

Статьи успешно запаршены, посмотрим, сколько статей запарсить не удалось

In [31]:
Brak

['pdfs\\5 основополагающих советов по управлению базами данных Greenplum _ Хабр.pdf',
 'pdfs\\Cocoapods, Carthage, SPM как выбрать менеджер зависимостей в iOS.pdf',
 'pdfs\\imgonline-com-ua-site2pdfB28eKGLy6EjA.pdf',
 'pdfs\\n8n. Создаём AI Telegram agent с установкой и настройкой _ Хабр.pdf',
 'pdfs\\OSINT & Hacking — как работает фишинг для нельзяграма _ Хабр3.pdf',
 'pdfs\\Бесплатная система учета торговли и управления интернет магазином Trinion Торговля _ Хабр.pdf',
 'pdfs\\ИИ-агенты в Альфа-Банке_ нейросети создают автотесты без участия человека _ Хабр.pdf',
 'pdfs\\Инструменты наблюдаемости, о которых нужно знать в 2023 году.pdf',
 'pdfs\\Как создать аппаратный эмулятор CD-ROM без паяльника _ Хабр.pdf',
 'pdfs\\Как создать аппаратный эмулятор CD-ROM.pdf',
 'pdfs\\Компании _ Хабр.pdf',
 'pdfs\\Компании.pdf']

Всего 3 статьи

Теперь сформируем датафрейм, чтобы потом записать запаршенную информацию в csv файл, ну и обработать если нужно

In [32]:
df = pd.DataFrame({
'NameCompany': [],
'Raiting': [],
'DataPublish': [],
'Activity': [],
'TextArticle': [],
'ArticleName': []
})

Проверяем, все ли списки имеют одинаковую длину

In [33]:
print(len(NameCompany), len(Raiting), len(DataPublish),len(Activity), len(TextArticle) )

13 13 13 13 13


Отлично, теперь заполняем датафрейм

In [34]:
df['NameCompany'] = NameCompany
df['Raiting'] = Raiting
df['DataPublish'] = DataPublish
df['Activity'] = Activity
df['TextArticle'] = TextArticle
df['ArticleName'] = ArticleName

In [35]:
df

Unnamed: 0,NameCompany,Raiting,DataPublish,Activity,TextArticle,ArticleName
0,Chad AI @Chad_AI,-1.5,2025-03-14 09:37:08.022720,Все нейросети в одной,Именно последнее свойство наделало так много ш...,DeepSeek против ChatGPT_ конец эры ChatGPT_ _ ...
1,Технократия @technokratiya,4.4,2025-03-03 22:52:05.695473,ИТ-Компания,"«Мы становимся AI-компанией», — заявила на пре...",Deutsche Telekom и Perplexity объявили о новом...
2,,0.0,2024-02-08 22:58:44.223900,,,Yandex N.V. запретили в течение пяти лет созда...
3,Southbridge,280.79,2023-03-20 22:18:35.620404,Мне повезло быть частью некоторых профессионал...,\nОт автора\nМне повезло быть частью некоторых...,Быстрое начало работы с Gitlab CICD
4,@AnnieBronson,145.1,2024-02-08 22:53:38.541116,Информационная служба Хабра,141 Карма 145.1 Рейтинг @AnnieBronson Информац...,Генеральный директор Mozilla покинула свой пос...
5,,0.0,2025-03-07 08:21:17.739894,,"Из опыта, на посошок. Еще одна страна, еще оди...",За что безопасники будут гореть в аду_ _ Хабр
6,,0.0,2025-03-03 22:51:11.886713,,Проведём ретроспективу: стоило ли это делать в...,Заезжаем в Kotlin Multiplatform. Но какой цено...
7,Хабр,353.18,2024-02-08 22:59:18.831790,Вы в комментариях рассказываете о том самом уч...,\nПравила создания статьи\nВы в комментариях р...,История российской науки_ напишем вместе_ _ Хабр
8,Илья Терентьев @Terentew,2.0,2025-03-14 09:35:21.936902,"Фитнес тренер, профессиональный спортсмен.",Что такое осанка? Если кратко подвести итоги э...,Как нас разводит индустрия исправления осанки_...
9,@Systems_Education,0.0,2023-03-22 23:21:40.761535,Пользователь,Нанимающий руководитель смотрит прежде всего н...,Как системному аналитику написать хорошее резю...


Есть 2 непонятно запаращенные статьи, которые скорее всего ими не являются:
- Компании_Хабр
- Компании

Лучше удалим их

In [16]:
df.drop(df[df['NameCompany'] == 'Подписчики'].index, inplace=True)
df

Unnamed: 0,NameCompany,Raiting,DataPublish,Activity,TextArticle,ArticleName
0,OTUS,721.07,2025-03-14 09:36:19.941756,Цифровые навыки от ведущих экспертов,или в качестве условия фильтрации. Наиболее ра...,5 основополагающих советов по управлению базам...
1,red_mad_robot,117.94,2023-03-20 22:29:26.153411,№1 в разработке цифровых решений для бизнеса,Старший iOS-разработчик red_mad_robot Аня Коче...,"Cocoapods, Carthage, SPM как выбрать менеджер ..."
2,Chad AI @Chad_AI,-1.5,2025-03-14 09:37:08.022720,Все нейросети в одной,Именно последнее свойство наделало так много ш...,DeepSeek против ChatGPT_ конец эры ChatGPT_ _ ...
3,Технократия @technokratiya,4.4,2025-03-03 22:52:05.695473,ИТ-Компания,"«Мы становимся AI-компанией», — заявила на пре...",Deutsche Telekom и Perplexity объявили о новом...
4,Cloud4Y,71.07,2023-03-20 21:08:04.106607,#1 Корпоративный облачный провайдер,Чтобы начать попытки заполучить доступ к аккау...,imgonline-com-ua-site2pdfB28eKGLy6EjA
5,Amvera,100.75,2025-03-14 09:36:42.188507,Amvera — облако для хостинга IT-приложений,"«рабочий стол», где вы можете создавать логику...",n8n. Создаём AI Telegram agent с установкой и ...
6,Cloud4Y,71.07,2023-03-20 21:06:50.330777,#1 Корпоративный облачный провайдер,Чтобы начать попытки заполучить доступ к аккау...,OSINT & Hacking — как работает фишинг для нель...
7,,0.0,2024-02-08 22:58:44.223900,,,Yandex N.V. запретили в течение пяти лет созда...
8,Тринион,36.63,2025-03-14 09:58:07.251037,Бизнес консультант Кинзябулатов Рамиль.,"решением, созданным на основе моих знаний, опы...",Бесплатная система учета торговли и управления...
9,Southbridge,280.79,2023-03-20 22:18:35.620404,Обеспечиваем стабильную работу highload-проектов,От автора Мне повезло быть частью некоторых пр...,Быстрое начало работы с Gitlab CICD


Теперь записываем получившийся датасет в csv-файл

In [17]:
df.to_csv("dataset_pdf.csv", index=False)

### 1.3 Отчёт

Все пути до pdf файлов были успешно получены. Структура статей была разобрана, нужно было спарсить следующие данные: название компании/пользователя, рейтинг компании/пользователя, дата публикации статьи, описание компании/пользователя, текст статьи и её название.  
Были написаны функции для чтения текста из pdf-файла и функция для получения необходимой информации из текста. По итогу парсинга не удалось спарсить 3 стать и 2 было удалено. Итоговый датасет был записан в csv-файл.