In [5]:
!pip install PyPDF2
import re
import csv
from PyPDF2 import PdfReader

def extract_articles_from_pdf(pdf_path, pattern):
    """
    Extracts articles and their text from a given PDF based on the regex pattern.
    """
    reader = PdfReader(pdf_path)
    text = ""
    for page in reader.pages:
        text += page.extract_text()

    # Find all matches of the pattern
    matches = re.findall(pattern, text, re.DOTALL)
    return matches

def save_to_csv(data, output_csv):
    """
    Saves extracted data into a CSV file.
    """
    with open(output_csv, mode='w', newline='', encoding='utf-8') as file:
        writer = csv.writer(file)
        writer.writerow(["Article Number", "Text"])
        writer.writerows(data)

def main(pdf_files, output_csv):
    """
    Main function to extract articles from multiple PDFs and save to a CSV.
    """
    pattern = r"((?:Статья\s*)?\d+\.\d*)\s(.*?)(?=\s(?:Статья\s*)?\d+\.\d*|$)"
    all_data = []
    for pdf_file in pdf_files:
        extracted_data = extract_articles_from_pdf(pdf_file, pattern)
        all_data.extend(extracted_data)

    save_to_csv(all_data, output_csv)
    print(f"Data has been saved to {output_csv}")

# List of PDF files to process
pdf_files = ["../data/Кодекс профессиональной этики врача Российской Федерации от 05 октября 2012 - docs.cntd.ru.pdf", "../data/Об обязательном медицинском страховании в Российской Федерации.pdf", "../data/Федеральный закон от 21 ноября 2011 г. № 323-ФЗ _Об основах охраны здоровья граждан в Российской Федерации_.pdf"]
output_csv = "articles.csv"

# Execute the main function
main(pdf_files, output_csv)


Data has been saved to articles.csv


In [6]:
import pandas as pd
df = pd.read_csv('articles.csv')
df

Unnamed: 0,Article Number,Text
0,2024.,Иск лючительные ав торские и сме жные прав а п...
1,29.1,1.2010 г . № 326-ФЗ (Собрание зак онодательств...
2,12.2010,"г .; ""Пар ламент ская\nгазет а"" от"
3,12.2010,г .)\nПо cоcт оянию на
4,12.2024,г .\n \n \nРОССИЙСКАЯ ФЕДЕР АЦИЯ\n \nФЕДЕР АЛЬ...
...,...,...
1436,7.,Положения части 4 статьи 38 настоящего Федерал...
1437,8.,Положения частей 5 - 8 статьи 34 настоящего Фе...
1438,9.,Части 3 - 5 статьи 100 применяются до дня всту...
1439,11.2011,N 323-ФЗ (ред. от
