In [2]:
import fitz  # PyMuPDF
from tqdm import tqdm  # For a progress bar

def extract_text_from_pdf(pdf_path):
    # Open the PDF file
    doc = fitz.open(pdf_path)
    
    full_text = []
    
    print(f"Processing {len(doc)} pages...")
    
    # Iterate through each page
    for page_num in tqdm(range(len(doc))):
        page = doc.load_page(page_num)
        
        # Extract text. "text" mode gives plain text.
        # You can also use "blocks" to get text with coordinates if needed later.
        text = page.get_text("text")
        
        # Optional: Add a page marker to know where text came from
        # page_marker = f"\n\n--- Page {page_num + 1} ---\n\n"
        full_text.append(text)
        
    joined_text = "".join(full_text)
    
    # Save to file if path is provided
    
    with open(pdf_path.replace("data/", "data/Anki_").replace(".pdf",".txt"), "w", encoding="utf-8") as f:
        f.write(joined_text)
    print(f"Done! Text saved to {pdf_path.replace("data/", "data/Anki_")}")
        
    return full_text

# --- Usage ---
pdf_file = "data/5.1-апта-авторлық-база-джениус-гео.pdf"  # <--- Change this

# Run the function
text_content = extract_text_from_pdf(pdf_file)

# Check the first 500 characters
print(text_content[:500])

Processing 30 pages...


100%|██████████| 30/30 [00:00<00:00, 151.00it/s]

Done! Text saved to data/Anki_5.1-апта-авторлық-база-джениус-гео.pdf
['география\n5-АЙ 1-АПТА\nGeNIUS\n', '02\nкеректі тақырыпқа тез өту үшін\nтақырыптың үстінен бас\nмазмұны\nмазмұнына тез өту үшін\nбатырманың үстінен бас\nКартография\n03\nбет\nГеоинформатика\n08\nбет\nТабиғатты пайдалану\n15\nбет\n', '03\nКАРТОГРАФИЯ\n01 Картамен жұмыс жасаудағы негізгі \nәдістердің бірі:\nкартометриялық \nәдістер\n02 Картометрия әдісімен есептелетін \nөлшемдер:\nұзындық, аудан, көлем\n03 Картографиялық құралдар:\nциркуль, транспортир, \nкурвиметр, планиметр\n04 Карта бетіндегі ирек сызықтарды \nөлшеуге арналған құрал:\nкурвиметр\n05 Ұзындықты өлшеу барысында түзу \nсызықтар бойымен жүргізілетін құрал:\nсызғыш, циркуль\n06 Теңіздер мен көлдердің жағалық \nсызығын,шекара ұзындығын есептеу \nүшін қолданылатын құрал:\nкурвиметр\n07 Картадағы нысанның азимутын \nанықтауға арналған құрал:\nтранспортир\n08 Аудан өлшемін алуда қолданылатын \nқұрал:\nПланиметр\n09 Өзара жалғасқан екі тіректен \nтұратын құрал




In [4]:
text_content

['география\n5-АЙ 1-АПТА\nGeNIUS\n',
 '02\nкеректі тақырыпқа тез өту үшін\nтақырыптың үстінен бас\nмазмұны\nмазмұнына тез өту үшін\nбатырманың үстінен бас\nКартография\n03\nбет\nГеоинформатика\n08\nбет\nТабиғатты пайдалану\n15\nбет\n',
 '03\nКАРТОГРАФИЯ\n01 Картамен жұмыс жасаудағы негізгі \nәдістердің бірі:\nкартометриялық \nәдістер\n02 Картометрия әдісімен есептелетін \nөлшемдер:\nұзындық, аудан, көлем\n03 Картографиялық құралдар:\nциркуль, транспортир, \nкурвиметр, планиметр\n04 Карта бетіндегі ирек сызықтарды \nөлшеуге арналған құрал:\nкурвиметр\n05 Ұзындықты өлшеу барысында түзу \nсызықтар бойымен жүргізілетін құрал:\nсызғыш, циркуль\n06 Теңіздер мен көлдердің жағалық \nсызығын,шекара ұзындығын есептеу \nүшін қолданылатын құрал:\nкурвиметр\n07 Картадағы нысанның азимутын \nанықтауға арналған құрал:\nтранспортир\n08 Аудан өлшемін алуда қолданылатын \nқұрал:\nПланиметр\n09 Өзара жалғасқан екі тіректен \nтұратын құрал:\nпланиметр\n10 Планиметр құралы арқылы алынатын \nөлшемдер:\nгект

In [7]:
clear_text = text_content[2:]
clear_text

['03\nКАРТОГРАФИЯ\n01 Картамен жұмыс жасаудағы негізгі \nәдістердің бірі:\nкартометриялық \nәдістер\n02 Картометрия әдісімен есептелетін \nөлшемдер:\nұзындық, аудан, көлем\n03 Картографиялық құралдар:\nциркуль, транспортир, \nкурвиметр, планиметр\n04 Карта бетіндегі ирек сызықтарды \nөлшеуге арналған құрал:\nкурвиметр\n05 Ұзындықты өлшеу барысында түзу \nсызықтар бойымен жүргізілетін құрал:\nсызғыш, циркуль\n06 Теңіздер мен көлдердің жағалық \nсызығын,шекара ұзындығын есептеу \nүшін қолданылатын құрал:\nкурвиметр\n07 Картадағы нысанның азимутын \nанықтауға арналған құрал:\nтранспортир\n08 Аудан өлшемін алуда қолданылатын \nқұрал:\nПланиметр\n09 Өзара жалғасқан екі тіректен \nтұратын құрал:\nпланиметр\n10 Планиметр құралы арқылы алынатын \nөлшемдер:\nгектар, км квадрат\n',
 '04\n11\nАудан өлшемін алуда қолданылатын \nәдіс:\nпалетка\n12 Палетка әдісі:\nS=a2n\n13 Курвиметр латын тілінен аударғанда \nқандай мағына білдіреді:\nиілу\n14 Түрлі деңгейдегі бағдарламалар мен \nтехникалық құралда

In [24]:
import re

# Твои исходные данные
page_contents = []

# 1. Объединяем список в одну строку
for full_text in text_content:
    # 2. Разделяем текст. 
    # r'(\d{2})' ищет ровно две цифры.
    # Скобки () обязательны, чтобы re.split сохранил и сами числа тоже, а не просто удалил их.
    parts = re.split(r'(\d{2})', full_text)

    # 3. Обрабатываем результат, чтобы собрать пары "Номер - Текст"
    clean_data = []

    # parts[0] обычно пустой или вводный текст, пропускаем его, если там нет полезного
    # Начинаем с 1-го индекса, где лежит первое число, и идем с шагом 2
    for i in range(1, len(parts), 2):
        number = parts[i]
        content = parts[i+1].strip() # Убираем лишние пробелы и переносы строк по краям
        
        # Можно дополнительно убрать лишние переносы строк внутри текста для красоты
        content = content.replace('\n', '').split(":")
        
        clean_data.append([number] + content)

    page_contents.extend(clean_data)
    # Вывод результата
    for item in clean_data:
        print(item)

['02', 'керекті тақырыпқа тез өту үшінтақырыптың үстінен басмазмұнымазмұнына тез өту үшінбатырманың үстінен басКартография']
['03', 'бетГеоинформатика']
['08', 'бетТабиғатты пайдалану']
['15', 'бет']
['03', 'КАРТОГРАФИЯ']
['01', 'Картамен жұмыс жасаудағы негізгі әдістердің бірі', 'картометриялық әдістер']
['02', 'Картометрия әдісімен есептелетін өлшемдер', 'ұзындық, аудан, көлем']
['03', 'Картографиялық құралдар', 'циркуль, транспортир, курвиметр, планиметр']
['04', 'Карта бетіндегі ирек сызықтарды өлшеуге арналған құрал', 'курвиметр']
['05', 'Ұзындықты өлшеу барысында түзу сызықтар бойымен жүргізілетін құрал', 'сызғыш, циркуль']
['06', 'Теңіздер мен көлдердің жағалық сызығын,шекара ұзындығын есептеу үшін қолданылатын құрал', 'курвиметр']
['07', 'Картадағы нысанның азимутын анықтауға арналған құрал', 'транспортир']
['08', 'Аудан өлшемін алуда қолданылатын құрал', 'Планиметр']
['09', 'Өзара жалғасқан екі тіректен тұратын құрал', 'планиметр']
['10', 'Планиметр құралы арқылы алынатын өлше

In [40]:
final_anki_cards = []
for page in page_contents:
    if (len(page) >= 3):
        final_anki_cards.append(f"{page[1]}: {page[2]}")


with open("data/Anki_final_cards.txt", "w", encoding="utf-8") as f:
    for card in final_anki_cards:
        try:
            int(card[0])
        except Exception as e:
            f.write(card + "\n")
            continue
        

In [62]:
import os
from dotenv import load_dotenv
from llama_parse import LlamaParse

load_dotenv()

OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
LLAMA_PARSE_API = os.getenv("AISHA_API")

parser = LlamaParse(
    api_key=LLAMA_PARSE_API,
    parse_mode="parse_page_with_lvm",
    model="openai-gpt-4-1-mini",
    vendor_multimodal_api_key=OPENAI_API_KEY,
    result_type="markdown",
    high_res_ocr=True,
    adaptive_long_table=True,  # Adaptive long table. LlamaParse will try to detect long table and adapt the output
    outlined_table_extraction=True,  # Whether to try to extract outlined tables
    output_tables_as_HTML=True,
    num_workers=1,
    max_timeout=300,
    job_timeout_in_seconds=300,
    system_prompt_append="separate each question with '----'"
)

In [63]:
base_content = parser.load_data(pdf_file)

print(base_content[:500])

Started parsing the file under job_id 31f77045-af1b-4585-b8a7-d991ba2e43c5
[Document(id_='1fff8b2c-cf87-4fa9-a533-9efc4abc32c9', embedding=None, metadata={}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=[], relationships={}, metadata_template='{key}: {value}', metadata_separator='\n', text_resource=MediaResource(embeddings=None, data=None, text='\n# ГЕОГРАФИЯ\n\n## 5-АЙ 1-АПТА\n\n# GENIUS\n\nJUZD  \nONLINE — EDU\n</page_header>\n', path=None, url=None, mimetype=None), image_resource=None, audio_resource=None, video_resource=None, text_template='{metadata_str}\n\n{content}'), Document(id_='e95cc214-aa2b-4dc5-9a76-a18477c77b29', embedding=None, metadata={}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=[], relationships={}, metadata_template='{key}: {value}', metadata_separator='\n', text_resource=MediaResource(embeddings=None, data=None, text='\nМАЗМҰНЫ\n\n# МАЗМҰНЫ\n\n**03 бет**  |  Картография  \n**08 бет**  |  Геоинформатика  \n**15 бет**  |  Табиғатты па

In [64]:
full_base = ""
for page in base_content:
    full_base += page.text

with open("data/Anki_parsed_with_aisa.txt", "w", encoding="utf-8") as f:
    f.write(full_base )