In [1]:
import sys
import os
from advanced_resume_parser import AdvancedResumeParser
import logging
import glob

In [2]:
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s'
)
logger = logging.getLogger(__name__)

def test_extract_text(parser, file_path):
    """Тестирование извлечения текста из PDF"""
    logger.info(f"Тестирование извлечения текста из файла: {file_path}")
    try:
        text = parser.extract_text_from_pdf(file_path)
        logger.info("Текст успешно извлечен")
        logger.info("Первые 500 символов текста:")
        logger.info("-" * 50)
        logger.info(text[:500])
        return text
    except Exception as e:
        logger.error(f"Ошибка при извлечении текста: {e}")
        return None

In [3]:
import sys
sys.path.insert(0, "C:/users/user/documents/development/pharos/.venv/lib/site-packages")

In [4]:
parser = AdvancedResumeParser()

2025-03-03 14:52:44,244 - advanced_resume_parser - INFO - Initializing resume parser...
2025-03-03 14:52:44,399 - pymorphy2.opencorpora_dict.wrapper - INFO - Loading dictionaries from C:\users/user/documents/development/pharos/.venv/lib/site-packages\pymorphy2_dicts_ru\data
2025-03-03 14:52:44,451 - pymorphy2.opencorpora_dict.wrapper - INFO - format: 2.4, revision: 417127, updated: 2020-10-11T15:05:51.070345
2025-03-03 14:52:45,588 - pymorphy3.opencorpora_dict.wrapper - INFO - Loading dictionaries from C:\users/user/documents/development/pharos/.venv/lib/site-packages\pymorphy3_dicts_ru\data
2025-03-03 14:52:45,647 - pymorphy3.opencorpora_dict.wrapper - INFO - format: 2.4, revision: 417150, updated: 2022-01-08T22:09:24.565962
2025-03-03 14:52:57,927 - advanced_resume_parser - INFO - Classification model successfully loaded


In [11]:
file_path = glob.glob('resumes/*Луси*')[1]
text = test_extract_text(parser, file_path)

2025-03-03 14:53:38,364 - __main__ - INFO - Тестирование извлечения текста из файла: resumes\20250303_143409_Оганевская Лусинэ Месроповна QA.pdf
2025-03-03 14:53:38,606 - __main__ - INFO - Текст успешно извлечен
2025-03-03 14:53:38,606 - __main__ - INFO - Первые 500 символов текста:
2025-03-03 14:53:38,609 - __main__ - INFO - --------------------------------------------------
2025-03-03 14:53:38,610 - __main__ - INFO - Оганевская Лусинэ Месроповна
Женщина, 34 года, родилась 12 июля 1990
+7 (988) 5639406 — предпочитаемый способ связи • и на электронную почту
lusineogan1207@mail.ru
Другой сайт: https://t.me/Lusine1207
Проживает: Москва
Гражданство: Россия, есть разрешение на работу: Россия
Не готова к переезду, готова к редким командировкам
Желаемая должность и зарплата
QA Engineer / Тестировщик
Специализации:
— Тестировщик
Занятость: полная занятость
График работы: полный день, удаленная работа
Желательное врем


In [12]:
doc_spacy = parser.nlp(' . '.join(text[:1000].split('\n')))

In [13]:
doc_spacy

Оганевская Лусинэ Месроповна . Женщина, 34 года, родилась 12 июля 1990 . +7 (988) 5639406 — предпочитаемый способ связи • и на электронную почту . lusineogan1207@mail.ru . Другой сайт: https://t.me/Lusine1207 . Проживает: Москва . Гражданство: Россия, есть разрешение на работу: Россия . Не готова к переезду, готова к редким командировкам . Желаемая должность и зарплата . QA Engineer / Тестировщик . Специализации: . — Тестировщик . Занятость: полная занятость . График работы: полный день, удаленная работа . Желательное время в пути до работы: не имеет значения . Опыт работы — 3 года 7 месяцев . Июль 2021 — ChefMarket- . Январь 2025 . Москва, www.chefmarket.ru/?ysclid=m2da5w97cb331043685 . 3 года 7 месяцев . QA Engineer . Stack: Postman,Swagger, Jira,Confluence,Zephyr,MySQL,Charles Proxy,DevTools, Figma,Android . Studio, Kibana . В мои обязанности входило: . -Участие в планировании спринтов . -Анализ требований в Confluence . -Создание и актуализация тестовой документации (тест планы,тес

In [14]:
for ee_doc in doc_spacy.ents:
    print(ee_doc)
    print('-' * 20)
    print(ee_doc.label)
    print('-' * 40)

Лусинэ Месроповна
--------------------
4317129024397789502
----------------------------------------
Москва
--------------------
385
----------------------------------------
Россия
--------------------
385
----------------------------------------
Россия
--------------------
385
----------------------------------------
QA Engineer /
--------------------
383
----------------------------------------
Москва
--------------------
385
----------------------------------------
Swagger
--------------------
383
----------------------------------------
Jira
--------------------
383
----------------------------------------
Confluence
--------------------
383
----------------------------------------
Zephyr
--------------------
383
----------------------------------------
MySQL
--------------------
383
----------------------------------------
Charles Proxy
--------------------
383
----------------------------------------
DevTools
--------------------
383
----------------------------------------
Figma


In [15]:
for ent in doc_spacy.ents:
    if ent.label_ == "PER":
        print(ent.text)

Лусинэ Месроповна


In [19]:
text[:500]

'Оганевская Лусинэ Месроповна\nЖенщина, 34 года, родилась 12 июля 1990\n+7 (988) 5639406 — предпочитаемый способ связи • и на электронную почту\nlusineogan1207@mail.ru\nДругой сайт: https://t.me/Lusine1207\nПроживает: Москва\nГражданство: Россия, есть разрешение на работу: Россия\nНе готова к переезду, готова к редким командировкам\nЖелаемая должность и зарплата\nQA Engineer / Тестировщик\nСпециализации:\n— Тестировщик\nЗанятость: полная занятость\nГрафик работы: полный день, удаленная работа\nЖелательное врем'

In [20]:
candidate_labels = list(parser.specializations.keys())
            
# Classify text
result = parser.classifier(
    text[:500],  # Take first 300 characters
    candidate_labels,
    multi_label=True
)

# Filter results with high confidence (more than 0.3)
print([label for label, score in zip(result['labels'], result['scores']) if score > 0.85])

['QA']


In [21]:
list(zip(result['labels'], result['scores']))

[('QA', 0.948006272315979),
 ('Backend', 0.508602499961853),
 ('Designer', 0.4928992688655853),
 ('Analyst', 0.4486701786518097),
 ('Frontend', 0.338078111410141),
 ('System Analyst', 0.26465460658073425),
 ('Data Science', 0.2644566297531128),
 ('Business Analyst', 0.20733293890953064),
 ('iOS', 0.19728493690490723),
 ('Python', 0.17091578245162964),
 ('DevOps', 0.16643071174621582),
 ('Project Manager', 0.13336649537086487),
 ('Android', 0.12743806838989258),
 ('Product Manager', 0.10118655115365982),
 ('Java', 0.06373512744903564)]

In [None]:
def test_extract_name(parser, text):
    """Тестирование извлечения имени"""
    logger.info("Тестирование извлечения имени")
    try:
        name = parser.extract_name(text)
        logger.info(f"Извлеченное имя: {name}")
        return name
    except Exception as e:
        logger.error(f"Ошибка при извлечении имени: {e}")
        return None

def test_extract_email(parser, text):
    """Тестирование извлечения email"""
    logger.info("Тестирование извлечения email")
    try:
        email = parser.extract_email(text)
        logger.info(f"Извлеченный email: {email}")
        return email
    except Exception as e:
        logger.error(f"Ошибка при извлечении email: {e}")
        return None

def test_extract_phone(parser, text):
    """Тестирование извлечения телефона"""
    logger.info("Тестирование извлечения телефона")
    try:
        phone = parser.extract_phone(text)
        logger.info(f"Извлеченный телефон: {phone}")
        return phone
    except Exception as e:
        logger.error(f"Ошибка при извлечении телефона: {e}")
        return None

def test_extract_specialization(parser, text):
    """Тестирование извлечения специализаций"""
    logger.info("Тестирование извлечения специализаций")
    try:
        specs = parser.extract_specialization(text)
        logger.info("Извлеченные специализации:")
        for spec in specs:
            logger.info(f"- {spec}")
        return specs
    except Exception as e:
        logger.error(f"Ошибка при извлечении специализаций: {e}")
        return None

def analyze_resume(file_path):
    """Полный анализ резюме"""
    logger.info(f"Начало анализа резюме: {file_path}")
    
    # Инициализация парсера
    parser = AdvancedResumeParser()
    
    # Извлекаем текст
    text = test_extract_text(parser, file_path)
    if not text:
        logger.error("Не удалось извлечь текст из резюме")
        return
    
    # Извлекаем данные
    name = test_extract_name(parser, text)
    email = test_extract_email(parser, text)
    phone = test_extract_phone(parser, text)
    specs = test_extract_specialization(parser, text)
    
    # Выводим итоговый результат
    logger.info("\nИтоговые результаты анализа резюме:")
    logger.info("-" * 50)
    logger.info(f"Имя: {name}")
    logger.info(f"Email: {email}")
    logger.info(f"Телефон: {phone}")
    logger.info("Специализации:")
    for spec in specs or []:
        logger.info(f"- {spec}")



In [None]:
def main(file_path):
    """Основная функция для запуска тестов"""
    if not os.path.exists(file_path):
        logger.error(f"Файл не найден: {file_path}")
        sys.exit(1)
    
    analyze_resume(file_path)