Intelligent PDF API documentation parser with web interface for MCP server creation
Transform any PDF API documentation into structured MCP-ready data with 85%+ accuracy and HIGH quality results
Интеллектуальный парсер PDF документации API с веб-интерфейсом для создания MCP серверов
Этот проект автоматически преобразует PDF документацию API в структурированные данные для создания MCP (Model Context Protocol) серверов. С помощью интеллектуальных алгоритмов извлекает endpoints, заголовки, параметры и ответы API.
- 📄 Парсинг PDF документации с высокой точностью
- 🎯 Автоматическое извлечение endpoints, headers, parameters, responses
- 🧠 Интеллектуальная категоризация API методов (13 категорий)
- 🔧 Готовые данные для MCP серверов в формате JSON
- 🌐 Веб-интерфейс для загрузки и обработки документов
- 📊 Детальная отчетность о качестве парсинга
- ✅ HIGH качество результатов (85%+ MCP готовности)
- ✅ MCP готовность: 85.5% (HIGH качество)
- ✅ Качество titles: 99.2%
- ✅ Качество descriptions: 90.9%
- ✅ Headers: 100% покрытие
- ✅ Responses: 90.9% покрытие
📊 Fleethand API (пример):
├── 121 endpoints извлечено
├── 242 headers обработано
├── 47 parameters найдено
├── 110 responses документировано
└── 13 категорий классифицировано
git clone https://github.com/your-username/api-doc-parser.git
cd api-doc-parser
pip install -r requirements.txt
# Парсинг PDF документации
python fleethand_ultimate_parser.py
# Результаты будут сохранены в ultimate_final_data/
# Запуск веб-сервера
python web_interface.py
# Откройте http://localhost:5000 в браузере
ultimate_final_data/
├── endpoints_ultimate_final.json # Все endpoints для MCP tools
├── mcp_server_ultimate_final.json # Готовый MCP server config
└── quality_report_ultimate_final.json # Отчет о качестве
{
"operation_id": "get__api_drivers",
"method": "GET",
"path": "/api/drivers",
"summary": "Get drivers information",
"description": "This method returns information about client drivers",
"category": "drivers",
"headers": [
{
"name": "apiKey",
"data_type": "String",
"required": true,
"description": "Encoded api key"
}
],
"parameters": [],
"responses": [
{
"status_code": "200",
"description": "Successful response",
"schema": {...}
}
]
}
- PDF Text Extraction - Извлечение текста из PDF (PyMuPDF)
- Intelligent Parsing - Множественные алгоритмы анализа
- Quality Scoring - Система оценки качества результатов
- MCP Generation - Автоматическое создание MCP структур
- Web Interface - Удобный веб-интерфейс
- 🎯 Smart Title Detection - Интеллектуальное определение заголовков
- 📝 Context-Aware Description Extraction - Извлечение описаний по контексту
- 🏷️ Advanced Categorization - Категоризация по 13 типам
- ✅ Auto JSON Validation - Автоматическая валидация и исправление
- Построчный парсинг headers и parameters
- Множественные стратегии поиска descriptions
- Автоисправление JSON структур
- Валидация данных на всех этапах
- Подробная метрика качества
activities
, drivers
, vehicles
, documents
, tasks
, partners
, orders
, eco
, reports
, tacho
, locations
, payments
, forms
, general
- Загрузка PDF - Простой drag & drop интерфейс
- Настройки парсинга - Выбор параметров обработки
- Прогресс обработки - Реальное время выполнения
- Результаты - Интерактивное отображение данных
- Экспорт - Скачивание в различных форматах
- Backend: Flask/FastAPI
- Frontend: HTML5, CSS3, JavaScript
- Processing: Python 3.8+
- PDF: PyMuPDF
- Data: JSON Schema validation
MCP Readiness Score =
(Title Quality × 0.20) +
(Description Quality × 0.30) +
(Headers Coverage × 0.15) +
(Parameters Coverage × 0.15) +
(Responses Coverage × 0.15) +
(Average Quality Score × 0.05)
- HIGH: 85%+ MCP готовности + 60%+ descriptions
- MEDIUM: 75%+ MCP готовности + 40%+ descriptions
- LOW: Менее 75% MCP готовности
Python >= 3.8
PyMuPDF >= 1.23.0
Flask >= 2.0.0 (для веб-интерфейса)
requests >= 2.25.0
dataclasses-json >= 0.5.0
MIT License - подробности в LICENSE
Мы приветствуем вклад в развитие проекта! Пожалуйста:
- Fork репозиторий
- Создайте feature branch (
git checkout -b feature/amazing-feature
) - Commit изменения (
git commit -m 'Add amazing feature'
) - Push в branch (
git push origin feature/amazing-feature
) - Откройте Pull Request
Если у вас есть вопросы или предложения:
- 🐛 Issues
- 💬 Discussions
- 📧 Email: your-email@example.com
- Поддержка других форматов документации (Word, HTML)
- REST API для интеграции
- Docker контейнеризация
- Облачное развертывание
- Поддержка OpenAPI 3.1
- Machine Learning улучшения
⭐ Понравился проект? Поставьте звездочку!
Создано с ❤️ для сообщества разработчиков MCP серверов