<a href="https://colab.research.google.com/github/lonely-crab/article-parser/blob/main/ArticleParser.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Импорты

In [None]:
!pip uninstall firebase-admin google-genai mcp --yes
!pip install scholarly==1.7.11 httpx==0.24.1 beautifulsoup4 requests pandas tqdm lxml --quiet

import sys
import time
import logging
from typing import List, Optional, Dict
import requests
from bs4 import BeautifulSoup
import pandas as pd

from tqdm import tqdm
from fake_useragent import UserAgent
from scholarly import scholarly, ProxyGenerator, MaxTriesExceededException

import warnings
warnings.filterwarnings('ignore')

Found existing installation: firebase-admin 6.9.0
Uninstalling firebase-admin-6.9.0:
  Successfully uninstalled firebase-admin-6.9.0
Found existing installation: google-genai 1.51.0
Uninstalling google-genai-1.51.0:
  Successfully uninstalled google-genai-1.51.0
Found existing installation: mcp 1.21.2
Uninstalling mcp-1.21.2:
  Successfully uninstalled mcp-1.21.2
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.6/55.6 kB[0m [31m1.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.4/75.4 kB[0m [31m4.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m74.5/74.5 kB[0m [31m4.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m161.7/161.7 kB[0m [31m9.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

# Настройка логирования

In [None]:
logging.basicConfig()

logger = logging.getLogger("ArticleParser")
logger.propagate = False
logger.setLevel(logging.INFO)
handler = logging.StreamHandler(stream=sys.stdout)
formatter = logging.Formatter("\n[%(levelname)s] %(asctime)s : %(message)s", datefmt='%H:%M:%S')
handler.setFormatter(fmt=formatter)
logger.addHandler(hdlr=handler)

logger.info("Логирование успешно инициализировано")


[INFO] 16:29:12 : Логирование успешно инициализировано


# Настройка ключевых слов

In [None]:
PRIMARY_KEYWORDS = ["Асинхронные микросервисы", "FastAPI", "архитектура", "best practices", "performance"]
SECONDARY_KEYWORDS = ["async/await patterns", "dependency injection", "connection pooling", "event loop", "ASGI"]
TERTIARY_KEYWORDS = ["asyncio", "PostgreSQL", "testing", "monitoring", "security", "WebSockets", "Docker", "Kubernetes"]

ALL_KEYWORDS = PRIMARY_KEYWORDS + SECONDARY_KEYWORDS + TERTIARY_KEYWORDS
logger.info(f"Ключевые слова загружены ({len(ALL_KEYWORDS)}): {ALL_KEYWORDS}")



[INFO] 16:29:12 : Ключевые слова загружены (18): ['Асинхронные микросервисы', 'FastAPI', 'архитектура', 'best practices', 'performance', 'async/await patterns', 'dependency injection', 'connection pooling', 'event loop', 'ASGI', 'asyncio', 'PostgreSQL', 'testing', 'monitoring', 'security', 'WebSockets', 'Docker', 'Kubernetes']


# Поиск на Habr.com

## Функция поиска на Habr

In [None]:
def search_habr_articles(query: str, max_results: int = 10) -> List[Optional[Dict[str, str]]]:
    """Функция парсинга Habr.

    Args:
    ---
        query : str
          Ключевое слово для запроса.
        max_results : int
          Максимальное количество статей, возвращаемых при данном query.

    Returns:
    ---
      articles : List[Optional[Dict[str, str]]]
        Список (len <= max_results) статей, найденных по данному query.
    """

    # Обязательно добавляем в query слово Python, чтобы не получать нерелевантные статьи
    query = ' '.join(["Python", query])
    logger.info(f"Поиск статей Habr по запросу: '{query}'")
    BASE_URL = "https://habr.com/ru/search/"
    params = {"q": query, "target_type": "posts", "order": "relevance"}
    headers = {}

    try:
        res = requests.get(BASE_URL, params=params, headers=headers, timeout=15)
        res.raise_for_status()
        soup = BeautifulSoup(res.text, "html.parser")
        articles = []
        for article in soup.select("article"):
            title_tag = article.find("a", class_="tm-title__link")
            author_tag = article.find("a", class_="tm-user-info__username")
            if title_tag and author_tag:
                title = title_tag.text.strip()
                author = "https://habr.com" + author_tag["href"]
                url = "https://habr.com" + title_tag["href"]
                article_data = {
                    'query': query,
                    'title': title,
                    'url': url,
                    'author': author,
                    'source': 'Habr'
                }
                articles.append(article_data)
            if len(articles) >= max_results:
                break

        logger.info(f"Найдено статей на Habr: {len(articles)} по '{query}'")
        time.sleep(1)
        return articles
    except Exception as e:
        logger.error(f"Habr — ошибка при обработке '{query}': {e}")
        return []

## Процесс поиска на Habr

In [None]:
habr_results = []
for kw in tqdm(ALL_KEYWORDS, desc="Поиск на Habr"):
    habr_results.extend(search_habr_articles(kw, max_results=3))

habr_df = pd.DataFrame(habr_results)
logger.info(f"Итого найдено {len(habr_df)} статей на Habr")


Поиск на Habr:   0%|          | 0/18 [00:00<?, ?it/s]


[INFO] 16:29:12 : Поиск статей Habr по запросу: 'Python Асинхронные микросервисы'

[INFO] 16:29:14 : Найдено статей на Habr: 3 по 'Python Асинхронные микросервисы'


Поиск на Habr:   6%|▌         | 1/18 [00:02<00:42,  2.52s/it]


[INFO] 16:29:15 : Поиск статей Habr по запросу: 'Python FastAPI'

[INFO] 16:29:16 : Найдено статей на Habr: 3 по 'Python FastAPI'


Поиск на Habr:  11%|█         | 2/18 [00:04<00:38,  2.43s/it]


[INFO] 16:29:17 : Поиск статей Habr по запросу: 'Python архитектура'

[INFO] 16:29:18 : Найдено статей на Habr: 3 по 'Python архитектура'


Поиск на Habr:  17%|█▋        | 3/18 [00:07<00:34,  2.32s/it]


[INFO] 16:29:19 : Поиск статей Habr по запросу: 'Python best practices'

[INFO] 16:29:21 : Найдено статей на Habr: 3 по 'Python best practices'


Поиск на Habr:  22%|██▏       | 4/18 [00:09<00:32,  2.29s/it]


[INFO] 16:29:22 : Поиск статей Habr по запросу: 'Python performance'

[INFO] 16:29:23 : Найдено статей на Habr: 3 по 'Python performance'


Поиск на Habr:  28%|██▊       | 5/18 [00:11<00:29,  2.27s/it]


[INFO] 16:29:24 : Поиск статей Habr по запросу: 'Python async/await patterns'

[INFO] 16:29:25 : Найдено статей на Habr: 3 по 'Python async/await patterns'


Поиск на Habr:  33%|███▎      | 6/18 [00:13<00:26,  2.22s/it]


[INFO] 16:29:26 : Поиск статей Habr по запросу: 'Python dependency injection'

[INFO] 16:29:27 : Найдено статей на Habr: 3 по 'Python dependency injection'


Поиск на Habr:  39%|███▉      | 7/18 [00:15<00:23,  2.17s/it]


[INFO] 16:29:28 : Поиск статей Habr по запросу: 'Python connection pooling'

[INFO] 16:29:29 : Найдено статей на Habr: 3 по 'Python connection pooling'


Поиск на Habr:  44%|████▍     | 8/18 [00:18<00:22,  2.21s/it]


[INFO] 16:29:30 : Поиск статей Habr по запросу: 'Python event loop'

[INFO] 16:29:31 : Найдено статей на Habr: 3 по 'Python event loop'


Поиск на Habr:  50%|█████     | 9/18 [00:20<00:19,  2.17s/it]


[INFO] 16:29:32 : Поиск статей Habr по запросу: 'Python ASGI'

[INFO] 16:29:34 : Найдено статей на Habr: 3 по 'Python ASGI'


Поиск на Habr:  56%|█████▌    | 10/18 [00:22<00:17,  2.15s/it]


[INFO] 16:29:35 : Поиск статей Habr по запросу: 'Python asyncio'

[INFO] 16:29:36 : Найдено статей на Habr: 3 по 'Python asyncio'


Поиск на Habr:  61%|██████    | 11/18 [00:24<00:15,  2.17s/it]


[INFO] 16:29:37 : Поиск статей Habr по запросу: 'Python PostgreSQL'

[INFO] 16:29:38 : Найдено статей на Habr: 3 по 'Python PostgreSQL'


Поиск на Habr:  67%|██████▋   | 12/18 [00:26<00:12,  2.13s/it]


[INFO] 16:29:39 : Поиск статей Habr по запросу: 'Python testing'

[INFO] 16:29:40 : Найдено статей на Habr: 3 по 'Python testing'


Поиск на Habr:  72%|███████▏  | 13/18 [00:28<00:10,  2.14s/it]


[INFO] 16:29:41 : Поиск статей Habr по запросу: 'Python monitoring'

[INFO] 16:29:42 : Найдено статей на Habr: 3 по 'Python monitoring'


Поиск на Habr:  78%|███████▊  | 14/18 [00:30<00:08,  2.12s/it]


[INFO] 16:29:43 : Поиск статей Habr по запросу: 'Python security'

[INFO] 16:29:44 : Найдено статей на Habr: 3 по 'Python security'


Поиск на Habr:  83%|████████▎ | 15/18 [00:33<00:06,  2.17s/it]


[INFO] 16:29:45 : Поиск статей Habr по запросу: 'Python WebSockets'

[INFO] 16:29:46 : Найдено статей на Habr: 3 по 'Python WebSockets'


Поиск на Habr:  89%|████████▉ | 16/18 [00:35<00:04,  2.16s/it]


[INFO] 16:29:47 : Поиск статей Habr по запросу: 'Python Docker'

[INFO] 16:29:49 : Найдено статей на Habr: 3 по 'Python Docker'


Поиск на Habr:  94%|█████████▍| 17/18 [00:37<00:02,  2.17s/it]


[INFO] 16:29:50 : Поиск статей Habr по запросу: 'Python Kubernetes'

[INFO] 16:29:51 : Найдено статей на Habr: 3 по 'Python Kubernetes'


Поиск на Habr: 100%|██████████| 18/18 [00:39<00:00,  2.19s/it]


[INFO] 16:29:52 : Итого найдено 54 статей на Habr





# Поиск на Google Scholar

## Настройка прокси для Google Scholar


In [None]:
def setup_scholarly_proxy(api_key: Optional[str] = None) -> ProxyGenerator:
    """Настройка прокси для scholarly для избежания получения 429 ошибки (Too many requests).

    Args:
    ---
        api_key: str
          API ключ для ScraperAPI (есть бесплатный период, можно попробовать с ним).

    Returns:
    ---
        ProxyGenerator - генератор прокси.
    """

    pg = ProxyGenerator()
    success = False

    if api_key is not None:
        logger.info("Настройка прокси через ScraperAPI")
        while success == False:
            success = pg.ScraperAPI(str(api_key))
        if success:
            logger.info("Прокси через ScraperAPI успешно настроен")
        else:
            logger.info("Не удалось настроить ScraperAPI, используем бесплатные прокси")
            pg.FreeProxies()
    else:
        logger.info("Настройка бесплатных прокси")
        pg.FreeProxies()
        logger.info("Бесплатные прокси настроены")

    scholarly.use_proxy(pg)
    return pg

## Функция поиска на Google Scholar

In [None]:
def search_google_scholar_with_proxy(query: str,
                                     max_results: int = 10,
                                     start_year=2020,
                                     pg: Optional[ProxyGenerator] = None) -> List[Optional[Dict[str, str]]]:
    """
    Поиск статей в Google Scholar с использованием прокси.

    Args:
    ---
      query : str
        Ключевое слово для запроса.
      max_results : int
        Максимальное количество статей, возвращаемых при данном query.
      start_year : int
        Год начала фильтрации.
      pg : ProxyGenerator
        Генератор прокси (если None, прокси не используется).

    Returns:
      articles : List[Optional[Dict[str, str]]]
        Список (len <= max_results) статей, найденных по данному query.
    """
    # Обязательно добавляем в query слово Python, чтобы не получать нерелевантные статьи
    query = ' '.join(["Python", query])

    logger.info(f"Поиск в Scholar по запросу: '{query}'")

    articles = []

    try:
        if pg: # Подключаем прокси
            scholarly.use_proxy(pg)


        # Выполняем поиск
        search_query = scholarly.search_pubs(query=query,
                                             year_low=start_year)

        count = 0
        for result in search_query:
            if count >= max_results:
                break

            try:
                bib = result.get('bib', {})

                title = bib.get('title', 'N/A')
                authors = bib.get('author', 'N/A')

                if isinstance(authors, list):
                    authors = ', '.join(authors)

                year = bib.get('pub_year', 'N/A')
                journal = bib.get('venue', bib.get('journal', 'N/A'))
                abstract = bib.get('abstract', 'N/A')

                # Извлекаем URL
                url = result.get('pub_url', result.get('eprint_url', 'N/A'))

                # Цитирования
                citations = result.get('num_citations', 0)

                article = {
                    'query': query,
                    'title': title,
                    'authors': authors,
                    'year': year,
                    'journal': journal,
                    'url': url,
                    'abstract': abstract if abstract != 'N/A' else 'N/A',
                    'citations': citations,
                    'source': 'Google Scholar'
                }

                articles.append(article)
                count += 1

                logger.info(f"[{count}/{max_results}] {title}...")

                # Важно: задержка между запросами для уменьшения вероятности отказа сервиса
                time.sleep(30)

            except StopIteration:
                logger.info(f"Достигнут конец результатов")
                break
            except MaxTriesExceededException as e:
                logger.error(f"MaxTriesExceededException ошибка при обработке результата: {e}")
                continue
            except Exception as e:
                logger.error(f"Другая ошибка при обработке результата: {e}")
                continue

        logger.info(f"Найдено {len(articles)} статей по запросу '{query}'")

    except Exception as e:
        logger.error(f"Ошибка при поиске '{query}': {e}")

    return articles

## Установка прокси и поиск статей

In [None]:
API_KEY = None # рекомендую добавить api ключ если он есть, с ним гораздо надежнее
pg = setup_scholarly_proxy(api_key=API_KEY)

all_results = []

for keyword in tqdm(ALL_KEYWORDS, desc="Поиск на Google Scholar"):
  try:
    results = search_google_scholar_with_proxy(
        query=keyword,
        max_results=5,
        start_year=2023
    )
    all_results.extend(results)
  except Exception as e:
    logger.info(f"Запрос '{keyword}' завершился ошибкой и был пропущен: {e}")


    # Задержка между ключевыми словами
    pause = 30
    logger.info(f"\nПауза {pause} секунд перед следующим запросом")
    time.sleep(pause)

scholar_df = pd.DataFrame(all_results)

# Удаляем дубликаты
if not scholar_df.empty:
    scholar_df = scholar_df.drop_duplicates(subset=['title'], keep='first')
    scholar_df = scholar_df.sort_values('citations', ascending=False)

logger.info(f"\nИТОГО найдено {len(scholar_df)} уникальных статей")


[INFO] 16:29:52 : Настройка бесплатных прокси

[INFO] 16:29:53 : Бесплатные прокси настроены


Поиск на Google Scholar:   0%|          | 0/18 [00:00<?, ?it/s]


[INFO] 16:29:55 : Поиск в Scholar по запросу: 'Python Асинхронные микросервисы'

[ERROR] 16:31:02 : Ошибка при поиске 'Python Асинхронные микросервисы': Cannot Fetch from Google Scholar.


Поиск на Google Scholar:   6%|▌         | 1/18 [01:07<19:13, 67.83s/it]


[INFO] 16:31:02 : Поиск в Scholar по запросу: 'Python FastAPI'

[INFO] 16:31:09 : Найдено 0 статей по запросу 'Python FastAPI'


Поиск на Google Scholar:  11%|█         | 2/18 [01:14<08:29, 31.82s/it]


[INFO] 16:31:09 : Поиск в Scholar по запросу: 'Python архитектура'

[ERROR] 16:31:23 : Ошибка при поиске 'Python архитектура': Cannot Fetch from Google Scholar.


Поиск на Google Scholar:  17%|█▋        | 3/18 [01:27<05:51, 23.43s/it]


[INFO] 16:31:23 : Поиск в Scholar по запросу: 'Python best practices'

[ERROR] 16:31:37 : Ошибка при поиске 'Python best practices': Cannot Fetch from Google Scholar.


Поиск на Google Scholar:  22%|██▏       | 4/18 [01:42<04:39, 19.94s/it]


[INFO] 16:31:37 : Поиск в Scholar по запросу: 'Python performance'

[ERROR] 16:32:02 : Ошибка при поиске 'Python performance': Cannot Fetch from Google Scholar.


Поиск на Google Scholar:  28%|██▊       | 5/18 [02:07<04:40, 21.61s/it]


[INFO] 16:32:02 : Поиск в Scholar по запросу: 'Python async/await patterns'

[INFO] 16:33:01 : [1/5] USING ASYNCHRONOUS PROGRAMMING IN PYTHON TO IMPROVE APPLICATION PERFORMANCE...

[INFO] 16:33:31 : [2/5] Parallel and High Performance Programming with Python: Unlock Parallel and Concurrent Programming in Python Using Multithreading, CUDA, Pytorch, and …...

[INFO] 16:34:01 : [3/5] Asynchronous Programming in Rust: Learn asynchronous programming by building working examples of futures, green threads, and runtimes...

[INFO] 16:34:31 : [4/5] Using Asynchronous Programming in C#-Problems, Practical Tips and Scenarios: A Short Review...

[INFO] 16:35:01 : [5/5] Research on Refactoring Methods for Ensuring Async Code in. NET Applications...

[INFO] 16:35:31 : Найдено 5 статей по запросу 'Python async/await patterns'


Поиск на Google Scholar:  33%|███▎      | 6/18 [05:36<17:05, 85.43s/it]


[INFO] 16:35:31 : Поиск в Scholar по запросу: 'Python dependency injection'

[INFO] 16:35:53 : [1/5] Effect of Deep Recurrent Architectures on Code Vulnerability Detection: Performance Evaluation for SQL Injection in Python...

[INFO] 16:36:23 : [2/5] An Empirical Study of Vulnerabilities in Python Packages and Their Detection...

[INFO] 16:36:53 : [3/5] The impact of SBOM generators on vulnerability assessment in Python: A comparison and a novel approach...

[INFO] 16:37:23 : [4/5] Slopsquatting: Hallucination in Coding Agents and Vibe Coding...

[INFO] 16:37:53 : [5/5] FastAPI Cookbook: Develop high-performance APIs and web applications with Python...

[INFO] 16:38:23 : Найдено 5 статей по запросу 'Python dependency injection'


Поиск на Google Scholar:  39%|███▉      | 7/18 [08:28<20:51, 113.82s/it]


[INFO] 16:38:23 : Поиск в Scholar по запросу: 'Python connection pooling'

[INFO] 16:38:38 : [1/5] Self-attention (SA) temporal convolutional network (SATCN)-long short-term memory neural network (SATCN-LSTM): an advanced python code for predicting …...

[INFO] 16:39:08 : [2/5] An extensive study of the effects of different deep learning models on code vulnerability detection in Python code...

[INFO] 16:39:38 : [3/5] Hands-On Web Scraping with Python: Extract quality data from the web using effective Python techniques...

[INFO] 16:40:08 : [4/5] GPAW: An open Python package for electronic structure calculations...

[INFO] 16:40:38 : [5/5] Parallel Python with Dask: Perform distributed computing, concurrent programming and manage large dataset...

[INFO] 16:41:08 : Найдено 5 статей по запросу 'Python connection pooling'


Поиск на Google Scholar:  44%|████▍     | 8/18 [11:12<21:38, 129.87s/it]


[INFO] 16:41:08 : Поиск в Scholar по запросу: 'Python event loop'

[INFO] 16:41:17 : [1/5] EPICS for Small-Scale Laboratories with Python Soft IOCs...

[INFO] 16:41:47 : [2/5] Chromo: A High-Performance Python Interface to Hadronic Event Generators for Collider and Cosmic-Ray Simulations...

[INFO] 16:42:17 : [3/5] DIGITAL VIDEO PROCESSING PROJECTS USING PYTHON AND TKINTER...

[INFO] 16:42:47 : [4/5] Evaluating Process Discovery From Loop Structures...

[INFO] 16:43:17 : [5/5] FRAME FILTERING AND EDGES-DETECTION USING PYTHON AND TKINTER...

[INFO] 16:43:47 : Найдено 5 статей по запросу 'Python event loop'


Поиск на Google Scholar:  50%|█████     | 9/18 [13:52<20:52, 139.22s/it]


[INFO] 16:43:47 : Поиск в Scholar по запросу: 'Python ASGI'

[INFO] 16:44:31 : [1/5] Evaluative Comparison of ASGI Web Servers: A Systematic Review...

[INFO] 16:45:01 : [2/5] PYTHON для серверной части высоконагруженных веб-приложений...

[INFO] 16:45:31 : [3/5] Database and Application Programming Interface Development for Rotational Spectroscopy...

[INFO] 16:46:01 : [4/5] Designing High-Throughput FastAPI Gateways for Microservice Communication...

[INFO] 16:46:31 : [5/5] WebSockets with Django...

[INFO] 16:47:01 : Найдено 5 статей по запросу 'Python ASGI'


Поиск на Google Scholar:  56%|█████▌    | 10/18 [17:06<20:48, 156.04s/it]


[INFO] 16:47:01 : Поиск в Scholar по запросу: 'Python asyncio'

[INFO] 16:47:58 : Найдено 0 статей по запросу 'Python asyncio'


Поиск на Google Scholar:  61%|██████    | 11/18 [18:03<14:40, 125.81s/it]


[INFO] 16:47:58 : Поиск в Scholar по запросу: 'Python PostgreSQL'

[INFO] 16:48:30 : [1/5] Improving ANN Efficiency using PostgreSQL...

[INFO] 16:49:00 : [2/5] Simplificando a inserção de dados em um banco PostgreSQL com o uso do Python: trabalhando na eficiência e gestão de uma base de dados automatizando a …...

[INFO] 16:49:30 : [3/5] La Compilación Nativa de Funciones y Procedimientos en PostgreSQL...

[INFO] 16:50:00 : [4/5] Learn PostgreSQL: Use, manage, and build secure and scalable databases with PostgreSQL 16...

[INFO] 16:50:30 : [5/5] Розробка ігрового застосунку засобами Pygame та PostgreSQL...

[INFO] 16:51:00 : Найдено 5 статей по запросу 'Python PostgreSQL'


Поиск на Google Scholar:  67%|██████▋   | 12/18 [21:05<14:16, 142.81s/it]


[INFO] 16:51:00 : Поиск в Scholar по запросу: 'Python testing'

[INFO] 16:51:30 : [1/5] An empirical study of automated unit test generation for Python...

[INFO] 16:52:00 : [2/5] PyLC+: A Scalable Python Framework for Automated Translation and Testing of Industrial PLC Programs...

[INFO] 16:52:30 : [3/5] Statistical Hypothesis Testing with Python...

[INFO] 16:53:00 : [4/5] Multtestlib: A Python package for performing unit tests using multiprocessing...

[INFO] 16:53:30 : [5/5] Multtestlib: A Parallel Approach to Unit Testing in Python...

[INFO] 16:54:00 : Найдено 5 статей по запросу 'Python testing'


Поиск на Google Scholar:  72%|███████▏  | 13/18 [24:04<12:49, 153.95s/it]


[INFO] 16:54:00 : Поиск в Scholar по запросу: 'Python monitoring'

[INFO] 16:54:44 : Найдено 0 статей по запросу 'Python monitoring'


Поиск на Google Scholar:  78%|███████▊  | 14/18 [24:49<08:03, 120.96s/it]


[INFO] 16:54:44 : Поиск в Scholar по запросу: 'Python security'

[INFO] 16:55:09 : [1/5] Towards understanding the security issues of Python programs...

[INFO] 16:55:39 : [2/5] USING NMAP AND PYTHON FOR AN AUTOMATED NETWORK SECURITY AUDIT WYKORZYSTANIE NMAP I PYTHONA DO ZAUTOMATYZOWANEGO AUDYTU …...

[INFO] 16:56:09 : [3/5] Using chatgpt as a static application security testing tool...

[INFO] 16:56:39 : [4/5] Teaching devops security education with hands-on labware: Automated detection of security weakness in python...

[INFO] 16:57:09 : [5/5] Advancing Blockchain Security Using Graph Theory: A Python Programming Perspective...

[INFO] 16:57:39 : Найдено 5 статей по запросу 'Python security'


Поиск на Google Scholar:  83%|████████▎ | 15/18 [27:43<06:51, 137.03s/it]


[INFO] 16:57:39 : Поиск в Scholar по запросу: 'Python WebSockets'

[INFO] 16:59:31 : [1/5] An Analytical Comparison of WebSockets in Java, Python, and Go...

[INFO] 17:00:01 : [2/5] WebSockets with Django...

[INFO] 17:00:31 : [3/5] Comparison of WebSocket and Hypertext Transfer Protocol for Transfer of Electronic Health Records...

[INFO] 17:01:01 : [4/5] WebSocket Communication between Multiple Users in Scalable Web-application Environment...

[INFO] 17:01:31 : [5/5] Real Time Communication using Web Sockets...

[INFO] 17:02:01 : Найдено 5 статей по запросу 'Python WebSockets'


Поиск на Google Scholar:  89%|████████▉ | 16/18 [32:05<05:49, 174.66s/it]


[INFO] 17:02:01 : Поиск в Scholar по запросу: 'Python Docker'

[INFO] 17:02:21 : Найдено 0 статей по запросу 'Python Docker'


Поиск на Google Scholar:  94%|█████████▍| 17/18 [32:25<02:08, 128.17s/it]


[INFO] 17:02:21 : Поиск в Scholar по запросу: 'Python Kubernetes'

[INFO] 17:02:31 : [1/5] Design of Application Development Infrastructure Automation Tools on Kubernetes Using Python...

[INFO] 17:03:01 : [2/5] CONTAINERIZING PYTHON APPLICATIONS USING DOCKER TO BUILD A MICROSERVICE ARCHITECTURE...

[INFO] 17:03:31 : [3/5] Building AI-driven cloud-native applications with Kubernetes and containerization...

[INFO] 17:04:01 : [4/5] Dynamic Load Balancing in Kubernetes Environments With Kubernetes Scheduling Extension (KSE)...

[INFO] 17:04:31 : [5/5] Análise de Auto-Scaling em Plataformas Serverless no Kubernetes...

[INFO] 17:05:01 : Найдено 5 статей по запросу 'Python Kubernetes'


Поиск на Google Scholar: 100%|██████████| 18/18 [35:06<00:00, 117.04s/it]


[INFO] 17:05:01 : 
ИТОГО найдено 49 уникальных статей





# Итог: Сбор всех результатов и сохранение

In [None]:
with pd.ExcelWriter("literature_search_results.xlsx") as writer:
    habr_df.to_excel(writer, sheet_name="Habr", index=False)
    scholar_df.to_excel(writer, sheet_name="GoogleScholar", index=False)
    # elibrary_df.to_excel(writer, sheet_name="eLibrary", index=False)

habr_df.to_csv("habr_results.csv", index=False)
scholar_df.to_csv("scholar_results.csv", index=False)
# elibrary_df.to_csv("elibrary_results.csv", index=False)
logger.info("Результаты поиска статей успешно сохранены в Excel и CSV-файлы")



[INFO] 17:05:02 : Результаты поиска статей успешно сохранены в Excel и CSV-файлы
