In [8]:
import yaml
import arxiv
from tqdm import tqdm
import os
import logging


# Настройка логирования
logging.basicConfig(
    filename="log/error_arxiv.txt",
    level=logging.ERROR,
    format="%(asctime)s - %(levelname)s - %(message)s"
)

In [9]:
# === Считывание тем из YAML ===
def load_topics_from_yaml(file_path: str):
    """Считывает YAML файл и возвращает список тем."""
    with open(file_path, 'r') as file:
        data = yaml.safe_load(file)
    return data['topics']


# === Загрузка статей с arXiv ===
def download_arxiv_papers(query: str, max_results: int, download_folder: str):
    """Загружает статьи с arXiv по запросу."""
    if not os.path.exists(download_folder):
        os.makedirs(download_folder)

    search = arxiv.Search(
        query=query,
        max_results=max_results,
        # sort_by=arxiv.SortCriterion.SubmittedDate
    )

    for result in search.results():
        paper_id = result.entry_id.split('/')[-1]
        pdf_path = os.path.join(download_folder, f'{paper_id}.pdf')
        if not os.path.exists(pdf_path):
            print(f"Downloading {result.title}...")
            result.download_pdf(download_folder, f'{paper_id}.pdf')
            print(f"Saved to {pdf_path}")
        else:
            print(f"{result.title} already downloaded.")

In [10]:
# Шаг 1. Считываем темы из YAML
topics = load_topics_from_yaml('config/topic.yaml')
print(f"Loaded topics: {[topic['name'] for topic in topics]}")

Loaded topics: ['Machine Learning']


In [11]:
# Шаг 2. Загрузка статей по каждой теме
max_results = 30


for topic in tqdm(topics[:6]):
    topic_name = topic['name']
    folder = f"dataset/{topic_name}"#.replace(' ', '_')}"

    for keyword in topic['keywords']:
        query = f"all:\"{keyword}\""
        try:
            download_arxiv_papers(query, max_results=max_results, download_folder=folder + f'/{keyword}')
        except Exception as e:
            # Логирование ошибки
            logging.error(f"Ошибка при загрузке статей для темы '{topic_name}', ключевого слова '{keyword}': {e}")
            # (Необязательно) Вывод сообщения об ошибке в консоль
            print(f"Ошибка: {e} - при обработке темы '{topic_name}', ключевого слова '{keyword}'")

  for result in search.results():


Downloading Counterfactual Cross-Validation: Stable Model Selection Procedure for Causal Inference Models...
Saved to dataset/Machine Learning/cross-validation\1909.05299v5.pdf
Downloading Approximate Cross-validation: Guarantees for Model Assessment and Selection...
Saved to dataset/Machine Learning/cross-validation\2003.00617v2.pdf
Downloading Blocked Cross-Validation: A Precise and Efficient Method for Hyperparameter Tuning...
Saved to dataset/Machine Learning/cross-validation\2306.06591v2.pdf
Downloading Parallel cross-validation: a scalable fitting method for Gaussian process models...
Saved to dataset/Machine Learning/cross-validation\1912.13132v1.pdf
Downloading Cross-validation: what does it estimate and how well does it do it?...
Saved to dataset/Machine Learning/cross-validation\2104.00673v4.pdf
Downloading Random projections and Kernelised Leave One Cluster Out Cross-Validation: Universal baselines and evaluation tools for supervised machine learning for materials properties

100%|██████████| 1/1 [00:04<00:00,  4.30s/it]

Saved to dataset/Machine Learning/cross-validation\2206.08841v1.pdf
Downloading A Comparative Study of Sampling Methods with Cross-Validation in the FedHome Framework...
Saved to dataset/Machine Learning/cross-validation\2406.01950v1.pdf


100%|██████████| 1/1 [00:04<00:00,  4.30s/it]


In [12]:
def count_files_in_directory(directory):
    count = 0
    for _, _, files in os.walk(directory):
        count += len(files)
    return count

directory = r"E:\ImportantFiles\Documents\University\Magic App\dataset"
print(f"Число файлов: {count_files_in_directory(directory)}")


Число файлов: 444


# Удаление  
Удаление дубликатов файлов

In [13]:
import os

def delete_duplicate_filenames(root_folder):
    seen_filenames = {}
    duplicates = []

    for dirpath, _, filenames in os.walk(root_folder):
        for filename in filenames:
            full_path = os.path.join(dirpath, filename)
            if filename in seen_filenames:
                print(f"Удаляю дубликат: {full_path}")
                os.remove(full_path)
                duplicates.append(full_path)
            else:
                seen_filenames[filename] = full_path

    print(f"\nУдалено дубликатов: {len(duplicates)}")
    return duplicates

# Пример использования:
# Замените на путь к вашей папке
folder_path = "dataset"
delete_duplicate_filenames(folder_path)



Удалено дубликатов: 0


[]

# удаление  
Если файлов в папке больше заданного числа

In [8]:
import os

def remove_extra_files(root_dir, max_files=25):
    for dirpath, _, filenames in os.walk(root_dir):
        if len(filenames) > max_files:
            filenames.sort()  # Можно поменять на sort(reverse=True), если нужно удалять сначала новые файлы
            files_to_remove = filenames[max_files:]
            
            for file in files_to_remove:
                file_path = os.path.join(dirpath, file)
                try:
                    os.remove(file_path)
                    print(f"Удалён файл: {file_path}")
                except Exception as e:
                    print(f"Ошибка при удалении {file_path}: {e}")

if __name__ == "__main__":
    root_directory = r"E:\ImportantFiles\Documents\University\Magic App\dataset"  # Укажите путь к корневой папке
    remove_extra_files(root_directory)

Удалён файл: E:\ImportantFiles\Documents\University\Magic App\dataset\Applied AI\AI ethics\2202.08792v2.pdf
Удалён файл: E:\ImportantFiles\Documents\University\Magic App\dataset\Applied AI\AI ethics\2206.07635v2.pdf
Удалён файл: E:\ImportantFiles\Documents\University\Magic App\dataset\Applied AI\AI ethics\2207.01493v2.pdf
Удалён файл: E:\ImportantFiles\Documents\University\Magic App\dataset\Applied AI\AI ethics\2208.04697v1.pdf
Удалён файл: E:\ImportantFiles\Documents\University\Magic App\dataset\Applied AI\AI ethics\2210.08984v1.pdf
Удалён файл: E:\ImportantFiles\Documents\University\Magic App\dataset\Applied AI\AI ethics\2304.07249v1.pdf
Удалён файл: E:\ImportantFiles\Documents\University\Magic App\dataset\Applied AI\AI ethics\2305.09573v1.pdf
Удалён файл: E:\ImportantFiles\Documents\University\Magic App\dataset\Applied AI\AI ethics\2307.10057v1.pdf
Удалён файл: E:\ImportantFiles\Documents\University\Magic App\dataset\Applied AI\AI ethics\2309.13057v3.pdf
Удалён файл: E:\ImportantFil

# Пустые папки

In [7]:
import os

def find_empty_folders(root_folder):
    empty_folders = []

    for dirpath, dirnames, filenames in os.walk(root_folder):
        if not dirnames and not filenames:
            empty_folders.append(dirpath)

    if empty_folders:
        print("Найдены пустые папки:")
        for folder in empty_folders:
            print(folder)
    else:
        print("Пустых папок не найдено.")

    return empty_folders

# Пример использования:
folder_path = "dataset"
find_empty_folders(folder_path)


Найдены пустые папки:
dataset\Machine Learning\cross-validation


['dataset\\Machine Learning\\cross-validation']