# Обзор данных

In [1]:
# Стандартные библиотеки
import wget
import requests
from tqdm import tqdm
import tarfile
import soundfile as sf
import os
import csv
import pandas as pd
import random
import glob
import librosa

# Для запросов к сайтам
import requests
from bs4 import BeautifulSoup

# Для морфологической разметки
from pymorphy2 import MorphAnalyzer
import nltk
from nltk import word_tokenize, pos_tag
from nltk.tag import map_tag
import string

# Для разметки именнованных сущностей
import spacy
from collections import defaultdict, Counter

## Загрука и распаковка датасета

In [2]:
# Скачивание и распаковка
url = "https://www.openslr.org/resources/12/train-clean-100.tar.gz"

# Путь, куда сохранить архив
download_path = "train-clean-100.tar.gz"
extract_folder = "train-clean-100"

if not os.path.exists(download_path):
    # Загружаем файл
    response = requests.get(url, stream=True)
    total_size = int(response.headers.get('content-length', 0))  # Размер файла в байтах

    with open(download_path, 'wb') as f, tqdm(desc = download_path,
                                              total = total_size,
                                              unit = 'B',
                                              unit_scale = True,
                                              unit_divisor = 1024
                                             ) as bar:
        for chunk in response.iter_content(chunk_size = 1024):
            if chunk:  # Фильтруем keep-alive chunks
                f.write(chunk)
                bar.update(len(chunk))

if os.path.exists(download_path) and not os.path.exists(extract_folder):
    # Распаковка
    with tarfile.open(download_path, 'r:gz') as tar:
        tar.extractall(extract_folder)

## Файлы .flac в .wav 

In [3]:
# Функция для конвертации файлов .flac в .wav
def convert_flac_to_wav(root_dir):
    for root, dirs, files in os.walk(root_dir):
        flac_files = [f for f in files if f.endswith('.flac')]
        
        for flac_file in tqdm(flac_files, desc = f"Обработка {root}"):
            flac_path = os.path.join(root, flac_file)
            wav_path = os.path.join(root, flac_file.replace('.flac', '.wav'))
            
            # Чтение FLAC и сохранение как WAV
            audio, sr = sf.read(flac_path)
            sf.write(wav_path, audio, sr, format='WAV')
            
            # Удаление исходного FLAC после конвертации
            # os.remove(flac_path)

dataset_path = "train-clean-100"  # Путь к корневой папке датасета
convert_flac_to_wav(dataset_path)

Обработка train-clean-100: 0it [00:00, ?it/s]
Обработка train-clean-100\LibriSpeech: 0it [00:00, ?it/s]
Обработка train-clean-100\LibriSpeech\train-clean-100: 0it [00:00, ?it/s]
Обработка train-clean-100\LibriSpeech\train-clean-100\103: 0it [00:00, ?it/s]
Обработка train-clean-100\LibriSpeech\train-clean-100\103\1240:   0%|          | 0/58 [00:00<?, ?it/s]

Обработка train-clean-100\LibriSpeech\train-clean-100\103\1240: 100%|██████████| 58/58 [00:00<00:00, 65.41it/s]
Обработка train-clean-100\LibriSpeech\train-clean-100\103\1241: 100%|██████████| 44/44 [00:00<00:00, 63.80it/s]
Обработка train-clean-100\LibriSpeech\train-clean-100\1034: 0it [00:00, ?it/s]
Обработка train-clean-100\LibriSpeech\train-clean-100\1034\121119: 100%|██████████| 96/96 [00:01<00:00, 78.17it/s]
Обработка train-clean-100\LibriSpeech\train-clean-100\1040: 0it [00:00, ?it/s]
Обработка train-clean-100\LibriSpeech\train-clean-100\1040\133433:  53%|█████▎    | 43/81 [00:00<00:00, 70.27it/s]


KeyboardInterrupt: 

## Файлы .txt в .csv

In [2]:
def convert_trans_to_csv(root_dir):
    for root, dirs, files in os.walk(root_dir):
        for file in tqdm(files, desc = f"Обработка {root}"):
            if not file.endswith('.trans.txt'):
                continue

            trans_path = os.path.join(root, file)
            csv_path = os.path.join(root, file.replace('.trans.txt', 'trans.csv'))
            
            with open(trans_path, 'r') as f_in, open(csv_path, 'w', newline='') as f_out:
                writer = csv.writer(f_out)
                writer.writerow(['id', 'text'])  # Заголовки
                
                for line in f_in:
                    line = line.strip()
                    if not line:
                        continue
                    
                    # Разделение ID и текста (первое слово — ID)
                    parts = line.split(' ', 1)
                    if len(parts) < 2:
                        continue  # Пропуск некорректных строк
                    
                    utterance_id, text = parts
                    writer.writerow([utterance_id, text])

dataset_path = "train-clean-100"  # Путь к корневой папке датасета
convert_trans_to_csv(dataset_path)

Обработка train-clean-100: 0it [00:00, ?it/s]
Обработка train-clean-100\LibriSpeech: 100%|██████████| 5/5 [00:00<?, ?it/s]
Обработка train-clean-100\LibriSpeech\train-clean-100: 0it [00:00, ?it/s]
Обработка train-clean-100\LibriSpeech\train-clean-100\103: 0it [00:00, ?it/s]
Обработка train-clean-100\LibriSpeech\train-clean-100\103\1240: 100%|██████████| 118/118 [00:00<00:00, 39405.09it/s]
Обработка train-clean-100\LibriSpeech\train-clean-100\103\1241: 100%|██████████| 90/90 [00:00<00:00, 29990.26it/s]
Обработка train-clean-100\LibriSpeech\train-clean-100\1034: 0it [00:00, ?it/s]
Обработка train-clean-100\LibriSpeech\train-clean-100\1034\121119: 100%|██████████| 194/194 [00:00<00:00, 97007.03it/s]
Обработка train-clean-100\LibriSpeech\train-clean-100\1040: 0it [00:00, ?it/s]
Обработка train-clean-100\LibriSpeech\train-clean-100\1040\133433: 100%|██████████| 164/164 [00:00<00:00, 81986.40it/s]
Обработка train-clean-100\LibriSpeech\train-clean-100\1069: 0it [00:00, ?it/s]
Обработка train-

In [149]:
file_path = "train-clean-100/LibriSpeech/SPEAKERS.TXT"
with open(file_path, "r", encoding="utf-8") as file:
    lines = file.readlines()

# Skip the header and process the content
header_line = lines[0].strip()
data_lines = [line.strip() for line in lines[1:] if "train-clean-100" in line]

# Extract columns using the header
columns = [col.strip() for col in header_line.split("|")]

# Parse rows into a list of dictionaries
data = []
for line in data_lines:
    values = [val.strip() for val in line.split("|")]
    if len(values) == len(columns):
        row = dict(zip(columns, values))
        data.append(row)

# Create DataFrame and save as CSV
df = pd.DataFrame(data)
csv_output_path = "speakers.csv"
df.to_csv(csv_output_path, index=False)

In [None]:
df

Unnamed: 0,ID,READER,MINUTES,SUBSET,PROJ.,BOOK ID,CH. TITLE,PROJECT TITLE
0,198,19,8.42,train-clean-100,219,121,Chapter 01,Northanger Abbey
1,209,198,8.20,train-clean-100,219,121,Chapter 12,Northanger Abbey
2,216,403,6.30,train-clean-100,219,121,Chapter 19,Northanger Abbey
3,218,89,12.78,train-clean-100,219,121,Chapter 21,Northanger Abbey
4,219,89,12.30,train-clean-100,219,121,Chapter 22,Northanger Abbey
...,...,...,...,...,...,...,...,...
580,298545,8838,12.55,train-clean-100,8386,10446,"The Croxley Master - I, part 1",Green Flag and Other Stories of War and Sport
581,298546,8838,12.51,train-clean-100,8386,10446,"The Croxley Master - I, part 2",Green Flag and Other Stories of War and Sport
582,300880,6064,8.82,train-clean-100,8473,44326,Chapter 10,Wanted: A Husband
583,305212,8630,10.50,train-clean-100,8645,35941,How Augustine Went to Carthage and How Patrici...,Life of Saint Monica


In [6]:
data = pd.read_csv('train-clean-100/LibriSpeech/train_clean_100_chapters.csv')
data

Unnamed: 0,ID,READER,MINUTES,SUBSET,PROJ.,BOOK ID,CH. TITLE,PROJECT TITLE
0,198,19,8.42,train-clean-100,219,121,Chapter 01,Northanger Abbey
1,209,198,8.20,train-clean-100,219,121,Chapter 12,Northanger Abbey
2,216,403,6.30,train-clean-100,219,121,Chapter 19,Northanger Abbey
3,218,89,12.78,train-clean-100,219,121,Chapter 21,Northanger Abbey
4,219,89,12.30,train-clean-100,219,121,Chapter 22,Northanger Abbey
...,...,...,...,...,...,...,...,...
580,298545,8838,12.55,train-clean-100,8386,10446,"The Croxley Master - I, part 1",Green Flag and Other Stories of War and Sport
581,298546,8838,12.51,train-clean-100,8386,10446,"The Croxley Master - I, part 2",Green Flag and Other Stories of War and Sport
582,300880,6064,8.82,train-clean-100,8473,44326,Chapter 10,Wanted: A Husband
583,305212,8630,10.50,train-clean-100,8645,35941,How Augustine Went to Carthage and How Patrici...,Life of Saint Monica


In [None]:
# Настройки
CSV_PATH = "train-clean-100/LibriSpeech/train_clean_100_chapters.csv"
COVERS_DIR = "book_covers"

# Создание папки для обложек
os.makedirs(COVERS_DIR, exist_ok=True)

def get_gutenberg_cover_url(title):
    """Ищет URL обложки на Project Gutenberg."""
    search_url = f"https://www.gutenberg.org/ebooks/search/?query={title}"
    try:
        response = requests.get(search_url, timeout=10)
        soup = BeautifulSoup(response.text, 'html.parser')
        book_link = soup.find("a", href=lambda x: x and "/ebooks/" in x)
        if book_link:
            book_id = book_link["href"].split("/")[-1]
            return f"https://www.gutenberg.org/cache/epub/{book_id}/pg{book_id}.cover.medium.jpg"
    except Exception as e:
        print(f"[Gutenberg] Ошибка для '{title}': {e}")
    return None

def get_openlibrary_cover_url(title):
    """Ищет URL обложки на Open Library."""
    try:
        url = f"https://openlibrary.org/search.json?q={title}"
        response = requests.get(url, timeout=10).json()
        if response["num_found"] > 0:
            cover_id = response["docs"][0].get("cover_i")
            if cover_id:
                return f"https://covers.openlibrary.org/b/id/{cover_id}-M.jpg"
    except Exception as e:
        print(f"[OpenLibrary] Ошибка для '{title}': {e}")
    return None

def download_cover(book_id, title):
    """Скачивает обложку, если её ещё нет."""
    cover_path = f"{COVERS_DIR}/{book_id}.jpg"
    
    # Если обложка уже существует - пропускаем
    if os.path.exists(cover_path):
        return True
    
    # Порядок проверки источников
    apis = [
        ("OpenLibrary", lambda: get_openlibrary_cover_url(title)),
        ("Gutenberg", lambda: get_gutenberg_cover_url(title)),
    ]
    
    for source, api_func in apis:
        cover_url = api_func()
        if cover_url:
            try:
                response = requests.get(cover_url, stream=True, timeout=10)
                if response.status_code == 200:
                    with open(cover_path, "wb") as f:
                        f.write(response.content)
                    print(f"[Успех] {book_id}: Обложка найдена через {source}")
                    return True
            except Exception as e:
                print(f"[Ошибка] {book_id}: Не удалось скачать с {source} ({cover_url}): {e}")
    
    print(f"[Пропуск] {book_id}: Обложка не найдена ни в одном источнике")
    return False

# Основной процесс
df = pd.read_csv(CSV_PATH)
unique_books = df["BOOK ID"].drop_duplicates()

success_count = 0
for _, row in tqdm(unique_books.iterrows(), total=len(unique_books)):
    if download_cover(row["BOOK ID"], row["PROJECT TITLE"]):
        success_count += 1

print(f"\nИтог: Скачано {success_count}/{len(unique_books)} обложек.")

  0%|          | 1/320 [00:11<59:34, 11.21s/it]

[Успех] 121: Обложка найдена через OpenLibrary


  1%|          | 2/320 [00:13<31:23,  5.92s/it]

[Успех] 84: Обложка найдена через OpenLibrary


  1%|          | 3/320 [00:15<21:38,  4.09s/it]

[Успех] 1210: Обложка найдена через OpenLibrary


  1%|▏         | 4/320 [00:17<16:57,  3.22s/it]

[Успех] 376: Обложка найдена через OpenLibrary


  2%|▏         | 5/320 [00:24<25:07,  4.79s/it]

[Успех] 45: Обложка найдена через OpenLibrary


  2%|▏         | 6/320 [00:26<19:25,  3.71s/it]

[Успех] 19066: Обложка найдена через OpenLibrary


  2%|▏         | 7/320 [00:34<26:09,  5.02s/it]

[Успех] 3154: Обложка найдена через OpenLibrary


  2%|▎         | 8/320 [00:36<21:59,  4.23s/it]

[Успех] 1831: Обложка найдена через OpenLibrary


  3%|▎         | 9/320 [00:38<17:17,  3.34s/it]

[Успех] 2046: Обложка найдена через OpenLibrary


  3%|▎         | 10/320 [00:39<14:48,  2.87s/it]

[Успех] 3424: Обложка найдена через OpenLibrary


  3%|▎         | 11/320 [00:41<13:28,  2.62s/it]

[Успех] 14851: Обложка найдена через OpenLibrary


  4%|▍         | 12/320 [00:43<12:21,  2.41s/it]

[Успех] 3322: Обложка найдена через OpenLibrary


  4%|▍         | 13/320 [00:45<11:10,  2.18s/it]

[Успех] 21048: Обложка найдена через OpenLibrary


  5%|▍         | 15/320 [00:51<13:11,  2.59s/it]

[Успех] 2148: Обложка найдена через OpenLibrary


  5%|▌         | 16/320 [00:57<17:44,  3.50s/it]

[Успех] 4761: Обложка найдена через OpenLibrary


  5%|▌         | 17/320 [01:00<16:20,  3.24s/it]

[Успех] 10378: Обложка найдена через OpenLibrary


  6%|▌         | 18/320 [01:03<15:44,  3.13s/it]

[Успех] 21510: Обложка найдена через OpenLibrary


  6%|▌         | 19/320 [01:04<13:39,  2.72s/it]

[Успех] 5978: Обложка найдена через OpenLibrary


  6%|▋         | 20/320 [01:10<18:00,  3.60s/it]

[Успех] 135: Обложка найдена через OpenLibrary


  7%|▋         | 21/320 [01:15<20:06,  4.04s/it]

[Успех] 21904: Обложка найдена через OpenLibrary


  7%|▋         | 22/320 [01:17<16:19,  3.29s/it]

[Успех] 1399: Обложка найдена через OpenLibrary


  7%|▋         | 23/320 [01:22<19:46,  4.00s/it]

[Успех] 976: Обложка найдена через OpenLibrary


  8%|▊         | 24/320 [01:25<17:20,  3.51s/it]

[Успех] 27990: Обложка найдена через OpenLibrary


  8%|▊         | 25/320 [01:26<14:23,  2.93s/it]

[Успех] 19499: Обложка найдена через OpenLibrary


  8%|▊         | 26/320 [01:29<14:16,  2.91s/it]

[Успех] 27771: Обложка найдена через OpenLibrary


  8%|▊         | 27/320 [01:34<16:21,  3.35s/it]

[Успех] 2741: Обложка найдена через OpenLibrary


  9%|▉         | 28/320 [01:36<14:27,  2.97s/it]

[Успех] 8166: Обложка найдена через Gutenberg


  9%|▉         | 29/320 [01:37<12:33,  2.59s/it]

[Успех] 14293: Обложка найдена через OpenLibrary


  9%|▉         | 30/320 [01:40<11:59,  2.48s/it]

[Успех] 29543: Обложка найдена через Gutenberg


 10%|▉         | 31/320 [01:44<14:58,  3.11s/it]

[Успех] 7882: Обложка найдена через OpenLibrary


 10%|█         | 32/320 [01:49<17:43,  3.69s/it]

[Успех] 2158: Обложка найдена через OpenLibrary


 10%|█         | 33/320 [01:52<16:58,  3.55s/it]

[Успех] 4540: Обложка найдена через OpenLibrary


 11%|█         | 34/320 [01:54<14:39,  3.07s/it]

[Успех] 4537: Обложка найдена через OpenLibrary


 11%|█         | 35/320 [02:00<17:43,  3.73s/it]

[Успех] 11128: Обложка найдена через OpenLibrary


 11%|█▏        | 36/320 [02:02<16:19,  3.45s/it]

[Успех] 6933: Обложка найдена через Gutenberg


 12%|█▏        | 37/320 [02:05<14:23,  3.05s/it]

[Успех] 3795: Обложка найдена через OpenLibrary


 12%|█▏        | 38/320 [02:08<14:17,  3.04s/it]

[Успех] 326: Обложка найдена через Gutenberg


 12%|█▏        | 39/320 [02:10<13:02,  2.78s/it]

[Пропуск] 1000010: Обложка не найдена ни в одном источнике


 13%|█▎        | 41/320 [02:13<09:58,  2.15s/it]

[Успех] 851: Обложка найдена через Gutenberg


 13%|█▎        | 42/320 [02:14<09:07,  1.97s/it]

[Успех] 16566: Обложка найдена через OpenLibrary


 13%|█▎        | 43/320 [02:16<08:35,  1.86s/it]

[Успех] 6987: Обложка найдена через OpenLibrary


 14%|█▍        | 45/320 [02:18<06:55,  1.51s/it]

[Пропуск] 1079: Обложка не найдена ни в одном источнике


 14%|█▍        | 46/320 [02:19<06:48,  1.49s/it]

[Успех] 17189: Обложка найдена через OpenLibrary


 15%|█▍        | 47/320 [02:22<08:11,  1.80s/it]

[Успех] 6754: Обложка найдена через Gutenberg


 15%|█▌        | 48/320 [02:24<09:02,  1.99s/it]

[Пропуск] 2600: Обложка не найдена ни в одном источнике


 15%|█▌        | 49/320 [02:31<14:40,  3.25s/it]

[Успех] 30908: Обложка найдена через OpenLibrary


 16%|█▌        | 50/320 [02:38<18:48,  4.18s/it]

[Успех] 3800: Обложка найдена через OpenLibrary


 16%|█▌        | 51/320 [02:43<20:40,  4.61s/it]

[Успех] 26041: Обложка найдена через OpenLibrary


 16%|█▋        | 52/320 [02:46<17:35,  3.94s/it]

[Успех] 3050: Обложка найдена через OpenLibrary


 17%|█▋        | 53/320 [02:47<14:10,  3.18s/it]

[Успех] 22781: Обложка найдена через OpenLibrary


 17%|█▋        | 54/320 [02:49<13:22,  3.02s/it]

[Пропуск] 2600: Обложка не найдена ни в одном источнике


 17%|█▋        | 55/320 [02:51<11:18,  2.56s/it]

[Успех] 22215: Обложка найдена через OpenLibrary


 18%|█▊        | 56/320 [02:54<11:36,  2.64s/it]

[Успех] 13437: Обложка найдена через Gutenberg


 18%|█▊        | 57/320 [02:55<10:00,  2.28s/it]

[Успех] 19087: Обложка найдена через OpenLibrary


 18%|█▊        | 58/320 [02:57<08:48,  2.02s/it]

[Успех] 22409: Обложка найдена через OpenLibrary


 18%|█▊        | 59/320 [02:59<08:52,  2.04s/it]

[Успех] 7345: Обложка найдена через OpenLibrary


 19%|█▉        | 60/320 [03:04<13:14,  3.05s/it]

[Успех] 3178: Обложка найдена через OpenLibrary


 19%|█▉        | 61/320 [03:07<12:33,  2.91s/it]

[Пропуск] 2600: Обложка не найдена ни в одном источнике


 19%|█▉        | 62/320 [03:09<11:05,  2.58s/it]

[Успех] 3634: Обложка найдена через OpenLibrary


 20%|█▉        | 63/320 [03:10<09:31,  2.22s/it]

[Успех] 10359: Обложка найдена через OpenLibrary


 20%|██        | 64/320 [03:15<13:17,  3.12s/it]

[Успех] 24811: Обложка найдена через OpenLibrary


 20%|██        | 65/320 [03:19<14:50,  3.49s/it]

[Успех] 12587: Обложка найдена через OpenLibrary


 21%|██        | 66/320 [03:22<13:44,  3.24s/it]

[Пропуск] 10800: Обложка не найдена ни в одном источнике


 21%|██        | 67/320 [03:24<12:01,  2.85s/it]

[Успех] 2488: Обложка найдена через OpenLibrary


 21%|██▏       | 68/320 [03:28<13:10,  3.14s/it]

[Успех] 2860: Обложка найдена через OpenLibrary


 22%|██▏       | 69/320 [03:32<14:35,  3.49s/it]

[Успех] 2609: Обложка найдена через OpenLibrary


 22%|██▏       | 70/320 [03:36<15:00,  3.60s/it]

[Успех] 24874: Обложка найдена через OpenLibrary


 22%|██▏       | 71/320 [03:41<15:58,  3.85s/it]

[Успех] 22775: Обложка найдена через OpenLibrary


 22%|██▎       | 72/320 [03:43<13:45,  3.33s/it]

[Пропуск] 13610: Обложка не найдена ни в одном источнике


 23%|██▎       | 73/320 [03:44<11:17,  2.74s/it]

[Успех] 17811: Обложка найдена через OpenLibrary


 23%|██▎       | 74/320 [03:47<11:14,  2.74s/it]

[Пропуск] 4071: Обложка не найдена ни в одном источнике


 23%|██▎       | 75/320 [03:53<15:53,  3.89s/it]

[Успех] 14021: Обложка найдена через OpenLibrary


 24%|██▍       | 76/320 [03:55<12:40,  3.12s/it]

[Успех] 9746: Обложка найдена через OpenLibrary


 24%|██▍       | 77/320 [03:59<14:14,  3.52s/it]

[Успех] 17780: Обложка найдена через OpenLibrary


 24%|██▍       | 78/320 [04:02<13:28,  3.34s/it]

[Пропуск] 10869: Обложка не найдена ни в одном источнике


 25%|██▍       | 79/320 [04:06<14:27,  3.60s/it]

[Успех] 3438: Обложка найдена через OpenLibrary


 25%|██▌       | 80/320 [04:11<15:50,  3.96s/it]

[Успех] 4599: Обложка найдена через OpenLibrary


 25%|██▌       | 81/320 [04:13<13:02,  3.27s/it]

[Успех] 1751: Обложка найдена через OpenLibrary


 26%|██▌       | 82/320 [04:14<11:00,  2.78s/it]

[Успех] 1839: Обложка найдена через OpenLibrary


 26%|██▌       | 83/320 [04:16<10:07,  2.56s/it]

[Успех] 17854: Обложка найдена через OpenLibrary


 26%|██▋       | 84/320 [04:19<10:14,  2.60s/it]

[Успех] 32628: Обложка найдена через OpenLibrary


 27%|██▋       | 85/320 [04:22<10:05,  2.58s/it]

[Успех] 362: Обложка найдена через Gutenberg


 27%|██▋       | 86/320 [04:23<08:58,  2.30s/it]

[Успех] 34944: Обложка найдена через OpenLibrary


 27%|██▋       | 87/320 [04:26<09:08,  2.35s/it]

[Успех] 5118: Обложка найдена через OpenLibrary


 28%|██▊       | 88/320 [04:30<11:25,  2.95s/it]

[Успех] 13015: Обложка найдена через OpenLibrary


 28%|██▊       | 89/320 [04:35<14:07,  3.67s/it]

[Успех] 18734: Обложка найдена через OpenLibrary


 28%|██▊       | 90/320 [04:38<13:15,  3.46s/it]

[Успех] 12600: Обложка найдена через OpenLibrary


 28%|██▊       | 91/320 [04:41<11:51,  3.11s/it]

[Успех] 16653: Обложка найдена через OpenLibrary


 29%|██▉       | 92/320 [04:44<11:35,  3.05s/it]

[Успех] 35587: Обложка найдена через Gutenberg


 29%|██▉       | 93/320 [04:48<12:44,  3.37s/it]

[Успех] 19323: Обложка найдена через OpenLibrary


 29%|██▉       | 94/320 [04:52<13:51,  3.68s/it]

[Успех] 1268: Обложка найдена через OpenLibrary


 30%|██▉       | 95/320 [04:56<14:20,  3.83s/it]

[Успех] 20064: Обложка найдена через OpenLibrary


 30%|███       | 96/320 [05:00<14:24,  3.86s/it]

[Успех] 24876: Обложка найдена через OpenLibrary


 30%|███       | 97/320 [05:03<13:15,  3.57s/it]

[Успех] 1948: Обложка найдена через Gutenberg


 31%|███       | 98/320 [05:08<15:01,  4.06s/it]

[Успех] 21959: Обложка найдена через OpenLibrary


 31%|███       | 99/320 [05:10<12:09,  3.30s/it]

[Успех] 13110: Обложка найдена через OpenLibrary


 31%|███▏      | 100/320 [05:15<14:32,  3.96s/it]

[Успех] 12347: Обложка найдена через OpenLibrary


 32%|███▏      | 101/320 [05:17<12:08,  3.33s/it]

[Успех] 21854: Обложка найдена через OpenLibrary


 32%|███▏      | 102/320 [05:19<10:31,  2.90s/it]

[Успех] 25493: Обложка найдена через Gutenberg


 32%|███▏      | 103/320 [05:26<14:53,  4.12s/it]

[Успех] 24877: Обложка найдена через OpenLibrary


 32%|███▎      | 104/320 [05:28<12:32,  3.48s/it]

[Успех] 1734: Обложка найдена через OpenLibrary


 33%|███▎      | 105/320 [05:31<11:30,  3.21s/it]

[Успех] 37039: Обложка найдена через OpenLibrary


 33%|███▎      | 106/320 [05:34<11:47,  3.31s/it]

[Успех] 30905: Обложка найдена через Gutenberg


 33%|███▎      | 107/320 [05:36<10:03,  2.83s/it]

[Пропуск] 5136: Обложка не найдена ни в одном источнике


 34%|███▍      | 108/320 [05:37<08:28,  2.40s/it]

[Успех] 7502: Обложка найдена через OpenLibrary


 34%|███▍      | 109/320 [05:46<15:17,  4.35s/it]

[Успех] 24432: Обложка найдена через OpenLibrary
[Ошибка] 27826: Не удалось скачать с OpenLibrary (https://covers.openlibrary.org/b/id/11213284-M.jpg): HTTPSConnectionPool(host='archive.org', port=443): Read timed out. (read timeout=10)


 34%|███▍      | 110/320 [06:00<25:23,  7.25s/it]

[Успех] 27826: Обложка найдена через Gutenberg


 35%|███▍      | 111/320 [06:02<19:13,  5.52s/it]

[Успех] 2866: Обложка найдена через OpenLibrary
[Ошибка] 19347: Не удалось скачать с OpenLibrary (https://covers.openlibrary.org/b/id/12707846-M.jpg): HTTPSConnectionPool(host='archive.org', port=443): Read timed out. (read timeout=10)


 35%|███▌      | 112/320 [06:16<28:22,  8.18s/it]

[Успех] 19347: Обложка найдена через Gutenberg


 35%|███▌      | 113/320 [06:26<29:36,  8.58s/it]

[Успех] 3282: Обложка найдена через OpenLibrary


 36%|███▌      | 114/320 [06:28<22:57,  6.69s/it]

[Успех] 35862: Обложка найдена через Gutenberg


 36%|███▌      | 115/320 [06:36<23:57,  7.01s/it]

[Успех] 1184: Обложка найдена через OpenLibrary


 36%|███▋      | 116/320 [06:38<19:11,  5.65s/it]

[Успех] 38556: Обложка найдена через Gutenberg


 37%|███▋      | 117/320 [06:46<21:41,  6.41s/it]

[Успех] 13029: Обложка найдена через OpenLibrary


 37%|███▋      | 118/320 [06:49<17:54,  5.32s/it]

[Успех] 34468: Обложка найдена через Gutenberg


 37%|███▋      | 119/320 [06:55<18:35,  5.55s/it]

[Успех] 19207: Обложка найдена через OpenLibrary


 38%|███▊      | 120/320 [06:57<15:02,  4.51s/it]

[Успех] 35950: Обложка найдена через OpenLibrary


 38%|███▊      | 121/320 [07:00<13:20,  4.02s/it]

[Успех] 18284: Обложка найдена через Gutenberg


 38%|███▊      | 122/320 [07:06<15:35,  4.72s/it]

[Успех] 15268: Обложка найдена через OpenLibrary


 38%|███▊      | 123/320 [07:12<16:35,  5.05s/it]

[Успех] 18018: Обложка найдена через OpenLibrary


 39%|███▉      | 124/320 [07:15<13:58,  4.28s/it]

[Успех] 8642: Обложка найдена через Gutenberg


 39%|███▉      | 125/320 [07:18<12:54,  3.97s/it]

[Успех] 25652: Обложка найдена через Gutenberg


 39%|███▉      | 126/320 [07:23<13:28,  4.17s/it]

[Успех] 39324: Обложка найдена через OpenLibrary


 40%|███▉      | 127/320 [07:29<15:37,  4.86s/it]

[Успех] 25333: Обложка найдена через OpenLibrary


 40%|████      | 128/320 [07:31<12:57,  4.05s/it]

[Успех] 5669: Обложка найдена через OpenLibrary


 40%|████      | 129/320 [07:33<10:29,  3.29s/it]

[Успех] 2395: Обложка найдена через OpenLibrary


 41%|████      | 130/320 [07:38<12:42,  4.01s/it]

[Успех] 27448: Обложка найдена через OpenLibrary


 41%|████      | 131/320 [07:40<10:44,  3.41s/it]

[Успех] 5803: Обложка найдена через OpenLibrary


 41%|████▏     | 132/320 [07:42<08:47,  2.80s/it]

[Успех] 21639: Обложка найдена через OpenLibrary


 42%|████▏     | 133/320 [07:43<07:29,  2.40s/it]

[Успех] 28572: Обложка найдена через OpenLibrary


 42%|████▏     | 134/320 [07:47<08:14,  2.66s/it]

[Успех] 37756: Обложка найдена через Gutenberg


 42%|████▏     | 135/320 [07:49<07:46,  2.52s/it]

[Успех] 1693: Обложка найдена через OpenLibrary


 42%|████▎     | 136/320 [07:52<08:25,  2.75s/it]

[Успех] 20183: Обложка найдена через Gutenberg


 43%|████▎     | 137/320 [07:53<07:09,  2.35s/it]

[Успех] 60: Обложка найдена через OpenLibrary


 43%|████▎     | 138/320 [07:55<06:37,  2.18s/it]

[Успех] 19213: Обложка найдена через OpenLibrary


 43%|████▎     | 139/320 [07:57<06:18,  2.09s/it]

[Успех] 3760: Обложка найдена через OpenLibrary


 44%|████▍     | 140/320 [08:01<07:40,  2.56s/it]

[Успех] 9363: Обложка найдена через Gutenberg


 44%|████▍     | 141/320 [08:08<11:51,  3.97s/it]

[Успех] 22699: Обложка найдена через OpenLibrary


 44%|████▍     | 142/320 [08:09<09:27,  3.19s/it]

[Успех] 41666: Обложка найдена через OpenLibrary


 45%|████▍     | 143/320 [08:20<15:43,  5.33s/it]

[Успех] 14627: Обложка найдена через OpenLibrary


 45%|████▌     | 144/320 [08:22<12:47,  4.36s/it]

[Пропуск] 15263: Обложка не найдена ни в одном источнике


 45%|████▌     | 145/320 [08:35<20:08,  6.90s/it]

[Успех] 14055: Обложка найдена через OpenLibrary


 46%|████▌     | 146/320 [08:37<15:49,  5.46s/it]

[Успех] 32455: Обложка найдена через OpenLibrary


 46%|████▋     | 148/320 [08:50<17:08,  5.98s/it]

[Успех] 805: Обложка найдена через OpenLibrary


 47%|████▋     | 149/320 [08:52<14:29,  5.08s/it]

[Успех] 1004: Обложка найдена через OpenLibrary


 47%|████▋     | 150/320 [08:54<11:54,  4.21s/it]

[Успех] 5312: Обложка найдена через OpenLibrary


 47%|████▋     | 151/320 [08:57<10:39,  3.79s/it]

[Успех] 1989: Обложка найдена через Gutenberg


 48%|████▊     | 152/320 [08:59<09:06,  3.25s/it]

[Успех] 14328: Обложка найдена через OpenLibrary


 48%|████▊     | 153/320 [09:12<17:22,  6.24s/it]

[Успех] 158: Обложка найдена через OpenLibrary


 48%|████▊     | 154/320 [09:25<22:14,  8.04s/it]

[Успех] 5658: Обложка найдена через OpenLibrary


 48%|████▊     | 155/320 [09:27<17:18,  6.29s/it]

[Успех] 964: Обложка найдена через OpenLibrary


 49%|████▉     | 156/320 [09:39<22:13,  8.13s/it]

[Успех] 1257: Обложка найдена через OpenLibrary


 49%|████▉     | 157/320 [09:51<24:40,  9.08s/it]

[Успех] 3659: Обложка найдена через OpenLibrary


 49%|████▉     | 158/320 [09:59<24:17,  9.00s/it]

[Успех] 940: Обложка найдена через OpenLibrary


 50%|████▉     | 159/320 [10:08<24:03,  8.97s/it]

[Успех] 47: Обложка найдена через OpenLibrary


 50%|█████     | 160/320 [10:17<23:18,  8.74s/it]

[Успех] 4363: Обложка найдена через OpenLibrary


 50%|█████     | 161/320 [10:19<17:46,  6.71s/it]

[Успех] 3748: Обложка найдена через OpenLibrary


 51%|█████     | 162/320 [10:20<13:39,  5.19s/it]

[Успех] 1468: Обложка найдена через OpenLibrary


 51%|█████     | 163/320 [10:22<11:07,  4.25s/it]

[Успех] 62: Обложка найдена через OpenLibrary


 51%|█████▏    | 164/320 [10:34<16:40,  6.41s/it]

[Успех] 600: Обложка найдена через OpenLibrary
[Ошибка] 1041: Не удалось скачать с OpenLibrary (https://covers.openlibrary.org/b/id/8222090-M.jpg): HTTPSConnectionPool(host='archive.org', port=443): Read timed out. (read timeout=10)


 52%|█████▏    | 165/320 [10:48<22:36,  8.75s/it]

[Успех] 1041: Обложка найдена через Gutenberg


 52%|█████▏    | 166/320 [11:00<24:52,  9.69s/it]

[Успех] 1342: Обложка найдена через OpenLibrary


 52%|█████▏    | 167/320 [11:03<19:34,  7.68s/it]

[Успех] 59: Обложка найдена через Gutenberg


 52%|█████▎    | 168/320 [11:13<21:19,  8.42s/it]

[Успех] 543: Обложка найдена через OpenLibrary


 53%|█████▎    | 169/320 [11:15<16:31,  6.57s/it]

[Успех] 24055: Обложка найдена через OpenLibrary


 53%|█████▎    | 170/320 [11:17<12:37,  5.05s/it]

[Успех] 6917: Обложка найдена через OpenLibrary


 53%|█████▎    | 171/320 [11:19<10:41,  4.31s/it]

[Пропуск] 8318: Обложка не найдена ни в одном источнике


 54%|█████▍    | 172/320 [11:22<09:33,  3.88s/it]

[Успех] 14971: Обложка найдена через OpenLibrary


 54%|█████▍    | 173/320 [11:30<12:40,  5.17s/it]

[Успех] 697: Обложка найдена через OpenLibrary


 54%|█████▍    | 174/320 [11:39<15:18,  6.29s/it]

[Успех] 2591: Обложка найдена через OpenLibrary


 55%|█████▍    | 175/320 [11:50<18:48,  7.78s/it]

[Успех] 9845: Обложка найдена через OpenLibrary


 55%|█████▌    | 176/320 [12:04<22:48,  9.50s/it]

[Успех] 5342: Обложка найдена через OpenLibrary


 55%|█████▌    | 177/320 [12:06<17:15,  7.24s/it]

[Успех] 501: Обложка найдена через OpenLibrary


 56%|█████▌    | 178/320 [12:08<13:18,  5.62s/it]

[Успех] 204: Обложка найдена через OpenLibrary


 56%|█████▌    | 179/320 [12:21<18:36,  7.92s/it]

[Успех] 120: Обложка найдена через OpenLibrary


 56%|█████▋    | 180/320 [12:33<20:56,  8.98s/it]

[Успех] 7091: Обложка найдена через OpenLibrary
[Ошибка] 5921: Не удалось скачать с OpenLibrary (https://covers.openlibrary.org/b/id/14428305-M.jpg): HTTPSConnectionPool(host='archive.org', port=443): Read timed out. (read timeout=10)


 57%|█████▋    | 181/320 [12:47<24:40, 10.65s/it]

[Пропуск] 5921: Обложка не найдена ни в одном источнике


 57%|█████▋    | 182/320 [13:00<25:59, 11.30s/it]

[Успех] 98: Обложка найдена через OpenLibrary


 57%|█████▋    | 183/320 [13:03<20:03,  8.78s/it]

[Успех] 18542: Обложка найдена через OpenLibrary


 57%|█████▊    | 184/320 [13:05<15:35,  6.88s/it]

[Успех] 18992: Обложка найдена через OpenLibrary


 58%|█████▊    | 185/320 [13:09<13:06,  5.82s/it]

[Успех] 32547: Обложка найдена через OpenLibrary


 58%|█████▊    | 186/320 [13:12<11:19,  5.07s/it]

[Успех] 17188: Обложка найдена через OpenLibrary


 58%|█████▊    | 187/320 [13:15<10:03,  4.54s/it]

[Успех] 599: Обложка найдена через OpenLibrary


 59%|█████▉    | 188/320 [13:31<17:17,  7.86s/it]

[Успех] 2944: Обложка найдена через OpenLibrary


 59%|█████▉    | 189/320 [13:35<14:33,  6.67s/it]

[Успех] 370: Обложка найдена через Gutenberg


 59%|█████▉    | 190/320 [13:46<17:18,  7.99s/it]

[Успех] 161: Обложка найдена через OpenLibrary


 60%|█████▉    | 191/320 [13:59<20:16,  9.43s/it]

[Успех] 73: Обложка найдена через OpenLibrary


 60%|██████    | 192/320 [14:00<14:57,  7.01s/it]

[Успех] 18362: Обложка найдена через OpenLibrary


 60%|██████    | 193/320 [14:02<11:39,  5.51s/it]

[Пропуск] 11938: Обложка не найдена ни в одном источнике
[Ошибка] 7469: Не удалось скачать с OpenLibrary (https://covers.openlibrary.org/b/id/8243960-M.jpg): HTTPSConnectionPool(host='archive.org', port=443): Read timed out. (read timeout=10)


 61%|██████    | 194/320 [14:16<16:52,  8.04s/it]

[Успех] 7469: Обложка найдена через Gutenberg


 61%|██████    | 195/320 [14:18<12:53,  6.19s/it]

[Успех] 1264: Обложка найдена через OpenLibrary


 62%|██████▏   | 197/320 [14:20<08:02,  3.92s/it]

[Успех] 1404: Обложка найдена через OpenLibrary


 62%|██████▏   | 198/320 [14:23<07:10,  3.53s/it]

[Успех] 4925: Обложка найдена через OpenLibrary


 62%|██████▏   | 199/320 [14:26<06:48,  3.38s/it]

[Успех] 22472: Обложка найдена через OpenLibrary


 62%|██████▎   | 200/320 [14:28<06:28,  3.24s/it]

[Успех] 969: Обложка найдена через OpenLibrary


 63%|██████▎   | 201/320 [14:31<06:06,  3.08s/it]

[Успех] 408: Обложка найдена через OpenLibrary


 63%|██████▎   | 202/320 [14:33<05:37,  2.86s/it]

[Успех] 3268: Обложка найдена через OpenLibrary


 63%|██████▎   | 203/320 [14:45<10:31,  5.40s/it]

[Успех] 19942: Обложка найдена через OpenLibrary


 64%|██████▍   | 204/320 [14:49<09:29,  4.91s/it]

[Успех] 3454: Обложка найдена через OpenLibrary
[Ошибка] 20190: Не удалось скачать с OpenLibrary (https://covers.openlibrary.org/b/id/9100090-M.jpg): HTTPSConnectionPool(host='archive.org', port=443): Read timed out. (read timeout=10)


 64%|██████▍   | 205/320 [15:05<15:35,  8.13s/it]

[Успех] 20190: Обложка найдена через Gutenberg


 64%|██████▍   | 206/320 [15:19<19:03, 10.03s/it]

[Успех] 16: Обложка найдена через OpenLibrary


 65%|██████▍   | 207/320 [15:22<15:02,  7.99s/it]

[Успех] 2833: Обложка найдена через Gutenberg


 65%|██████▌   | 208/320 [15:24<11:30,  6.17s/it]

[Успех] 2688: Обложка найдена через OpenLibrary


 65%|██████▌   | 209/320 [15:36<14:21,  7.76s/it]

[Успех] 416: Обложка найдена через OpenLibrary


 66%|██████▌   | 210/320 [15:38<11:17,  6.16s/it]

[Успех] 6471: Обложка найдена через OpenLibrary


 66%|██████▌   | 211/320 [15:40<08:56,  4.92s/it]

[Успех] 2441: Обложка найдена через OpenLibrary


 66%|██████▋   | 212/320 [15:43<07:31,  4.18s/it]

[Успех] 5664: Обложка найдена через Gutenberg


 67%|██████▋   | 213/320 [15:55<11:51,  6.65s/it]

[Успех] 2814: Обложка найдена через OpenLibrary


 67%|██████▋   | 214/320 [15:57<09:19,  5.28s/it]

[Успех] 20830: Обложка найдена через Gutenberg


 67%|██████▋   | 215/320 [16:07<11:26,  6.54s/it]

[Успех] 5946: Обложка найдена через OpenLibrary


 68%|██████▊   | 216/320 [16:08<08:51,  5.11s/it]

[Успех] 83: Обложка найдена через OpenLibrary


 68%|██████▊   | 217/320 [16:10<07:12,  4.20s/it]

[Успех] 12163: Обложка найдена через OpenLibrary


 68%|██████▊   | 218/320 [16:14<06:33,  3.86s/it]

[Успех] 18247: Обложка найдена через OpenLibrary


 68%|██████▊   | 219/320 [16:16<05:46,  3.43s/it]

[Успех] 14770: Обложка найдена через OpenLibrary


 69%|██████▉   | 220/320 [16:27<09:25,  5.65s/it]

[Успех] 498: Обложка найдена через OpenLibrary


 69%|██████▉   | 221/320 [16:29<07:36,  4.61s/it]

[Успех] 15082: Обложка найдена через OpenLibrary


 69%|██████▉   | 222/320 [16:31<06:17,  3.86s/it]

[Успех] 944: Обложка найдена через OpenLibrary


 70%|██████▉   | 223/320 [16:34<05:42,  3.53s/it]

[Успех] 18972: Обложка найдена через Gutenberg


 70%|███████   | 224/320 [16:36<05:02,  3.15s/it]

[Успех] 19090: Обложка найдена через OpenLibrary


 70%|███████   | 225/320 [16:46<08:03,  5.09s/it]

[Успех] 4276: Обложка найдена через OpenLibrary


 71%|███████   | 226/320 [16:48<06:32,  4.18s/it]

[Успех] 507: Обложка найдена через OpenLibrary


 71%|███████   | 227/320 [16:51<06:12,  4.00s/it]

[Успех] 291: Обложка найдена через OpenLibrary


 71%|███████▏  | 228/320 [16:53<05:12,  3.40s/it]

[Успех] 10136: Обложка найдена через OpenLibrary


 72%|███████▏  | 229/320 [16:55<04:26,  2.93s/it]

[Успех] 3074: Обложка найдена через OpenLibrary


 72%|███████▏  | 230/320 [17:07<08:29,  5.66s/it]

[Успех] 2834: Обложка найдена через OpenLibrary


 72%|███████▏  | 231/320 [17:16<09:53,  6.67s/it]

[Успех] 17797: Обложка найдена через OpenLibrary


 72%|███████▎  | 232/320 [17:18<07:40,  5.24s/it]

[Успех] 3688: Обложка найдена через OpenLibrary


 73%|███████▎  | 233/320 [17:20<06:06,  4.22s/it]

[Успех] 640: Обложка найдена через OpenLibrary


 73%|███████▎  | 234/320 [17:30<08:20,  5.82s/it]

[Успех] 21032: Обложка найдена через OpenLibrary


 73%|███████▎  | 235/320 [17:32<06:38,  4.69s/it]

[Успех] 20912: Обложка найдена через OpenLibrary
[Ошибка] 19810: Не удалось скачать с OpenLibrary (https://covers.openlibrary.org/b/id/8369013-M.jpg): HTTPSConnectionPool(host='archive.org', port=443): Read timed out. (read timeout=10)


 74%|███████▍  | 236/320 [17:46<10:30,  7.51s/it]

[Успех] 19810: Обложка найдена через Gutenberg


 74%|███████▍  | 237/320 [17:47<07:54,  5.72s/it]

[Успех] 11093: Обложка найдена через OpenLibrary
[Ошибка] 3499: Не удалось скачать с OpenLibrary (https://covers.openlibrary.org/b/id/13166184-M.jpg): HTTPSConnectionPool(host='archive.org', port=443): Read timed out. (read timeout=10)


 74%|███████▍  | 238/320 [18:01<11:12,  8.20s/it]

[Успех] 3499: Обложка найдена через Gutenberg


 75%|███████▍  | 239/320 [18:13<12:35,  9.32s/it]

[Успех] 1000006: Обложка найдена через OpenLibrary


 75%|███████▌  | 240/320 [18:25<13:25, 10.07s/it]

[Успех] 5267: Обложка найдена через OpenLibrary


 75%|███████▌  | 241/320 [18:36<13:35, 10.33s/it]

[Успех] 1557: Обложка найдена через OpenLibrary


 76%|███████▌  | 242/320 [18:48<14:03, 10.82s/it]

[Успех] 22302: Обложка найдена через OpenLibrary


 76%|███████▌  | 243/320 [18:50<10:29,  8.18s/it]

[Успех] 1218: Обложка найдена через OpenLibrary


 76%|███████▋  | 244/320 [19:03<12:11,  9.62s/it]

[Успех] 3725: Обложка найдена через OpenLibrary


 77%|███████▋  | 245/320 [19:05<09:15,  7.41s/it]

[Успех] 4229: Обложка найдена через Gutenberg


 77%|███████▋  | 246/320 [19:08<07:24,  6.01s/it]

[Успех] 11880: Обложка найдена через Gutenberg


 77%|███████▋  | 247/320 [19:10<05:52,  4.82s/it]

[Успех] 10743: Обложка найдена через OpenLibrary


 78%|███████▊  | 248/320 [19:12<04:45,  3.97s/it]

[Успех] 3335: Обложка найдена через OpenLibrary


 78%|███████▊  | 249/320 [19:13<03:45,  3.18s/it]

[Успех] 11146: Обложка найдена через OpenLibrary


 78%|███████▊  | 250/320 [19:15<03:09,  2.71s/it]

[Успех] 3604: Обложка найдена через OpenLibrary


 78%|███████▊  | 251/320 [19:17<02:54,  2.52s/it]

[Успех] 24872: Обложка найдена через Gutenberg


 79%|███████▉  | 252/320 [19:20<02:57,  2.61s/it]

[Успех] 3479: Обложка найдена через Gutenberg


 79%|███████▉  | 253/320 [19:29<05:01,  4.50s/it]

[Успех] 2600: Обложка найдена через OpenLibrary


 80%|███████▉  | 255/320 [19:31<03:14,  2.99s/it]

[Успех] 6911: Обложка найдена через Gutenberg


 80%|████████  | 256/320 [19:39<04:27,  4.18s/it]

[Успех] 22814: Обложка найдена через OpenLibrary


 80%|████████  | 257/320 [19:41<03:47,  3.61s/it]

[Успех] 6440: Обложка найдена через OpenLibrary


 81%|████████  | 258/320 [19:49<04:56,  4.78s/it]

[Успех] 2850: Обложка найдена через OpenLibrary


 81%|████████  | 259/320 [19:51<04:12,  4.13s/it]

[Успех] 23772: Обложка найдена через Gutenberg


 81%|████████▏ | 260/320 [19:53<03:34,  3.57s/it]

[Успех] 4926: Обложка найдена через OpenLibrary


 82%|████████▏ | 261/320 [19:56<03:15,  3.31s/it]

[Пропуск] 3533: Обложка не найдена ни в одном источнике


 82%|████████▏ | 263/320 [19:58<02:11,  2.30s/it]

[Успех] 3721: Обложка найдена через OpenLibrary


 82%|████████▎ | 264/320 [20:08<03:52,  4.16s/it]

[Успех] 13193: Обложка найдена через OpenLibrary


 83%|████████▎ | 265/320 [20:17<05:02,  5.49s/it]

[Успех] 18640: Обложка найдена через OpenLibrary


 83%|████████▎ | 266/320 [20:29<06:18,  7.00s/it]

[Успех] 1028: Обложка найдена через OpenLibrary


 83%|████████▎ | 267/320 [20:30<04:56,  5.59s/it]

[Пропуск] 1079: Обложка не найдена ни в одном источнике


 84%|████████▍ | 268/320 [20:32<03:54,  4.50s/it]

[Успех] 5122: Обложка найдена через OpenLibrary


 84%|████████▍ | 269/320 [20:35<03:17,  3.88s/it]

[Пропуск] 10030: Обложка не найдена ни в одном источнике


 84%|████████▍ | 270/320 [20:36<02:44,  3.29s/it]

[Пропуск] 1098: Обложка не найдена ни в одном источнике


 85%|████████▍ | 271/320 [20:47<04:19,  5.29s/it]

[Успех] 19342: Обложка найдена через OpenLibrary


 85%|████████▌ | 272/320 [20:50<03:44,  4.67s/it]

[Успех] 27683: Обложка найдена через OpenLibrary


 85%|████████▌ | 273/320 [21:03<05:32,  7.08s/it]

[Успех] 1608: Обложка найдена через OpenLibrary


 86%|████████▌ | 274/320 [21:06<04:33,  5.95s/it]

[Успех] 27969: Обложка найдена через Gutenberg
[Ошибка] 479: Не удалось скачать с OpenLibrary (https://covers.openlibrary.org/b/id/12622062-M.jpg): HTTPSConnectionPool(host='archive.org', port=443): Read timed out. (read timeout=10)


 86%|████████▌ | 275/320 [21:20<06:16,  8.37s/it]

[Пропуск] 479: Обложка не найдена ни в одном источнике


 86%|████████▋ | 276/320 [21:21<04:35,  6.26s/it]

[Успех] 4020: Обложка найдена через OpenLibrary
[Ошибка] 6882: Не удалось скачать с OpenLibrary (https://covers.openlibrary.org/b/id/10923389-M.jpg): HTTPSConnectionPool(host='archive.org', port=443): Read timed out. (read timeout=10)


 87%|████████▋ | 277/320 [21:36<06:13,  8.68s/it]

[Успех] 6882: Обложка найдена через Gutenberg


 87%|████████▋ | 278/320 [21:49<07:01, 10.03s/it]

[Успех] 22079: Обложка найдена через OpenLibrary


 87%|████████▋ | 279/320 [21:52<05:25,  7.95s/it]

[Успех] 10123: Обложка найдена через OpenLibrary


 88%|████████▊ | 280/320 [21:57<04:40,  7.00s/it]

[Успех] 360: Обложка найдена через Gutenberg


 88%|████████▊ | 281/320 [22:02<04:12,  6.47s/it]

[Успех] 19289: Обложка найдена через Gutenberg


 88%|████████▊ | 282/320 [22:16<05:35,  8.83s/it]

[Успех] 5976: Обложка найдена через OpenLibrary


 88%|████████▊ | 283/320 [22:31<06:33, 10.63s/it]

[Успех] 21895: Обложка найдена через OpenLibrary


 89%|████████▉ | 284/320 [22:38<05:44,  9.57s/it]

[Успех] 33556: Обложка найдена через OpenLibrary


 89%|████████▉ | 285/320 [22:48<05:34,  9.55s/it]

[Успех] 40077: Обложка найдена через OpenLibrary


 89%|████████▉ | 286/320 [23:08<07:20, 12.95s/it]

[Успех] 5162: Обложка найдена через OpenLibrary


 90%|████████▉ | 287/320 [23:19<06:38, 12.09s/it]

[Успех] 9192: Обложка найдена через OpenLibrary


 90%|█████████ | 288/320 [23:38<07:41, 14.41s/it]

[Успех] 38219: Обложка найдена через OpenLibrary


 90%|█████████ | 289/320 [23:45<06:13, 12.04s/it]

[Успех] 40999: Обложка найдена через OpenLibrary


 91%|█████████ | 290/320 [24:01<06:35, 13.17s/it]

[Успех] 2710: Обложка найдена через OpenLibrary


 91%|█████████ | 291/320 [24:05<05:08, 10.63s/it]

[Успех] 10624: Обложка найдена через OpenLibrary


 91%|█████████▏| 292/320 [24:09<04:02,  8.64s/it]

[Успех] 19215: Обложка найдена через OpenLibrary


 92%|█████████▏| 293/320 [24:23<04:36, 10.23s/it]

[Успех] 2150: Обложка найдена через OpenLibrary


 92%|█████████▏| 294/320 [24:25<03:21,  7.74s/it]

[Успех] 8075: Обложка найдена через OpenLibrary


 92%|█████████▏| 295/320 [24:27<02:27,  5.91s/it]

[Успех] 42214: Обложка найдена через OpenLibrary


 92%|█████████▎| 296/320 [24:40<03:11,  7.98s/it]

[Успех] 19734: Обложка найдена через OpenLibrary


 93%|█████████▎| 297/320 [24:41<02:19,  6.08s/it]

[Успех] 15202: Обложка найдена через OpenLibrary


 93%|█████████▎| 298/320 [24:52<02:43,  7.42s/it]

[Успех] 5773: Обложка найдена через OpenLibrary


 93%|█████████▎| 299/320 [24:55<02:10,  6.21s/it]

[Успех] 26950: Обложка найдена через Gutenberg


 94%|█████████▍| 300/320 [24:58<01:40,  5.05s/it]

[Успех] 42630: Обложка найдена через Gutenberg


 94%|█████████▍| 301/320 [25:00<01:21,  4.31s/it]

[Пропуск] 29607: Обложка не найдена ни в одном источнике


 94%|█████████▍| 302/320 [25:02<01:01,  3.43s/it]

[Успех] 793: Обложка найдена через OpenLibrary


 95%|█████████▍| 303/320 [25:03<00:48,  2.83s/it]

[Успех] 35002: Обложка найдена через OpenLibrary


 95%|█████████▌| 304/320 [25:06<00:47,  2.94s/it]

[Успех] 1282: Обложка найдена через Gutenberg


 95%|█████████▌| 305/320 [25:17<01:20,  5.38s/it]

[Успех] 43005: Обложка найдена через OpenLibrary


 96%|█████████▌| 306/320 [25:21<01:06,  4.79s/it]

[Пропуск] 13042: Обложка не найдена ни в одном источнике


 96%|█████████▌| 307/320 [25:31<01:25,  6.56s/it]

[Успех] 36508: Обложка найдена через OpenLibrary


 96%|█████████▋| 308/320 [25:33<01:00,  5.08s/it]

[Успех] 34943: Обложка найдена через OpenLibrary


 97%|█████████▋| 309/320 [25:44<01:16,  6.95s/it]

[Успех] 42056: Обложка найдена через OpenLibrary


 97%|█████████▋| 310/320 [25:46<00:54,  5.44s/it]

[Успех] 4953: Обложка найдена через OpenLibrary


 97%|█████████▋| 311/320 [25:49<00:41,  4.65s/it]

[Успех] 43699: Обложка найдена через Gutenberg


 98%|█████████▊| 312/320 [25:51<00:31,  3.90s/it]

[Пропуск] 15263: Обложка не найдена ни в одном источнике


 98%|█████████▊| 313/320 [25:53<00:22,  3.14s/it]

[Успех] 2486: Обложка найдена через OpenLibrary


 98%|█████████▊| 314/320 [25:54<00:16,  2.75s/it]

[Успех] 13042: Обложка найдена через OpenLibrary


 98%|█████████▊| 315/320 [25:57<00:12,  2.58s/it]

[Успех] 22925: Обложка найдена через OpenLibrary


 99%|█████████▉| 316/320 [25:59<00:10,  2.59s/it]

[Успех] 15164: Обложка найдена через Gutenberg


 99%|█████████▉| 317/320 [26:12<00:16,  5.65s/it]

[Успех] 12060: Обложка найдена через OpenLibrary


 99%|█████████▉| 318/320 [26:22<00:13,  6.88s/it]

[Успех] 10446: Обложка найдена через OpenLibrary


100%|█████████▉| 319/320 [26:25<00:05,  5.76s/it]

[Успех] 44326: Обложка найдена через Gutenberg


100%|██████████| 320/320 [26:27<00:00,  4.96s/it]

[Успех] 35941: Обложка найдена через Gutenberg

Итог: Скачано 298/320 обложек.





## Загрузка иллюстраций

In [6]:
# Основной процесс
CSV_PATH = "train-clean-100/LibriSpeech/train_clean_100_chapters.csv"
df = pd.read_csv(CSV_PATH)
unique_books = df["PROJECT TITLE"].drop_duplicates().to_list()
unique_books

['Northanger Abbey',
 'Frankenstein, or The Modern Prometheus',
 'Kwaidan: Stories and Studies of Strange Things',
 'Journal of the Plague Year',
 'Anne of Green Gables (version 3)',
 'Brigands of the Moon',
 'Surprising Adventures of Baron Munchausen',
 'Lock and Key Library',
 "Clotel, or, The President's Daughter",
 'For the Term of His Natural Life',
 'Uncle Silas',
 'East Lynne',
 'Just Patty',
 'Anne of Green Gables (version 5)',
 'Works of Edgar Allan Poe, Raven Edition, Volume 2',
 'Cossacks',
 'Autobiography',
 'Legacy',
 'Autobiography of Anthony Trollope',
 'Miserables Vol. 3',
 'Millionaire Baby',
 'Anna Karenina, Book 2',
 'Tanglewood Tales',
 'Theo',
 'Music Notation and Terminology',
 'Once on a Time',
 'Celebrated Crimes, Vol. 1',
 'Gargantua and Pantagruel, Book I',
 'Complete Book of Cheese',
 'Ox-Team Days on the Oregon Trail',
 'Life of Kit Carson',
 'Prime Minister',
 'In His Steps',
 "Sylvia's Lovers",
 'Red Thumb Mark',
 'Jesuits in North America in the 17th Cent

In [1]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
import os
from tqdm import tqdm
from urllib.parse import quote_plus

# Настройки
CSV_PATH = "train-clean-100/LibriSpeech/train_clean_100_chapters.csv"
ILLUSTRATIONS_DIR = "book_illustrations"

# Создание папки
os.makedirs(ILLUSTRATIONS_DIR, exist_ok=True)

def get_gutenberg_id_by_title(title):
    """Ищет ID книги по названию на Gutenberg."""
    search_url = f"https://www.gutenberg.org/ebooks/search/?query={quote_plus(title)}"
    try:
        response = requests.get(search_url, timeout=10)
        soup = BeautifulSoup(response.text, "html.parser")
        link = soup.find("li", class_="booklink")
        if link:
            href = link.find("a", class_="link")["href"]
            return int(href.strip("/").split("/")[-1])
    except Exception as e:
        print(f"[Поиск ID] Ошибка для '{title}': {e}")
    return None

def download_illustrations(book_id, save_subdir):
    """Скачивает все изображения из HTML-версии книги."""
    html_url = f"https://www.gutenberg.org/files/{book_id}/{book_id}-h/{book_id}-h.htm"
    try:
        response = requests.get(html_url, timeout=10)
        if response.status_code != 200:
            return 0
        soup = BeautifulSoup(response.content, "lxml-xml")
        img_tags = soup.find_all("img")
        
        os.makedirs(save_subdir, exist_ok=True)
        count = 0
        for img in img_tags:
            src = img.get("src")
            if src:
                full_url = html_url.rsplit("/", 1)[0] + "/" + src
                img_name = os.path.basename(src).split("?")[0]
                img_path = os.path.join(save_subdir, img_name)
                try:
                    img_data = requests.get(full_url, timeout=10).content
                    with open(img_path, "wb") as f:
                        f.write(img_data)
                    count += 1
                except Exception as e:
                    print(f"[Скачивание] Ошибка {full_url}: {e}")
        return count
    except Exception as e:
        print(f"[HTML] Ошибка при загрузке HTML для ID {book_id}: {e}")
        return 0

# Основной процесс
df = pd.read_csv(CSV_PATH)
unique_books = df[["BOOK ID", "PROJECT TITLE"]].drop_duplicates()

not_found = []
success_count = 0

for _, row in tqdm(unique_books.iterrows(), total=len(unique_books), desc="Книги"):
    book_id = row["BOOK ID"]
    title = row["PROJECT TITLE"]
    gutenberg_id = get_gutenberg_id_by_title(title)
    
    if gutenberg_id:
        save_path = os.path.join(ILLUSTRATIONS_DIR, str(book_id))
        count = download_illustrations(gutenberg_id, save_path)
        if count > 0:
            print(f"[Успех] {book_id} ({title}): загружено {count} изображений")
            success_count += 1
        else:
            print(f"[Пропуск] {book_id} ({title}): нет изображений")
            not_found.append({"BOOK ID": book_id, "TITLE": title, "REASON": "Нет изображений"})
    else:
        print(f"[Пропуск] {book_id} ({title}): не найден на Gutenberg")
        not_found.append({"BOOK ID": book_id, "TITLE": title, "REASON": "Не найден на Gutenberg"})

# Сохраняем список неудачных загрузок
not_found_df = pd.DataFrame(not_found)
not_found_df.to_csv("not_found_illustrations.csv", index=False)

print(f"\nИтог: Иллюстрации найдены у {success_count} книг из {len(unique_books)}")
# print(f"Список пропущенных сохранён в not_found_illustrations.csv")

Книги:   0%|          | 1/320 [00:02<11:46,  2.22s/it]

[Пропуск] 121 (Northanger Abbey): нет изображений


Книги:   1%|          | 2/320 [00:05<13:49,  2.61s/it]

[Пропуск] 84 (Frankenstein, or The Modern Prometheus): нет изображений


Книги:   1%|          | 3/320 [00:10<20:35,  3.90s/it]

[Успех] 1210 (Kwaidan: Stories and Studies of Strange Things): загружено 2 изображений


Книги:   1%|▏         | 4/320 [00:14<20:58,  3.98s/it]

[Успех] 376 (Journal of the Plague Year): загружено 2 изображений


Книги:   2%|▏         | 5/320 [00:15<14:28,  2.76s/it]

[Пропуск] 45 (Anne of Green Gables (version 3)): не найден на Gutenberg


Книги:   2%|▏         | 6/320 [03:17<5:33:00, 63.63s/it]

[Успех] 19066 (Brigands of the Moon): загружено 289 изображений


Книги:   2%|▏         | 7/320 [03:19<3:47:06, 43.54s/it]

[Пропуск] 3154 (Surprising Adventures of Baron Munchausen): нет изображений


Книги:   2%|▎         | 8/320 [03:23<2:42:12, 31.19s/it]

[Успех] 1831 (Lock and Key Library): загружено 3 изображений


Книги:   3%|▎         | 9/320 [03:25<1:53:07, 21.83s/it]

[Пропуск] 2046 (Clotel, or, The President's Daughter): нет изображений


Книги:   3%|▎         | 10/320 [03:29<1:24:27, 16.35s/it]

[Пропуск] 3424 (For the Term of His Natural Life): нет изображений


Книги:   3%|▎         | 11/320 [03:32<1:03:51, 12.40s/it]

[Пропуск] 14851 (Uncle Silas): нет изображений


Книги:   4%|▍         | 12/320 [03:37<51:13,  9.98s/it]  

[Пропуск] 3322 (East Lynne): нет изображений


Книги:   4%|▍         | 13/320 [03:43<45:45,  8.94s/it]

[Успех] 21048 (Just Patty): загружено 2 изображений


Книги:   4%|▍         | 14/320 [03:44<32:47,  6.43s/it]

[Пропуск] 45 (Anne of Green Gables (version 5)): не найден на Gutenberg


Книги:   5%|▍         | 15/320 [03:44<23:46,  4.68s/it]

[Пропуск] 2148 (Works of Edgar Allan Poe, Raven Edition, Volume 2): не найден на Gutenberg


Книги:   5%|▌         | 16/320 [03:47<19:43,  3.89s/it]

[Пропуск] 4761 (Cossacks): нет изображений


Книги:   5%|▌         | 17/320 [04:02<36:52,  7.30s/it]

[Успех] 10378 (Autobiography): загружено 14 изображений


Книги:   6%|▌         | 18/320 [04:40<1:23:27, 16.58s/it]

[Успех] 21510 (Legacy): загружено 39 изображений


Книги:   6%|▌         | 19/320 [04:43<1:02:59, 12.55s/it]

[Пропуск] 5978 (Autobiography of Anthony Trollope): нет изображений


Книги:   6%|▋         | 20/320 [04:47<49:28,  9.90s/it]  

[Успех] 135 (Miserables Vol. 3): загружено 1 изображений


Книги:   7%|▋         | 21/320 [04:56<48:54,  9.81s/it]

[Успех] 21904 (Millionaire Baby): загружено 9 изображений


Книги:   7%|▋         | 22/320 [04:57<34:59,  7.04s/it]

[Пропуск] 1399 (Anna Karenina, Book 2): не найден на Gutenberg


Книги:   7%|▋         | 23/320 [05:00<28:27,  5.75s/it]

[Пропуск] 976 (Tanglewood Tales): нет изображений


Книги:   8%|▊         | 24/320 [05:58<1:46:30, 21.59s/it]

[Успех] 27990 (Theo): загружено 71 изображений


Книги:   8%|▊         | 25/320 [08:36<5:06:28, 62.33s/it]

[Успех] 19499 (Music Notation and Terminology): загружено 226 изображений


Книги:   8%|▊         | 26/320 [08:42<3:42:59, 45.51s/it]

[Успех] 27771 (Once on a Time): загружено 4 изображений


Книги:   8%|▊         | 27/320 [08:43<2:36:28, 32.04s/it]

[Пропуск] 2741 (Celebrated Crimes, Vol. 1): не найден на Gutenberg


Книги:   9%|▉         | 28/320 [09:53<3:31:24, 43.44s/it]

[Успех] 8166 (Gargantua and Pantagruel, Book I): загружено 54 изображений


Книги:   9%|▉         | 29/320 [11:59<5:31:28, 68.35s/it]

[Успех] 14293 (Complete Book of Cheese): загружено 193 изображений


Книги:   9%|▉         | 30/320 [13:49<6:30:34, 80.81s/it]

[Успех] 29543 (Ox-Team Days on the Oregon Trail): загружено 127 изображений


Книги:  10%|▉         | 31/320 [14:03<4:52:34, 60.74s/it]

[Успех] 7882 (Life of Kit Carson): загружено 9 изображений


Книги:  10%|█         | 32/320 [14:07<3:30:25, 43.84s/it]

[Успех] 2158 (Prime Minister): загружено 2 изображений


Книги:  10%|█         | 33/320 [15:32<4:27:52, 56.00s/it]

[Успех] 4540 (In His Steps): загружено 80 изображений


Книги:  11%|█         | 34/320 [15:35<3:11:49, 40.24s/it]

[Пропуск] 4537 (Sylvia's Lovers): нет изображений


Книги:  11%|█         | 35/320 [15:38<2:17:31, 28.95s/it]

[Пропуск] 11128 (Red Thumb Mark): нет изображений


Книги:  11%|█▏        | 36/320 [15:42<1:42:37, 21.68s/it]

[Пропуск] 6933 (Jesuits in North America in the 17th Century): нет изображений


Книги:  12%|█▏        | 37/320 [16:34<2:24:16, 30.59s/it]

[Успех] 3795 (Under the Lilacs): загружено 53 изображений


Книги:  12%|█▏        | 38/320 [16:54<2:09:45, 27.61s/it]

[Успех] 326 (Steep Trails): загружено 13 изображений


Книги:  12%|█▏        | 39/320 [16:55<1:31:08, 19.46s/it]

[Пропуск] 1000010 (Autobiography of Cockney Tom): не найден на Gutenberg


Книги:  12%|█▎        | 40/320 [16:56<1:04:24, 13.80s/it]

[Пропуск] 135 (Miserables Vol. 4): не найден на Gutenberg


Книги:  13%|█▎        | 41/320 [16:57<47:09, 10.14s/it]  

[Пропуск] 851 (Narrative of the Captivity and Restoration of Mrs. Mary Rowlandson): нет изображений


Книги:  13%|█▎        | 42/320 [17:09<49:44, 10.74s/it]

[Успех] 16566 (Aunt Jane's Nieces Abroad): загружено 14 изображений


Книги:  13%|█▎        | 43/320 [17:10<36:06,  7.82s/it]

[Пропуск] 6987 (Five Little Peppers Abroad): нет изображений


Книги:  14%|█▍        | 44/320 [17:11<26:02,  5.66s/it]

[Пропуск] 135 (Miserables Vol. 5): не найден на Gutenberg


Книги:  14%|█▍        | 45/320 [17:11<19:00,  4.15s/it]

[Пропуск] 1079 (Life and Opinions of Tristram Shandy, Gentleman, Vol. 4): не найден на Gutenberg


Книги:  14%|█▍        | 46/320 [17:13<15:54,  3.48s/it]

[Пропуск] 17189 (Autumn Leaves, Original Pieces in Prose and Verse): нет изображений


Книги:  15%|█▍        | 47/320 [17:15<12:38,  2.78s/it]

[Пропуск] 6754 (Tale of Brownie Beaver): нет изображений


Книги:  15%|█▌        | 48/320 [17:15<09:39,  2.13s/it]

[Пропуск] 2600 (War and Peace, Book 15: 1812-1813): не найден на Gutenberg


Книги:  15%|█▌        | 49/320 [18:17<1:30:48, 20.11s/it]

[Успех] 30908 (Bible in Its Making): загружено 59 изображений


Книги:  16%|█▌        | 50/320 [18:20<1:07:39, 15.04s/it]

[Пропуск] 3800 (Ethics): нет изображений


Книги:  16%|█▌        | 51/320 [18:21<47:58, 10.70s/it]  

[Пропуск] 26041 (Aunt Jo's Scrapbag): не найден на Gutenberg


Книги:  16%|█▋        | 52/320 [18:34<50:20, 11.27s/it]

[Успех] 3050 (Notes of a War Correspondent): загружено 14 изображений


Книги:  17%|█▋        | 53/320 [18:35<36:44,  8.26s/it]

[Пропуск] 22781 (32 Caliber): нет изображений


Книги:  17%|█▋        | 54/320 [18:36<26:34,  6.00s/it]

[Пропуск] 2600 (War and Peace, Book 16: First Epilogue 1813-1820): не найден на Gutenberg


Книги:  17%|█▋        | 55/320 [18:39<22:29,  5.09s/it]

[Пропуск] 22215 (Frozen Pirate): нет изображений


Книги:  18%|█▊        | 56/320 [18:42<20:49,  4.73s/it]

[Успех] 13437 (Best Russian Short Stories): загружено 1 изображений


Книги:  18%|█▊        | 57/320 [20:02<1:59:23, 27.24s/it]

[Успех] 19087 (King Nobody Wanted): загружено 91 изображений


Книги:  18%|█▊        | 58/320 [20:43<2:16:47, 31.33s/it]

[Успех] 22409 (Woman Who Went to Alaska): загружено 56 изображений


Книги:  18%|█▊        | 59/320 [20:45<1:37:56, 22.52s/it]

[Пропуск] 7345 (Travels in Alaska): нет изображений
[Скачивание] Ошибка https://www.gutenberg.org/files/3178/3178-h/images/p545.jpg: HTTPSConnectionPool(host='www.gutenberg.org', port=443): Max retries exceeded with url: /files/3178/3178-h/images/p545.jpg (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x000001A80B6B8F10>, 'Connection to www.gutenberg.org timed out. (connect timeout=10)'))


Книги:  19%|█▉        | 60/320 [23:59<5:20:24, 73.94s/it]

[Успех] 3178 (Gilded Age): загружено 211 изображений


Книги:  19%|█▉        | 61/320 [24:00<3:44:13, 51.94s/it]

[Пропуск] 2600 (War and Peace, Book 17: Second Epilogue): не найден на Gutenberg


Книги:  19%|█▉        | 62/320 [24:02<2:39:19, 37.05s/it]

[Пропуск] 3634 (Guilty River): нет изображений


Книги:  20%|█▉        | 63/320 [24:03<1:52:35, 26.29s/it]

[Пропуск] 10359 (Aunt Jane's Nieces at Millville): нет изображений


Книги:  20%|██        | 64/320 [24:49<2:16:51, 32.07s/it]

[Успех] 24811 (Viking Tales): загружено 60 изображений


Книги:  20%|██        | 65/320 [24:52<1:39:17, 23.36s/it]

[Пропуск] 12587 (Man Who Laughs): нет изображений


Книги:  21%|██        | 66/320 [24:52<1:10:04, 16.55s/it]

[Пропуск] 10800 (Anatomy of Melancholy Volume 2): не найден на Gutenberg


Книги:  21%|██        | 67/320 [24:53<49:34, 11.76s/it]  

[Пропуск] 2488 (Twenty Thousand Leagues Under the Sea (Version 2)): не найден на Gutenberg


Книги:  21%|██▏       | 68/320 [25:03<47:15, 11.25s/it]

[Успех] 2860 (Framley Parsonage): загружено 6 изображений


Книги:  22%|██▏       | 69/320 [25:07<38:13,  9.14s/it]

[Пропуск] 2609 (Vicomte De Bragelonne): нет изображений


Книги:  22%|██▏       | 70/320 [25:10<30:09,  7.24s/it]

[Пропуск] 24874 (Lucy Maud Montgomery Short Stories, 1902 to 1903): нет изображений


Книги:  22%|██▏       | 71/320 [25:13<24:31,  5.91s/it]

[Пропуск] 22775 (Psychotherapy): нет изображений


Книги:  22%|██▎       | 72/320 [25:13<17:44,  4.29s/it]

[Пропуск] 13610 (Studies in the Psychology of Sex, Volume One): не найден на Gutenberg


Книги:  23%|██▎       | 73/320 [25:34<38:32,  9.36s/it]

[Успех] 17811 (Grace Harlowe's Junior Year at High School; or, Fast Friends in the Sororities): загружено 26 изображений


Книги:  23%|██▎       | 74/320 [25:35<27:38,  6.74s/it]

[Пропуск] 4071 (Monsieur Lecoq Part 1: The Inquiry): не найден на Gutenberg


Книги:  23%|██▎       | 75/320 [25:38<23:01,  5.64s/it]

[Пропуск] 14021 (Lord of the World): нет изображений


Книги:  24%|██▍       | 76/320 [25:39<17:24,  4.28s/it]

[Пропуск] 9746 (Ashiel Mystery - A Detective Story): нет изображений


Книги:  24%|██▍       | 77/320 [25:43<16:03,  3.97s/it]

[Пропуск] 17780 (Scenes of Clerical Life): нет изображений


Книги:  24%|██▍       | 78/320 [25:44<12:27,  3.09s/it]

[Пропуск] 10869 (Abandoned Room): нет изображений


Книги:  25%|██▍       | 79/320 [25:47<12:15,  3.05s/it]

[Пропуск] 3438 (Book of A Thousand Nights and a Night (Arabian Nights), Volume 04): нет изображений


Книги:  25%|██▌       | 80/320 [26:27<56:38, 14.16s/it]

[Успех] 4599 (Small House at Allington): загружено 37 изображений


Книги:  25%|██▌       | 81/320 [26:58<1:16:33, 19.22s/it]

[Успех] 1751 (Twilight Land): загружено 28 изображений


Книги:  26%|██▌       | 82/320 [27:01<57:56, 14.61s/it]  

[Пропуск] 1839 (Other Things Being Equal): нет изображений


Книги:  26%|██▌       | 83/320 [27:04<43:00, 10.89s/it]

[Пропуск] 17854 (Sport of the Gods): нет изображений


Книги:  26%|██▋       | 84/320 [27:07<33:35,  8.54s/it]

[Успех] 32628 (Child's Book of American Biography): загружено 1 изображений


Книги:  27%|██▋       | 85/320 [27:10<26:58,  6.89s/it]

[Пропуск] 362 (Miss Billy's Decision): нет изображений


Книги:  27%|██▋       | 86/320 [27:18<28:05,  7.20s/it]

[Успех] 34944 (Brenda, Her School and Her Club): загружено 5 изображений


Книги:  27%|██▋       | 87/320 [29:22<2:44:16, 42.30s/it]

[Успех] 5118 (American Senator): загружено 118 изображений


Книги:  28%|██▊       | 88/320 [29:24<1:57:18, 30.34s/it]

[Пропуск] 13015 (Tales of Old Japan): нет изображений


Книги:  28%|██▊       | 89/320 [29:38<1:37:33, 25.34s/it]

[Успех] 18734 (Wit and Humor of America, Vol 03): загружено 14 изображений


Книги:  28%|██▊       | 90/320 [30:28<2:05:27, 32.73s/it]

[Успех] 12600 (Old and New Masters): загружено 49 изображений


Книги:  28%|██▊       | 91/320 [31:12<2:18:05, 36.18s/it]

[Успех] 16653 (Myths of Babylonia and Assyria): загружено 42 изображений


Книги:  29%|██▉       | 92/320 [31:17<1:41:24, 26.69s/it]

[Пропуск] 35587 (Headless Horseman - A Strange Tale of Texas): нет изображений


Книги:  29%|██▉       | 93/320 [31:38<1:34:49, 25.06s/it]

[Успех] 19323 (Wit and Humor of America, Vol 05): загружено 12 изображений


Книги:  29%|██▉       | 94/320 [31:39<1:07:20, 17.88s/it]

[Пропуск] 1268 (Mysterious Island (version 2)): не найден на Gutenberg


Книги:  30%|██▉       | 95/320 [31:42<49:41, 13.25s/it]  

[Пропуск] 20064 (Captains of Industry): нет изображений


Книги:  30%|███       | 96/320 [31:46<40:08, 10.75s/it]

[Успех] 24876 (Lucy Maud Montgomery Short Stories, 1905-1906): загружено 2 изображений


Книги:  30%|███       | 97/320 [31:57<39:07, 10.53s/it]

[Поиск ID] Ошибка для 'Story of a Bad Boy': HTTPSConnectionPool(host='www.gutenberg.org', port=443): Max retries exceeded with url: /ebooks/search/?query=Story+of+a+Bad+Boy (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x000001A80BC08C10>, 'Connection to www.gutenberg.org timed out. (connect timeout=10)'))
[Пропуск] 1948 (Story of a Bad Boy): не найден на Gutenberg


Книги:  31%|███       | 98/320 [32:18<50:59, 13.78s/it]

[Успех] 21959 (Letters from a Self-Made Merchant to His Son): загружено 19 изображений


Книги:  31%|███       | 99/320 [32:20<37:57, 10.30s/it]

[Пропуск] 13110 (Aunt Jane's Nieces at Work): нет изображений


Книги:  31%|███▏      | 100/320 [32:21<27:38,  7.54s/it]

[Пропуск] 12347 (Morgesons): нет изображений


Книги:  32%|███▏      | 101/320 [32:22<19:53,  5.45s/it]

[Пропуск] 21854 (Trent's Last Case (Version 2)): не найден на Gutenberg


Книги:  32%|███▏      | 102/320 [32:23<15:47,  4.34s/it]

[Пропуск] 25493 (Cathedral Courtship): нет изображений


Книги:  32%|███▏      | 103/320 [32:29<17:17,  4.78s/it]

[Успех] 24877 (Lucy Maud Montgomery Short Stories, 1907-1908): загружено 3 изображений


Книги:  32%|███▎      | 104/320 [32:32<14:53,  4.14s/it]

[Пропуск] 1734 (Secret Places of the Heart): нет изображений


Книги:  33%|███▎      | 105/320 [32:35<13:53,  3.88s/it]

[Пропуск] 37039 (Red Room): нет изображений


Книги:  33%|███▎      | 106/320 [32:40<14:22,  4.03s/it]

[Успех] 30905 (Boarded Up House): загружено 1 изображений


Книги:  33%|███▎      | 107/320 [32:40<10:37,  2.99s/it]

[Пропуск] 5136 (Around the World on a Bicycle, Vol. 1): не найден на Gutenberg


Книги:  34%|███▍      | 108/320 [32:43<10:01,  2.84s/it]

[Пропуск] 7502 (Annie Kilburn): нет изображений


Книги:  34%|███▍      | 109/320 [32:56<21:30,  6.12s/it]

[Успех] 24432 (Wit and Humor of America, Vol 08): загружено 11 изображений


Книги:  34%|███▍      | 110/320 [33:56<1:17:29, 22.14s/it]

[Успех] 27826 (Olive Fairy Book): загружено 54 изображений


Книги:  35%|███▍      | 111/320 [33:57<54:37, 15.68s/it]  

[Пропуск] 2866 (Windsor Castle, Book 1): не найден на Gutenberg


Книги:  35%|███▌      | 112/320 [33:58<39:13, 11.32s/it]

[Пропуск] 19347 (Myths of the New World): нет изображений


Книги:  35%|███▌      | 113/320 [34:50<1:21:10, 23.53s/it]

[Успех] 3282 (Brown Fairy Book): загружено 53 изображений


Книги:  36%|███▌      | 114/320 [36:01<2:09:39, 37.76s/it]

[Успех] 35862 (Celtic Folk and Fairy Tales): загружено 80 изображений


Книги:  36%|███▌      | 115/320 [36:01<1:30:57, 26.62s/it]

[Пропуск] 1184 (Count of Monte Cristo (version 2)): не найден на Gutenberg


Книги:  36%|███▋      | 116/320 [36:03<1:05:05, 19.15s/it]

[Пропуск] 38556 (Historic Waterways): нет изображений


Книги:  37%|███▋      | 117/320 [36:14<56:03, 16.57s/it]  

[Успех] 13029 (Art of the Moving Picture): загружено 13 изображений


Книги:  37%|███▋      | 118/320 [36:17<42:33, 12.64s/it]

[Успех] 34468 (Christopher Quarles College Professor and Master Detective): загружено 1 изображений


Книги:  37%|███▋      | 119/320 [36:31<44:09, 13.18s/it]

[Успех] 19207 (Firelight Fairy Book): загружено 13 изображений


Книги:  38%|███▊      | 120/320 [36:59<58:14, 17.47s/it]

[Успех] 35950 (Lives of Poor Boys Who Became Famous): загружено 24 изображений


Книги:  38%|███▊      | 121/320 [41:20<5:00:20, 90.56s/it]

[Успех] 18284 (For Every Music Lover): загружено 256 изображений


Книги:  38%|███▊      | 122/320 [41:22<3:31:15, 64.02s/it]

[Пропуск] 15268 (John Stuart Mill; His Life and Works): нет изображений


Книги:  38%|███▊      | 123/320 [41:24<2:28:42, 45.29s/it]

[Пропуск] 18018 (Free Press): нет изображений


Книги:  39%|███▉      | 124/320 [41:28<1:47:52, 33.02s/it]

[Успех] 8642 (Woman in the Nineteenth Century): загружено 1 изображений


Книги:  39%|███▉      | 125/320 [41:38<1:24:36, 26.04s/it]

[Успех] 25652 (Treasury of Heroes and Heroines): загружено 7 изображений


Книги:  39%|███▉      | 126/320 [41:41<1:01:30, 19.02s/it]

[Пропуск] 39324 (Literary Sense): нет изображений


Книги:  40%|███▉      | 127/320 [41:47<48:57, 15.22s/it]  

[Успех] 25333 (Great K. & A. Train-Robbery): загружено 4 изображений


Книги:  40%|████      | 128/320 [41:49<36:28, 11.40s/it]

[Пропуск] 5669 (Considerations on Representative Government): нет изображений


Книги:  40%|████      | 129/320 [41:51<26:33,  8.34s/it]

[Пропуск] 2395 (Golden Fleece and the Heroes Who Lived Before Achilles): нет изображений


Книги:  41%|████      | 130/320 [44:55<3:13:57, 61.25s/it]

[Успех] 27448 (Indian To-day): загружено 140 изображений


Книги:  41%|████      | 131/320 [44:57<2:17:01, 43.50s/it]

[Пропуск] 5803 (Not That It Matters): нет изображений


Книги:  41%|████▏     | 132/320 [45:15<1:52:14, 35.82s/it]

[Успех] 21639 (When Patty Went to College): загружено 22 изображений


Книги:  42%|████▏     | 133/320 [45:18<1:20:33, 25.84s/it]

[Успех] 28572 (Letters on an Elk Hunt): загружено 1 изображений


Книги:  42%|████▏     | 134/320 [45:42<1:18:38, 25.37s/it]

[Успех] 37756 (Byzantine Empire): загружено 13 изображений


Книги:  42%|████▏     | 135/320 [45:44<56:29, 18.32s/it]  

[Пропуск] 1693 (Dangerous Days): нет изображений


Книги:  42%|████▎     | 136/320 [46:53<1:42:36, 33.46s/it]

[Успех] 20183 (John Quincy Adams): загружено 65 изображений


Книги:  43%|████▎     | 137/320 [46:53<1:12:00, 23.61s/it]

[Пропуск] 60 (Scarlet Pimpernel (Version 2)): не найден на Gutenberg


Книги:  43%|████▎     | 138/320 [46:54<50:41, 16.71s/it]  

[Пропуск] 19213 (History of England from the Invasion of Julius Caesar to the Revolution of 1688, Volume 1C): не найден на Gutenberg


Книги:  43%|████▎     | 139/320 [46:57<38:08, 12.64s/it]

[Пропуск] 3760 (Sybil, or the Two Nations): нет изображений


Книги:  44%|████▍     | 140/320 [47:00<29:23,  9.80s/it]

[Пропуск] 9363 (Best British Short Stories of 1922): нет изображений


Книги:  44%|████▍     | 141/320 [47:02<21:35,  7.24s/it]

[Пропуск] 22699 (Pipefuls): нет изображений


Книги:  44%|████▍     | 142/320 [47:02<15:35,  5.25s/it]

[Пропуск] 41666 (Story of Ancient Irish Civilisation): не найден на Gutenberg


Книги:  45%|████▍     | 143/320 [47:05<13:43,  4.65s/it]

[Пропуск] 14627 (Veronica): нет изображений


Книги:  45%|████▌     | 144/320 [47:06<10:01,  3.42s/it]

[Пропуск] 15263 (Underground Railroad, Part 2): не найден на Gutenberg


Книги:  45%|████▌     | 145/320 [47:12<11:50,  4.06s/it]

[Успех] 14055 (Food Guide for War Service at Home): загружено 4 изображений


Книги:  46%|████▌     | 146/320 [50:20<2:51:50, 59.26s/it]

[Успех] 32455 (Christmas Eve and Christmas Day): загружено 140 изображений


Книги:  46%|████▌     | 147/320 [1:01:00<11:13:31, 233.59s/it]

[Успех] 1184 (Count of Monte Cristo): загружено 449 изображений


Книги:  46%|████▋     | 148/320 [1:01:04<7:52:22, 164.78s/it] 

[Успех] 805 (This Side of Paradise): загружено 1 изображений


Книги:  47%|████▋     | 149/320 [1:04:20<8:16:11, 174.10s/it]

[Успех] 1004 (Divine Comedy): загружено 138 изображений


Книги:  47%|████▋     | 150/320 [1:04:21<5:46:20, 122.24s/it]

[Пропуск] 5312 (Mother Goose in Prose): нет изображений


Книги:  47%|████▋     | 151/320 [1:04:22<4:01:59, 85.92s/it] 

[Пропуск] 1989 (Foolish Dictionary): нет изображений


Книги:  48%|████▊     | 152/320 [1:04:25<2:50:42, 60.97s/it]

[Успех] 14328 (Consolation of Philosophy): загружено 1 изображений


Книги:  48%|████▊     | 153/320 [1:04:29<2:01:35, 43.68s/it]

[Пропуск] 158 (Emma): нет изображений


Книги:  48%|████▊     | 154/320 [1:04:32<1:27:47, 31.73s/it]

[Пропуск] 5658 (Lord Jim): нет изображений


Книги:  48%|████▊     | 155/320 [1:04:49<1:14:43, 27.18s/it]

[Успех] 964 (Merry Adventures of Robin Hood): загружено 13 изображений


Книги:  49%|████▉     | 156/320 [1:04:52<54:18, 19.87s/it]  

[Пропуск] 1257 (Three Musketeers): нет изображений


Книги:  49%|████▉     | 157/320 [1:04:53<38:39, 14.23s/it]

[Пропуск] 3659 (Rosary): нет изображений


Книги:  49%|████▉     | 158/320 [1:05:30<56:36, 20.97s/it]

[Успех] 940 (Last of the Mohicans): загружено 22 изображений


Книги:  50%|████▉     | 159/320 [1:05:33<42:29, 15.83s/it]

[Успех] 47 (Anne of Avonlea): загружено 1 изображений


Книги:  50%|█████     | 160/320 [1:05:35<31:09, 11.68s/it]

[Пропуск] 4363 (Beyond Good and Evil): нет изображений


Книги:  50%|█████     | 161/320 [1:05:36<22:32,  8.51s/it]

[Пропуск] 3748 (Journey to the Interior of the Earth): нет изображений


Книги:  51%|█████     | 162/320 [1:05:37<16:06,  6.12s/it]

[Пропуск] 1468 (History of England, from the Accession of James II - (Volume 1, Chapter 05)): не найден на Gutenberg


Книги:  51%|█████     | 163/320 [1:05:47<18:49,  7.20s/it]

[Успех] 62 (Princess of Mars): загружено 5 изображений


Книги:  51%|█████▏    | 164/320 [1:05:50<15:25,  5.93s/it]

[Пропуск] 600 (Notes from the Underground): нет изображений


Книги:  52%|█████▏    | 165/320 [1:05:53<13:29,  5.22s/it]

[Успех] 1041 (Shakespeare's Sonnets): загружено 1 изображений


Книги:  52%|█████▏    | 166/320 [1:09:04<2:36:25, 60.95s/it]

[Успех] 1342 (Pride and Prejudice): загружено 164 изображений


Книги:  52%|█████▏    | 167/320 [1:09:06<1:50:08, 43.19s/it]

[Пропуск] 59 (Discourse on the Method of Rightly Conducting Ones Reason and of Seeking Truth): нет изображений


Книги:  52%|█████▎    | 168/320 [1:09:10<1:19:27, 31.36s/it]

[Пропуск] 543 (Main Street): нет изображений


Книги:  53%|█████▎    | 169/320 [1:09:12<57:10, 22.72s/it]  

[Пропуск] 24055 (Sayings of Confucius): нет изображений


Книги:  53%|█████▎    | 170/320 [1:09:14<40:40, 16.27s/it]

[Пропуск] 6917 (Gerrard Street Mystery and Other Weird Tales): нет изображений


Книги:  53%|█████▎    | 171/320 [1:09:14<28:44, 11.58s/it]

[Пропуск] 8318 (Bible (DRV) Apocrypha/Deuterocanon: Judith): не найден на Gutenberg


Книги:  54%|█████▍    | 172/320 [1:10:11<1:01:57, 25.12s/it]

[Успех] 14971 (History of Holland): загружено 36 изображений


Книги:  54%|█████▍    | 173/320 [1:10:15<45:45, 18.68s/it]  

[Пропуск] 697 (Light Princess): нет изображений


Книги:  54%|█████▍    | 174/320 [1:10:17<33:53, 13.93s/it]

[Пропуск] 2591 (Grimms' Fairy Tales): нет изображений


Книги:  55%|█████▍    | 175/320 [1:10:32<34:01, 14.08s/it]

[Успех] 9845 (Spy): загружено 8 изображений


Книги:  55%|█████▌    | 176/320 [1:10:35<25:58, 10.82s/it]

[Пропуск] 5342 (Story Girl): нет изображений


Книги:  55%|█████▌    | 177/320 [1:11:21<50:36, 21.23s/it]

[Успех] 501 (Story of Doctor Dolittle): загружено 54 изображений


Книги:  56%|█████▌    | 178/320 [1:11:23<37:00, 15.64s/it]

[Пропуск] 204 (Innocence of Father Brown): нет изображений


Книги:  56%|█████▌    | 179/320 [1:14:27<2:35:24, 66.13s/it]

[Успех] 120 (Treasure Island): загружено 156 изображений


Книги:  56%|█████▋    | 180/320 [1:14:28<1:48:47, 46.63s/it]

[Пропуск] 7091 (Yosemite): нет изображений


Книги:  57%|█████▋    | 181/320 [1:14:29<1:15:56, 32.78s/it]

[Пропуск] 5921 (Don Quixote - Vol. 1): не найден на Gutenberg


Книги:  57%|█████▋    | 182/320 [1:14:51<1:08:00, 29.57s/it]

[Успех] 98 (Tale of Two Cities): загружено 16 изображений


Книги:  57%|█████▋    | 183/320 [1:14:53<48:54, 21.42s/it]  

[Пропуск] 18542 (How to Cook Fish): нет изображений


Книги:  57%|█████▊    | 184/320 [1:14:54<34:42, 15.31s/it]

[Пропуск] 18992 (Current Superstitions): нет изображений


Книги:  58%|█████▊    | 185/320 [1:14:59<27:39, 12.29s/it]

[Успех] 32547 (Essays in Radical Empiricism): загружено 1 изображений


Книги:  58%|█████▊    | 186/320 [1:15:01<20:02,  8.97s/it]

[Пропуск] 17188 (Buccaneers and Pirates of Our Coasts): нет изображений


Книги:  58%|█████▊    | 187/320 [1:15:08<18:53,  8.53s/it]

[Пропуск] 599 (Vanity Fair): нет изображений


Книги:  59%|█████▉    | 188/320 [1:15:26<24:44, 11.25s/it]

[Успех] 2944 (Essays, First Series): загружено 11 изображений


Книги:  59%|█████▉    | 189/320 [1:15:27<17:59,  8.24s/it]

[Пропуск] 370 (Fortunes and Misfortunes of the Famous Moll Flanders): нет изображений


Книги:  59%|█████▉    | 190/320 [1:15:30<14:20,  6.62s/it]

[Пропуск] 161 (Sense and Sensibility): нет изображений


Книги:  60%|█████▉    | 191/320 [1:15:34<12:29,  5.81s/it]

[Успех] 73 (Red Badge of Courage): загружено 1 изображений


Книги:  60%|██████    | 192/320 [1:15:35<09:24,  4.41s/it]

[Пропуск] 18362 (Fifteen Thousand Useful Phrases): нет изображений


Книги:  60%|██████    | 193/320 [1:15:35<06:55,  3.27s/it]

[Пропуск] 11938 (Folklore of the Santal Parganas, Vol. 1): не найден на Gutenberg


Книги:  61%|██████    | 194/320 [1:15:41<08:11,  3.90s/it]

[Пропуск] 7469 (Daniel Deronda): нет изображений


Книги:  61%|██████    | 195/320 [1:15:44<07:20,  3.53s/it]

[Пропуск] 1264 (Wheels of Chance): нет изображений


Книги:  61%|██████▏   | 196/320 [1:16:09<20:49, 10.07s/it]

[Успех] 2488 (Twenty Thousand Leagues Under the Sea): загружено 12 изображений


Книги:  62%|██████▏   | 197/320 [1:16:10<15:14,  7.43s/it]

[Пропуск] 1404 (Federalist Papers): нет изображений


Книги:  62%|██████▏   | 198/320 [1:16:11<11:18,  5.56s/it]

[Пропуск] 4925 (Bulfinchs Mythology: The Age of Fable): нет изображений


Книги:  62%|██████▏   | 199/320 [1:16:13<08:56,  4.43s/it]

[Пропуск] 22472 (Book of the Damned): нет изображений


Книги:  62%|██████▎   | 200/320 [1:16:23<12:22,  6.19s/it]

[Успех] 969 (Tenant of Wildfell Hall): загружено 7 изображений


Книги:  63%|██████▎   | 201/320 [1:16:45<21:30, 10.84s/it]

[Успех] 408 (Souls of Black Folk): загружено 18 изображений


Книги:  63%|██████▎   | 202/320 [1:16:51<18:16,  9.29s/it]

[Успех] 3268 (Mysteries of Udolpho): загружено 1 изображений


Книги:  63%|██████▎   | 203/320 [1:16:52<13:22,  6.86s/it]

[Пропуск] 19942 (Candide): нет изображений


Книги:  64%|██████▍   | 204/320 [1:17:47<41:06, 21.26s/it]

[Успех] 3454 (Lilac Fairy Book): загружено 53 изображений


Книги:  64%|██████▍   | 205/320 [1:19:11<1:16:53, 40.11s/it]

[Успех] 20190 (Handy Cyclopedia of Things Worth Knowing): загружено 86 изображений


Книги:  64%|██████▍   | 206/320 [1:19:13<54:27, 28.67s/it]  

[Пропуск] 16 (Peter Pan): нет изображений


Книги:  65%|██████▍   | 207/320 [1:19:16<39:41, 21.08s/it]

[Пропуск] 2833 (Portrait of a Lady Vol 1): нет изображений


Книги:  65%|██████▌   | 208/320 [1:19:17<28:13, 15.12s/it]

[Пропуск] 2688 (Clue of the Twisted Candle): нет изображений


Книги:  65%|██████▌   | 209/320 [1:19:20<20:55, 11.31s/it]

[Пропуск] 416 (Winesburg, Ohio): нет изображений


Книги:  66%|██████▌   | 210/320 [1:20:57<1:07:42, 36.93s/it]

[Успех] 6471 (Children of the New Forest): загружено 103 изображений


Книги:  66%|██████▌   | 211/320 [1:20:58<47:37, 26.22s/it]  

[Пропуск] 2441 (Burgess Animal Book for Children): нет изображений


Книги:  66%|██████▋   | 212/320 [1:20:59<33:43, 18.74s/it]

[Пропуск] 5664 (Arabian Nights Entertainments, Volume 01): нет изображений


Книги:  67%|██████▋   | 213/320 [1:21:12<30:30, 17.11s/it]

[Успех] 2814 (Dubliners): загружено 4 изображений


Книги:  67%|██████▋   | 214/320 [1:21:14<21:46, 12.33s/it]

[Пропуск] 20830 (Good Housekeeping Marriage Book): нет изображений


Книги:  67%|██████▋   | 215/320 [1:21:14<15:25,  8.82s/it]

[Пропуск] 5946 (Don Quixote - Vol. 2): не найден на Gutenberg


Книги:  68%|██████▊   | 216/320 [1:21:18<12:53,  7.44s/it]

[Успех] 83 (Round the Moon): загружено 1 изображений


Книги:  68%|██████▊   | 217/320 [1:21:21<10:23,  6.06s/it]

[Пропуск] 12163 (Sleeper Awakes): нет изображений


Книги:  68%|██████▊   | 218/320 [1:24:28<1:42:15, 60.15s/it]

[Успех] 18247 (Last Man): загружено 208 изображений


Книги:  68%|██████▊   | 219/320 [1:24:40<1:17:08, 45.83s/it]

[Успех] 14770 (Life in a Thousand Worlds): загружено 9 изображений


Книги:  69%|██████▉   | 220/320 [1:24:43<54:46, 32.87s/it]  

[Пропуск] 498 (Rebecca of Sunnybrook Farm): нет изображений


Книги:  69%|██████▉   | 221/320 [1:24:43<38:17, 23.20s/it]

[Пропуск] 15082 (Life of the Spirit and the Life of Today): не найден на Gutenberg


Книги:  69%|██████▉   | 222/320 [1:25:12<40:28, 24.78s/it]

[Успех] 944 (Voyage of the Beagle): загружено 26 изображений


Книги:  70%|██████▉   | 223/320 [1:25:15<29:37, 18.33s/it]

[Успех] 18972 (Zadig or the Book of Fate): загружено 1 изображений


Книги:  70%|███████   | 224/320 [1:25:19<22:24, 14.00s/it]

[Успех] 19090 (Star Hunter): загружено 2 изображений


Книги:  70%|███████   | 225/320 [1:25:26<18:45, 11.85s/it]

[Успех] 4276 (North and South): загружено 4 изображений


Книги:  71%|███████   | 226/320 [1:25:30<14:58,  9.56s/it]

[Пропуск] 507 (Adam Bede): нет изображений


Книги:  71%|███████   | 227/320 [1:26:03<25:37, 16.53s/it]

[Успех] 291 (Golden Age): загружено 35 изображений


Книги:  71%|███████▏  | 228/320 [1:26:04<18:17, 11.93s/it]

[Пропуск] 10136 (Book of Household Management): нет изображений


Книги:  72%|███████▏  | 229/320 [1:26:05<13:10,  8.68s/it]

[Пропуск] 3074 (Burgess Bird Book for Children): нет изображений


Книги:  72%|███████▏  | 230/320 [1:26:08<10:23,  6.93s/it]

[Пропуск] 2834 (Portrait of a Lady Vol 2): нет изображений


Книги:  72%|███████▏  | 231/320 [1:26:15<10:25,  7.03s/it]

[Успех] 17797 (Memoir of Jane Austen): загружено 5 изображений


Книги:  72%|███████▎  | 232/320 [1:26:18<08:16,  5.64s/it]

[Пропуск] 3688 (Chronicles of Clovis): нет изображений


Книги:  73%|███████▎  | 233/320 [1:26:21<07:01,  4.85s/it]

[Пропуск] 640 (Yellow Fairy Book): нет изображений


Книги:  73%|███████▎  | 234/320 [1:26:25<06:47,  4.74s/it]

[Успех] 21032 (Exercises in Knitting): загружено 3 изображений


Книги:  73%|███████▎  | 235/320 [1:26:28<05:53,  4.16s/it]

[Пропуск] 20912 (Daffodil Mystery): нет изображений


Книги:  74%|███████▍  | 236/320 [1:26:42<09:47,  7.00s/it]

[Успех] 19810 (My Antonia): загружено 7 изображений


Книги:  74%|███████▍  | 237/320 [1:26:43<07:13,  5.22s/it]

[Пропуск] 11093 (Trailin'!): нет изображений


Книги:  74%|███████▍  | 238/320 [1:26:46<06:19,  4.63s/it]

[Пропуск] 3499 (Jo's Boys): нет изображений


Книги:  75%|███████▍  | 239/320 [1:26:49<05:27,  4.04s/it]

[Пропуск] 1000006 (Wings of the Dove): нет изображений


Книги:  75%|███████▌  | 240/320 [1:26:58<07:30,  5.64s/it]

[Успех] 5267 (Sister Carrie): загружено 1 изображений


Книги:  75%|███████▌  | 241/320 [1:27:03<07:03,  5.36s/it]

[Успех] 1557 (Men of Iron): загружено 1 изображений


Книги:  76%|███████▌  | 242/320 [1:30:11<1:18:23, 60.30s/it]

[Успех] 22302 (Western United States): загружено 208 изображений


Книги:  76%|███████▌  | 243/320 [1:30:15<55:39, 43.37s/it]  

[Пропуск] 1218 (Adventures of Jimmie Dale): нет изображений


Книги:  76%|███████▋  | 244/320 [1:31:40<1:10:48, 55.90s/it]

[Успех] 3725 (Famous Men of the Middle Ages): загружено 74 изображений


Книги:  77%|███████▋  | 245/320 [1:31:41<49:08, 39.32s/it]  

[Пропуск] 4229 (South Pole; an account of the Norwegian Antarctic expedition in the Fram, 1910-12): не найден на Gutenberg


Книги:  77%|███████▋  | 246/320 [1:31:42<34:21, 27.85s/it]

[Пропуск] 11880 (Ronicky Doone): нет изображений


Книги:  77%|███████▋  | 247/320 [1:31:43<24:08, 19.84s/it]

[Пропуск] 10743 (Moonfleet): нет изображений


Книги:  78%|███████▊  | 248/320 [1:31:47<17:58, 14.98s/it]

[Пропуск] 3335 (Theodore Roosevelt: an Autobiography): нет изображений


Книги:  78%|███████▊  | 249/320 [1:32:40<31:15, 26.41s/it]

[Успех] 11146 (Expedition of the Donner Party and its Tragic Fate): загружено 56 изображений


Книги:  78%|███████▊  | 250/320 [1:32:43<22:46, 19.52s/it]

[Пропуск] 3604 (Jailed For Freedom): нет изображений


Книги:  78%|███████▊  | 251/320 [1:33:28<31:01, 26.98s/it]

[Успех] 24872 (Tale of Master Meadow Mouse): загружено 54 изображений


Книги:  79%|███████▉  | 252/320 [1:33:31<22:29, 19.84s/it]

[Пропуск] 3479 (Metal Monster): нет изображений


Книги:  79%|███████▉  | 253/320 [1:33:31<15:42, 14.07s/it]

[Пропуск] 2600 (War and Peace, Book 10: 1812): не найден на Gutenberg


Книги:  79%|███████▉  | 254/320 [1:33:35<11:59, 10.90s/it]

[Успех] 135 (Miserables Vol. 2): загружено 1 изображений


Книги:  80%|███████▉  | 255/320 [1:33:36<08:45,  8.08s/it]

[Пропуск] 6911 (Majesty of Calmness): нет изображений


Книги:  80%|████████  | 256/320 [1:33:48<09:54,  9.28s/it]

[Успех] 22814 (Practical Guide to Self-Hypnosis): загружено 11 изображений


Книги:  80%|████████  | 257/320 [1:33:50<07:14,  6.90s/it]

[Пропуск] 6440 (Elsie Dinsmore): нет изображений


Книги:  81%|████████  | 258/320 [1:33:54<06:24,  6.21s/it]

[Пропуск] 2850 (Wars of the Jews): нет изображений


Книги:  81%|████████  | 259/320 [1:33:58<05:34,  5.48s/it]

[Успех] 23772 (Devotions upon Emergent Occasions): загружено 2 изображений


Книги:  81%|████████▏ | 260/320 [1:33:59<04:12,  4.21s/it]

[Пропуск] 4926 (Age of Chivalry): нет изображений


Книги:  82%|████████▏ | 261/320 [1:34:00<03:04,  3.13s/it]

[Пропуск] 3533 (Sunshine Sketches of a Little Town (version 2)): не найден на Gutenberg


Книги:  82%|████████▏ | 262/320 [1:34:01<02:17,  2.38s/it]

[Пропуск] 2600 (War and Peace, Book 11: 1812): не найден на Gutenberg


Книги:  82%|████████▏ | 263/320 [1:34:03<02:19,  2.45s/it]

[Пропуск] 3721 (Pioneers of France in the New World): нет изображений


Книги:  82%|████████▎ | 264/320 [1:34:07<02:35,  2.77s/it]

[Успех] 13193 (Supreme Personality): загружено 1 изображений
[Скачивание] Ошибка https://www.gutenberg.org/files/18640/18640-h/images/ill61-t.jpg: HTTPSConnectionPool(host='www.gutenberg.org', port=443): Max retries exceeded with url: /files/18640/18640-h/images/ill61-t.jpg (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x000001A80CB91BA0>, 'Connection to www.gutenberg.org timed out. (connect timeout=10)'))


Книги:  83%|████████▎ | 265/320 [1:34:45<12:16, 13.39s/it]

[Успех] 18640 (Phineas Redux): загружено 23 изображений


Книги:  83%|████████▎ | 266/320 [1:34:47<09:07, 10.13s/it]

[Пропуск] 1028 (Professor): нет изображений


Книги:  83%|████████▎ | 267/320 [1:34:48<06:24,  7.25s/it]

[Пропуск] 1079 (Life and Opinions of Tristram Shandy, Gentleman Vol. 2): не найден на Gutenberg


Книги:  84%|████████▍ | 268/320 [1:34:57<06:37,  7.64s/it]

[Успех] 5122 (Trail of the Lonesome Pine): загружено 8 изображений


Книги:  84%|████████▍ | 269/320 [1:34:57<04:42,  5.53s/it]

[Пропуск] 10030 (Life of Honorable William F. Cody, Known as Buffalo Bill The Famous Hunter, Scout and Guide): не найден на Gutenberg


Книги:  84%|████████▍ | 270/320 [1:34:58<03:21,  4.03s/it]

[Пропуск] 1098 (Turmoil (Growth Trilogy Vol 1)): не найден на Gutenberg


Книги:  85%|████████▍ | 271/320 [1:35:00<02:45,  3.38s/it]

[Пропуск] 19342 (Complete Hypnotism, Mesmerism, Mind-Reading and Spiritualism): нет изображений


Книги:  85%|████████▌ | 272/320 [1:35:05<03:05,  3.86s/it]

[Успех] 27683 (World I Live In): загружено 4 изображений


Книги:  85%|████████▌ | 273/320 [1:35:08<02:58,  3.79s/it]

[Пропуск] 1608 (Camille): нет изображений


Книги:  86%|████████▌ | 274/320 [1:35:32<07:31,  9.82s/it]

[Успех] 27969 (County Regiment): загружено 21 изображений


Книги:  86%|████████▌ | 275/320 [1:35:33<05:17,  7.06s/it]

[Пропуск] 479 (Little Lord Fauntleroy (version 2)): не найден на Gutenberg


Книги:  86%|████████▋ | 276/320 [1:35:35<04:09,  5.67s/it]

[Пропуск] 4020 (Arcadian Adventures with the Idle Rich): нет изображений


Книги:  87%|████████▋ | 277/320 [1:35:37<03:15,  4.54s/it]

[Пропуск] 6882 (This Simian World): нет изображений


Книги:  87%|████████▋ | 278/320 [1:35:52<05:24,  7.72s/it]

[Успех] 22079 (Brighton Boys in the Radio Service): загружено 18 изображений


Книги:  87%|████████▋ | 279/320 [1:36:04<06:08,  9.00s/it]

[Успех] 10123 (Aunt Jane's Nieces): загружено 14 изображений


Книги:  88%|████████▊ | 280/320 [1:36:08<04:56,  7.41s/it]

[Пропуск] 360 (What is Property? An Inquiry into the Principle of Right and of Government): нет изображений


Книги:  88%|████████▊ | 281/320 [1:36:10<03:50,  5.92s/it]

[Успех] 19289 (Some Answered Questions): загружено 1 изображений


Книги:  88%|████████▊ | 282/320 [1:36:16<03:41,  5.82s/it]

[Пропуск] 5976 (Thomas Wingfold, Curate): нет изображений


Книги:  88%|████████▊ | 283/320 [1:36:45<07:52, 12.78s/it]

[Успех] 21895 (Old Coast Road From Boston to Plymouth): загружено 31 изображений


Книги:  89%|████████▉ | 284/320 [1:36:55<07:12, 12.02s/it]

[Успех] 33556 (Fortunes of Glencore): загружено 6 изображений


Книги:  89%|████████▉ | 285/320 [1:37:08<07:06, 12.19s/it]

[Успех] 40077 (Principles of Economics with Applications to Practical Problems): загружено 10 изображений


Книги:  89%|████████▉ | 286/320 [1:37:09<05:02,  8.90s/it]

[Пропуск] 5162 (Agatha Webb): нет изображений


Книги:  90%|████████▉ | 287/320 [1:37:12<03:56,  7.16s/it]

[Пропуск] 9192 (Channings): нет изображений


Книги:  90%|█████████ | 288/320 [1:37:19<03:44,  7.03s/it]

[Успех] 38219 (General Introduction to Psychoanalysis): загружено 2 изображений


Книги:  90%|█████████ | 289/320 [1:37:25<03:29,  6.76s/it]

[Успех] 40999 (Stolen Souls): загружено 4 изображений


Книги:  91%|█████████ | 290/320 [1:37:26<02:27,  4.92s/it]

[Пропуск] 2710 (Louise de la Valliere): не найден на Gutenberg


Книги:  91%|█████████ | 291/320 [1:37:30<02:17,  4.73s/it]

[Успех] 10624 (John Silence): загружено 1 изображений


Книги:  91%|█████████▏| 292/320 [1:37:30<01:37,  3.50s/it]

[Пропуск] 19215 (History of England from the Invasion of Julius Caesar to the Revolution of 1688, Volume 1E): не найден на Gutenberg


Книги:  92%|█████████▏| 293/320 [1:37:31<01:10,  2.61s/it]

[Пропуск] 2150 (Works of Edgar Allan Poe, Raven Edition, Volume 4): не найден на Gutenberg


Книги:  92%|█████████▏| 294/320 [1:37:32<00:56,  2.16s/it]

[Пропуск] 8075 (Junior Classics Volume 8: Animal and Nature Stories): нет изображений


Книги:  92%|█████████▏| 295/320 [1:38:08<05:03, 12.14s/it]

[Успех] 42214 (On A Donkey's Hurricane Deck): загружено 36 изображений


Книги:  92%|█████████▎| 296/320 [1:38:10<03:42,  9.25s/it]

[Пропуск] 19734 (Fairy Book): нет изображений


Книги:  93%|█████████▎| 297/320 [1:38:28<04:36, 12.02s/it]

[Успех] 15202 (Young Folks' Treasury, Volume 2): загружено 18 изображений


Книги:  93%|█████████▎| 298/320 [1:38:32<03:30,  9.55s/it]

[Пропуск] 5773 (Annals of a Quiet Neighbourhood): нет изображений


Книги:  93%|█████████▎| 299/320 [1:40:29<14:38, 41.83s/it]

[Успех] 26950 (Humorous Ghost Stories): загружено 118 изображений


Книги:  94%|█████████▍| 300/320 [1:40:33<10:05, 30.26s/it]

[Успех] 42630 (Outdoor Chums in the Big Woods): загружено 1 изображений


Книги:  94%|█████████▍| 301/320 [1:40:33<06:46, 21.37s/it]

[Пропуск] 29607 (Astounding Stories 03, March 1930): не найден на Gutenberg


Книги:  94%|█████████▍| 302/320 [1:40:36<04:42, 15.71s/it]

[Пропуск] 793 (Aeroplanes and Dirigibles of War): нет изображений


Книги:  95%|█████████▍| 303/320 [1:41:21<06:58, 24.62s/it]

[Успех] 35002 (Among the Pond People): загружено 48 изображений


Книги:  95%|█████████▌| 304/320 [1:41:23<04:45, 17.86s/it]

[Пропуск] 1282 (Tom Swift Among the Diamond Makers): нет изображений


Книги:  95%|█████████▌| 305/320 [1:41:24<03:12, 12.84s/it]

[Пропуск] 43005 (Inevitable): нет изображений


Книги:  96%|█████████▌| 306/320 [1:41:25<02:07,  9.13s/it]

[Пропуск] 13042 (Knickerbocker's History of New York, Vol. 1): не найден на Gutenberg


Книги:  96%|█████████▌| 307/320 [1:41:27<01:30,  6.94s/it]

[Успех] 36508 (Eight Harvard Poets): загружено 1 изображений


Книги:  96%|█████████▋| 308/320 [1:41:38<01:40,  8.35s/it]

[Успех] 34943 (Among the Meadow People): загружено 13 изображений


Книги:  97%|█████████▋| 309/320 [1:41:41<01:13,  6.65s/it]

[Успех] 42056 (Red Window): загружено 1 изображений


Книги:  97%|█████████▋| 310/320 [1:41:42<00:50,  5.05s/it]

[Пропуск] 4953 (Revolution, and other Essays): нет изображений


Книги:  97%|█████████▋| 311/320 [1:41:46<00:40,  4.55s/it]

[Успех] 43699 (Phantom Town Mystery): загружено 3 изображений


Книги:  98%|█████████▊| 312/320 [1:41:46<00:26,  3.32s/it]

[Пропуск] 15263 (Underground Railroad, Part 5): не найден на Gutenberg


Книги:  98%|█████████▊| 313/320 [1:41:53<00:30,  4.29s/it]

[Успех] 2486 (Queer Little Folks): загружено 9 изображений


Книги:  98%|█████████▊| 314/320 [1:41:53<00:18,  3.13s/it]

[Пропуск] 13042 (Knickerbocker's History of New York, Vol. 2): не найден на Gutenberg


Книги:  98%|█████████▊| 315/320 [1:42:03<00:26,  5.23s/it]

[Успех] 22925 (Story of Young Abraham Lincoln): загружено 18 изображений


Книги:  99%|█████████▉| 316/320 [1:42:06<00:17,  4.47s/it]

[Успех] 15164 (Folk Tales Every Child Should Know): загружено 2 изображений


Книги:  99%|█████████▉| 317/320 [1:42:07<00:10,  3.40s/it]

[Пропуск] 12060 (Lucinda): нет изображений


Книги:  99%|█████████▉| 318/320 [1:42:09<00:05,  2.91s/it]

[Пропуск] 10446 (Green Flag and Other Stories of War and Sport): нет изображений


Книги: 100%|█████████▉| 319/320 [1:42:12<00:02,  2.96s/it]

[Успех] 44326 (Wanted: A Husband): загружено 2 изображений


Книги: 100%|██████████| 320/320 [1:42:13<00:00, 19.17s/it]

[Пропуск] 35941 (Life of Saint Monica): нет изображений

Итог: Иллюстрации найдены у 135 книг из 320





In [None]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
import os
from tqdm import tqdm

# Настройки
CSV_PATH = "train-clean-100/LibriSpeech/train_clean_100_chapters.csv"
COVERS_DIR = "book_covers"
false_cover = []
# Создание папки-родителя
os.makedirs(COVERS_DIR, exist_ok=True)

def get_gutenberg_cover_url(title):
    search_url = f"https://www.gutenberg.org/ebooks/search/?query={title}"
    try:
        response = requests.get(search_url, timeout=10)
        soup = BeautifulSoup(response.text, 'html.parser')
        book_link = soup.find("a", href=lambda x: x and "/ebooks/" in x)
        if book_link:
            book_id = book_link["href"].split("/")[-1]
            return f"https://www.gutenberg.org/cache/epub/{book_id}/pg{book_id}.cover.medium.jpg"
    except Exception as e:
        print(f"[Gutenberg] Ошибка для '{title}': {e}")
    return None

def get_openlibrary_cover_url(title):
    try:
        url = f"https://openlibrary.org/search.json?q={title}"
        response = requests.get(url, timeout=10).json()
        if response["num_found"] > 0:
            cover_id = response["docs"][0].get("cover_i")
            if cover_id:
                return f"https://covers.openlibrary.org/b/id/{cover_id}-M.jpg"
    except Exception as e:
        print(f"[OpenLibrary] Ошибка для '{title}': {e}")
    return None

def download_cover(book_id, title):
    """Скачивает обложку и сохраняет как cover.jpg в папке по book_id."""
    book_dir = os.path.join(COVERS_DIR, str(book_id))
    cover_path = os.path.join(book_dir, "cover.jpg")

    if os.path.exists(cover_path):
        return True

    os.makedirs(book_dir, exist_ok=True)

    apis = [
        ("OpenLibrary", lambda: get_openlibrary_cover_url(title)),
        ("Gutenberg", lambda: get_gutenberg_cover_url(title)),
    ]

    for source, api_func in apis:
        cover_url = api_func()
        if cover_url:
            try:
                response = requests.get(cover_url, stream=True, timeout=10)
                if response.status_code == 200:
                    with open(cover_path, "wb") as f:
                        f.write(response.content)
                    print(f"[Успех] {book_id}: Обложка сохранена из {source}")
                    return True
            except Exception as e:
                print(f"[Ошибка] {book_id}: Скачивание из {source} ({cover_url}): {e}")

    print(f"[Пропуск] {book_id}: Обложка не найдена ни в одном источнике")
    false_cover.append(book_id)
    return False

# Основной процесс
df = pd.read_csv(CSV_PATH)
unique_books = df[["BOOK ID", "PROJECT TITLE"]].drop_duplicates()

success_count = 0
for _, row in tqdm(unique_books.iterrows(), total=len(unique_books), desc="Загрузка обложек"):
    if download_cover(row["BOOK ID"], row["PROJECT TITLE"]):
        success_count += 1

print(f"\nИтог: Скачано {success_count}/{len(unique_books)} обложек.")

Загрузка обложек:  57%|█████▊    | 69/120 [00:01<00:01, 36.64it/s]

[Пропуск] 10030: Обложка не найдена ни в одном источнике


Загрузка обложек: 100%|██████████| 120/120 [00:03<00:00, 32.77it/s]

[Пропуск] 29607: Обложка не найдена ни в одном источнике

Итог: Скачано 118/120 обложек.





## Добавление жанра

In [None]:
# Загрузка данных
df = pd.read_csv("train-clean-100/LibriSpeech/train_clean_100_chapters.csv")

# Убедимся, что столбец 'ID' содержит уникальные значения
book_ids = df["BOOK ID"]

# Словарь для кэширования результатов
id_to_genre = {}

# Функция запроса жанра по ID
def get_genre(book_id):
    url = f"https://gutendex.com/books/{book_id}/"
    try:
        response = requests.get(url, timeout=10)
        if response.status_code == 200:
            data = response.json()
            subjects = data.get("subjects", [])
            return "; ".join(subjects) if subjects else "Unknown"
        else:
            return "Not Found"
    except Exception:
        return "Error"

# Обработка с прогресс-баром
for book_id in tqdm(book_ids, desc="Получение жанров"):
    genre = get_genre(book_id)
    id_to_genre[book_id] = genre
    time.sleep(1)  # Пауза в 1 секунду для уважения к API

# Присвоение жанров в DataFrame
df["Genre"] = df["BOOK ID"].map(id_to_genre)

# Сохранение результата
df.to_csv("train_with_genre.csv", index = False)

Получение жанров: 100%|██████████| 585/585 [15:08<00:00,  1.55s/it]


In [8]:
import pandas as pd
import requests
import time
from tqdm import tqdm

# Загрузка данных
df = pd.read_csv("train-clean-100/LibriSpeech/train_clean_100_chapters.csv")

# Получение уникальных ID
book_ids = df["BOOK ID"]

# Подготовка
id_to_genre = {}

# Основная функция поиска жанра
def get_genre_openlibrary(book_id, title):
    # 1. Попробовать найти по Gutenberg ID
    id_url = f"https://openlibrary.org/search.json?gutenberg_id={book_id}"
    try:
        response = requests.get(id_url, timeout=10)
        if response.status_code == 200:
            data = response.json()
            if data["numFound"] > 0:
                subjects = data["docs"][0].get("subject", [])
                if subjects:
                    return "; ".join(subjects)
    except Exception:
        pass

    # 2. Если не найдено — искать по названию
    title_url = f"https://openlibrary.org/search.json?title={requests.utils.quote(title)}"
    try:
        response = requests.get(title_url, timeout=10)
        if response.status_code == 200:
            data = response.json()
            if data["numFound"] > 0:
                subjects = data["docs"][0].get("subject", [])
                if subjects:
                    return "; ".join(subjects)
                else:
                    return "Unknown"
            else:
                return "Not Found"
    except Exception:
        return "Error"

# Прогресс по строкам
for _, row in tqdm(df.iterrows(), total=len(df), desc="Поиск жанров OpenLibrary"):
    book_id = row["BOOK ID"]
    title = row["PROJECT TITLE"]
    genre = get_genre_openlibrary(book_id, title)
    id_to_genre[book_id] = genre
    time.sleep(1)  # Пауза между запросами

# Добавление результатов в DataFrame
df["Genre"] = df["BOOK ID"].map(id_to_genre)

# Сохранение
df.to_csv("train_with_genre_openlibrary.csv", index=False)

Поиск жанров OpenLibrary:   0%|          | 0/585 [00:00<?, ?it/s]

Поиск жанров OpenLibrary: 100%|██████████| 585/585 [28:53<00:00,  2.96s/it]


## Объединение всех csv в один

In [17]:
def combine_csv_files(root_dir, output_path='all_POS_NER.csv'):
    all_dfs = []
    
    for subdir, _, files in tqdm(os.walk(root_dir)):
        for file in files:
            if file.endswith('.csv'):
                csv_path = os.path.join(subdir, file)
                try:
                    df = pd.read_csv(csv_path)
                    df['source_file'] = csv_path  # Добавим имя файла как метаинформацию
                    all_dfs.append(df)
                except Exception as e:
                    print(f"Ошибка при чтении {csv_path}: {e}")
    
    if all_dfs:
        combined_df = pd.concat(all_dfs, ignore_index=True)
        combined_df.to_csv(output_path, index=False)
        print(f"Объединённый файл сохранён как: {output_path}")
    else:
        print("Не найдено CSV-файлов для объединения.")

# Запуска
combine_csv_files('train-clean-100')

839it [00:00, 1198.39it/s]


Объединённый файл сохранён как: all_POS_NER.csv


## Восстановление регистра

In [42]:
import pandas as pd
from typing import List
from punctuators.models import PunctCapSegModelONNX

# Загружаем модель один раз
model: PunctCapSegModelONNX = PunctCapSegModelONNX.from_pretrained("1-800-BAD-CODE/xlm-roberta_punctuation_fullstop_truecase")

# Загружаем датафрейм
df = pd.read_csv("all_POS_NER_split.csv")

def restore_texts(texts: List[str]) -> List[str]:
    # infer принимает список текстов и возвращает список списков (вариантов восстановления)
    results = model.infer(texts = texts, apply_sbd = True)
    # Возьмем первый вариант для каждого текста
    restored = [out[0] if out else txt for out, txt in zip(results, texts)]
    return restored

# Обработка батчами с прогрессбаром tqdm
batch_size = 16
restored_texts = []

for i in tqdm(range(0, len(df), batch_size), desc="Restoring texts"):
    batch_texts = df['text'].iloc[i:i+batch_size].str.lower().tolist()
    batch_restored = restore_texts(batch_texts)
    restored_texts.extend(batch_restored)

df['text'] = restored_texts

# Сохраняем результат
df.to_csv("restored_text.csv", index = False)

Restoring texts: 100%|██████████| 1784/1784 [44:52<00:00,  1.51s/it]


In [60]:
df['text'] = df['text'].str.replace(f'[{string.punctuation}]', '', regex=True)
df.to_csv('restored_text.csv')

## Разметка именнованных сущностей

In [None]:
nlp = spacy.load("en_core_web_sm")

In [None]:
# Функция для разметки по именнованным сущностям
def ner_tag_text(text):
    doc = nlp(text)
    return " ".join([f"{ent.text}_{ent.label_}" for ent in doc.ents])

# Функция применения разметки ко всем строкам в датафрейме с транскрипциями
def process_csv(csv_path):
    df = pd.read_csv(csv_path)
    if 'text' in df.columns:
        tqdm.pandas(desc=f'POS для {os.path.basename(csv_path)}')
        df['ner_tags'] = df['text'].progress_apply(ner_tag_text)
        df.to_csv(csv_path, index=False)
    else:
        print(f"Пропущено (нет 'text'): {csv_path}")

# Запуск
process_csv('restored_text.csv')

POS для restored_text.csv: 100%|██████████| 28539/28539 [03:49<00:00, 124.15it/s]


## Разметка по морфологии

In [53]:
nltk.download('punkt', force = True)                           # Токенизатор
nltk.download('averaged_perceptron_tagger', force = True)      # POS-теггер
nltk.download('averaged_perceptron_tagger_eng', force = True)
nltk.download('universal_tagset', force = True)                # Универсальные теги

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\HUAWEI\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\HUAWEI\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     C:\Users\HUAWEI\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger_eng.zip.
[nltk_data] Downloading package universal_tagset to
[nltk_data]     C:\Users\HUAWEI\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\universal_tagset.zip.


True

In [None]:
# Функция для разметки по частям речи
def pos_tag_text(text):
    words = word_tokenize(text)  # Токенизация
    tags = pos_tag(words)        # Получаем (слово, тег)
    # Конвертируем теги в универсальный набор и объединяем с словами через "_"
    tagged_words = [f"{word}_{map_tag('en-ptb', 'universal', tag)}" for word, tag in tags]
    return ' '.join(tagged_words)  # Возвращаем строку с объединёнными словами

# Функция применения разметки ко всем строкам в датафрейме с транскрипциями
def process_csv(csv_path):
    df = pd.read_csv(csv_path)
    if 'text' in df.columns:
        tqdm.pandas(desc=f'POS для {os.path.basename(csv_path)}')
        df['pos_tags'] = df['text'].progress_apply(pos_tag_text)
        df.to_csv(csv_path, index=False)
    else:
        print(f"Пропущено (нет 'text'): {csv_path}")

# Запуск
process_csv('restored_text.csv')

POS для restored_text.csv: 100%|██████████| 28539/28539 [00:21<00:00, 1342.83it/s]


## Разметка по атмосфере

In [72]:
import pandas as pd
from collections import defaultdict

# 1. Загрузка NRC Lexicon (предполагаем формат: слово<TAB>категория<TAB>оценка)
nrc_lexicon_path = "NRC-Emotion-Lexicon/NRC-Emotion-Lexicon/NRC-Emotion-Lexicon-Wordlevel-v0.92.txt"
nrc_data = pd.read_csv(nrc_lexicon_path, sep='\t', header=None, names=['word', 'emotion', 'score'])
nrc_data

Unnamed: 0,word,emotion,score
0,aback,anger,0
1,aback,anticipation,0
2,aback,disgust,0
3,aback,fear,0
4,aback,joy,0
...,...,...,...
141535,zoom,negative,0
141536,zoom,positive,0
141537,zoom,sadness,0
141538,zoom,surprise,0


In [116]:
atmosphere_by_emotion = {
    "anger": ["hostile", "aggressive", "tense", "furious", "stormy"],
    "anticipation": ["eager", "restless", "curious", "hopeful", "watchful"],
    "disgust": ["repulsive", "disturbing", "grim", "nauseating"],
    "fear": ["terrifying", "eerie", "paranoid", "claustrophobic", "ominous"],
    "joy": ["joyful", "bright", "cheerful", "delightful", "vibrant"],
    "sadness": ["melancholic", "gloomy", "somber", "tearful", "mournful"],
    "surprise": ["shocking", "unexpected", "abrupt", "dramatic", "puzzling"],
    "trust": ["calm", "secure", "warm", "gentle", "reassuring"],
    "positive": ["peaceful", "sunny", "harmonious", "pleasant", "inspiring"],
    "negative": ["bleak", "harsh", "cold", "dark", "depressing"]
}

# Создаем словарь {слово: [список эмоций]}
word_to_emotions = defaultdict(list)
for _, row in nrc_data.iterrows():
    if row['score'] == 1:
        word_to_emotions[row['word']].append(row['emotion'])

# Функция для разметки текста
def tag_text(text):
    words = text.lower().split()
    tagged_words = []
    emotions_in_text = []
    
    for word in words:
        if word in word_to_emotions:
            # Берем первую эмоцию (или можно выбрать случайную/наиболее вероятную)
            emotion = word_to_emotions[word][0]  
            tagged_words.append(f"{word}_{emotion}")
            emotions_in_text.append(emotion)
    
    # Определяем общую атмосферу (самая частая эмоция)
    overall_mood = Counter(emotions_in_text).most_common(1)
    overall_mood = overall_mood[0][0] if overall_mood else "neutral"

    # Случайный атмосферный тег из словаря
    atmosphere = random.choice(atmosphere_by_emotion.get(overall_mood, ["neutral"]))
    
    return " ".join(tagged_words), atmosphere

In [117]:
# Применяем функцию к DataFrame
df[["emotion_text", "overall_mood"]] = df["text"].apply(lambda x: pd.Series(tag_text(x)))
df

Unnamed: 0,reader,book_id,sent_id,text,pos_tags,ner_tags,source_file,emotion_text,overall_mood
0,103,1240,0,CHAPTER One Missus Rachel Lynde is surprised M...,CHAPTER_NOUN One_NUM Missus_NOUN Rachel_NOUN L...,CHAPTER_ORG Missus Rachel Lynde_PERSON Missus ...,train-clean-100\LibriSpeech\train-clean-100\10...,surprised_surprise main_positive hollow_negative,unexpected
1,103,1240,1,That had its source away,That_DET had_VERB its_PRON source_NOUN away_ADV,,train-clean-100\LibriSpeech\train-clean-100\10...,,neutral
2,103,1240,2,For not even a brook could run past Missus Rac...,For_ADP not_ADV even_ADV a_DET brook_NOUN coul...,Missus Rachel Lyndes_PERSON,train-clean-100\LibriSpeech\train-clean-100\10...,decency_positive,sunny
3,103,1240,3,And that if she noticed anything odd or out of...,And_CONJ that_ADP if_ADP she_PRON noticed_VERB...,,train-clean-100\LibriSpeech\train-clean-100\10...,rest_positive,harmonious
4,103,1240,4,But Missus Rachel Lynde was one of those capab...,But_CONJ Missus_NOUN Rachel_NOUN Lynde_NOUN wa...,Missus Rachel Lynde_PERSON,train-clean-100\LibriSpeech\train-clean-100\10...,manage_positive bargain_positive,harmonious
...,...,...,...,...,...,...,...,...,...
28534,911,130578,16,He put an arrow through it and it turned a som...,He_PRON put_VERB an_DET arrow_NOUN through_ADP...,,train-clean-100\LibriSpeech\train-clean-100\91...,fell_negative,depressing
28535,911,130578,17,And ran away,And_CONJ ran_VERB away_ADV,,train-clean-100\LibriSpeech\train-clean-100\91...,,neutral
28536,911,130578,18,A man suddenly stood before him and asked what...,A_DET man_NOUN suddenly_ADV stood_VERB before_...,,train-clean-100\LibriSpeech\train-clean-100\91...,suddenly_surprise cry_negative,dramatic
28537,911,130578,19,And then whip the body with a Meral twig and h...,And_CONJ then_ADV whip_VERB the_DET body_NOUN ...,,train-clean-100\LibriSpeech\train-clean-100\91...,whip_anger,hostile


In [118]:
df.to_csv('all_mark_text.csv', index = False)

In [119]:
df['overall_mood'].value_counts()

overall_mood
neutral           7411
peaceful          1188
sunny             1175
pleasant          1125
harmonious        1117
inspiring         1083
restless           967
watchful           957
curious            956
eager              900
hopeful            865
aggressive         663
tense              609
furious            608
stormy             606
hostile            589
depressing         503
dark               496
cold               476
bleak              474
harsh              468
vibrant            347
delightful         341
joyful             335
bright             327
cheerful           325
terrifying         290
eerie              290
paranoid           281
ominous            265
claustrophobic     261
secure             229
calm               225
warm               220
gentle             210
reassuring         196
grim               168
repulsive          166
nauseating         166
disturbing         156
unexpected          74
dramatic            68
abrupt              6

In [110]:
# Расширенный маппинг жанров на обобщённые категории
extended_genre_map = {
    # Fiction
    'Fiction': 'Fiction',
    'Historical fiction': 'Fiction',
    'Psychological fiction': 'Fiction',
    'Political fiction': 'Fiction',
    'Love stories': 'Fiction',
    ' Fiction': 'Fiction',
    'Fiction"': 'Fiction',
    'Western stories': 'Fiction',
    'Utopias': 'Fiction',

    # Fantasy / Sci-Fi
    'Science fiction': 'Fantasy / Sci-Fi',
    'Paranormal fiction': 'Fantasy / Sci-Fi',
    'Fantasy fiction': 'Fantasy / Sci-Fi',
    'Fantasy literature': 'Fantasy / Sci-Fi',
    'Mythology': 'Fantasy / Sci-Fi',
    'Ghost stories': 'Fantasy / Sci-Fi',

    # Mystery / Crime
    'Detective': 'Mystery / Crime',
    'Crime': 'Mystery / Crime',
    'Mystery fiction': 'Mystery / Crime',
    'Detective and mystery stories': 'Mystery / Crime',
    'Corrupt practices': 'Mystery / Crime',

    # Children / Juvenile
    'Juvenile fiction': 'Children / Juvenile',
    "Children's stories": 'Children / Juvenile',
    'Fairy tales': 'Children / Juvenile',
    'Folklore': 'Children / Juvenile',
    "Children's literature": 'Children / Juvenile',

    # Non-fiction
    'Biography': 'Non-fiction',
    'Cooking': 'Non-fiction',
    'Cooking (Fish)': 'Non-fiction',
    'Description and travel': 'Non-fiction',
    'Ethics': 'Non-fiction',
    'Psychology': 'Non-fiction',
    'Mental healing': 'Non-fiction',
    'Inspiration': 'Non-fiction',
    'Philosophy': 'Non-fiction',
    'Doctrines': 'Non-fiction',
    'Essays': 'Non-fiction',
    'Economics': 'Non-fiction',
    'Bible': 'Non-fiction',
    'Encyclopedias and dictionaries': 'Non-fiction',
    'History': 'Non-fiction',
    'Civilization': 'Non-fiction',
    'Marriage': 'Non-fiction',
    'Yosemite National Park (Calif.); Yosemite Valley (Calif.)': 'Non-fiction',
    'Indians of North America': 'Non-fiction',
    'Overland journeys to the Pacific': 'Non-fiction',
    'Voyages around the world': 'Non-fiction',
    'Representative government and representation': 'Non-fiction',
    'Character; Conduct of life': 'Non-fiction',
    'Food supply': 'Non-fiction',
    'Terms and phrases': 'Non-fiction',

    # Poetry / Short Form
    'Poetry': 'Poetry / Short Form',
    'Short stories': 'Poetry / Short Form',
    'Melancholy': 'Poetry / Short Form',
    'Musical notation': 'Poetry / Short Form',
    'Meditations': 'Poetry / Short Form',
    'Humor': 'Poetry / Short Form',

    # Other
    'Motion pictures': 'Other',
    'Music': 'Other',
    'Spiritual life': 'Other',
    'Patterns': 'Other',
    'Physical geography': 'Other',
    'Suffrage': 'Other',
    'Hypnotism': 'Other',
    'Personality': 'Other',
    'Senses and sensation': 'Other',
    'Psychoanalysis': 'Other',
    'Heroes': 'Other',

    # Unknown
    'Not Found': 'Unknown'
}

# Замена значений
data['GENRE'] = data['GENRE'].map(extended_genre_map).fillna('Other')

# Сводка по категориям
data['GENRE'].value_counts()


GENRE
Fiction                270
Children / Juvenile    116
Non-fiction             76
Fantasy / Sci-Fi        63
Poetry / Short Form     23
Mystery / Crime         21
Other                   14
Unknown                  2
Name: count, dtype: int64

In [None]:
# Укажи корневую папку с BOOK ID-папками
root_dir = "book_illustrations"  # ← замени на свой путь
output_csv = "annotations_template.csv"

image_extensions = {".mp3"}

rows = []

for book_id in os.listdir(root_dir):
    book_path = os.path.join(root_dir, book_id)
    if os.path.isdir(book_path):
        for fname in os.listdir(book_path):
            ext = os.path.splitext(fname)[1].lower()
            if ext in image_extensions:
                image_path = os.path.join(book_path, fname)
                rows.append([book_id, image_path, "", "", "", ""])

# Сохраняем в CSV
with open(output_csv, mode="w", newline="", encoding="utf-8") as f:
    writer = csv.writer(f)
    writer.writerow(["BOOK ID", "filename", "scene", "characters", "style", "attributes"])
    writer.writerows(rows)

print(f"CSV создан: {output_csv} (найдено {len(rows)} изображений)")

CSV создан: annotations_template.csv (найдено 5148 изображений)


In [None]:
# Жанровые метки
genre_labels = {
    "Fiction": ["calm", "melancholic", "tense", "emotional", "reflective"],
    "Children / Juvenile": ["cheerful", "curious", "playful", "instructive", "carefree"],
    "Non-fiction": ["neutral", "confident", "inspiring", "formal", "thoughtful"],
    "Fantasy / Sci-Fi": ["mysterious", "epic", "tense", "enthusiastic", "surprised"],
    "Poetry / Short Form": ["lyrical", "dreamy", "sad", "solemn", "contemplative"],
    "Mystery / Crime": ["intriguing", "tense", "suspicious", "cold", "shocked"]
}

# Загрузим справочник с жанрами
genre_map = {}
with open("train_with_genre.csv", newline='', encoding='utf-8') as f:
    reader = csv.DictReader(f)
    for row in reader:
        key = (str(row["READER"]), str(row["ID"]).zfill(4))
        genre_map[key] = {
            "book_id": str(row["BOOK ID"]),
            "genre": row.get("GENRE", "").strip()
        }

# Сохраняем строки по ID
grouped_by_id = defaultdict(list)

# Пройдём по аудиофайлам
for filepath in glob.glob("train-clean-100/LibriSpeech/train-clean-100/*/*/*.wav"):
    parts = filepath.split(os.sep)
    reader = str(parts[-3])
    filename = os.path.basename(filepath)
    id_part = filename.split(".")[0].split("-")[-2].zfill(4)

    key = (reader, id_part)
    book_info = genre_map.get(key)

    if not book_info:
        print(f"Нет BOOK ID или GENRE для {key}")
        continue

    genre = book_info["genre"]
    book_id = book_info["book_id"]

    label_options = genre_labels.get(genre, ["neutral"])
    label = random.choice(label_options)

    grouped_by_id[id_part].append({
        "ID": id_part,
        "READER": reader,
        "BOOK ID": book_id,
        "start": '',
        "end": '',
        "label": label,
        "temp": '',
        "speaker's gender": '',
        "source_file": filepath
    })

# Присваиваем token_id и формируем итог
output = []
for id_part, rows in grouped_by_id.items():
    for i, row in enumerate(rows):
        row["token_id"] = i
        output.append(row)

# Сохраняем CSV
fieldnames = ["ID", "READER", "BOOK ID", "token_id", "start", "end", "label", "temp", "speaker's gender", "source_file"]
with open("all_mark_audio.csv", "w", newline='', encoding='utf-8') as f:
    writer = csv.DictWriter(f, fieldnames=fieldnames)
    writer.writeheader()
    writer.writerows(output)


In [147]:
# Загрузка DataFrame
df = pd.read_csv("all_mark_audio.csv")

# Функция для получения длительности файла
def get_duration(file_path):
    try:
        y, sr = librosa.load(file_path, sr=None)
        return 0.0, round(librosa.get_duration(y=y, sr=sr), 3)
    except Exception as e:
        print(f"Ошибка при обработке файла {file_path}: {e}")
        return None, None

# Применение функции к каждой строке
starts, ends = [], []
for path in tqdm(df['source_file']):
    normalized_path = os.path.normpath(path)
    start, end = get_duration(normalized_path)
    starts.append(start)
    ends.append(end)

df['start'] = starts
df['end'] = ends

# Сохранение результата
df.to_csv("updated_file.csv", index=False)

100%|██████████| 28539/28539 [03:53<00:00, 122.12it/s]


In [154]:
# Загрузка основного датафрейма с аудио (где нужно заполнить 'words')
df_audio = pd.read_csv("all_mark_audio.csv")

# Загрузка датафрейма с текстами
df_text = pd.read_csv("all_mark_text.csv")

# Убедимся, что token_id — числовой (важно для join)
df_audio['token_id'] = df_audio['token_id'].astype(int)
df_text['token_id'] = df_text['token_id'].astype(int)

# Добавим колонку с числом слов в текстовом df
df_text['text'] = df_text['text'].fillna("").apply(lambda x: len(str(x).split()))

# Объединим по READER, ID и token_id
df_audio = df_audio.merge(
    df_text[['READER', 'ID', 'token_id', 'text']],
    on=['READER', 'ID', 'token_id'],
    how='left'
)
df_audio

Unnamed: 0,ID,READER,BOOK ID,token_id,start,end,label,temp,speaker's gender,source_file,text
0,1240,103,45,0,0.0,14.085,emotional,,female,train-clean-100/LibriSpeech/train-clean-100\10...,34
1,1240,103,45,1,0.0,15.945,melancholic,,female,train-clean-100/LibriSpeech/train-clean-100\10...,5
2,1240,103,45,2,0.0,13.945,reflective,,female,train-clean-100/LibriSpeech/train-clean-100\10...,19
3,1240,103,45,3,0.0,14.710,tense,,female,train-clean-100/LibriSpeech/train-clean-100\10...,25
4,1240,103,45,4,0.0,12.515,melancholic,,female,train-clean-100/LibriSpeech/train-clean-100\10...,24
...,...,...,...,...,...,...,...,...,...,...,...
28534,130578,911,11938,16,0.0,5.080,cheerful,,male,train-clean-100/LibriSpeech/train-clean-100\91...,15
28535,130578,911,11938,17,0.0,15.165,instructive,,male,train-clean-100/LibriSpeech/train-clean-100\91...,3
28536,130578,911,11938,18,0.0,12.440,carefree,,male,train-clean-100/LibriSpeech/train-clean-100\91...,20
28537,130578,911,11938,19,0.0,14.655,carefree,,male,train-clean-100/LibriSpeech/train-clean-100\91...,15


In [None]:
# Функция для получения длительности аудио
def get_duration(file_path):
    try:
        y, sr = librosa.load(file_path, sr=None)
        return librosa.get_duration(y=y, sr=sr)
    except:
        return None

# Заполнение длительности
durations = []
for path in df_audio['source_file']:
    norm_path = os.path.normpath(path)
    durations.append(get_duration(norm_path))
df_audio['duration'] = durations

# Вычисление скорости речи
df_audio['wpm'] = df_audio['text'] / df_audio['duration']

# Классификация темпа: можно подправить пороги
def classify_temp(wpm):
    if wpm is None:
        return None
    elif wpm > 2.5:
        return "fast"
    elif wpm < 1.5:
        return "slow"
    else:
        return "norm"

df_audio['temp'] = df_audio['wpm'].apply(classify_temp)
df_audio

Unnamed: 0,ID,READER,BOOK ID,token_id,start,end,label,temp,speaker's gender,source_file,text,duration,wpm
0,1240,103,45,0,0.0,14.085,emotional,norm,female,train-clean-100/LibriSpeech/train-clean-100\10...,34,14.085,2.413916
1,1240,103,45,1,0.0,15.945,melancholic,slow,female,train-clean-100/LibriSpeech/train-clean-100\10...,5,15.945,0.313578
2,1240,103,45,2,0.0,13.945,reflective,slow,female,train-clean-100/LibriSpeech/train-clean-100\10...,19,13.945,1.362496
3,1240,103,45,3,0.0,14.710,tense,norm,female,train-clean-100/LibriSpeech/train-clean-100\10...,25,14.710,1.699524
4,1240,103,45,4,0.0,12.515,melancholic,norm,female,train-clean-100/LibriSpeech/train-clean-100\10...,24,12.515,1.917699
...,...,...,...,...,...,...,...,...,...,...,...,...,...
28534,130578,911,11938,16,0.0,5.080,cheerful,fast,male,train-clean-100/LibriSpeech/train-clean-100\91...,15,5.080,2.952756
28535,130578,911,11938,17,0.0,15.165,instructive,slow,male,train-clean-100/LibriSpeech/train-clean-100\91...,3,15.165,0.197824
28536,130578,911,11938,18,0.0,12.440,carefree,norm,male,train-clean-100/LibriSpeech/train-clean-100\91...,20,12.440,1.607717
28537,130578,911,11938,19,0.0,14.655,carefree,slow,male,train-clean-100/LibriSpeech/train-clean-100\91...,15,14.655,1.023541


In [158]:
df_audio = df_audio.drop(columns = ['text', 'duration'])
df_audio

Unnamed: 0,ID,READER,BOOK ID,token_id,start,end,label,temp,speaker's gender,source_file,wpm
0,1240,103,45,0,0.0,14.085,emotional,norm,female,train-clean-100/LibriSpeech/train-clean-100\10...,2.413916
1,1240,103,45,1,0.0,15.945,melancholic,slow,female,train-clean-100/LibriSpeech/train-clean-100\10...,0.313578
2,1240,103,45,2,0.0,13.945,reflective,slow,female,train-clean-100/LibriSpeech/train-clean-100\10...,1.362496
3,1240,103,45,3,0.0,14.710,tense,norm,female,train-clean-100/LibriSpeech/train-clean-100\10...,1.699524
4,1240,103,45,4,0.0,12.515,melancholic,norm,female,train-clean-100/LibriSpeech/train-clean-100\10...,1.917699
...,...,...,...,...,...,...,...,...,...,...,...
28534,130578,911,11938,16,0.0,5.080,cheerful,fast,male,train-clean-100/LibriSpeech/train-clean-100\91...,2.952756
28535,130578,911,11938,17,0.0,15.165,instructive,slow,male,train-clean-100/LibriSpeech/train-clean-100\91...,0.197824
28536,130578,911,11938,18,0.0,12.440,carefree,norm,male,train-clean-100/LibriSpeech/train-clean-100\91...,1.607717
28537,130578,911,11938,19,0.0,14.655,carefree,slow,male,train-clean-100/LibriSpeech/train-clean-100\91...,1.023541


In [160]:
# Указание нового порядка колонок
cols = df_audio.columns.tolist()
# Удаляем 'wpm' из текущего положения
cols.remove('wpm')
# Вставляем 'wpm' после 'temp'
temp_index = cols.index('temp') + 1
cols.insert(temp_index, 'wpm')

# Переупорядочиваем DataFrame
df_audio = df_audio[cols]
df_audio

Unnamed: 0,ID,READER,BOOK ID,token_id,start,end,label,temp,wpm,speaker's gender,source_file
0,1240,103,45,0,0.0,14.085,emotional,norm,2.413916,female,train-clean-100/LibriSpeech/train-clean-100\10...
1,1240,103,45,1,0.0,15.945,melancholic,slow,0.313578,female,train-clean-100/LibriSpeech/train-clean-100\10...
2,1240,103,45,2,0.0,13.945,reflective,slow,1.362496,female,train-clean-100/LibriSpeech/train-clean-100\10...
3,1240,103,45,3,0.0,14.710,tense,norm,1.699524,female,train-clean-100/LibriSpeech/train-clean-100\10...
4,1240,103,45,4,0.0,12.515,melancholic,norm,1.917699,female,train-clean-100/LibriSpeech/train-clean-100\10...
...,...,...,...,...,...,...,...,...,...,...,...
28534,130578,911,11938,16,0.0,5.080,cheerful,fast,2.952756,male,train-clean-100/LibriSpeech/train-clean-100\91...
28535,130578,911,11938,17,0.0,15.165,instructive,slow,0.197824,male,train-clean-100/LibriSpeech/train-clean-100\91...
28536,130578,911,11938,18,0.0,12.440,carefree,norm,1.607717,male,train-clean-100/LibriSpeech/train-clean-100\91...
28537,130578,911,11938,19,0.0,14.655,carefree,slow,1.023541,male,train-clean-100/LibriSpeech/train-clean-100\91...


In [161]:
df_audio.to_csv("all_mark_audio.csv", index=False)

# Просмотр полученных данных

In [None]:
df = pd.read_csv('all_mark_image.csv')
df.head(7)

Unnamed: 0,BOOK ID,image,scene,characters,style,attributes
0,16,book_illustrations\16\cover.jpg,драматичная сцена сражения на пиратском корабле,"Питер Пэн, капитан Крюк",классический стиль,"сепия, экшн, штамп библиотеки"
1,45,book_illustrations\45\cover.jpg,девочка стоит на мосту посреди весеннего пейзажа,девочка,сказочный стиль,"цветы, яркие краски, стилизованные деревья"
2,47,book_illustrations\47\cover.jpg,портрет женщины на коричневой обложке,женщина,"реалистичная живопись, винтаж","приглушённые цвета, формальный стиль, начало X..."
3,59,,,,,
4,60,book_illustrations\60\cover.jpg,портрет мужчины и женщины,"женщина, мужчина","реалистичная живопись, темные цвета","трость, шляпа, аристократская одежда"
...,...,...,...,...,...,...
5143,43699,book_illustrations\43699\logo.jpg,,,,
5144,44326,book_illustrations\44326\colophon.png,,,,
5145,44326,book_illustrations\44326\cover.jpg,,,,
5146,1000006,book_illustrations\1000006\cover.jpg,обложка,,минимализм,"нарисованный человечек, темный прямоугольник"


In [2]:
df = pd.read_csv('all_mark_text.csv')
df#.head(7)

Unnamed: 0,READER,ID,BOOK ID,token_id,text,POS_tags,NER_tags,source_file,emotion_text,overall_mood
0,19,198,121,0,Northanger Abbey,Northanger_NOUN Abbey_NOUN,,train-clean-100\LibriSpeech\train-clean-100\19...,,neutral
1,19,198,121,1,This little work was finished in the year eigh...,This_DET little_ADJ work_NOUN was_VERB finishe...,the year eighteen_DATE three_CARDINAL,train-clean-100\LibriSpeech\train-clean-100\19...,intended_anticipation,restless
2,19,198,121,2,Neither the author nor the public have any oth...,Neither_CONJ the_DET author_NOUN nor_CONJ the_...,thirteen years_DATE,train-clean-100\LibriSpeech\train-clean-100\19...,author_positive public_anticipation,pleasant
3,19,198,121,3,The public are entreated to bear in mind that ...,The_DET public_NOUN are_VERB entreated_VERB to...,thirteen years_DATE,train-clean-100\LibriSpeech\train-clean-100\19...,public_anticipation bear_anger begun_anticipation,restless
4,19,198,121,4,Chapter One No one who had ever seen Catherine...,Chapter_NOUN One_NUM No_NOUN one_NOUN who_PRON...,Catherine Morland_PERSON,train-clean-100\LibriSpeech\train-clean-100\19...,heroine_positive,harmonious
...,...,...,...,...,...,...,...,...,...,...
28534,8630,305213,35941,50,Until the truth was fully discussed and proved,Until_ADP the_DET truth_NOUN was_VERB fully_AD...,,train-clean-100\LibriSpeech\train-clean-100\86...,truth_positive fully_positive,peaceful
28535,8630,305213,35941,51,That was what the Manicheans promised what Aug...,That_DET was_VERB what_PRON the_DET Manicheans...,Manicheans_NORP Augustine_PERSON,train-clean-100\LibriSpeech\train-clean-100\86...,found_joy,delightful
28536,8630,305213,35941,52,They taught what was false not only about thee...,They_PRON taught_VERB what_PRON was_VERB false...,,train-clean-100\LibriSpeech\train-clean-100\86...,taught_trust god_anticipation art_anticipation...,restless
28537,8630,305213,35941,53,He found them carnal and loquacious full of in...,He_PRON found_VERB them_PRON carnal_ADJ and_CO...,,train-clean-100\LibriSpeech\train-clean-100\86...,found_joy carnal_negative full_positive insane...,delightful


In [3]:
df = pd.read_csv('all_mark_audio.csv')
df#.head(7)

Unnamed: 0,ID,READER,BOOK ID,token_id,start,end,label,temp,wpm,speaker's gender,source_file
0,198,19,121,0,0.0,1.965,tense,slow,1.017812,female,train-clean-100/LibriSpeech/train-clean-100\19...
1,198,19,121,1,0.0,11.765,tense,slow,1.359966,female,train-clean-100/LibriSpeech/train-clean-100\19...
2,198,19,121,2,0.0,10.795,reflective,fast,2.686429,female,train-clean-100/LibriSpeech/train-clean-100\19...
3,198,19,121,3,0.0,15.480,melancholic,slow,1.485788,female,train-clean-100/LibriSpeech/train-clean-100\19...
4,198,19,121,4,0.0,12.990,calm,norm,1.693610,female,train-clean-100/LibriSpeech/train-clean-100\19...
...,...,...,...,...,...,...,...,...,...,...,...
28534,305213,8630,35941,50,0.0,14.635,reflective,slow,0.546635,male,train-clean-100/LibriSpeech/train-clean-100\86...
28535,305213,8630,35941,51,0.0,14.265,emotional,slow,1.051525,male,train-clean-100/LibriSpeech/train-clean-100\86...
28536,305213,8630,35941,52,0.0,15.170,calm,norm,1.713909,male,train-clean-100/LibriSpeech/train-clean-100\86...
28537,305213,8630,35941,53,0.0,16.170,emotional,slow,0.618429,male,train-clean-100/LibriSpeech/train-clean-100\86...


In [5]:
df = pd.read_csv('all_book.csv')
df

Unnamed: 0,ID,READER,MINUTES,SUBSET,PROJ.,BOOK ID,CH. TITLE,PROJECT TITLE,GENRE
0,198,19,8.42,train-clean-100,219,121,Chapter 01,Northanger Abbey,Fiction
1,209,198,8.20,train-clean-100,219,121,Chapter 12,Northanger Abbey,Fiction
2,216,403,6.30,train-clean-100,219,121,Chapter 19,Northanger Abbey,Fiction
3,218,89,12.78,train-clean-100,219,121,Chapter 21,Northanger Abbey,Fiction
4,219,89,12.30,train-clean-100,219,121,Chapter 22,Northanger Abbey,Fiction
...,...,...,...,...,...,...,...,...,...
580,298545,8838,12.55,train-clean-100,8386,10446,"The Croxley Master - I, part 1",Green Flag and Other Stories of War and Sport,Fiction
581,298546,8838,12.51,train-clean-100,8386,10446,"The Croxley Master - I, part 2",Green Flag and Other Stories of War and Sport,Fiction
582,300880,6064,8.82,train-clean-100,8473,44326,Chapter 10,Wanted: A Husband,Fiction
583,305212,8630,10.50,train-clean-100,8645,35941,How Augustine Went to Carthage and How Patrici...,Life of Saint Monica,Fiction
