<h1>Группа DS_07_P_online

<h2>Cтудента ГГТУ им. П.О. Сухого, Романюка Е.И. гр. ИП-31.

<h3>Домашнее задание номер 4. Потоки и процессы</h3>

<p><b>Цель</b>: знакомство c потоками и процессами.

<b>Задание</b>:
    <p>Реализовать с использованием потоков и процессов скачивание файлов из интернета. 
    <p>Список файлов для скачивания подготовить самостоятельно (например изображений, не менее 100 изображений или других объектов). Сравнить производительность  с последовательным методом.
    <p>Сравнивать производительность Thread и multiprocessing решений. Попробовать подобрать оптимальное число потоков/процессов
<p><b>Листинг программного кода<b>:

In [2]:
import time
from ParseAndDownload import *
from concurrent.futures import ThreadPoolExecutor, as_completed
import multiprocessing as mp


def create_directory(directory):
    if not os.path.exists(directory):
        os.makedirs(directory)
    else:
        # Если папка уже существует, очищаем её содержимое
        for file in os.listdir(directory):
            file_path = os.path.join(directory, file)
            try:
                if os.path.isfile(file_path):
                    os.unlink(file_path)
            except Exception as e:
                print(f"Ошибка при удалении файла {file_path}: {e}")


def download_images_in_single_thread(urls, save_folder):
    create_directory(save_folder)

    start_time = time.time()
    for url in urls:
        download_image(url, save_folder)
    end_time = time.time()

    print(f"Загрузка с ипользованием одного потока завершена за {end_time - start_time} секунд")


def download_images_with_threads(urls, save_folder, num_threads):
    create_directory(save_folder)

    start_time = time.time()
    with ThreadPoolExecutor(max_workers=num_threads) as executor:
        futures = []
        for url in urls:
            future = executor.submit(download_image, url, save_folder)
            futures.append(future)

        for future in as_completed(futures):
            try:
                future.result()
            except Exception as e:
                print(f"Exception during download: {e}")
    end_time = time.time()

    print(f"Загрузка с использованием {num_threads} потоков завершена за {end_time - start_time} секунд")


def download_images_with_processes(img_urls, save_folder, num_processes):
    create_directory(save_folder)
    start_time = time.time()

    with mp.Pool(processes=num_processes) as pool:
        for url in img_urls:
            pool.apply_async(download_image, args=(url, save_folder, ))
        pool.close()
        pool.join()

    end_time = time.time()
    print(f"Загрузка с использованием {num_processes} процессов завершена за {end_time - start_time} секунд")


if __name__ == "__main__":
    url = 'https://repack-byrutor.org/page/1/'
    save_folder_single_thread = 'downloaded_images_singlethread'
    save_folder_threads = 'downloaded_images_threads'
    save_folder_processes = 'downloaded_images_processes'
    num_threads = 12
    num_processes = 12

    img_urls = set()
    parse_images(url, img_urls, 1)

    if img_urls:
        print(f"Найдено {len(img_urls)} изображений для скачивания.")
        download_images_in_single_thread(img_urls, save_folder_single_thread)
        download_images_with_threads(img_urls, save_folder_threads, num_threads)
        download_images_with_processes(img_urls, save_folder_processes, num_processes)
    else:
        print("Не удалось получить список изображений.")


Переходим на следующую страницу: https://repack-byrutor.org/page/2/
Переходим на следующую страницу: https://repack-byrutor.org/page/3/
Переходим на следующую страницу: https://repack-byrutor.org/page/4/
Переходим на следующую страницу: https://repack-byrutor.org/page/5/
Найдено 114 изображений для скачивания.
Ошибка при скачивании изображения по URL: data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAEALAAAAAABAAEAAAIBTAA7
No connection adapters were found for 'data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAEALAAAAAABAAEAAAIBTAA7'
Загрузка с ипользованием одного потока завершена за 10.771211624145508 секунд
Ошибка при скачивании изображения по URL: data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAEALAAAAAABAAEAAAIBTAA7
No connection adapters were found for 'data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAEALAAAAAABAAEAAAIBTAA7'
Загрузка с использованием 12 потоков завершена за 1.2631254196166992 секунд
Загрузка с использованием 12 процессов завершена за 2.

<b>Вывод</b>: в ходе выполнения работы познакомился с процессами и потоками в Python