# **Диагностическая работа №5. Формирование электронных таблиц**

## Задание №1. Создание генератора числовых последовательностей



Напишите функцию-генератор, которая создает последовательность чисел Фибоначчи. Генератор должен выдавать числа последовательности по одному при каждом вызове функции next(). Используйте этот генератор для вывода первых 10 чисел Фибоначчи.

In [None]:
def generator():
    a, b = 0, 1
    while True:
        yield a
        a, b = b, a + b

fib_gen = generator()
for i in range(10):
    print(next(fib_gen))

0
1
1
2
3
5
8
13
21
34


## Задание №2. Оптимизация чтения крупных файлов



Создайте CSV-файл с произвольными числовыми данными объемом не менее 500,000 строк. Напишите функцию-генератор, которая будет читать этот файл по частям (chunks) и возвращать каждую часть как pandas DataFrame. Сравните время чтения всего файла сразу с использованием `pd.read_csv()` и чтение по частям с использованием вашего генератора.

In [8]:
import pandas as pd
import numpy as np
import time
import os

def create_csv(filename, num_rows=5000000):
    data = {
        '1': np.random.randint(1, 100, num_rows),
        '2': np.random.randint(1, 100, num_rows),
        '3': np.random.randint(1, 100, num_rows)
    }
    df = pd.DataFrame(data)
    df.to_csv(filename, index=False)


def read_csv_chunks(filename, chunk_size=10000):
    for chunk in pd.read_csv(filename, chunksize=chunk_size):
        yield chunk

def compare_reading_times(filename):
    start_time = time.time()
    df = pd.read_csv(filename)
    full_time = time.time() - start_time
    print(f"Время обычного чтения разом {full_time:.4f} с")

    start_time = time.time()
    chunk_gen = read_csv_chunks(filename, chunk_size=10000)
    for chunk in chunk_gen:
        pass  
    chunk_time = time.time() - start_time
    print(f"Время чтения по кускам {chunk_time:.4f} с")

    print(f"Разница {full_time - chunk_time:.4f} seconds")

filename = "data.csv"
    
create_csv(filename)
    
compare_reading_times(filename)

Время обычного чтения разом 1.2682 с
Время чтения по кускам 3.8641 с
Разница -2.5959 seconds


## Задание №3. Сравнение производительности вычислений



Напишите функцию для умножения матриц размером 100x100. Реализуйте три версии функции: 
1. Последовательную (без оптимизации)
2. С использованием ThreadPoolExecutor
3. С использованием multiprocessing

Сравните время выполнения каждой версии и постройте график производительности.

In [None]:
import numpy as np
import time
from concurrent.futures import ThreadPoolExecutor
from multiprocessing import Pool
import matplotlib.pyplot as plt

def matrix_multiply(a, b):
    n = len(a)
    result = [[0] * n for _ in range(n)]
    for i in range(n):
        for j in range(n):
            for k in range(n):
                result[i][j] += a[i][k] * b[k][j]
    return result

def multiply_row(args):
    i, a, b, n = args
    row = [0] * n
    for j in range(n):
        for k in range(n):
            row[j] += a[i][k] * b[k][j]
    return i, row

def matrix_multiply_threaded(a, b):
    n = len(a)
    result = [[0] * n for _ in range(n)]
    with ThreadPoolExecutor() as executor:
        tasks = [(i, a, b, n) for i in range(n)]
        for i, row in executor.map(multiply_row, tasks):
            result[i] = row
    return result

def matrix_multiply_multiprocessing(a, b):
    n = len(a)
    result = [[0] * n for _ in range(n)]
    with Pool() as pool:
        tasks = [(i, a, b, n) for i in range(n)]
        for i, row in pool.map(multiply_row, tasks):
            result[i] = row
    return result

np.random.seed(0)
matrix_a = np.random.randint(1, 10, (100, 100)).tolist()
matrix_b = np.random.randint(1, 10, (100, 100)).tolist()

times = {}

start_time = time.time()
matrix_multiply(matrix_a, matrix_b)
times['Sequential'] = time.time() - start_time

start_time = time.time()
matrix_multiply_threaded(matrix_a, matrix_b)
times['Threaded'] = time.time() - start_time

start_time = time.time()
matrix_multiply_multiprocessing(matrix_a, matrix_b)
times['Multiprocessing'] = time.time() - start_time

print(f"Последовательная: {times['Sequential']}")
print(f"ThreadPoolExecutor: {times['Threaded']}")
print(f"Multiprocessing: {times['Multiprocessing']}")


plt.bar(times.keys(), times.values())
plt.ylabel('Время')

plt.show()

## Задание №4. Обработка геопространственных данных

Сгенерируйте набор данных из 1000 точек с координатами (широта, долгота). Напишите функцию для расчета расстояния между всеми парами точек. Оптимизируйте функцию с использованием numpy для векторизации вычислений, а затем используйте multiprocessing для параллельной обработки. Сравните время выполнения обеих версий.

In [None]:
# Ваш код

## Задание №5. Создание электронной таблицы с графиками


Напишите программу, которая:
1. Генерирует случайные данные о ежедневных продажах за год (365 дней)
2. Сохраняет эти данные в Excel-файл на лист "Данные" 
3. Создает в этом же файле второй лист "Статистика" с рассчитанными месячными показателями (сумма, среднее, максимум, минимум)
4. Использует многопоточность для параллельной обработки данных по месяцам

Используйте библиотеки pandas, openpyxl или xlsxwriter для работы с Excel.

In [None]:
# Ваш код