In [1]:
from datetime import datetime, timedelta

import pandas as pd
import numpy as np

# генерация массива случайных дат в заданном диапазоне
start_date = datetime(2022, 1, 1)
end_date = datetime.now()
random_dates = [
    start_date + timedelta(days=np.random.randint((end_date - start_date).days))
    for _ in range(1000000)
]

# создание DataFrame с датами и случайными числами
data = {'random_dates': random_dates, 'random_numbers': np.random.rand(1000000)}
df = pd.DataFrame(data)

# словарь для хранения времени выполнения каждого метода
methods_time = {}

# определение и измерение времени выполнения для разных подходов
for method in ['np_vectorize', 'for_idx', 'for_row', 'for_itertuples', 'native_pandas', 'apply']:
    
    if method == 'np_vectorize':
        start_time = datetime.now()

        # векторизованная функция для вычисления разницы в днях
        def np_diff_date_days(current_day, row):
            return (current_day - row).days
        current_date_numpy = np.datetime64(datetime.now())
        np_diff_date_days_vectorize = np.vectorize(np_diff_date_days, otypes=[np.int64])
        temp = np_diff_date_days_vectorize(current_date_numpy, df["random_dates"])

        methods_time[method] = (datetime.now() - start_time).seconds
    
    elif method == 'for_idx':
        start_time = datetime.now()
        
        temp = []
        current_date = datetime.now()
        # проход по индексам и вычисление разницы в днях для каждой даты
        for idx in range(df.shape[0]):
            temp.append((current_date - df['random_dates'].iloc[idx]).days)

        methods_time[method] = (datetime.now() - start_time).seconds
        
    elif method == 'for_row':
        start_time = datetime.now()
        
        temp = []
        current_date = datetime.now()
        # проход по строкам DataFrame и вычисление разницы в днях
        for _, row in df.iterrows():
            temp.append((current_date - row['random_dates']).days)

        methods_time[method] = (datetime.now() - start_time).seconds
    
    elif method == 'for_itertuples':
        start_time = datetime.now()
        
        temp = []
        current_date = datetime.now()
        # проход по строкам DataFrame через итератор кортежей для вычисления разницы
        for row in df.itertuples():
            temp.append((current_date - row.random_dates).days)

        methods_time[method] = (datetime.now() - start_time).seconds

    elif method == 'native_pandas':
        start_time = datetime.now()

        # использование встроенных методов pandas для вычисления разницы в днях
        temp = (current_date - df['random_dates']).dt.days
        
        methods_time[method] = (datetime.now() - start_time).seconds
    
    elif method == 'apply':
        start_time = datetime.now()
        
        # применение lambda-функции для вычисления разницы в днях
        temp = df['random_dates'].apply(lambda x: (current_date - x).days)
        
        methods_time[method] = (datetime.now() - start_time).seconds

# вывод времени выполнения для каждого метода
print(methods_time)

{'np_vectorize': 12, 'for_idx': 22, 'for_row': 75, 'for_itertuples': 7, 'native_pandas': 0, 'apply': 6}


In [2]:
# импортируем необходимые библиотеки
import math
from datetime import datetime

import numpy as np
import pandas as pd

# создаём DataFrame с миллионом случайных чисел
df = pd.DataFrame(data={'random_numbers': np.random.rand(1000000)})
# словарь для хранения времени выполнения каждого метода
methods_time = {}

# перебираем различные методы обработки данных
for method in ['np_vectorize', 'for_idx', 'for_row', 'for_itertuples', 'native_pandas', 'apply']:
    
    if method == 'np_vectorize':
        start_time = datetime.now()  # засекаем время начала выполнения

        temp = np.log(df['random_numbers'])  # применяем векторизованное вычисление логарифма с помощью NumPy

        methods_time[method] = (datetime.now() - start_time).microseconds  # сохраняем время выполнения
    
    elif method == 'for_idx':
        start_time = datetime.now()
        
        temp = []
        for idx in range(0, df.shape[0], 1):  # проходим по индексам DataFrame
            temp.append(math.log(df['random_numbers'].iloc[idx]))  # вычисляем логарифм для каждого числа

        methods_time[method] = (datetime.now() - start_time).microseconds
        
    elif method == 'for_row':
        start_time = datetime.now()
        
        temp = []
        for i, row in df.iterrows():  # проходим по строкам DataFrame
            temp.append(math.log(row['random_numbers']))  # вычисляем логарифм для каждого числа

        methods_time[method] = (datetime.now() - start_time).microseconds
    
    elif method == 'for_itertuples':
        start_time = datetime.now()
        
        temp = []
        for row in df.itertuples():  # проходим по строкам DataFrame через итератор кортежей
            temp.append(math.log(row.random_numbers))  # вычисляем логарифм для каждого числа

        methods_time[method] = (datetime.now() - start_time).microseconds

    elif method == 'native_pandas':
        start_time = datetime.now()

        temp = df['random_numbers'].apply(lambda x: math.log(x))  # используем метод apply для применения функции к каждому значению
        
        methods_time[method] = (datetime.now() - start_time).microseconds
    
    elif method == 'apply':
        start_time = datetime.now()
        
        temp = df['random_numbers'].apply(lambda x: math.log(x))  # повторяем предыдущий метод для сравнения
        
        methods_time[method] = (datetime.now() - start_time).microseconds

# выводим словарь с временем выполнения каждого метода
print(methods_time)

{'np_vectorize': 2611, 'for_idx': 905220, 'for_row': 679005, 'for_itertuples': 317897, 'native_pandas': 577444, 'apply': 558455}
