In [1]:
# УРОК 6. УСКОРЕНИЕ РАБОТЫ С ПРИЗНАКАМИ
from datetime import datetime, timedelta

import pandas as pd
import numpy as np

# генерация массива случайных дат в заданном диапазоне
start_date = datetime(2022, 1, 1)
end_date = datetime.now()
random_dates = [
    start_date + timedelta(days=np.random.randint((end_date - start_date).days))
    for _ in range(1000000)
]

# создание DataFrame с датами и случайными числами
data = {'random_dates': random_dates, 'random_numbers': np.random.rand(1000000)}
df = pd.DataFrame(data)

# словарь для хранения времени выполнения каждого метода
methods_time = {}

# определение и измерение времени выполнения для разных подходов
for method in ['np_vectorize', 'for_idx', 'for_row', 'for_itertuples', 'native_pandas', 'apply']:
    
    if method == 'np_vectorize':
        start_time = datetime.now()

        # векторизованная функция для вычисления разницы в днях
        def np_diff_date_days(current_day, row):
            return (current_day - row).days
        current_date_numpy = np.datetime64(datetime.now())
        np_diff_date_days_vectorize = np.vectorize(np_diff_date_days, otypes=[np.int64])
        temp = np_diff_date_days_vectorize(current_date_numpy, df["random_dates"])

        methods_time[method] = (datetime.now() - start_time).seconds
    
    elif method == 'for_idx':
        start_time = datetime.now()
        
        temp = []
        current_date = datetime.now()
        # проход по индексам и вычисление разницы в днях для каждой даты
        for idx in range(df.shape[0]):
            temp.append((current_date - df['random_dates'].iloc[idx]).days)

        methods_time[method] = (datetime.now() - start_time).seconds
        
    elif method == 'for_row':
        start_time = datetime.now()
        
        temp = []
        current_date = datetime.now()
        # проход по строкам DataFrame и вычисление разницы в днях
        for _, row in df.iterrows():
            temp.append((current_date - row['random_dates']).days)

        methods_time[method] = (datetime.now() - start_time).seconds
    
    elif method == 'for_itertuples':
        start_time = datetime.now()
        
        temp = []
        current_date = datetime.now()
        # проход по строкам DataFrame через итератор кортежей для вычисления разницы
        for row in df.itertuples():
            temp.append((current_date - row.random_dates).days)

        methods_time[method] = (datetime.now() - start_time).seconds

    elif method == 'native_pandas':
        start_time = datetime.now()

        # использование встроенных методов pandas для вычисления разницы в днях
        temp = (current_date - df['random_dates']).dt.days
        
        methods_time[method] = (datetime.now() - start_time).seconds
    
    elif method == 'apply':
        start_time = datetime.now()
        
        # применение lambda-функции для вычисления разницы в днях
        temp = df['random_dates'].apply(lambda x: (current_date - x).days)
        
        methods_time[method] = (datetime.now() - start_time).seconds

# вывод времени выполнения для каждого метода
print(methods_time)

{'np_vectorize': 16, 'for_idx': 39, 'for_row': 84, 'for_itertuples': 11, 'native_pandas': 0, 'apply': 7}


In [2]:
# импортируем необходимые библиотеки
import math
from datetime import datetime

import numpy as np
import pandas as pd

# создаём DataFrame с миллионом случайных чисел
df = pd.DataFrame(data={'random_numbers': np.random.rand(1000000)})
# словарь для хранения времени выполнения каждого метода
methods_time = {}

# перебираем различные методы обработки данных
for method in ['np_vectorize', 'for_idx', 'for_row', 'for_itertuples', 'native_pandas', 'apply']:
    
    if method == 'np_vectorize':
        start_time = datetime.now()  # засекаем время начала выполнения

        temp = np.log(df['random_numbers'])  # применяем векторизованное вычисление логарифма с помощью NumPy

        methods_time[method] = (datetime.now() - start_time).microseconds  # сохраняем время выполнения
    
    elif method == 'for_idx':
        start_time = datetime.now()
        
        temp = []
        for idx in range(0, df.shape[0], 1):  # проходим по индексам DataFrame
            temp.append(math.log(df['random_numbers'].iloc[idx]))  # вычисляем логарифм для каждого числа

        methods_time[method] = (datetime.now() - start_time).microseconds
        
    elif method == 'for_row':
        start_time = datetime.now()
        
        temp = []
        for i, row in df.iterrows():  # проходим по строкам DataFrame
            temp.append(math.log(row['random_numbers']))  # вычисляем логарифм для каждого числа

        methods_time[method] = (datetime.now() - start_time).microseconds
    
    elif method == 'for_itertuples':
        start_time = datetime.now()
        
        temp = []
        for row in df.itertuples():  # проходим по строкам DataFrame через итератор кортежей
            temp.append(math.log(row.random_numbers))  # вычисляем логарифм для каждого числа

        methods_time[method] = (datetime.now() - start_time).microseconds

    elif method == 'native_pandas':
        start_time = datetime.now()

        temp = df['random_numbers'].apply(lambda x: math.log(x))  # используем метод apply для применения функции к каждому значению
        
        methods_time[method] = (datetime.now() - start_time).microseconds
    
    elif method == 'apply':
        start_time = datetime.now()
        
        temp = df['random_numbers'].apply(lambda x: math.log(x))  # повторяем предыдущий метод для сравнения
        
        methods_time[method] = (datetime.now() - start_time).microseconds

# выводим словарь с временем выполнения каждого метода
print(methods_time)

{'np_vectorize': 2159, 'for_idx': 564523, 'for_row': 16698, 'for_itertuples': 673137, 'native_pandas': 349762, 'apply': 434019}


In [3]:
import pandas as pd

# создание DataFrame
data = {'A': [1, 2, 3, 4, 5],
        'B': [10, 20, 30, 40, 50]}

df = pd.DataFrame(data)

# функция, которую мы хотим применить к столбцу
def square_value(x):
    return x ** 2

# применение функции к столбцу 'A' с помощью apply()
df['A_squared'] = df['A'].apply(square_value)

print(df)

   A   B  A_squared
0  1  10          1
1  2  20          4
2  3  30          9
3  4  40         16
4  5  50         25


In [4]:
# Задание 1
import pandas as pd
import numpy as np

# генерация данных о продажах
np.random.seed(0)
sales_data = pd.DataFrame({
    'product_id': np.arange(1, 11),
    'price': np.random.randint(50, 200, (10,))
})

def discount(x):
    return x * 0.9
sales_data['discounted_price'] = sales_data['price'].apply(discount)
print(sales_data)

   product_id  price  discounted_price
0           1     97              87.3
1           2    167             150.3
2           3    117             105.3
3           4    153             137.7
4           5     59              53.1
5           6     71              63.9
6           7     86              77.4
7           8    137             123.3
8           9    120             108.0
9          10    138             124.2


In [5]:
# Задание 2
import pandas as pd
import numpy as np
from datetime import datetime

# генерация данных о сотрудниках
np.random.seed(0)
employee_info = pd.DataFrame({
    'employee_id': np.arange(1, 11),
    'start_year': np.random.randint(2010, 2022, (10,))
})

def calculate_employment_duration(start_year):
    return datetime.now().year - start_year
employee_info['employment_duration'] = employee_info['start_year'].apply(calculate_employment_duration)
print(employee_info)

   employee_id  start_year  employment_duration
0            1        2015                    9
1            2        2010                   14
2            3        2013                   11
3            4        2021                    3
4            5        2013                   11
5            6        2017                    7
6            7        2019                    5
7            8        2013                   11
8            9        2015                    9
9           10        2012                   12


In [6]:
import pandas as pd
import numpy as np

# Создание DataFrame
data = {'A': [1, 2, 3, 4, 5]}
df = pd.DataFrame(data)

# пользовательская функция для возведения в квадрат
def square_value(x):
    return x ** 2

# применение np.vectorize к df["A"] с пользовательской функцией
vectorized_func = np.vectorize(square_value)
result_custom = vectorized_func(df["A"])

print("Vectorized with custom function:")
print(result_custom)

# применение np.square к df["A"]
result_np_square = np.square(df["A"])

print("\nVectorized with numpy square:")
print(result_np_square)

Vectorized with custom function:
[ 1  4  9 16 25]

Vectorized with numpy square:
0     1
1     4
2     9
3    16
4    25
Name: A, dtype: int64


In [None]:
# Задание 3
import pandas as pd
import numpy as np

# генерация DataFrame с температурой в градусах Цельсия
np.random.seed(0)
data = {'temperature_Celsius': np.random.randint(-20, 40, size=10)}
df = pd.DataFrame(data)

def calculate(temp):
    return temp * 9 / 5 + 32
calc_vec = np.vectorize(calculate)
df['temperature_Fahrenheit'] = calc_vec(df['temperature_Celsius'])
print(df)

   temperature_Celsius  temperature_Fahrenheit
0                   24                    75.2
1                   27                    80.6
2                   33                    91.4
3                  -20                    -4.0
4                  -17                     1.4
5                   39                   102.2
6                  -17                     1.4
7                   19                    66.2
8                  -11                    12.2
9                   -1                    30.2


In [2]:
# Задание 4.
import pandas as pd
import numpy as np

# создание DataFrame с оценками студентов
data = {'scores': np.array([92, 78, 64, 81, 53, 95, 88])}
df = pd.DataFrame(data)

# функция для перевода числовой оценки в буквенный эквивалент
def to_grade(score):
    if score >= 90:
        return "A"
    elif score >= 80:
        return "B"
    elif score >= 70:
        return "C"
    elif score >= 60:
        return "D"
    else:
        return "F"
df['grades'] = np.vectorize(to_grade)(data['scores'])
print(df)

   scores grades
0      92      A
1      78      C
2      64      D
3      81      B
4      53      F
5      95      A
6      88      B
