# Hiệu suất

In [1]:
import cudf
import numpy as np
from timeit import default_timer as timer

# Tạo DataFrame với dữ liệu số thực
n = 10_000_000  # Giả sử chúng ta có mười triệu bản ghi
gpu_df = cudf.DataFrame({'float_col': np.random.rand(n)})

# Chuyển đổi từ số thực sang decimal
start_time = timer()
gpu_df['decimal_col'] = gpu_df['float_col'].astype('float64').astype(cudf.Decimal128Dtype(precision=28, scale=28))
end_time = timer()
print(f"Thời gian chuyển đổi từ float sang decimal: {end_time - start_time} giây")

# Thực hiện các phép toán toán học cơ bản
start_time = timer()
gpu_df['sum'] = gpu_df['decimal_col'] + gpu_df['decimal_col']
gpu_df['diff'] = gpu_df['decimal_col'] - gpu_df['decimal_col']
gpu_df['product'] = gpu_df['decimal_col'] * gpu_df['decimal_col']
gpu_df['quotient'] = gpu_df['decimal_col'] / gpu_df['decimal_col']
end_time = timer()
print(f"Thời gian thực hiện các phép toán: {end_time - start_time} giây")

# Thao tác tổng hợp
# Đánh giá hiệu suất của việc tính tổng
start_sum = timer()
total_sum = gpu_df['decimal_col'].sum()
end_sum = timer()

# Đánh giá hiệu suất của việc tính trung bình
start_mean = timer()
mean_value = gpu_df['decimal_col'].sum()/n
end_mean = timer()

# Đánh giá hiệu suất của việc tìm giá trị nhỏ nhất
start_min = timer()
min_value = gpu_df['decimal_col'].min()
end_min = timer()

# Đánh giá hiệu suất của việc tìm giá trị lớn nhất
start_max = timer()
max_value = gpu_df['decimal_col'].max()
end_max = timer()

# In kết quả và thời gian thực hiện
print(f'Thời gian thực hiện tổng: {end_sum - start_sum} giây')
# print(f'Thời gian thực hiện trung bình: {end_mean - start_mean} giây')
print(f'Thời gian thực hiện giá trị nhỏ nhất: {end_min - start_min} giây')
print(f'Thời gian thực hiện giá trị lớn nhất: {end_max - start_max} giây')


Thời gian chuyển đổi từ float sang decimal: 0.004908214992610738 giây
Thời gian thực hiện các phép toán: 0.02081312600057572 giây
Thời gian thực hiện tổng: 0.0013133930042386055 giây
Thời gian thực hiện giá trị nhỏ nhất: 0.004665111991926096 giây
Thời gian thực hiện giá trị lớn nhất: 0.004413478003698401 giây


In [2]:
import pandas as pd
import numpy as np
from timeit import default_timer as timer
from decimal import *
# Tạo DataFrame với dữ liệu số thực
n = 10_000_000  # Giả sử chúng ta có mười triệu bản ghi
df = pd.DataFrame({'float_col': np.random.rand(n)})

# Chuyển đổi từ số thực sang decimal
start_time = timer()
df['decimal_col'] = df['float_col'].apply(lambda x: Decimal(x))
end_time = timer()
print(f"Thời gian chuyển đổi từ float sang decimal: {end_time - start_time} giây")

# Thực hiện các phép toán toán học cơ bản
start_time = timer()
df['sum'] = df['decimal_col'] + df['decimal_col']
df['diff'] = df['decimal_col'] - df['decimal_col']
df['product'] = df['decimal_col'] * df['decimal_col']
df['quotient'] = df['decimal_col'] / df['decimal_col']
end_time = timer()
print(f"Thời gian thực hiện các phép toán: {end_time - start_time} giây")

start_sum = timer()
total_sum = df['decimal_col'].sum()
end_sum = timer()

# Đánh giá hiệu suất của việc tính trung bình
start_mean = timer()
mean_value = df['decimal_col'].mean()
end_mean = timer()

# Đánh giá hiệu suất của việc tìm giá trị nhỏ nhất
start_min = timer()
min_value = df['decimal_col'].min()
end_min = timer()

# Đánh giá hiệu suất của việc tìm giá trị lớn nhất
start_max = timer()
max_value = df['decimal_col'].max()
end_max = timer()

# In kết quả và thời gian thực hiện
print(f'Thời gian thực hiện tổng: {end_sum - start_sum} giây')
print(f'Thời gian thực hiện trung bình: {end_mean - start_mean} giây')
print(f'Thời gian thực hiện giá trị nhỏ nhất: {end_min - start_min} giây')
print(f'Thời gian thực hiện giá trị lớn nhất: {end_max - start_max} giây')

Thời gian chuyển đổi từ float sang decimal: 4.11682147999818 giây
Thời gian thực hiện các phép toán: 4.799466908996692 giây
Thời gian thực hiện tổng: 0.6920579130091937 giây
Thời gian thực hiện trung bình: 0.7131467919971328 giây
Thời gian thực hiện giá trị nhỏ nhất: 0.3493105910019949 giây
Thời gian thực hiện giá trị lớn nhất: 0.4371092170040356 giây


# Độ chính xác

In [3]:
import mpmath
mpmath.mp.dps = 50  # Đặt độ chính xác số thập phân lên đến 50 chữ số

# Ví dụ các số thập phân để cộng
num1 = mpmath.mpf('0.123456789123456789123456789')
num2 = mpmath.mpf('0.987654321987654321987654321')

# Tính toán kỳ vọng lý thuyết
expected_sum = num1 + num2

print(f"Kỳ vọng lý thuyết của tổng: {expected_sum}")


Kỳ vọng lý thuyết của tổng: 1.11111111111111111111111111


In [4]:
import cudf

# Tạo DataFrame
df = cudf.DataFrame({'num1': ['0.123456789123456789123456789'], 
                     'num2': ['0.987654321987654321987654321'], 
                     'expected_sum': [str(expected_sum)]}, dtype=cudf.Decimal128Dtype(28, 28))
df['sum'] = df['num1'] + df['num2']

# Lấy kết quả từ GPU
df['difference'] = df['sum'] - df['expected_sum']

# So sánh kết quả GPU với kỳ vọng lý thuyết
print(f"Kết quả từ GPU: {df['sum']}")
print(f"Sai khác: {df['difference']}")


Kết quả từ GPU: 0    1.1111111111111111111111111100
Name: sum, dtype: decimal128
Sai khác: 0    0E-28
Name: difference, dtype: decimal128


In [5]:
import pandas as pd

# Lấy kết quả từ CPU
cpu_sum = Decimal(0.123456789123456789123456789) + Decimal(0.987654321987654321987654321)

# So sánh kết quả CPU với kỳ vọng lý thuyết
difference = cpu_sum - Decimal(str(expected_sum))
print(f"Kết quả từ CPU: {cpu_sum}")
print(f"Sai khác: {difference}")

Kết quả từ CPU: 1.111111111111111132698781034
Sai khác: 2.1587669924E-17


# Xác định mức độ sai số làm tròn

In [6]:
import mpmath

# Đặt độ chính xác cao
mpmath.mp.dps = 50

# Tính kết quả kỳ vọng lý thuyết
expected_result = mpmath.mpf('123.456') * mpmath.mpf('2.5')
print(f"Kết quả kỳ vọng lý thuyết: {expected_result}")

Kết quả kỳ vọng lý thuyết: 308.64


In [10]:
import cudf
from cudf.core.dtypes import Decimal32Dtype, Decimal64Dtype, Decimal128Dtype

# Tạo DataFrame với các kiểu decimal khác nhau
df = cudf.DataFrame({
    'decimal32': cudf.Series([123.456]).astype(Decimal32Dtype(precision=9, scale=4)),
    'decimal64': cudf.Series([123.456]).astype(Decimal64Dtype(precision=18, scale=8)),
    'decimal128': cudf.Series([123.456]).astype(Decimal128Dtype(precision=38, scale=18))
})

# Thực hiện phép nhân với một số thực
df['mult_decimal32'] = df['decimal32'] * Decimal(2.5)
df['mult_decimal64'] = df['decimal64'] * Decimal(2.5)
df['mult_decimal128'] = df['decimal128'] * Decimal(2.5)

print(df.head())


  decimal32     decimal64              decimal128 mult_decimal32  \
0  123.4560  123.45600000  123.456000000000000000      308.64000   

  mult_decimal64       mult_decimal128  
0  308.640000000  308.6400000000000000  


In [11]:
# Chuyển đổi kết quả cuDF sang kiểu decimal để so sánh
gpu_results = {
    'decimal32': Decimal(df['mult_decimal32'][0]),
    'decimal64': Decimal(df['mult_decimal64'][0]),
    'decimal128': Decimal(df['mult_decimal128'][0]),
    'expected': Decimal(str(expected_result))
}

print(gpu_results['expected'])

# In kết quả và so sánh sai số
for dtype in ['decimal32', 'decimal64', 'decimal128']:
    error = abs(gpu_results[dtype] - gpu_results['expected'])
    print(f"Kết quả từ {dtype}: {gpu_results[dtype]}, Sai số: {error}")


308.64
Kết quả từ decimal32: 308.64000, Sai số: 0.00000
Kết quả từ decimal64: 308.640000000, Sai số: 0E-9
Kết quả từ decimal128: 308.6400000000000000, Sai số: 0E-16


In [12]:
d = Decimal(123.456) * Decimal(2.5)
error = abs(Decimal(d) - Decimal(str(expected_result)))
print(f"Kết quả từ decimal: {d}, Sai số: {error}")

Kết quả từ decimal: 308.6400000000000076738615462, Sai số: 7.6738615462E-15
