# cuDF Example - Deduplicate Entries

In this example we compare the CPU and GPU performance deduplicating entries in a DataFrame. 

In [1]:
# Import necessary packages
import pandas as pd
import numpy as np
import cupy as cp
import cudf

In [2]:
%%time
# Create a bit vector as mock data on CPU
bit_vec = np.random.randint(0, 2, size=(10_000_000, 32)).astype(np.bool_)

CPU times: user 830 ms, sys: 4.74 s, total: 5.57 s
Wall time: 5.57 s


In [3]:
%%time
# Create a bit vector as mock data on GPU
bit_vec_cp = cp.random.randint(0, 2, size=(10_000_000, 32)).astype(cp.bool_)

CPU times: user 43.4 ms, sys: 118 ms, total: 162 ms
Wall time: 167 ms


In [4]:
# Create a CPU pandas DataFrame
df = pd.DataFrame(bit_vec)
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,22,23,24,25,26,27,28,29,30,31
0,False,True,False,False,True,True,False,True,True,False,...,False,True,False,True,True,True,True,False,False,False
1,False,False,False,False,False,True,True,True,False,False,...,True,False,True,True,False,True,True,False,False,True
2,False,False,False,True,True,True,False,False,False,False,...,True,True,True,True,False,False,True,True,False,True
3,True,False,False,False,False,False,False,False,False,True,...,False,True,True,False,True,True,False,True,False,True
4,True,False,False,True,False,True,False,True,True,True,...,False,True,False,False,True,False,True,True,False,False


In [5]:
%%time
# Drop duplicates of this DataFrame
df_dedup = df.drop_duplicates()
df_dedup

CPU times: user 2.05 s, sys: 7.75 s, total: 9.8 s
Wall time: 9.8 s


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,22,23,24,25,26,27,28,29,30,31
0,False,True,False,False,True,True,False,True,True,False,...,False,True,False,True,True,True,True,False,False,False
1,False,False,False,False,False,True,True,True,False,False,...,True,False,True,True,False,True,True,False,False,True
2,False,False,False,True,True,True,False,False,False,False,...,True,True,True,True,False,False,True,True,False,True
3,True,False,False,False,False,False,False,False,False,True,...,False,True,True,False,True,True,False,True,False,True
4,True,False,False,True,False,True,False,True,True,True,...,False,True,False,False,True,False,True,True,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9999995,False,False,True,False,True,True,True,True,False,True,...,False,True,False,True,False,True,False,True,True,True
9999996,False,True,True,True,True,True,False,True,False,True,...,False,False,True,True,True,True,False,False,False,True
9999997,True,True,False,False,True,True,True,True,False,False,...,False,True,True,True,False,False,True,True,False,False
9999998,True,True,True,False,False,True,True,True,False,True,...,True,True,True,False,True,True,False,True,True,False


In [6]:
# Equivalently, create a GPU DataFrame
df_cp = cudf.DataFrame(bit_vec_cp)

In [7]:
%%time
# Equivalently, drop duplicates in this GPU DataFrame
df_cp_dedup = df_cp.drop_duplicates()
df_cp_dedup

CPU times: user 9.33 ms, sys: 12.5 ms, total: 21.8 ms
Wall time: 31.6 ms


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,22,23,24,25,26,27,28,29,30,31
0,True,True,True,True,False,False,True,True,True,True,...,False,False,True,False,False,True,False,True,False,True
1,True,False,True,False,True,False,True,True,True,True,...,False,False,True,True,True,True,False,True,True,False
2,True,True,True,False,True,False,True,False,True,True,...,False,False,True,False,False,False,True,False,False,True
3,False,True,False,False,True,True,False,True,False,False,...,False,True,True,False,True,True,False,False,True,True
4,False,True,False,False,True,False,True,True,True,True,...,True,False,False,False,False,True,True,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9999995,True,False,True,False,False,False,True,True,True,True,...,True,False,False,True,True,True,False,True,False,True
9999996,False,False,False,True,False,True,True,False,False,True,...,True,True,False,False,False,False,True,False,True,True
9999997,True,True,True,False,True,False,True,False,True,False,...,False,False,True,False,False,False,True,False,False,False
9999998,True,False,False,True,False,True,True,True,False,False,...,False,True,True,True,True,False,False,False,True,True


**Did the GPU version just finished in an instant!?**

Yes! That's the power of parallel processing in a GPU. It's not uncommon to see hundreds of times of speed up. 

This allows you to interactively handle your datasets.