## Set 함수
- 데이터 안에서 중복된 값을 필터링 하는데 쓰는 함수
- 중복제거 하고자 하는 데이터 앞에 set을 넣어서 사용

[참고] set의 생성방식

In [24]:
data = [1,2,3,4,5]

#방법 1: set(data)
data_set = set(data)
print(type(data_set))

#방법 2: {}
data_set_2 = {1,2,3,4,5}
print(type(data_set))

<class 'set'>
<class 'set'>


In [10]:
temp_list = [1,2,3,4,5,5,5]
print("set전:",temp_list)
temp_set = set(temp_list)
print("set후:",temp_set)

set전: [1, 2, 3, 4, 5, 5, 5]
set후: {1, 2, 3, 4, 5}


In [11]:
temp_list = ['a','b','c','d','e','f','c']
print("set전:",temp_list)
temp_set = set(temp_list)
print("set후:",temp_set)

set전: ['a', 'b', 'c', 'd', 'e', 'f', 'c']
set후: {'e', 'b', 'c', 'a', 'd', 'f'}


### 중복된 값만 추출하고 싶은 경우

In [12]:
temp_list = ['a','c','d','e','a','f','c']
duplicated = set([x for x in temp_list if temp_list.count(x) > 1])
print(duplicated)

{'a', 'c'}


### 교집합, 합집합, 차집합

In [20]:
# 교집합

set_1 = set(['yellow', 'red', 'blue', 'green', 'black']) #기준
set_2 = set(['red', 'brown'])
print(set_1.intersection(set_2))

{'red'}


{'black', 'blue', 'brown', 'green', 'red', 'yellow'}

In [21]:
# 합집합

set_1 = set(['yellow', 'red', 'blue', 'green', 'black']) #기준
set_2 = set(['red', 'brown'])
print(set_1.union(set_2))

{'green', 'brown', 'yellow', 'blue', 'black', 'red'}


In [19]:
# 차집합

set_1 = set(['yellow', 'red', 'blue', 'green', 'black']) 
set_2 = set(['red', 'brown'])
print("set_1이 기준:", set_1.difference(set_2)) #set_1가 기준
print("set_2가 기준:", set_2.difference(set_1)) #set_2가 기준

set_1이 기준: {'green', 'black', 'blue', 'yellow'}
set_2가 기준: {'brown'}


### set의 특징
- list(indexing, slicing모두 가능), dictionary(indexing만 가능)와는 달리, indexing과 slicing 모두 안됨

In [25]:
temp_list = [1,2,3,4,5]
temp_dict = {'a':1, 'b':2, 'c':3, 'd':4, 'e':5}
temp_set = {1,2,3,4,5}

In [29]:
print(temp_list[1])
print(temp_list[:3])

2
[1, 2, 3]


In [33]:
print(temp_dict['a'])
# print(temp_dict['a':'c'])

1


In [34]:
print(temp_set[0])
print(temp_set[:3])

TypeError: 'set' object does not support indexing

### 속도비교
- list, set, dict

In [100]:
figure_iteration_list = [num for num in range(1000001)]
keys = [key for key in range(100,1000101)]
values = [value for value in range(1000001)]

from timeit import timeit

def test_iter(data):
    for i in data:
        pass

def test_iter_dict(data):
    for key, value in data.items():
        pass
    
iter_numbers=1000

#list
print(timeit('test_iter(data)', number=iter_numbers, 
             setup="from __main__ import test_iter; \
             data=list(num for num in range(1000001))"))
#set
print(timeit('test_iter(data)', number=iter_numbers, 
             setup="from __main__ import test_iter; \
             data=set(num for num in range(1000001))"))
#dict (key)
print(timeit('test_iter(data)', number=iter_numbers, 
             setup="from __main__ import test_iter; \
             data=dict(key=[key for key in range(100,1010001)], value=[value for value in range(1000001)])"))
#dict (key, value)
print(timeit('test_iter_dict(data)', number=iter_numbers, 
             setup="from __main__ import test_iter_dict; \
             data=dict(key=[key for key in range(100,1010001)], value=[value for value in range(1000001)])"))

9.479959119029445
13.34767472684507
0.0002879998864955269
0.00027693816264218185


In [121]:
figure_iteration_list = [num for num in range(100001)]
keys = [key for key in range(100,100101)]
values = [value for value in range(100001)]
figure_iteration_dict = dict(zip(keys, values))

def test_list(data):
    list_blank = []
    for i in data:
        list_blank.append(i)
    return list_blank

def test_dict(data):
    dict_blank = {}
    for key_n, value_n in data.items():
        dict_blank[key_n] = value_n
    return dict_blank

# list_blank = test_list(figure_iteration_list)
# dict_blank = test_dict(figure_iteration_dict)

%timeit test_list(figure_iteration_list)
%timeit test_dict(figure_iteration_dict)

6.71 ms ± 121 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
13.9 ms ± 179 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


### Python list 성능구조 분석

In [1]:
def makeListUsingAppend(N):
    result = []
    for i in range(N):
        result.append(i)
    return result

from time import time
t0 = time()
makeListUsingAppend(10000)
print ("걸린시간 : %.2e" % (time()-t0))

걸린시간 : 2.99e-03


In [5]:
def makeListUsingBulkAlloc(N):
    result = [0]*N #한번에 N개의 공간을 0으로 채우는 방법입니다.
    for i in range(N):
        result[i] = i
    return result

t0 = time()
makeListUsingBulkAlloc(10000)
print ("걸린시간 : %.2e" % (time()-t0))

걸린시간 : 9.97e-04
