## *itertools*

### 자신만의 반복자를 만드는 모듈
### 데이터 조작을 편하게 하기 위함, 기본적으로 무한 루프를 가정하고 만들어진 라이브러리

In [2]:
import itertools # 패키지 임포트

**1. chain() 함수 - 리스트(list/tuples/iterables) 연결한다.**

In [9]:
from itertools import chain

letters = ['a', 'b', 'c', 'd', 'e', 'f']
booleans = [1, 0, 1, 0, 0, 1]
decimals = [0.1, 0.7, 0.4, 0.4, 0.5]

print(list(chain(letters, booleans, decimals)))



['a', 'b', 'c', 'd', 'e', 'f', 1, 0, 1, 0, 0, 1, 0.1, 0.7, 0.4, 0.4, 0.5]


In [36]:
country = ['대한민국','스웨덴', '미국']
capital = ['서울','스톡홀름','워싱턴']
c = chain(country, capital)
print(list(c))


['대한민국', '스웨덴', '미국', '서울', '스톡홀름', '워싱턴']


In [32]:
# next()는 반복자를 입력받아 그 반복자가 다음에 출력해야 할 요소를 반환함
# itertools의 모든 함수는 이터레이터(next()를 가진 모든 객체)를 반환한다.
c2 = chain(country, capital)
next(c2)

'대한민국'

**2. count() 함수 - count(시작, [step]).**

시작 숫자부터 step만큼(없으면 1) 씩 무한히 증가한다.
반복하고자 하는 최대수를 미리 알지 않아도 되는 경우에 사용함.

In [47]:
from itertools import count
for number, letter in zip(count(0,10),['a','b','c','d''e']): # 0부터 시작해서 10씩 5개의 요소에 대해 필요한 만큼 증가시켜줌.
     print('{0}: {1}'.format(number, letter))

# 시작과 step만 있는 range함수 느낌

0: a
10: b
20: c
30: de


**itertools의 izip 함수 -> zip()함수**

In [50]:
print(list(zip([1,2,3],['a','b','c'])))

[(1, 'a'), (2, 'b'), (3, 'c')]


**itertools의 imap 함수 -> map()함수**

In [51]:
print(list(map(lambda x:x*x, range(10))))

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]


**3. islice() 함수 - islice(iterable객체, [시작], 정지[,step])** 

iterable한 객체를 특정 범위로 슬라이싱하고 iterator로 반환됩니다.

In [52]:
from itertools import islice

for i in islice(range(10),5): # 0~10의 반복가능 객체에서 5번째 안으로 자르기
    print(i)

0
1
2
3
4


In [55]:
# (0~100의 반복가능 객체, 시작 색인 0, 끝 색인 100, step=10)
for i in islice(range(100),0,100,10): 
    print(i)

0
10
20
30
40
50
60
70
80
90


**4. cycle() 함수 - 순환가능한 객체에서 요소를 반복적으로 생성**

In [60]:
from itertools import cycle
for number, letter in zip(cycle(range(2)),['a','b','c','d','e']):
    print('{0}:{1}'.format(number, letter))

# number은 range(2)로 0,1 이 반복됨.
# 오른쪽 리스트에 따라 한정지어지는 특성을 가짐.

0:a
1:b
0:c
1:d
0:e


**5. dropwhile() 함수 - 필터링 함수 1**

In [61]:
from itertools import dropwhile
print(list(dropwhile(lambda x:x < 10, [1,4,5,7,11,34,66,48,78,5,1])))

# 10보다 큰 것이 나올 때까지 모든 요소는 drop시키고 나머지 것을 리턴 

[11, 34, 66, 48, 78, 5, 1]


**6. takewhile() 함수 - 필터링함수 2**

In [62]:
from itertools import takewhile
print(list(takewhile(lambda x:x < 10, [1,4,5,7,11,34,66,48,78,5,1])))

# 10보다 큰 것이 나올 때까지의 모든 요소를 리턴. 10보다 큰 요소 이후는 drop한다.

[1, 4, 5, 7]


**filter() 함수 - 필터링함수 3**

In [65]:
print(list(filter(lambda x:x < 10, [1,4,5,7,11,34,66,48,78,5,1])))

# 10보다 작은 모든 요소를 리턴

[1, 4, 5, 7, 5, 1]


**7. groupby() 함수 -  함수사용 전 정렬할 function을 sorting 해야 함.**

In [76]:
from operator import itemgetter
from itertools import groupby

attempts = [
    ('dan', 87),
    ('erik', 95),
    ('jason', 79),
    ('erik', 97),
    ('dan', 100)
]

# groupby 함수를 사용하기 위해 이름 기준으로 정렬한다. 
# key 함수로 itemgetter(0)를 이용하여 이름순으로 정렬함. 
# itemgetter(1)은 점수의 오름차순. 

attempts.sort(key=itemgetter(0)) 
#print(attempts)

# 이름 : 점수 리스트 사전 만들기
print({key: sorted(map(itemgetter(1), value)) for key, value in groupby(attempts, key=itemgetter(0))})



{'dan': [87, 100], 'erik': [95, 97], 'jason': [79]}


In [77]:
import pandas as pd
import numpy as np

In [79]:
df_search1 = pd.read_csv('제5회 Big Data Competition-분석용데이터-02.Search1.csv')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc1 in position 0: invalid start byte

In [None]:
ck = df_search1
ck = df_search1.drop(columns = ['SESS_ID','SEARCH_CNT'])

In [None]:

clnt = list(set(ck['CLNT_ID'])) # Clinet ID 중복제거
clnt_or = list(ck['CLNT_ID']) # Client ID list


cklst = ck.values.tolist() # 리스트 변환

In [None]:


clkwd = ck['KWD_NM']
clkwd[0:5]

len(ck)
ck[ck['CLNT_ID'] == 14]['KWD_NM']
