파이썬은 list comprehension이라는 좋은 코딩방법이 있습니다. docs는 list of list of str 입니다. 이를 list of str로 flatten 시키겠습니다. 

In [1]:
docs = [
    '이건 테스트 문장입니다'.split(),
    '두번째 줄이고요'.split(),
    '마지막 줄입니다'.split()
]

print(docs)

[['이건', '테스트', '문장입니다'], ['두번째', '줄이고요'], ['마지막', '줄입니다']]


[word for doc in docs for word in doc] 의 for doc in docs는 docs 라는 list를 돌면서 그 안의 doc 이라는 list를 가져오는 부분입니다. 그 다음의 for word in docs는 doc 이라는 list 안의 word 라는 str을 정의하는 부분입니다. 이런 word 들을 하나의 list로 묶는다는 의미로 [word for ... for ... ]이 적힙니다. 

In [2]:
flatten_docs = [word for doc in docs for word in doc]

print(flatten_docs)

['이건', '테스트', '문장입니다', '두번째', '줄이고요', '마지막', '줄입니다']


위와 동일한 코드는 아래와 같이 작성할 수 있습니다. 

In [3]:
flatten_docs_ = []
for doc in docs:
    for word in doc:
        flatten_docs_.append(word)

print(flatten_docs_)

['이건', '테스트', '문장입니다', '두번째', '줄이고요', '마지막', '줄입니다']


list comprehension은 list가 아니라 set이나 dict에도 적용이 됩니다. 

In [4]:
flatten_docs_set = {word for doc in docs for word in doc}

print(flatten_docs_set)

{'이건', '테스트', '문장입니다', '마지막', '줄이고요', '줄입니다', '두번째'}


In [5]:
term_vectors = {
    'doc1': '이건 테스트 문장입니다'.split(),
    'doc2': '두번째 줄이고요'.split(),
    'doc3': '마지막 줄입니다'.split()
}

flatten_terms = {term for key, terms in term_vectors.items() for term in terms}

print(flatten_terms)

{'이건', '테스트', '문장입니다', '마지막', '줄이고요', '줄입니다', '두번째'}


참고로 dict에서 유용한 기능 중 하나는 dict.keys(), dict.values(), dict.items() 입니다. 

keys()는 dict의 키를, values()는 값을, items()는 (key, value) pair를 iteration 할 수 있는 형태로 제공해줍니다. 

In [6]:
d = {
    'a': 1,
    'b': 2,
    'c': 5
}

print('\nitems()')
for key, value in d.items():
    print(key, value)
    
print('\nkeys()')
print([key for key in d.keys()])
    
print('\nvalues()')
print([value for value in d.values()])


items()
a 1
b 2
c 5

keys()
['a', 'b', 'c']

values()
[1, 2, 5]


values()는 dict 의 값들의 합을 구하는데도 유용합니다. 

In [7]:
sum(d.values())

8

파이썬의 또다른 유용한 기능은 enumerate입니다. 자바스럽게 다음을 짜보겠습니다. 

In [8]:
l = ['a', 'b', 'c', 'd', 'e']

for i in range(len(l)):
    print('l[{}] = {}'.format(i, l[i]))

l[0] = a
l[1] = b
l[2] = c
l[3] = d
l[4] = e


enumerate를 이용하면 iterable 한 자료형의 index를 함께 출력해줍니다. 

In [9]:
for i, item in enumerate(l):
    print('l[{}] = {}'.format(i, item))

l[0] = a
l[1] = b
l[2] = c
l[3] = d
l[4] = e


enumerate는 set, dict와 같이 iterable한 모든 경우에 이용이 가능합니다. 

In [10]:
s = ['a', 'b', 'c', 'd', 'e']

for i, item in enumerate(s):
    print('{}: {}'.format(i, item))

0: a
1: b
2: c
3: d
4: e
