# List Comprehension

In [1]:
# simple method
nums = [1,2,3,4,5]
sq_nums = []
for n in nums :
    sq_nums.append(n**2)
print(sq_nums)

[1, 4, 9, 16, 25]


In [2]:
# List comprehension
# []는 우리가 list를 만든다는 것을 의미함
# for n in nums에서 element 하나씩 가지고 와서 각각에 대해서 n**2
sq_nums = [n**2 for n in nums]
print(sq_nums)

[1, 4, 9, 16, 25]


In [3]:
vec = [2,4,6]
[3*x for x in vec]

[6, 12, 18]

In [4]:
[3*x for x in vec if x > 3]

[12, 18]

In [5]:
[3*x for x in vec if x < 2]

[]

In [6]:
[[x, x**2] for x in vec]

[[2, 4], [4, 16], [6, 36]]

In [7]:
[(x, x**2) for x in vec] # 이것도 가능

[(2, 4), (4, 16), (6, 36)]

In [8]:
# error : list 하나에 두 개의 element를 한 번에 만드는 것은 불가능
# 위의 경우처럼 list나 tuple은 가능

[x, x**2 for x in vec]

SyntaxError: invalid syntax (<ipython-input-8-09afd2321c3f>, line 3)

In [9]:
# 특정한 단어가 몇 번 나왔는지 알고 싶은 경우

email = ['once', 'upon', 'a', 'time', 'in', 'a', 'far', 'away']

# 'a'가 있으면 1이 들어감
a = [1 for x in email if x == 'a']

print(a)
print(len(a))

[1, 1]
2


# Template :

    new_list = [f(x) for x in iterable]
    iterable에는 list, dictionary, tuple이 있다.

In [10]:
# more list comprehension
words = ['hello', 'this', 'is', 'python']
ups = [word.upper() for word in words]
print(ups)

['HELLO', 'THIS', 'IS', 'PYTHON']


In [11]:
powers = [(x**2, x**3) for x in range(5)] # range(5) : 0부터 4까지, list of tuple이 만들어진다.
print(powers)

[(0, 0), (1, 1), (4, 8), (9, 27), (16, 64)]


In [12]:
# function 이용해서 list comprehension 사용하기
def isEven(num) :
    return (num % 2 == 0)

numbers = [2, 10, 7, 300, 63]
isEvens = [isEven(num) for num in numbers]

In [13]:
print(isEvens)

[True, True, False, True, False]


In [14]:
nuc = ['A', 'T']
codons = { x+y+z for x in nuc for y in nuc for z in nuc }

# x는 A 아니면 T가 된다. y는 A 아니면 T가 된다. z는 A 아니면 T가 된다.
# x, y, z는 경우의 수를 2개씩 가지고 있다. 2x2x2 = 8

print(codons)

{'TAT', 'AAT', 'TTA', 'TAA', 'ATT', 'ATA', 'AAA', 'TTT'}


In [15]:
# 4x4x4 = 64

nuc = ['A', 'T', 'C', 'G']
codons = { x+y+z for x in nuc for y in nuc for z in nuc }
print(codons)
print(len(codons))

{'CCG', 'TTG', 'TAC', 'CTA', 'CTG', 'AGC', 'CCT', 'CGA', 'GGC', 'TCG', 'ACT', 'TGT', 'TCA', 'GCG', 'TTA', 'ACG', 'TCC', 'GCA', 'GGA', 'TTC', 'GTA', 'GTC', 'TGC', 'GTT', 'TGG', 'GGG', 'CTC', 'ACA', 'AAT', 'TAG', 'CAT', 'CCA', 'GAA', 'AAA', 'AGA', 'ACC', 'GCC', 'TGA', 'CAC', 'AAG', 'TCT', 'CGT', 'AGT', 'GAC', 'GGT', 'GAT', 'ATA', 'ATG', 'AGG', 'CTT', 'GAG', 'CAG', 'TAT', 'CGG', 'CAA', 'AAC', 'TAA', 'ATT', 'CCC', 'CGC', 'ATC', 'TTT', 'GTG', 'GCT'}
64


In [16]:
myDict = {'a':10, 'b':20, 'c':30, 'd':40}
reverserDict = { value:key for key,value in myDict.items()}

# items()는 key와 value를 리턴하기 때문에 for에서 variable이 2개가 된다.
# value:key로 key를 value로 만들어주고, value를 key로 만들어준다.

print(reverserDict)

{10: 'a', 20: 'b', 30: 'c', 40: 'd'}


In [17]:
# key와 value가 unique하지 않은 경우

myDict = {'a':10, 'b':20, 'c':10, 'd':40}
reverserDict = { value:key for key,value in myDict.items()}
print(reverserDict) 
# 10: 'a'가 없어지고 10: 'c'로 바뀜

{10: 'c', 20: 'b', 40: 'd'}


# len : String, List, Tuple, Dictionary의 길이를 확인하는 함수

In [18]:
fruit = "banana"
print(len(fruit))

myList = [1, 2, [3,4], {"a":"123"}]
print(len(myList))

myTuple = (2,3,4)
print(len(myTuple))

myDict = {"a":{"cell":"123", "email":"a@email"}, "b":{"cell":222, "email":"b@email"}}
print(len(myDict))

6
4
3
2


# in : String, List, Tuple, Dictionary에 모두 적용됨

In [19]:
fruit = "banana"
for letter in fruit:
    print(letter, end = " ")
print()

myList = [1, 2, [3,4], {"a":"123"}]
for ele in myList:
    print(ele, end = " ")
print()

myTuple = (2,3,4)
for ele in myTuple:
    print(ele, end = " ")
print()

myDict = {"a":{"cell":"123", "email":"a@email"}, "b":{"cell":222, "email":"b@email"}}
for ele in myDict:
    print(ele, end = " ") # key값만 출력된다.
print()

for i, ele in myDict.items(): # items()가 있어야 key, value가 출력된다.
    print("{} {}".format(i,ele))

b a n a n a 
1 2 [3, 4] {'a': '123'} 
2 3 4 
a b 
a {'cell': '123', 'email': 'a@email'}
b {'cell': 222, 'email': 'b@email'}


# find : String에서 특정 패턴의 위치를 찾는 경우

In [20]:
# find

fruit = "banana"
pos = fruit.find("na") # "na"가 나오는 위치를 출력
print(pos)

aa = fruit.find("z") # 없는 것을 찾게 되면 return -1
print(aa)

2
-1


# replace : 찾은 패턴을 다른 패턴으로 치환하는 경우

In [21]:
# replace

greet = "Hello Bob!"
greet1 = greet.replace("Bob", "John")
print(greet1)

Hello John!


# strip : whitespace를 없애주는 함수(lstrip, rstrip, strip)

In [22]:
greet = "    Hello Bob!   "
print(greet)
print(greet.lstrip()) # left strip : 왼쪽 없애줌
print(greet.rstrip()) # right strip : 오른쪽 없애줌
print(greet.strip()) # strip : 양쪽 없애줌

    Hello Bob!   
Hello Bob!   
    Hello Bob!
Hello Bob!


# startswith : 특정 문자열로 시작하면 True 리턴

In [23]:
line = "Have a good weekend"
print(line.startswith("Have")) # "Have"로 시작했으면 True 리턴
print(line.startswith("h")) # 대소문자 구분하기 때문에 False 리턴

True
False


# find를 이용한 string parsing

### string.find(value, start, end)  
value : required, 찾으려고 하는 것  
start : optional, search를 시작하고자 하는 위치, default는 0  
end : optional, search를 끝내고자 하는 위치, default는 end of the string

In [24]:
data = "From park@ssu.ac.kr Sat Jan 09:11:44 2019"

atpos = data.find(" ") # " "의 위치를 찾으려고 함
print(atpos)

# atpos에 1을 더한 p에서부터 " "의 위치 찾기
blankpos = data.find(" ", atpos+1)
print(blankpos)

print(data[atpos+1:blankpos]) # 원하는 부분만 뽑아내기

anotherpos = data.find(" ", blankpos+1, blankpos+10)
print(anotherpos)

4
19
park@ssu.ac.kr
23


# split : String을 List로 변환하는 method

### split 함수는 a.split()처럼 괄호 안에 아무 값도 넣어 주지 않으면 공백(스페이스, 탭, 엔터 등)을 기준으로 문자열을 나누어 준다. 

### 만약 b.split(':')처럼 괄호 안에 특정 값이 있을 경우에는 괄호 안의 값을 구분자로 해서 문자열을 나누어 준다. 

In [25]:
greet = "    Hi! Good morning!  "
greetList = greet.split() # blank를 기준으로 단어가 잘라짐
print(greetList)

['Hi!', 'Good', 'morning!']


In [26]:
line = "first;second;third"
line1 = line.split()
line2 = line.split(";")
print(line1)
print(line2)

['first;second;third']
['first', 'second', 'third']


In [27]:
email = open("mbox-data.txt")
for line in email:
    print(line)

From park@ssu.ac.kr Sat Jan 9

he [InternetShortcut]

URL=http://localhost:8888/edit/untitled.txt#

told me 

From lee@ssu.ac.kr Sun Jan 10


In [28]:
email = open("mbox-data.txt")
for line in email:
    line = line.rstrip()
    if not line.startswith("From"):
        continue
    emailWord = line.split()
    print(emailWord)

['From', 'park@ssu.ac.kr', 'Sat', 'Jan', '9']
['From', 'lee@ssu.ac.kr', 'Sun', 'Jan', '10']
