In [7]:
"""String 은 Tuple 과 같은 변경 불가한 Sequence Data Structure"""
# string 의 글자 하나하나를 list/tuple 의 item 으로 생각하면 이해가 쉽다.
# string data 는 자연어 처리등에 매우 중요하다.
# 작업 하려는 data 를 정리할때도 string 관련 기능을 많이 사용하게 된다. (공백제거 등)

"""String Formatting"""
# 대개 print 문에 사용하지만, string data 자체를 만드는데 사용할수도 있다.

# float number 의 자릿수 지정
str_data = f'{17.489:.2f}'
print(str_data)

# integer 를 string 으로
str_data = f'{10:d}'
print(str_data)

# uni-code 숫자를 char 으로
str_data = f'{65:c} {97:c}'
print(str_data)

# string 은 default 이나 's' 로 지정해도 됨
str_data = f'{"hello":s} {7}' # 7 은 default 로 string 처리
print(str_data)

# floating-point and decimal values
from decimal import Decimal
str_data = f'{Decimal("10000000000000000000000000000.0"):.3f}' # floating
print(str_data)
str_data = f'{Decimal("10000000000000000000000000000.0"):.3e}' # exponential
print(str_data)

17.49
10
A a
hello 7
10000000000000000000000000000.000
1.000e+28


In [12]:
"""field 폭과 맞춤"""

# '27' 을 integer, 10칸으로, 우측 맞춤(default) 
str_data = f'[{27:10d}]' 
print(str_data)

# '3.5' 를 float, 10칸으로, 우측 맞춤(default) 
str_data = f'[{3.5:10f}]' 
print(str_data)

# 'hello' 를 10칸으로, 좌측 맞춤(default) 
str_data = f'[{"hello":10}]' 
print(str_data)

# '27' 을 integer, 15칸으로, 좌측 맞춤 
str_data = f'[{27:<15d}]' 
print(str_data)

# '3.5' 를 float, 15칸으로, 좌측 맞춤 
str_data = f'[{3.5:<15f}]' 
print(str_data)

# 'hello' 를 15칸으로, 우측 맞춤 
str_data = f'[{"hello":>15}]' 
print(str_data)

# '27' 을 integer, 7칸으로, 중앙 맞춤 
str_data = f'[{27:^7d}]' 
print(str_data)

# '3.5' 를 float, 7칸으로, 중앙 맞춤
str_data = f'[{3.5:^7.1f}]' 
print(str_data)

# 'hello' 를 7칸으로, 중앙 맞춤 
str_data = f'[{"hello":^7}]' 
print(str_data)

[        27]
[  3.500000]
[hello     ]
[27             ]
[3.500000       ]
[          hello]
[  27   ]
[  3.5  ]
[ hello ]


In [7]:
"""숫자를 형식(format)에 맞추어 출력"""

# 숫자에 부호를 붙이기. '+' 기호를 강제로 붙이기 (폭은 10으로)
str_data = f'[{27:+10d}]' 
print(str_data)

# 공백을 0 로 메꾸기
str_data = f'[{27:+010d}]' 
print(str_data)

# '+' 기호 대신 공백을 넣어, '-' 숫자와 줄 맞추기
str_data = f'{27:d}\n{27: d}\n{-27: d}' 
print(str_data)

# 천 단위로 ',' 넣기
str_data = f'{12345678:,d}' 
print(str_data)
str_data = f'{123456.09:,.2f}' 
print(str_data)

[       +27]
[+000000027]
27
 27
-27
12,345,678
123,456.09


In [17]:
"""String Changing Methods"""

# '.format' method
str_data = '{:.2f}'.format(17.49) 
print(str_data)

str_data = '{} {}'.format('Amanda', 'Cyan') 
print(str_data)

str_data = '{0} {0} {1}'.format('Happy', 'Birthday') # 0번째것을 두번 출력
print(str_data)

str_data = '{first} {last}'.format(first='Amanda', last='Cyan') # key 로 출력
print(str_data)
str_data = '{last} {first}'.format(first='Amanda', last='Cyan') 
print(str_data)

# string 연결 (concatenation)
s1 = 'happy'  
s2 = 'birthday'
s1 += ' ' +s2
print(s1)

# string 여러번 출력하기
str_data = '>'  
str_data *= 10 
print(str_data)

# 공백지우기 (자주 쓰는 method)
sentence = '\t \n This is a test string. \t\t \n'
str_data = sentence.strip() # 양쪽 모두 지우기
print(str_data)
str_data = sentence.lstrip() # 왼쪽만 지우기
print(str_data)
str_data = sentence.rstrip() # 오른쪽만 지우기
print(str_data)

# 대문자로 바꾸기
str_data = 'happy birthday'.capitalize() # 문장의 첫글자만
print(str_data)
str_data = 'strings: a deeper look'.title() # 모든 단어의 첫글자만
print(str_data)

17.49
Amanda Cyan
Happy Happy Birthday
Amanda Cyan
Cyan Amanda
happy birthday
>>>>>>>>>>
This is a test string.
This is a test string. 		 

	 
 This is a test string.
Happy birthday
Strings: A Deeper Look


In [21]:
"""String 비교하기"""

# 문자는 고유의 숫자를 가지고 있다.
print(f'A is {ord("A")}; a is {ord("a")}')

# 따라서 string 간 비교 연산이 가능하다.
print('Orange' == 'orange')
print('Orange' != 'orange')
print('Orange' < 'orange')
print('Orange' <= 'orange')
print('Orange' > 'orange')
print('Orange' >= 'orange')

A is 65; a is 97
False
True
True
True
False
False


In [30]:
"""String 검색 하기"""
# string 은 character 들의 list 로 볼 수 있다. 따라서 위치 지정을 포함한 검색이 가능하다. 소설책 한권에서 'A' 가 몇번 쓰였는지도 쉽게 확인 가능...

sentence = 'to be or not to be that is the question'

print(sentence.count('to')) # 'to'가 쓰인 갯수를 검색
print(sentence.count('to', 12)) # 12번째 글자이후 'to'가 쓰인 갯수를 검색
print(sentence.count('to', 12, 25)) # 12~25번째 글자에서 'to'가 쓰인 갯수를 검색
print(sentence.index('be')) # 'be'의 위치를 앞에서 부터 검색
print(sentence.rindex('be')) # 'be'의 위치를 뒤에서 부터 검색
print(sentence.find('be')) # 'be'의 위치를 앞에서 부터 검색. 없으면 -1 return
print(sentence.rfind('bo')) # 'be'의 위치를 뒤에서 부터 검색. 없으면 -1 return
print('that' in sentence) # 'that' substring 이 있는지 검색 
print('THAT' in sentence) # 'that' substring 이 있는지 검색 
print('THAT' not in sentence) # 'that' substring 이 있는지 검색 
print(sentence.replace('t', 'T')) 

7
1
1
3
16
3
-1
True
False
True
To be or noT To be ThaT is The quesTion


In [44]:
"""String 쪼개고 합치기"""
# String 을 쪼개고 합치는 것은 생각보다 많은데서 쓸 일이 많음. 문장 입력 분석 등

# ',' 로 분리된 string 을 쪼개거나, ',' 로 분리하여 합친것이 CSV (Comma Separated Values) file 임.

# string 을 token 으로 쪼개기
letters = 'A, B, C, D'
token = letters.split(', ') # 쪼개진 결과는 list 형태이다. 어떤 후속 작업이던 가능
print(type(token), token)
print(letters.split(', ', 2)) # 두번째까지만 split

# token 을 string 으로 합치기
token_list = ['A', 'B', 'C', 'D']
print(','.join(token_list)) # character 가 합쳐져서 string 이 됨
print(','.join([str(i) for i in range(10)])) # 0~9 숫자를 합쳐서 string 으로 함

# partition 은 string 을 3개 element 의 tuple 로 만들어 줌
score_data = 'Amanda: 89, 97, 92'
score_tuple = score_data.partition(': ')
print(type(score_tuple), score_tuple)

# rpartition 을 사용하면 매 뒤의 것만 분리할 수 있음
coursera_url = "https://www.coursera.org/learn/introduction-tensorflow"
rest_of_url, separator, content = coursera_url.rpartition('/')
print(content)
print(rest_of_url)

<class 'list'> ['A', 'B', 'C', 'D']
['A', 'B', 'C, D']
A,B,C,D
0,1,2,3,4,5,6,7,8,9
<class 'tuple'> ('Amanda', ': ', '89, 97, 92')
introduction-tensorflow
https://www.coursera.org/learn


In [45]:
"""Character Test"""
# Character test 는 대표적으로 입력된 string 이 제대로 된 것인지를 판단하는데 쓰인다.
# 아래 외에도 다양한 method 들이 있다.

# digit ('0-9' 사이의 character) 판단
print('-27'.isdigit())
print('27'.isdigit())

# alphanumeric (digit 과 letter) 판단
print('A9876'.isalnum())
print('123 Main Street'.isalnum())

False
True
True
False


In [None]:
"""Regular Expressions"""

# 복사한 내용이 계좌번호 인지 확인