# Python : `str.split` 함수

`split` 은 문자열을 구분하는 함수입니다. 문자열 뒤에 `split` 을 붙이면 내장 알고리즘에 의해 공백을 기준으로 문자열이 분할됩니다.

* 일정한 구분자가 존재한다면, 해당 구분자를 사용해서 자동으로 분리합니다.
* 문자를 분리하는 작업을 수행한다면, 문장의 처음이나 마지막에 공백이 무시됩니다.
* 공백의 숫자가 달라도 문자만 분리됩니다.

python str.split 문서 : [link](https://docs.python.org/3/library/stdtypes.html#str.split)

In [1]:
sample = 'hello python sample sentences'
sample2 = 'hello python sample sentences '  # 마지막에 공백이 포함된 문장
sample3 = '  hello  python  sample sentences  ' # 공백이 두칸과 한칸이 모두 존재
sample4= '  hello  python , sample/ sentences ' # 공백과 다른 구분자가 존재
sample5= 'hello,python,sample,sentences' # 공백과 다른 구분자가 존재

In [2]:
print(sample.split())

['hello', 'python', 'sample', 'sentences']


In [3]:
print(sample2.split())

['hello', 'python', 'sample', 'sentences']


In [4]:
print(sample3.split())

['hello', 'python', 'sample', 'sentences']


In [5]:
print(sample4.split())

['hello', 'python', ',', 'sample/', 'sentences']


In [6]:
print(sample5.split())

['hello,python,sample,sentences']


`split` 안의 `sep` 파라미터로 원하는 구분자로 문장을 분리할 수 있습니다.

* 문자열을 읽어가면서 구분자가 등장하면 분리합니다.
* 만약 구분자가 문장의 마지막에 있다면, 맨 마지막은 "" 로 반환됩니다.

In [7]:
print(sample.split(' ')) # 공백으로 문장분리

['hello', 'python', 'sample', 'sentences']


In [8]:
# 문장에 끝에 공백이 존재
sample2 = 'hello Pyrhon sample/sentences ' 
print(sample2.split(' '))

['hello', 'Pyrhon', 'sample/sentences', '']


In [9]:
# 문장의 앞, 뒤에 공백이 두칸 존재
sample3 = '  hello  Pyrhon  sample sentences  '
print(sample3.split(' '))

['', '', 'hello', '', 'Pyrhon', '', 'sample', 'sentences', '', '']


In [10]:
# 문장의 앞, 뒤에 공백이 두칸 존재
sample3 = ',hello,Pyrhon,sample,sentences,,'
print(sample3.split(','))

['', 'hello', 'Pyrhon', 'sample', 'sentences', '', '']


`maxsplit`으로 구분한 문장의 결과수를 제한할 수 있습니다.


In [11]:
print(sample.split(maxsplit=1))

['hello', 'python sample sentences']


In [12]:
print(sample.split(maxsplit=2))

['hello', 'python', 'sample sentences']


In [13]:
print(sample.split(maxsplit=-1))

['hello', 'python', 'sample', 'sentences']


`re` 라이브러리를 이용하면 다수의 구분자로 문장을 분할할 수 있습니다.

* | 를 기준으로 원하는 구분자를 나열합니다. 예를 들어 ','와 ';' 가 구분자라면, ',|;' 를 `pattern` 파라미터로 입력합니다.

In [14]:
import re

In [15]:
sample = 'hello python, R and Go'

In [16]:
# 구분자로 ,과 공백을 사용
re.split(pattern=',|\s' , string=sample)

['hello', 'python', '', 'R', 'and', 'Go']

In [17]:
# 구분자로 ,과 공백, and을 사용
re.split(pattern=',|\s|and' , string=sample)

['hello', 'python', '', 'R', '', '', 'Go']