# 문자열 처리 메서드

### 1. 기본 메서드 : 벡터의 연산이 불가능(매 원소마다 반복이 불가능) 

In [1]:
'abc'.upper()

'ABC'

In [2]:
'a/b/c'.split('/')[1]

'b'

In [4]:
l1 = ['abc','def']
l2 = ['a/b/c','d/e/f']

l1.upper() #불가능
l2.split('/') #불가능

AttributeError: 'list' object has no attribute 'upper'

map을 이용하여 벡터연산 가능

In [5]:
list(map(lambda x: x.upper(),l1))

['ABC', 'DEF']

In [7]:
list(map(lambda x: x.split('/'),l2))

[['a', 'b', 'c'], ['d', 'e', 'f']]

In [8]:
list(map(lambda x: x.split('/')[1],l2))

['b', 'e']

In [9]:
list(map(lambda x: x.split('/')[1],'2')) #불가능

IndexError: list index out of range

### 2. pandas 메서드 : 벡터화가 내장 되어 있어 매 원소마다 반복이 가능

#### split

In [11]:
from pandas import Series, DataFrame

In [12]:
l1

['abc', 'def']

In [13]:
Series(l1)

0    abc
1    def
dtype: object

In [14]:
s1 = Series(l1)

In [15]:
s2 = Series(l2)

In [17]:
s2.str.split('/')

0    [a, b, c]
1    [d, e, f]
dtype: object

#### 대소치환

In [18]:
s1

0    abc
1    def
dtype: object

In [19]:
s1.str.upper()

0    ABC
1    DEF
dtype: object

In [20]:
s1.str.title()

0    Abc
1    Def
dtype: object

#### replace

In [21]:
s1.str.replace('a','A')

0    Abc
1    def
dtype: object

In [22]:
s1.str.replace('a','')

0     bc
1    def
dtype: object

천단위 구분기호 처리 후 합계 구하기

In [23]:
# 천단위 구분기호 제거
s3 = Series(['1,200','3,000','4,000'])
s3.sum() 

'1,2003,0004,000'

In [25]:
# 문자로 입력되어있어 구분기호(',') 기준으로 나누어진 결합 상태로 인식
# sol 1) 구분기호 제거 후, sum 
s3.str.replace(',','').astype('int').sum()

8200

In [26]:
# sol 2)
s3 = s3.str.replace(',','')
sum(list(map(lambda x: int(x),s3)))

8200

#### 패턴확인 메서드 : startswith, endswith, contains

In [27]:
s1.str.startswith('a')

0     True
1    False
dtype: bool

In [28]:
s1[s1.str.startswith('a')] #s1의 각 원소 중 'a'로 시작하는 원소 추출

0    abc
dtype: object

In [29]:
s1[s1.str.endswith('c')] #s1의 각 원소 중 'c'로 끝나는 원소 추출

0    abc
dtype: object

In [30]:
s1[s1.str.contains('e')] #s1의 각 원소 중 'e'를 포함하는 원소 추출

1    def
dtype: object

#### 문자열 크기(len)

In [31]:
s1.str.len()

0    3
1    3
dtype: int64

#### 포함 개수 세기(count)

In [32]:
Series(['aabbbb','abcdadd']).str.count('a')

0    2
1    2
dtype: int64

#### 문자 or 공백 제거 (strip)

In [33]:
Series(['     cd     ', '            df      ']).str.strip()

0    cd
1    df
dtype: object

In [35]:
Series(['     cd     ', '            df      ']).str.strip().str.len()

0    2
1    2
dtype: int64

In [37]:
Series(['aaabaaabcd','abcdaa']).str.strip('a') 
#중간에 위치한 문자는 삭제 불가능

0    baaabcd
1        bcd
dtype: object

In [38]:
# replace 로 해결
Series(['aaabaaabcd','abcdaa']).str.replace('a','')

0    bbcd
1     bcd
dtype: object

#### 위치값 리턴(find)

In [39]:
s3 = Series(['sinae@python.kr','abcde@fghj.com'])
s3.str.find('@')

0    5
1    5
dtype: int64

In [40]:
# 이메일 아이디 추출
s4 = Series(['sinae@naver.com','bus@driver.kr'])
a = s4.str.find('@')

In [41]:
# sol 1
list(map(lambda x,y : x[0:y], s4, a))

['sinae', 'bus']

In [42]:
# sol 2
s4.map(lambda x: x[:x.find('@')])  

0    sinae
1      bus
dtype: object

#### 문자열 삽입(pad)

- s1.str.pad(총 자리수, 삽입 방향, 삽입 글자)

In [43]:
s1.str.pad(5,'left','!')

0    !!abc
1    !!def
dtype: object

In [44]:
s1.str.pad(5,'right', '!')

0    abc!!
1    def!!
dtype: object

In [45]:
s1.str.pad()

TypeError: pad() missing 1 required positional argument: 'width'

#### 문자열 결합(cat,join)

- cat

In [48]:
s4 = Series(['abc','def','123'])
s4.str.cat()

'abcdef123'

In [49]:
s4.str.cat(sep='/')

'abc/def/123'

- join

In [50]:
s5 = Series([['a','b','c'],['d','e','f']])
s5.str.join(sep='')

0    abc
1    def
dtype: object

In [51]:
s5.str.join(sep=',') 

0    a,b,c
1    d,e,f
dtype: object