In [4]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

## 문자열

> \<INTRO>  \
> 파이썬 자체가 문자열 데이터를 처리하고 가공하기가 비교적 쉽다. \
> Numpy에서는 문자열 접근하려면 루프 구문이 필요하다 => 주로 pandas에서 벡터화된 문자열 처리에 특화되있다\
> pandas는 문자열을 담고 있는 Series 혹은 Index 객체의 str 속성을 통해 벡터화된 문자열 연산 수행 가능하다
>

### 1.파이썬 string

<par>우선적으로 파이썬 내장 객체인 문자열에 대해 살펴보고 나아가 re 패키지를 통해 정규표현식을 살펴보자.\
이 기능들은 pandas에서 벡터화된 문자열을 처리하는 기능들과 거의 동일하기 때문이다 

- `string` class in python
- `re` module

#### 문자열 연산
- 파이썬에서는 문자열을 곱하거나 더할 수 있다

In [1]:
a = 'hello'
a + ' my name is'

'hello my name is'

In [5]:
a = 'hello'
a*3 # 반복한다

print('='*50)

'hellohellohello'



#### 문자열 길이

In [7]:
len('hello')
len('hello   ') # 공백도 문자열이다

5

8

#### 문자열 indexing, slicing

In [8]:
a = 'Hi my name is kanghee'
a[0]
a[-1]

'H'

'e'

In [9]:
a = 'Hi my name is kanghee'
a[0:10]

'Hi my name'

#### 문자열 formatting
- 여러가지 방법이 존재한다.
- f 문자열 포매팅만 알아도 충분하다

In [11]:
# 기본 사용 방법
d = 10.2232423
f'The price is {d}'

'The price is 10.2232423'

In [12]:
p = 10.2232423
e = 2.2323
f'The price is {d} and your exchane is {e}'

'The price is 10.2232423 and your exchane is 2.2323'

In [15]:
# {}안에서는 파이썬 문법 사용할수 있다
d = 10.2232423
f'The price is {d+100}'

prices = [1,2,3,4,5]
f'The price is {prices[0]+10000}'

'The price is 110.2232423'

'The price is 10001'

In [18]:
# 자릿수
# :자릿수 로 표현한다
f'{"hi":10}'

'hi        '

In [25]:
# 근데 상식적으로 len('hi')가 2인데
# 자릿수 1 을 주면 무시한다
f'{"hi":1}'

'hi'

In [24]:
# 숫자 자릿수
d = 10.2232423
f'The price is {d:20}'

'The price is           10.2232423'

In [27]:
# 소숫점 자릿수
# {:0.nf} 소숫점 n자릿수 까지 표현
d = 10.2232423
f'The price is {d:0.4f}'

# 문자열 자릿수 + 소숫점 자리수
# 자릿수 총 20으로 맞추되 소숫점은 4자리 까지
f'The price is {d:20.4f}'

'The price is 10.2232'

'The price is              10.2232'

In [16]:
# 정렬
f'{"hi":<10}'  # 왼쪽 정렬

f'{"hi":>10}'  # 오른쪽 정렬

f'{"hi":^10}'  # 가운데 정렬


'hi        '

'        hi'

'    hi    '

#### 문자열 관련 함수들

In [31]:
# 문자 갯수 세기 => count
a = 'hi hello happy horse'
a.count('h')
a.count('ll') # ll이 하나의 문자열인거다

4

1

In [35]:
# 위치 알려주기 1 => find
# 문자열 길이가 1보다 클때는 시작 위치를 알려주는 거겠지
# 문자열 중 문자 b가 처음으로 나온 위치를 반환한다. 만약 찾는 문자나 문자열이 존재하지 않는다면 -1을 반환한다.
a = 'hi hello happy horse'
a.find('h')
a.find('ll')
a.find('ㅁ')

0

5

-1

In [39]:
# 위치 알려주기 2 => index
# index 함수는 문자열 존재하지 않으면 에러난다
a = 'hi hello happy horse'
a.index('h')
a.index('ll')
a.index('ㅁ')

0

5

ValueError: substring not found

In [41]:
# upper lower
a = 'hi hello happy horse'
a.upper()
a.upper().lower()

'HI HELLO HAPPY HORSE'

'hi hello happy horse'

In [44]:
# rstip lstip strip
a = '     hi hello happy horse     '
a.rstrip()
a.lstrip()
a.strip()

'     hi hello happy horse'

'hi hello happy horse     '

'hi hello happy horse'

In [46]:
# 문자열 바꾸기 -> replace
# 싹 다 바꾼다
a = '     hi hello happy horse     '
a.replace('h','H')

a.replace(' ','') # 공백 다 지워버리기

'     Hi Hello Happy Horse     '

'hihellohappyhorse'

In [51]:
# 문자열 생성 -> join
# unpack해서 구분자로 합친다
','.join('abcd')
','.join(['a','b','c','d'])
','.join(('a','b','c','d'))

'a,b,c,d'

'a,b,c,d'

'a,b,c,d'

In [53]:
# 문자열 나누기 -> split
# 구분자로 나누어 리스트로 반환하낟
'a,b,c,d'.split(',')

'a b c d'.split(' ')

['a', 'b', 'c', 'd']

['a', 'b', 'c', 'd']

### 2.re 모율
**정규 표현식을 위한 파이썬 내장 모듈이다**

조금 후의 볼 판다스 정규표현식 메서드는 대부분이 re모듈을 계승한다

- match()	문자열의 처음부터 정규식과 매치되는지 조사한다.
- search()	문자열 전체를 검색하여 정규식과 매치되는지 조사한다.
- findall()	정규식과 매치되는 모든 문자열(substring)을 리스트로 돌려준다.
- finditer()	정규식과 매치되는 모든 문자열(substring)을 반복 가능한 객체로 돌려준다.

In [56]:
import re

##### 메타문자
> 메타 문자란 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자를 말한다.
- [ ]: 괄호 사이의 문자들과 매치
- -(하이픈): [from -  to]


- \d: 숫자[0-9]
- \D: 숫자가 아닌것을 의미[^0-9]
- \s: 공백[\n\t\r\v]
- \S: 공백이 아닌것[^\n\t\r\v]
- \w: 문자+숫자+_ [a-zA-Z0-9_]
- \W: 문자+숫자+_ 아닌것 [^a-zA-Z0-9_]
- . : 개행문자(\n)를 제외한 모든 문자
    

- ^: 시작문자를 매치        ex) ^a
- \\$: 문자열의 끝과 매치     ex) \\$a


- \* : 반복(0-무한대)
- \+ : 반복(1-무한대)
- ? : 있어도 되고 없어도 된다.(0 or 1)
- {cnt} : cnt만큼 반복        ex) {x,y}: x~y번 반복

> 처음 메타 문자를 봤을때 가장 헷갈리는게 [], 문자 클래스를 의미한다\
> [], 문자 클래스에는 어떠한 문자도 들어갈수 있고 여러개의 문자가 들어간다면 여러개의 문자 중 한개와의 match를 의마한다\
> -,하이픈 을 사용해 문자클래스 안에 범위를 사용해서 표현 가능하다 [a-zA-Z] : 대소문자 포함한 모든 알파벳

#### match search
- match: 문자열의 처음부터 정규표현식과 매치되는지 조사한다 
- search: 문자열 전체를 검색하여 정규표현식과 매치되는지 조사한다
- => 없을땐 둘다 **NONE**이다


**<주의>**\
match, search 둘다 반환 타입이 match 인걸 기억하자

In [60]:
# re.match() => 신기한건 문자열이 처음부터 정규식에 나타나는지
# re.search('^[a-zA-Z]','33asc') 동일한 코드다

# 문자열이 알파벳으로 시작하냐?
re.match('[a-zA-Z]','33asdf') # 문자열로 시작하지 않기 때문에 지금 이건 반환값이 None이다

# 숫자로 시작하냐?
re.match('\d','33asdf')

# 하나 이상의 숫자로 시작하냐?
re.match('\d+','33asdf') 

<re.Match object; span=(0, 1), match='3'>

<re.Match object; span=(0, 2), match='33'>

In [64]:
# 문자열 있냐?
re.search('[a-zA-Z]','33asdf') 

# 숫자 있냐?
re.search('[0-9]','33asdf') 

<re.Match object; span=(2, 3), match='a'>

<re.Match object; span=(0, 1), match='3'>

In [69]:
# . vs [.]
# .은 \n 제외한 모든 문자 가능하다
# [.] 점을 의미한다
print(re.search('a[.]b','acb'))
print(re.search('a[.]b','a.b'))
print(re.search('a.b','acb'))

None
<re.Match object; span=(0, 3), match='a.b'>
<re.Match object; span=(0, 3), match='acb'>


#### 시작과 끝

In [104]:
# 영문자로 시작하니?
print(re.search('^[a-zA-Z]+','33aa'))
print(re.search('^[a-zA-Z]+','aaaaa111')) # 반환 타입은  패터에 해당하는 부분만 반환한다

None
<re.Match object; span=(0, 5), match='aaaaa'>


In [107]:
# 패턴이 완전히 일치하는지 검사
# .를 통해 공백까지도 생각
# ^[a-zA-Z].*!$ => 영문으로 시작 중간에 문자+공백 있고 끝날때 ! 끝난다
print(re.search('^[a-zA-Z].*!$','I like you!')) 

print(re.search('^[a-zA-Z].*!$','I like you'))

<re.Match object; span=(0, 11), match='I like you!'>
None


#### 반복
- 우선 re.match 를 기준으로 살펴보자

In [73]:
# *: 0번이상 반복
re.match('ca*','c')
re.match('ca*','cab')
re.match('ca*','caaaab')

<re.Match object; span=(0, 1), match='c'>

<re.Match object; span=(0, 2), match='ca'>

<re.Match object; span=(0, 5), match='caaaa'>

In [74]:
# +: 1번이상 반복
re.match('ca+','c') # None이다
re.match('ca+','cab')
re.match('ca+','caaaab')

<re.Match object; span=(0, 2), match='ca'>

<re.Match object; span=(0, 5), match='caaaa'>

In [77]:
# ?: 있거나 말거나
re.match('ca?','c') # None이다
re.match('c(a+)?','cab')
re.match('c(a+)?','caaaab')

<re.Match object; span=(0, 1), match='c'>

<re.Match object; span=(0, 2), match='ca'>

<re.Match object; span=(0, 5), match='caaaa'>

In [95]:
# ? 쓸때 유의
re.match('ca+?','caaab') # minimal  mode
re.match('ca?','cab') # a 가 있거나 없거나, 이때는 greedy하게 있는 경우 돌려준다


<re.Match object; span=(0, 2), match='ca'>

<re.Match object; span=(0, 2), match='ca'>

#### findall
- 패턴에 걸리는 모든 문자열을 리스트로

##### 궁금한게 search할때 만족하는게 여러개 있으면 어떻게 될까 
- 앞에서 부터 찾는다
- 만족하는 한 최대한 greedy한 값을 돌려준다 ex) *,+

In [65]:
# 아무리 뒤에가 더 그리디 하다해도 앞에서 부터 찾아간다
# 그다음 greedy다

re.search('[a-zA-Z]+','33aad bcdaasdfasfas')
# aad를 먼저 찾아가고 
# +니깐 aad다 돌려준다

<re.Match object; span=(2, 5), match='aad'>

- Adding ? after the quantifier makes it perform the match in non-greedy or minimal fashion

In [93]:
# ? minimal mode 
re.search('[a-zA-Z]+?','33asdf') # a에서 멈춘다

<re.Match object; span=(2, 3), match='a'>

In [100]:
# 항상 규칙이 들어맞지는 않는다
re.search('[a-zA-Z]*?','33asdf') 


re.search('.*','33asdf') 
re.search('.*?','33asdf') 

<re.Match object; span=(0, 0), match=''>

<re.Match object; span=(0, 6), match='33asdf'>

<re.Match object; span=(0, 0), match=''>

#### findall
- 패턴에 걸리는 모든 문자열을 리스트로

In [96]:
# .: \n 제외한 모든 문자
# *: 0개이상

re.findall('<tr>.*</tr>','<tr>hi</tr> <tr>hiiiii</tr> <tr>hi</tr>')

['<tr>hi</tr> <tr>hiiiii</tr> <tr>hi</tr>']

In [138]:
# 헷갈리면 안되는게

re.findall('<tr>.*?</tr>','<tr>hi</tr> <tr>hiiiii</tr> <tr>hi</tr>') # minimal하게 뽑는다

re.findall('<tr>\w+</tr>','<tr>hi</tr> <tr>hiiiii</tr> <tr>hi</tr>') # 아예 \w로 공백이 뽑힐 가능성 없애버리자

['<tr>hi</tr>', '<tr>hiiiii</tr>', '<tr>hi</tr>']

['<tr>hi</tr>', '<tr>hiiiii</tr>', '<tr>hi</tr>']

In [103]:
# 아무리 greedy가 적용이 되어도 \w이기때문에 공백에서 막힌다
re.findall('\w+','life is good')

['life', 'is', 'good']

#### group 이용하기
- 반환값이 match일때 사용가능하다
- <U>그룹의 시작과 끝은 ( )로 나타낸다</U>
- 그룹을 사용하는 이유? => 패턴중 내가 원하는 부분만 추출 가능

In [121]:
re.search('[0-9]([a-zA-Z]+)','2IIIII like you!')

re.search('[0-9]([a-zA-Z]+)','2IIIIII like you!').group(0)
re.search('[0-9]([a-zA-Z]+)','2IIIIII like you!').group(1) # 패턴 중에 내가 원하는 부분

<re.Match object; span=(0, 6), match='2IIIII'>

'2IIIIII'

'IIIIII'

In [125]:
re.search('[0-9]([a-zA-Z]+)([0-9]+)','2I33').group(0) # 전체 match 문자열

re.search('[0-9]([a-zA-Z]+)([0-9]+)','2I33').group(1) # 1번 group

re.search('[0-9]([a-zA-Z]+)([0-9]+)','2I33').group(2) # 2번 group


'2I33'

'I'

'33'

#### match 객체

- group()	매치된 문자열을 리턴한다.
- start()	매치된 문자열의 시작 위치를 리턴한다.
- end()	매치된 문자열의 끝 위치를 리턴한다.
- span()	매치된 문자열의 (시작, 끝)에 해당하는 튜플을 리턴한다.

In [141]:
for r in re.finditer('\w+','life is good'):
    r.group(),r.start(),r.end(),r.span()

('life', 0, 4, (0, 4))

('is', 5, 7, (5, 7))

('good', 8, 12, (8, 12))

#### finditer
- find all 과 비슷하게 수행되지만
- return값이 list가 아니라 callable_iterator => for문 사용 가능
- iterator 안에는 match 객체들로 채워져있다

In [130]:
re.findall('\w+','life is good')

type(re.finditer('\w+','life is good'))

for r in re.finditer('\w+','life is good'):
    r

['life', 'is', 'good']

callable_iterator

<re.Match object; span=(0, 4), match='life'>

<re.Match object; span=(5, 7), match='is'>

<re.Match object; span=(8, 12), match='good'>

In [139]:
# 응용
# 아주 유용하다
for r in re.finditer('<tr>(.*?)</tr>','<tr>hi</tr> <tr>hiiiii</tr> <tr>hi</tr>'):
    r.group(1)

'hi'

0

'hiiiii'

12

'hi'

28

### 3.pandas string
- .str를 통해 pandas str 메서드 접근 가능
- 벡터화된 문자열 메서드를 지원한다
- 메서드 뿐만 아닌 인덱싱 슬라이싱도 가능하다

**대부분 파이썬 문자열 내장함수들이다**

In [144]:
import pandas as pd

In [145]:
monte = pd.Series(['Graham Chapman','John Cleese','Terry Gilliam','Eric Idle','Micahel Palin'])
monte

0    Graham Chapman
1       John Cleese
2     Terry Gilliam
3         Eric Idle
4     Micahel Palin
dtype: object

In [149]:
monte.str.upper()
monte.str.lower()

0    GRAHAM CHAPMAN
1       JOHN CLEESE
2     TERRY GILLIAM
3         ERIC IDLE
4     MICAHEL PALIN
dtype: object

0    graham chapman
1       john cleese
2     terry gilliam
3         eric idle
4     micahel palin
dtype: object

In [151]:
monte.str.startswith('T') # boolean 반환

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [152]:
# 위치 반환 
# 없으면 -1값이었지
monte.str.find('G')

0    0
1   -1
2    6
3   -1
4   -1
dtype: int64

In [153]:
# 길이 
monte.str.len()

0    14
1    11
2    13
3     9
4    13
dtype: int64

In [156]:
monte.str.replace('G','ㅁ')

0    ㅁraham Chapman
1       John Cleese
2     Terry ㅁilliam
3         Eric Idle
4     Micahel Palin
dtype: object

In [154]:
monte.str.split()

0    [Graham, Chapman]
1       [John, Cleese]
2     [Terry, Gilliam]
3         [Eric, Idle]
4     [Micahel, Palin]
dtype: object

In [168]:
monte.str[:3]

0    Gra
1    Joh
2    Ter
3    Eri
4    Mic
dtype: object

### 4.pandas 정규표현식
re모듈을 기반으로 하고 있지만 조금 다른것도 있다
- macth() => re.match() 호출 부울 값 반환 (~로 시작하냐)
- containis() => re.search() 호출 부울 값 반환
- extract() => re.match() 호출, 매칭된 그룹 반환
- findall() => re.findall()
- replace() => 패턴이 발생한 곳 다른 문자열로 대체
- split() => str.split()과 동일하지만 정규표현식 pattern 받아들임


In [157]:
monte = pd.Series(['Graham Chapman','John Cleese','Terry Gilliam','Eric Idle','Micahel Palin'])
monte

0    Graham Chapman
1       John Cleese
2     Terry Gilliam
3         Eric Idle
4     Micahel Palin
dtype: object

In [165]:
monte.str.match('\w+')

0    True
1    True
2    True
3    True
4    True
dtype: bool

In [167]:
monte.str.match(' ')  #공백으로 시작?

monte.str.contains(' ') # 공백 존재?

0    False
1    False
2    False
3    False
4    False
dtype: bool

0    True
1    True
2    True
3    True
4    True
dtype: bool

In [164]:
monte.str.extract('(\w+) \w+') # 그룹 1만 존재

Unnamed: 0,0
0,Graham
1,John
2,Terry
3,Eric
4,Micahel


In [162]:
monte.str.extract('(\w+) (\w+)') # 그룹 1 ,그룹2

Unnamed: 0,0,1
0,Graham,Chapman
1,John,Cleese
2,Terry,Gilliam
3,Eric,Idle
4,Micahel,Palin


### 5. 부가적인 pandas 문자열 함수들

In [176]:
monte = pd.Series(['Graham Chapman','John Cleese','Terry Gilliam','Eric Idle','Micahel Palin'])
monte

0    Graham Chapman
1       John Cleese
2     Terry Gilliam
3         Eric Idle
4     Micahel Palin
dtype: object

In [178]:
monte.get(0)

'Graham Chapman'

In [177]:
monte.str.split().get(0)

['Graham', 'Chapman']

In [174]:
monte.str.split().str.get(0)

0     Graham
1       John
2      Terry
3       Eric
4    Micahel
dtype: object

In [179]:
monte.str.join(',')

0    G,r,a,h,a,m, ,C,h,a,p,m,a,n
1          J,o,h,n, ,C,l,e,e,s,e
2      T,e,r,r,y, ,G,i,l,l,i,a,m
3              E,r,i,c, ,I,d,l,e
4      M,i,c,a,h,e,l, ,P,a,l,i,n
dtype: object