### 문자열 

In [1]:
import pandas as pd
import numpy as np

### 파이썬 내장 문자열 함수

| | |
| -- | -- |
| .count | 문자열에서 겹치지 않는 부분문자열의 개수를 반환 |
| .endswith | 문자열이 주어진 접미사로 끝날 경우 True 반환 |
| .startswith | 문자열이 주어진 접두사로 싲가할 경우 True 반환 |
| .join | 문자열을 구분자로 하여 다른 문자열을 순서대로 연결 |
| .index | 부분문자열의 첫 번째 글자의 위치를 반환 (부분문자열이 없을 경우 ValueError 에러 발생) |
| .find | **첫 번째** 부분문자열의 첫 번째 글자의 위치를 반환. index와 유사하지만 부분문자열이 없을 경우 -1 반환 |
| .rfind | **마지막** 부분문자열의 첫 번째 글자의 위치를 반환. 부분문자열이 없을 경우 -1 반환 |
| .replace | 문자열을 다른 문자열로 치환 |
| .strip, .rstrip, .lstrip | 개행 문자를 포함한 공백을 제거. 문자열의 좌/우 기준으로 lstrip / rstrip |
| .split | 문자열을 구분자를 기준으로 부분문자열의 리스트로 분리 |
| .lower | 알파벳 문자를 소문자로 변환 |
| .upper | 알파벳 문자를 대문자로 변환 |
| .casefold | 문자를 소문자로 변환. 지역 문자들은 그에 상응하는 대체 문자로 교체 |
| .ljust, .rjust | 문자열을 오른쪽 또는 왼쪽으로 정렬하고 주어진 길이에서 문자열의 길이를 제외한 나머지 부분은 공백 문자를 채워 넣음 |

#### ```.split('구분자')``` : 구분자를 기준으로 문자열 분리

In [19]:
val = 'a, b, guido'
val.split(',')

['a', ' b', ' guido']

#### ```.strip()``` : 공백문자 제거

In [20]:
# 공백제거 후 ','를 기준으로 분리
pieces = [x.strip() for x in val.split(',')] 
pieces

['a', 'b', 'guido']

- 문자열 연산

In [7]:
first, second, third = pieces
first + '::' + second + '::' + third
# '::'.join(pieces)

'a::b::guido'

#### 부분문자열 탐색
#### ```.index('문자')```, ```.find('문자')``` : 문자가 존재하면 1, 없으면 -1 반환

In [10]:
'guido' in val

True

In [11]:
val.index(',')

1

In [14]:
val.find(':')

-1

#### ```.cound('문자')``` : 특정 부분문자열의 발견 건수

In [15]:
val.count(',')

2

#### 문자열 치환
#### ```.replace('a', 'b')``` : a를 b로 치환

In [18]:
val.replace(',', '::')
val.replace(',', '')

'a b guido'

### 
### 정규 표현식
https://velog.io/@dosilv/python-%EC%A0%95%EA%B7%9C%ED%91%9C%ED%98%84%EC%8B%9Dregular-expression-%EC%82%AC%EC%9A%A9%EB%B2%95

### 정규 표현식 메서드
|  |  |
| -- | -- |
| .findall | 문자열에서 겹치지 않는 모든 발견된 패턴을 리스트로 반환 |
| .finditer | findall과 같지만 발견된 패턴을 이터레이터를 통해 하나씩 반환 |
| .match | 문자열의 시작점부터 패턴을 찾고, 선택적으로 패턴 컴포넌트를 그룹으로 나눔. 일치하는 패턴이 있다면 match 객체를 반환하고 그렇지 않으면 None을 반환 |
| .search | 문자열에서 패턴과 일치하는 내용을 검색하고 match 객체를 반환. .match 메서드와는 다르게 시작부터 일치하는 내용만 찾지 않고, 문자열 어디든 일치하는 내용이 있다면 반환 |
| .split | 문자열에서 패턴과 일차하는 부분을 정리 |
| .sub, .subn | 문자열에서 일치하는 모든 패턴(sub) 혹은 처음 n개의 패턴(nsub)을 대체 표현으로 치환. 대체 표현 문자열은 '\1', '\2'... 와 같은 기호를 사용해서 매치 그룹의 요소를 참조 |

In [21]:
import re

#### ```re.split('표현식', 텍스트)``` : 표현식을 기준으로 텍스트를 분리
- ```'\s+'``` : 하나 이상의 공백

In [60]:
text = "foo bar\t baz \tqux"
re.split('\s+', text)

['foo', 'bar', 'baz', 'qux']

#### ```re.compile('표현식', flags)``` : 정규 표현식 객체 재사용
- ```flags``` : ```re.IGNORECASE``` : 정규 표현식이 대소문자를 가리지 않도록 설정

In [61]:
regex = re.compile('\s+')
regex

re.compile(r'\s+', re.UNICODE)

In [62]:
regex.split(text)

['foo', 'bar', 'baz', 'qux']

#### ```.findall(텍스트)``` : 정규 표현식에 매칭되는 모든 패턴의 목록을 탐색

In [63]:
regex.findall(text)

[' ', '\t ', ' \t']

- 정규 표현식에서 '\'문자가 이스케이프되는 문제를 피하려면 raw 문자열 표기법 사용
#### 예: ```'C:\\x'```대신 ```'r'C:\x'```를 사용

In [64]:
text = """Dave dave@google.com
Steve steve@gmail.com
Rob rob@gmail.com
Ryan ryan@yahoo.com
"""
pattern = r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}' 

#### ```re.IGNORECASE``` : 정규 표현식이 대소문자를 가리지 않도록 설정

In [65]:
regex = re.compile(pattern, flags = re.IGNORECASE)

In [66]:
regex.findall(text)

['dave@google.com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']

#### ```.search(텍스트)``` : 정규 표현식에 일치하는 첫 번째 값 반환

In [67]:
m = regex.search(text)
m

<re.Match object; span=(5, 20), match='dave@google.com'>

In [68]:
text[m.start():m.end()]

'dave@google.com'

#### ```.match(텍스트)``` : 정규 표현식이 문자열의 시갖검에서부터 일치하는지 확인

In [69]:
print(regex.match(text))

None


#### ```.sub('치환문자', 텍스트)``` : 찾은 패턴을 주어진 문자열로 치환하여 새로운 문자열 반환

In [70]:
print(regex.sub('REACTED', text))

Dave REACTED
Steve REACTED
Rob REACTED
Ryan REACTED



#### 

- 이메일 주소를 찾아서 동시에 각 이메일 주소를 사용자 이름, 도메인 이름, 도메인 접미사 세가지 컴포넌트로 분할한다면, 각 패턴을 괄호로 묶어준다

In [71]:
pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'
regex = re.compile(pattern, flags = re.IGNORECASE)

- 이렇게 만든 match 객체를 이용하면 groups 메서드로 각 패턴 컴포넌트의 튜플을 얻을 수 있다

In [72]:
m = regex.match('webm@bright.net')
m

<re.Match object; span=(0, 15), match='webm@bright.net'>

In [73]:
m.groups()

('webm', 'bright', 'net')

- 패턴에 그룹이 존재한다면 .findall 메서드는 튜플의 목록을 반환

In [96]:
regex.findall(text)

[('dave', 'google', 'com'),
 ('steve', 'gmail', 'com'),
 ('rob', 'gmail', 'com'),
 ('ryan', 'yahoo', 'com')]

- .sub 역시 마찬가지로 '\1', '\2' 같은 특수한 기호를 사용해서 각 패턴 그룹에 접근할 수 잇다.
- '\1'은 첫 번째로 찾은 그룹을 의미, '\2'는 두 번째로 찾은 그룹을 의미

In [97]:
print(regex.sub(r'Username: \1, Domain: \2, Suffix: \3', text))

Dave Username: dave, Domain: google, Suffix: com
Steve Username: steve, Domain: gmail, Suffix: com
Rob Username: rob, Domain: gmail, Suffix: com
Ryan Username: ryan, Domain: yahoo, Suffix: com



### 
### 벡터화된 문자열 함수

### 벡터화된 문자열 메서드
|  |  |
| -- | -- |
| .cat | 선택적인 구분자와 함께 요소별로 문자열을 연결 |
| .contains | 문자열이 패턴이나 정규 표현식을 포함하는지 나타내는 boolean 배열 반환 |
| .count | 일치하는 패턴 수를 반환 |
| .extract | 문자열이 담긴 Series에서 하나 이상의 문자열을 추출하기 위해 정규 표현식을 이용. 결과는 각 그룹이 하나의 열이 되는 데이터 프레임 |
| .endswith | 각 요소에 대해 x.endswith(pattern)과 동일한 동작 |
| .startswith | 각 요소에 대해 x.startswith(pattern)과 동일한 동작 |
| .findall | 각 문자열에 대해 일치하는 패턴 / 정규 표현식의 전체 목록을 구함 |
| .get | i 번째 요소를 반환 |
| .isalnum | 내장 함수 str.isalnum과 동일 |
| .isalpha | 내장 함수 str.isalpha와 동일 |
| .isdecimal | 내장 함수 str.decimal과 동일 |
| .isdigit | 내장 함수 str.isdigit과 동일 |
| .islower | 내장 함수 str.islower과 동일 |
| .isnumeric | 내장 함수 str.isnumeric과 동일 |
| .isupper | 내장 함수 str.isupper과 동일 |
| .join | Series의 각 요소를 주어진 구분자로 연결 |
| .len | 각 문자열의 길이 |
| .lower, .upper | 대소문자로 변환 (x.lower(), x.upper()) |
| .match | 주어진 정규 표현식으로 각 요소에 대한 re.match를 수행하여 일치하는 그룹을 리스트로 반환 |
| .pad | 문자열의 좌, 우 혹은 양쪽에 공백을 추가 |
| .center | pad(side = 'both')와 동일 |
| .repeat | 값을 복사 (s.str.repeat(3)은 각 문자열에 대한 x * 3과 동일) |
| .replace | 패턴 / 정규 표현식과 일치하는 내용을 다른 문자열로 치환 |
| .slice | Series 안에 있는 각 문자열을 자름 |
| .split | 정규 표현식 혹은 구분자로 문자열을 나눔 |
| .strip | 개행 문자를 포함하여 왼쪽과 오른쪽의 공백 문자를 제거 |
| .rstrip | 오른쪽의 공백 문자를 제거 |
| .lstrip | 왼쪽의 공백 문자를 제거 |

In [84]:
data = {'Dave': 'dave@google.com', 'Steve': 'steve@gmail.com',
        'Rob': 'rob@gmail.com', 'Wes': np.nan}
data = pd.Series(data)
data

Dave     dave@google.com
Steve    steve@gmail.com
Rob        rob@gmail.com
Wes                  NaN
dtype: object

### ```시리즈.str.contains('특정문자')``` : '특정문자'을 포함하고 있는지 확인

In [85]:
data.str.contains('gmail')

Dave     False
Steve     True
Rob       True
Wes        NaN
dtype: object

In [86]:
pattern

'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\\.([A-Z]{2,4})'

In [87]:
data.str.findall(pattern, flags = re.IGNORECASE)

Dave     [(dave, google, com)]
Steve    [(steve, gmail, com)]
Rob        [(rob, gmail, com)]
Wes                        NaN
dtype: object

In [94]:
matches = data.str.match(pattern, flags = re.IGNORECASE)
matches

Dave     True
Steve    True
Rob      True
Wes       NaN
dtype: object