<a href="https://colab.research.google.com/github/Jake0925/DeepLearning/blob/master/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 문자열(str) 처리법
- https://blog.naver.com/wideeyed/221603778414
- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.extract.html#pandas.Series.str.extract

In [1]:
import pandas as pd

In [2]:
# example sample
df = pd.DataFrame({'email':['happy@gmail.com', \
                            '1004@NAVER.COM', \
                            'manse@yahoo.co.kr']}) 

In [6]:
# 1) 클렌징 - 앞, 뒤 공백 등을 제거합니다.

df['email_strip']  = df['email'].str.strip()  # 앞 뒤 공백을 제거
df['email_lstrip'] = df['email'].str.lstrip() # 앞 공백을 제거
df['email_rstrip'] = df['email'].str.rstrip() # 뒤 공백을 제거 

In [7]:
# 2) 패딩, 고정길이 데이터를 이용해야 하는경우 왼쪽 또는 오른쪽 또는 중앙에 놓고 패딩합니다.

df['email_pad']    = df['email'].str.pad(width=20, side='left', fillchar='_') # 지정길이 패딩
df['email_center'] = df['email'].str.center(width=20, fillchar='_') # 중앙놓고 지정길이 패딩
df['email_ljust']  = df['email'].str.ljust(width=20, fillchar='_')  # 왼쪽놓고 지정길이 패딩
df['email_rjust']  = df['email'].str.rjust(width=20, fillchar='_')  # 오른쪽놓고 지정길이 패딩
df['email_zfill']  = df['email'].str.zfill(width=20)                # 지정길이 0패딩


In [8]:
# 3) 분할, 구분자를 이용하여 새로운 컬럼을 생성합니다.

# split(): 구분자를 기준으로 n개로 나눈다, expand=True이면 여러 컬럼, False이면 1개 컬럼에 리스트
df[['email_split_1', 'email_split_2']] = df['email'].str.split('@', n=1, expand=True)

# partition(): 좌측에 먼저 출현한 구분자포함 3개로 나눈다
df[['email_partition_1', 'email_partition_2', 'email_partition_3']] = df['email'].str.partition(sep='@')

# rpartition(): 우측에 먼저 출현한 구분자포함 3개로 나눈다
df[['email_rpartition_1','email_rpartition_2', 'email_rpartition_3']] = df['email'].str.rpartition(sep='@')

# rsplit(): split와 동일하며 우측부터 탐색하며 n개로 나눈다
df['email_rsplit_1']     = df['email'].str.rsplit(pat='@')

In [9]:
# 4) 소문자, 대문자, 앞자리대문자, 소문자 대문자 뒤집기 또는 치환합니다.

df['email_lower']      = df['email'].str.lower()      # 모두 소문자로 변경
df['email_upper']      = df['email'].str.upper()      # 모두 대문자로 변경
df['email_capitalize'] = df['email'].str.capitalize() # 앞문자 대문자로 변경
df['email_title']      = df['email'].str.title()      # 단위별 앞문자 대문자로 변경
df['email_swapcase']   = df['email'].str.swapcase()   # 소문자는 대문자, 대문자는 소문자로 변경 

# 입력 패턴 또는 글자를 대체, 예제에서는 .을 _로 변경
df['email_replace']    = df['email'].str.replace(pat='.', repl='_', regex=False)

In [10]:
# 5)  문자열의 위치(=인덱스)를 찾습니다.

df['email_find']    = df['email'].str.find(sub='.')           # 왼쪽부터 sub값 검색후 위치반환
df['email_findall'] = df['email'].str.findall(pat='[a-zA-Z]') # 찾은 모든 값 반환
df['email_rfind']   = df['email'].str.rfind(sub='.')          # 오른쪽부터 sub값 검색후 위치반환
df['email_index']   = df['email'].str.index(sub='.')          # 왼쪽부터 sub값 검색후 위치반환
df['email_rindex']  = df['email'].str.rindex(sub='.')         # 오른쪽부터 sub값 검색후 위치반환

In [11]:
# 6) 문자열의 특정 위치의 값 또는 슬라이싱을 통해 자르거나 자른 내용을 치환합니다.

df['email_get']           = df['email'].str.get(i=0)    # 지정 위치값 반환
df['email_slice']         = df['email'].str.slice(start=0, stop=5) # 인덱스 사이 값 반환

# 인덱스 사이 값을 다른 값으로 바꾼 후 값 반환
df['email_slice_replace'] = df['email'].str.slice_replace(start=0, stop=5, repl='?')


In [12]:
# 7) 길이를 측정합니다. 패턴에 맞는 경우에만 개수를 반환하기도 합니다.

df['email_len']   = df['email'].str.len()              # 길이 반환
df['email_count'] = df['email'].str.count(pat='[0-9]') # 문자열 중 패턴에 일치한 수 반환
 

In [13]:
# 8) 숫자, 알파벳, 소문자인지 대문자인지 등을 확인합니다.

df['email_isalnum']   = df['email'].str.isalnum()   # 알파벳 또는 숫자로만 구성 여부
df['email_isalpha']   = df['email'].str.isalpha()   # 알파벳으로만 구성 여부
df['email_isdecimal'] = df['email'].str.isdecimal() # 숫자문자로만 구성 여부
df['email_isdigit']   = df['email'].str.isdigit()   # 숫자문자로만 구성 여부
df['email_islower']   = df['email'].str.islower()   # 소문자로만 구성 여부
df['email_isnumeric'] = df['email'].str.isnumeric() # 숫자문자로만 구성 여부
df['email_isspace']   = df['email'].str.isspace()   # 공백(Whitespace)으로만 구성 여부
df['email_istitle']   = df['email'].str.istitle()   # TitleCase형태로 구성 여부
df['email_isupper']   = df['email'].str.isupper()   # 대문자로만 구성 여부


In [14]:
# 9) 문자열의 시작 값 또는 종료 값 또는 특정 패턴과 일치하는 경우를 찾아냅니다.

df['email_startswith'] = df['email'].str.startswith(pat='h')     # 좌측값이 입력패턴과 일치 여부
df['email_endswith']   = df['email'].str.endswith(pat='com')     # 우측값이 입력패턴과 일치 여부
df['email_contains']   = df['email'].str.contains(pat='kr', regex=False) # 값 중 패턴포함 여부
df['email_match']      = df['email'].str.match(pat='[a-zA-Z@.]') # 입력패턴과 일치 여부
