# 텍스트 데이터 처리

* 텍스트 연산은 대부분 문자열 객체의 내장 메서드를 통해 간단하게 처리 할 수 있다. 
* 복잡한 형태의 패턴 매칭이나 텍스트 조작은 정규 표현식을 필요로 한다.
* pandas는 배열 데이터 전체에 쉽게 정규 표현식을 적용할 수 있는 기능을 제공한다. 


In [1]:
import pandas as pd
import numpy as np
import re

In [2]:
pd.__version__

'1.0.1'

## Series의 .str 속성 사용하기

실습에 사용할 데이터 프레임을 생성한다.

In [3]:
df = pd.DataFrame({'email':['sunny@gmail.com', 
                            '365@NAVER.COM', 
                            'cinema@yahoo.co.kr']})
df

Unnamed: 0,email
0,sunny@gmail.com
1,365@NAVER.COM
2,cinema@yahoo.co.kr


### 앞, 뒤 공백 등을 제거

* `str.strip()` : 앞 뒤 공백을 제거
* `str.lstrip()` : 앞 공백을 제거
* `str.lstrip()` : 뒤 공백을 제거

In [4]:
df['email_strip']  = df['email'].str.strip()  # 앞 뒤 공백을 제거
df['email_lstrip'] = df['email'].str.lstrip() # 앞 공백을 제거
df['email_rstrip'] = df['email'].str.lstrip() # 뒤 공백을 제거

In [5]:
df

Unnamed: 0,email,email_strip,email_lstrip,email_rstrip
0,sunny@gmail.com,sunny@gmail.com,sunny@gmail.com,sunny@gmail.com
1,365@NAVER.COM,365@NAVER.COM,365@NAVER.COM,365@NAVER.COM
2,cinema@yahoo.co.kr,cinema@yahoo.co.kr,cinema@yahoo.co.kr,cinema@yahoo.co.kr


### Padding
 패딩, 고정길이 데이터를 이용해야 하는경우 왼쪽 또는 오른쪽 또는 중앙에 놓고 패딩한다.

In [6]:
df = pd.DataFrame({'email':['sunny@gmail.com', 
                            '365@NAVER.COM', 
                            'cinema@yahoo.co.kr']})

df['email_pad']    = df['email'].str.pad(width=20, side='left', fillchar='_') # 지정길이 패딩
df['email_center'] = df['email'].str.center(width=20, fillchar='_') # 중앙놓고 지정길이 패딩
df['email_ljust']  = df['email'].str.ljust(width=20, fillchar='_')  # 왼쪽놓고 지정길이 패딩
df['email_rjust']  = df['email'].str.rjust(width=20, fillchar='_')  # 오른쪽놓고 지정길이 패딩
df['email_zfill']  = df['email'].str.zfill(width=20)                # 지정길이 0패딩

In [7]:
df

Unnamed: 0,email,email_pad,email_center,email_ljust,email_rjust,email_zfill
0,sunny@gmail.com,_____sunny@gmail.com,__sunny@gmail.com___,sunny@gmail.com_____,_____sunny@gmail.com,00000sunny@gmail.com
1,365@NAVER.COM,_______365@NAVER.COM,___365@NAVER.COM____,365@NAVER.COM_______,_______365@NAVER.COM,0000000365@NAVER.COM
2,cinema@yahoo.co.kr,__cinema@yahoo.co.kr,_cinema@yahoo.co.kr_,cinema@yahoo.co.kr__,__cinema@yahoo.co.kr,00cinema@yahoo.co.kr


### Split
 분할, 구분자를 이용하여 새로운 컬럼을 생성합니다.


In [8]:
df = pd.DataFrame({'email':['sunny@gmail.com', 
                            '365@NAVER.COM', 
                            'cinema@yahoo.co.kr']})

# split(): 구분자를 기준으로 n개로 나눈다, expand=True이면 여러 컬럼, False이면 1개 컬럼에 리스트
df[['email_split_1','email_split_2']] = df['email'].str.split('@', n=1, expand=True)

# rsplit(): split와 동일하며 우측부터 탐색하며 n개로 나눈다
df['email_rsplit_1'] = df['email'].str.rsplit(pat='@')


In [9]:
df

Unnamed: 0,email,email_split_1,email_split_2,email_rsplit_1
0,sunny@gmail.com,sunny,gmail.com,"[sunny, gmail.com]"
1,365@NAVER.COM,365,NAVER.COM,"[365, NAVER.COM]"
2,cinema@yahoo.co.kr,cinema,yahoo.co.kr,"[cinema, yahoo.co.kr]"


### 대소문자 처리하기
소문자, 대문자, 앞자리대문자, 소문자 대문자 뒤집기 한다.

In [10]:
df = pd.DataFrame({'email':['sunny@gmail.com', 
                            '365@NAVER.COM', 
                            'cinema@yahoo.co.kr']})

df['email_lower']      = df['email'].str.lower()      # 모두 소문자로 변경
df['email_upper']      = df['email'].str.upper()      # 모두 대문자로 변경
df['email_capitalize'] = df['email'].str.capitalize() # 앞문자 대문자로 변경
df['email_title']      = df['email'].str.title()      # 단위별 앞문자 대문자로 변경
df['email_swapcase']   = df['email'].str.swapcase()   # 소문자는 대문자, 대문자는 소문자로 변경 


In [11]:
df

Unnamed: 0,email,email_lower,email_upper,email_capitalize,email_title,email_swapcase
0,sunny@gmail.com,sunny@gmail.com,SUNNY@GMAIL.COM,Sunny@gmail.com,Sunny@Gmail.Com,SUNNY@GMAIL.COM
1,365@NAVER.COM,365@naver.com,365@NAVER.COM,365@naver.com,365@Naver.Com,365@naver.com
2,cinema@yahoo.co.kr,cinema@yahoo.co.kr,CINEMA@YAHOO.CO.KR,Cinema@yahoo.co.kr,Cinema@Yahoo.Co.Kr,CINEMA@YAHOO.CO.KR


###  replace
문자열을 다른 문자열로 대체한다.

In [12]:
df = pd.DataFrame({'email':['sunny@gmail.com', 
                            '365@NAVER.COM', 
                            'cinema@yahoo.co.kr']})

# 입력 패턴 또는 글자를 대체, 예제에서는 .을 _로 변경
df['email_replace']    = df['email'].str.replace(pat='.', repl='_', regex=False)

In [13]:
df

Unnamed: 0,email,email_replace
0,sunny@gmail.com,sunny@gmail_com
1,365@NAVER.COM,365@NAVER_COM
2,cinema@yahoo.co.kr,cinema@yahoo_co_kr


### find, findall
*  `find()` : 특정 문자열을 찾아서 문자열의 index를 리턴
* `findall()` : 특정 문자열을 찾아서 찾은 문자열을 모두 리턴

In [14]:
df = pd.DataFrame({'email':['sunny@gmail.com', 
                            '365@NAVER.COM', 
                            'cinema@yahoo.co.kr']})

df['email_find']    = df['email'].str.find(sub='.')           # 왼쪽부터 sub값 검색후 위치반환
df['email_findall'] = df['email'].str.findall(pat='[a-zA-Z]') # 찾은 모든 값 반환

In [15]:
df 

Unnamed: 0,email,email_find,email_findall
0,sunny@gmail.com,11,"[s, u, n, n, y, g, m, a, i, l, c, o, m]"
1,365@NAVER.COM,9,"[N, A, V, E, R, C, O, M]"
2,cinema@yahoo.co.kr,12,"[c, i, n, e, m, a, y, a, h, o, o, c, o, k, r]"


### get, slice 
문자열의 특정 위치의 값 또는 슬라이싱을 통해 자르거나 자른 내용을 치환합니다.

In [16]:
df = pd.DataFrame({'email':['sunny@gmail.com', 
                            '365@NAVER.COM', 
                            'cinema@yahoo.co.kr']})

df['email_get'] = df['email'].str.get(i=0)    # 지정 위치값 반환
df['email_slice'] = df['email'].str.slice(start=0, stop=5) # 인덱스 사이 값 반환


In [17]:
df

Unnamed: 0,email,email_get,email_slice
0,sunny@gmail.com,s,sunny
1,365@NAVER.COM,3,365@N
2,cinema@yahoo.co.kr,c,cinem


### len, count
* `len()` : 문자열의 길이를 리턴
* `count()` : 패턴에 맞는 문자열의 개수를 리턴

In [18]:
df = pd.DataFrame({'email':['sunny@gmail.com', 
                            '365@NAVER.COM', 
                            'cinema@yahoo.co.kr']})

df['email_len']   = df['email'].str.len()              # 길이 반환
df['email_count'] = df['email'].str.count(pat='[0-9]') # 문자열 중 패턴에 일치한 수 반환

In [19]:
df

Unnamed: 0,email,email_len,email_count
0,sunny@gmail.com,15,0
1,365@NAVER.COM,13,3
2,cinema@yahoo.co.kr,18,0


### 문자열의 타입 확인하기
숫자, 알파벳, 소문자인지 대문자인지 등을 확인한다.

In [20]:
df = pd.DataFrame({'email':['sunny@gmail.com', 
                            '365@NAVER.COM', 
                            'cinema@yahoo.co.kr']})

df['email_isalnum']   = df['email'].str.isalnum()   # 알파벳 또는 숫자로만 구성 여부
df['email_isalpha']   = df['email'].str.isalpha()   # 알파벳으로만 구성 여부
df['email_islower']   = df['email'].str.islower()   # 소문자로만 구성 여부
df['email_isnumeric'] = df['email'].str.isnumeric() # 숫자문자로만 구성 여부
df['email_isspace']   = df['email'].str.isspace()   # 공백(Whitespace)으로만 구성 여부
df['email_istitle']   = df['email'].str.istitle()   # TitleCase형태로 구성 여부
df['email_isupper']   = df['email'].str.isupper()   # 대문자로만 구성 여부

In [21]:
df

Unnamed: 0,email,email_isalnum,email_isalpha,email_islower,email_isnumeric,email_isspace,email_istitle,email_isupper
0,sunny@gmail.com,False,False,True,False,False,False,False
1,365@NAVER.COM,False,False,False,False,False,False,True
2,cinema@yahoo.co.kr,False,False,True,False,False,False,False


### 패턴 일치 확인하기

문자열의 시작 값 또는 종료 값 또는 특정 패턴과 일치하는 경우를 찾아낸다.

* `startswith()` : 특정 문자열로 시작 여부
* `endswith()` : 특정 문자열로 종료 여부
* `contains()` : 특정 문자열을 포함 여부
* `match()` : 특정 패턴과 일치하는지 여부

In [29]:
df = pd.DataFrame({'email':['sunny@gmail.com', 
                            '365@NAVER.COM', 
                            'cinema@yahoo.co.kr']})

df['email_startswith'] = df['email'].str.startswith(pat='s')     # 시작값이 입력패턴과 일치 여부
df['email_endswith']   = df['email'].str.endswith(pat='com')     # 종료값이 입력패턴과 일치 여부
df['email_contains']   = df['email'].str.contains(pat='kr', regex=False) # 값 중 패턴포함 여부
df['email_match']      = df['email'].str.match(pat='[a-zA-Z@.]') # 입력패턴과 일치 여부

In [30]:
df

Unnamed: 0,email,email_startswith,email_endswith,email_contains,email_match
0,sunny@gmail.com,True,True,False,True
1,365@NAVER.COM,False,False,False,False
2,cinema@yahoo.co.kr,False,False,True,True


### 특정 문자열의 추출하기

정규식을 사용하여 매치되는 문자열을 추출할 수 있다.

In [24]:
data = {'Dave': 'dave@google.com', 'Steve': 'steve@gmail.com','Rob': 'rob@gmail.com', 'Wes': np.nan}
data = pd.Series(data)
data

Dave     dave@google.com
Steve    steve@gmail.com
Rob        rob@gmail.com
Wes                  NaN
dtype: object

In [25]:
# 특정 문자열을 포함하는지 여부를 판단한다.
data.str.contains('gmail')

Dave     False
Steve     True
Rob       True
Wes        NaN
dtype: object

In [26]:
# 특정 패턴을 정규식으로 표현할 수 있다.
pattern = '([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\\.([A-Z]{2,4})'

In [27]:
# 특정 패턴을 만족하는 문자열을 추출한다.
data.str.extract(pattern, flags=re.IGNORECASE)

Unnamed: 0,0,1,2
Dave,dave,google,com
Steve,steve,gmail,com
Rob,rob,gmail,com
Wes,,,


In [28]:
# 특정 패턴의 특정 요소를 index로 access
data.str.extract(pattern, flags=re.IGNORECASE).get(0)

Dave      dave
Steve    steve
Rob        rob
Wes        NaN
Name: 0, dtype: object

# 실습하기

titanic 파일을 읽어 들이고 다음의 실습 문제를 해결하시오.

In [31]:
titanic = pd.read_csv('../data/titanic.csv')
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


**문제1**  
Name 컬럼을 소문자로 변경하여 출력하시오.

**문제2**  
Embarked 컬럼을 다음과 같이 변경하여 출력하시오. 
* C = Cherbourg
* Q = Queenstown
* S = Southampton


**문제3**  
Name 컬럼에서 이름(first name)부분만 출력하시오.

**문제 4**  
데이터에서 제공되는 승객들의 이름에는 Title이 존재한다. 예를 들면, Heikkinen, Miss. Laina라는 이름에는 Miss라는 Title이 있다. Name에서 title 부분만 추출하시오.