## 문자열 다루기
str 클래스의 객체인 문자열 내장 메소드:

- split
- strip : 앞뒤 공백 제거
- join
- index(',') : , index의 위치를 찾음.
- find(',') : , 의 값을 찾음.
- count(',') : , 의 개수 찾음. 
- replace

## String manipulation

### String object methods

In [6]:
val = 'a,b,  guido'
val.split(',')

['a', 'b', '  guido']

In [5]:
"abc \t\r\n".strip()

'abc'

In [7]:
pieces = [x.strip() for x in val.split(',')]
pieces

['a', 'b', 'guido']

In [8]:
first, second, third = pieces
first + '::' + second + '::' + third

'a::b::guido'

In [9]:
'::'.join(pieces) 

'a::b::guido'

In [10]:
'guido' in val

True

In [13]:
val.index(',')

1

In [14]:
val.find(':') # 없으면 -1

-1

In [18]:
val.index(':') # 없으면 error

ValueError: substring not found

In [17]:
val.count(',')

2

In [19]:
val.replace(',', '::')

'a::b::  guido'

In [20]:
val.replace(',', '')

'ab  guido'

### Regular expressions(정규 표현식)
- 복잡한 문자열을 다룰 때 사용함.
- re는 문자열 패턴을 다루는 module

In [28]:
import re
text = "foo    bar\t baz  \tqux"
re.split('\s+', text)

['foo', 'bar', 'baz', 'qux']

In [30]:
regex = re.compile('\s+') # 자주 사용하는 표현은 re module의 compile 함수를 이용한다.
regex.split(text)

['foo', 'bar', 'baz', 'qux']

In [31]:
regex.findall(text)

['    ', '\t ', '  \t']

In [32]:
text = """Dave dave@google.com
Steve steve@gmail.com
Rob rob@gmail.com
Ryan ryan@yahoo.com
"""
pattern = r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}' # r이 있으므로 \ 없이도 특수문자 인식가능.
# 이메일을 찾아내는 pattern

# re.IGNORECASE makes the regex case-insensitive
regex = re.compile(pattern, flags=re.IGNORECASE)

In [34]:
type(regex)

re.Pattern

In [39]:
regex.findall(text)

['dave@google.com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']

#### re.Match 객체
- 그룹 내용과 매칭이 어디서 일어 났는지에 대한 인덱스를 제공한다.
- 검색결과를 분석할 때 유용하다.

In [40]:
m = regex.search(text)
m

<re.Match object; span=(5, 20), match='dave@google.com'>

In [43]:
text[m.start():m.end()]

'dave@google.com'

In [None]:
# 아래는 text의 첫 부분이 regex와 일치하지 않아 못 찾음.

In [44]:
print(regex.match(text))

None


In [45]:
print(regex.sub('REDACTED', text))

Dave REDACTED
Steve REDACTED
Rob REDACTED
Ryan REDACTED



In [None]:
pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'
regex = re.compile(pattern, flags=re.IGNORECASE)

In [None]:
m = regex.match('wesm@bright.net')
m.groups()

In [None]:
regex.findall(text)

In [None]:
print(regex.sub(r'Username: \1, Domain: \2, Suffix: \3', text))

In [None]:
regex = re.compile(r"""
    (?P<username>[A-Z0-9._%+-]+)
    @
    (?P<domain>[A-Z0-9.-]+)
    \.
    (?P<suffix>[A-Z]{2,4})""", flags=re.IGNORECASE|re.VERBOSE)

In [None]:
m = regex.match('wesm@bright.net')
m.groupdict()

### Vectorized string functions in pandas

- Series.str()으로 정규표현식 사용 가능.
- 원하는 col을 정규표현식으로 적용한다.
- 못찾으면 NaN을 반환하는데, 이는 나중에 결측치 제거를 통해 없애면 된다.
- Series.str.match()
- Series.str.contain()
- Series.str.findall()
- Series.str.get_dummies()

In [49]:
data = {'Dave': 'dave@google.com', 'Steve': 'steve@gmail.com',
        'Rob': 'rob@gmail.com', 'Wes': np.nan}
data = Series(data)

In [50]:
data

Dave     dave@google.com
Steve    steve@gmail.com
Rob        rob@gmail.com
Wes                  NaN
dtype: object

In [51]:
data.isnull()

Dave     False
Steve    False
Rob      False
Wes       True
dtype: bool

In [52]:
data.str.contains('gmail')

Dave     False
Steve     True
Rob       True
Wes        NaN
dtype: object

In [53]:
pattern

'[A-Z0-9._%+-]+@[A-Z0-9.-]+\\.[A-Z]{2,4}'

In [54]:
data.str.findall(pattern, flags=re.IGNORECASE)

Dave     [dave@google.com]
Steve    [steve@gmail.com]
Rob        [rob@gmail.com]
Wes                    NaN
dtype: object

In [56]:
matches = data.str.match(pattern, flags=re.IGNORECASE) # match는 첫 부분부터 맞춰봄.
matches

Dave     True
Steve    True
Rob      True
Wes       NaN
dtype: object

In [57]:
matches.str.get(1)

Dave    NaN
Steve   NaN
Rob     NaN
Wes     NaN
dtype: float64

In [58]:
matches.str[0]

Dave    NaN
Steve   NaN
Rob     NaN
Wes     NaN
dtype: float64

In [60]:
data.str.len()

Dave     15.0
Steve    15.0
Rob      13.0
Wes       NaN
dtype: float64

In [59]:
data.str[:5]

Dave     dave@
Steve    steve
Rob      rob@g
Wes        NaN
dtype: object

#### pandas data 호출

In [2]:
import numpy as np
import pandas as pd

In [3]:
path = 'C:/Users/tmznq/workspace/ml_scratch/dataset/titanic/train.csv'
path2 = 'C:/Users/tmznq/workspace/ml_scratch/dataset/titanic/test.csv'
path3 = 'C:/Users/tmznq/workspace/ml_scratch/dataset/titanic/gender_submission.csv'
df = pd.read_csv(path)
df2 = pd.read_csv(path2)
df3 = pd.read_csv(path3)

df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


#### 과제 1 : titanic 데이터에서 'Age' column을 bin으로 나누기
- label = ['청소년', '청년', '중년', '장년']
- bins = 3

#### 과제 2 : titanic 데이터 random sampling으로 다시 train, test 2개로 나누기
- np.permutation() 혹은 np.random.randint() 사용
- train 대 test의 비율은 8 대 2