# 벡터화된 문자열 연산

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

print("pandas ver : ",pd.__version__)
print("numpy ver : ",np.__version__)
print("seaborn : ",sns.__version__)

import pandas as pd
import numpy as np

class display(object):
    """Display HTML representation of multiple objects"""
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args
        
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)
    
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a))
                           for a in self.args)

pandas ver :  0.24.2
numpy ver :  1.16.4
seaborn :  0.9.0


### [numpy 벡터화 연산]
- 벡터화 연산(Vectorized operation) : 명시적으로 반복문을 사용하지 않고 배열의 모든 원소에 대한 반복 연산이 가능

In [12]:
# 반복문을 사용한 연산
x = np.array([2,3,4,5,6])
for i,data in enumerate(x):
    x[i] = data * 2 
print(x)

[ 4  6  8 10 12]


In [13]:
# 벡터화 연산
y = np.array([2,3,4,5,6])
y = y * 2
print(y)

[ 4  6  8 10 12]


### [Pandas 문자열 벡터화 연산]

- 문자열 배열에 간단히 접근 하기 어렵기 때문에 루프 구문을 사용

In [14]:
data = ['peter', 'Paul', 'MARY', 'gUIDO']
[s.capitalize() for s in data]

['Peter', 'Paul', 'Mary', 'Guido']

- 문자열 베열에 NaN 값이 들어있다면 에러가 발생

In [15]:
data = ['peter', 'Paul', None, 'MARY', 'gUIDO']
[s.capitalize() for s in data]

AttributeError: 'NoneType' object has no attribute 'capitalize'

#### Panda는 문자열 Series 와 Index객체의 str 속성을 통해 벡터화된 문자열 연산을 수행하고 누락된 데이터를 올바르게 처리 가능

- `names.str.~~`

In [18]:
names = pd.Series(data)
print(names)

0    peter
1     Paul
2     None
3     MARY
4    gUIDO
dtype: object


- Nan 객체를 생략하고 모든 항목을 대문자로 변경

In [19]:
names.str.capitalize()

0    Peter
1     Paul
2     None
3     Mary
4    Guido
dtype: object

### [ Pandas 문자열 메서드 목록]

In [24]:
monte = pd.Series(['Graham Chapman', 'John Cleese', 'Terry Gilliam',
                   'Eric Idle', 'Terry Jones', 'Michael Palin'])
monte

0    Graham Chapman
1       John Cleese
2     Terry Gilliam
3         Eric Idle
4       Terry Jones
5     Michael Palin
dtype: object


``len()``     ``lower()``       ``translate()``   ``islower()`` 
``ljust()``   ``upper()``       ``startswith()``  ``isupper()``
``rjust()``   ``find()``        ``endswith()``    ``isnumeric()``
``center()``  ``rfind()``       ``isalnum()``     ``isdecimal()``
``zfill()``   ``index()``       ``isalpha()``     ``split()``
``strip()``   ``rindex()``      ``isdigit()``     ``rsplit()``
``rstrip()``  ``capitalize()``  ``isspace()``     ``partition()``
``lstrip()``   ``swapcase()``    ``istitle()``    ``rpartition()``

In [23]:
monte.str.lower()

0    graham chapman
1       john cleese
2     terry gilliam
3         eric idle
4       terry jones
5     michael palin
dtype: object

In [25]:
monte.str.len()

0    14
1    11
2    13
3     9
4    11
5    13
dtype: int64

In [26]:
monte.str.startswith('T')

0    False
1    False
2     True
3    False
4     True
5    False
dtype: bool

In [27]:
monte.str.split()

0    [Graham, Chapman]
1       [John, Cleese]
2     [Terry, Gilliam]
3         [Eric, Idle]
4       [Terry, Jones]
5     [Michael, Palin]
dtype: object

### [정규표현식 활용 메서드]

| Method | Description |  |
|--------|-------------|--|
| ``match()`` | Call ``re.match()`` on each element, returning a boolean. | 각 요소에  re.match()를 호출, 부울값을 반환 |
| ``extract()`` | Call ``re.match()`` on each element, returning matched groups as strings.| 각 요소에 re.match()를 호출, 문자열로 매칭된 그룹을 반환|
| ``findall()`` | Call ``re.findall()`` on each element | 각 요소에 re.findall()호출|
| ``replace()`` | Replace occurrences of pattern with some other string|패턴이 발생한 곳을 다른 문자열로 대체|
| ``contains()`` | Call ``re.search()`` on each element, returning a boolean |각 요소에 re.search()를 호출, 부울값을 반환|
| ``count()`` | Count occurrences of pattern| 패턴의 발생 건수를 집계|
| ``split()``   | Equivalent to ``str.split()``, but accepts regexps | str.split()과 동일하지만 정규 표현식을 취함|
| ``rsplit()`` | Equivalent to ``str.rsplit()``, but accepts regexps | str.rsplit()과 동일하지만 정규 표현식을 취함|

In [29]:
monte

0    Graham Chapman
1       John Cleese
2     Terry Gilliam
3         Eric Idle
4       Terry Jones
5     Michael Palin
dtype: object

- 이름만 추출

In [28]:
monte.str.extract('([A-Za-z]+)', expand=False)

0     Graham
1       John
2      Terry
3       Eric
4      Terry
5    Michael
dtype: object

- 문자열 시작(^) 문자열 끝($)을 나타내는 정규식을 이용하여 자음으로 시작하고 끝나는 모든 이름을 찾기

In [30]:
monte.str.findall(r'^[^AEIOU].*[^aeiou]$')

0    [Graham Chapman]
1                  []
2     [Terry Gilliam]
3                  []
4       [Terry Jones]
5     [Michael Palin]
dtype: object

### [ 기타 메소드] 

| Method | Description |   |
|--------|-------------|---|
| ``get()`` | Index each element | 각 요소에 인덱스를 지정|
| ``slice()`` | Slice each element| 각 요소에 슬라이스를 적용|
| ``slice_replace()`` | Replace slice in each element with passed value| 각 요소의 슬라이스를 전달된 값으로 대체 |
| ``cat()``      | Concatenate strings| 문자열을 연결 |
| ``repeat()`` | Repeat values | 값을 반복 |
| ``normalize()`` | Return Unicode form of string | 문자열의 유니코드 형태로 반환 |
| ``pad()`` | Add whitespace to left, right, or both sides of strings| 문자열 왼쪽 오른쪽 또는 양쪽에 공백 추가 |
| ``wrap()`` | Split long strings into lines with length less than a given width| 긴문자열을 주어진 너미보다 짧은 길이의 여러줄로 나눔 |
| ``join()`` | Join strings in each element of the Series with passed separator|Series의 각 요소에 있는 문자열을 전달된 구분자와 결합|
| ``get_dummies()`` | extract dummy variables as a dataframe | Dataframe으로 가변수(dummpy variable)를 추출|

- 슬라이싱

In [31]:
monte.str[0:3]

0    Gra
1    Joh
2    Ter
3    Eri
4    Ter
5    Mic
dtype: object

In [33]:
monte.str.slice(0,3)

0    Gra
1    Joh
2    Ter
3    Eri
4    Ter
5    Mic
dtype: object

- 인덱싱

In [35]:
monte.str.split().str.get(-1)

0    Chapman
1     Cleese
2    Gilliam
3       Idle
4      Jones
5      Palin
dtype: object