### [참고] <a href="https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf">Pandas Cheat Sheet</a>

#### https://pandas.pydata.org/docs/user_guide/text.html

**str 메소드**
- pandas.core.strings.StringMethods 의 별칭
- 호출할 수 없기 때문에 괄호를 사용하지 않음

In [1]:
import pandas as pd
import numpy as np

In [2]:
ser = pd.Series(['Suho', 'AA', np.nan, 'Rabbit'])
ser

0      Suho
1        AA
2       NaN
3    Rabbit
dtype: object

#### 1) lower() / upper() / len()

In [3]:
ser.str.lower()

0      suho
1        aa
2       NaN
3    rabbit
dtype: object

In [4]:
ser.str.upper()

0      SUHO
1        AA
2       NaN
3    RABBIT
dtype: object

In [5]:
ser.str.len()

0    4.0
1    2.0
2    NaN
3    6.0
dtype: float64

#### 2) strip()

In [6]:
ser = pd.Series(['  S u h o   ', '  A   A', np.nan, '       Rabbit             '])
ser

0                    S u h o   
1                         A   A
2                           NaN
3           Rabbit             
dtype: object

In [7]:
ser.str.strip()

0    S u h o
1      A   A
2        NaN
3     Rabbit
dtype: object

In [8]:
df = pd.DataFrame(np.random.randn(2,2), columns=[' Column A ', ' Column B '])
df

Unnamed: 0,Column A,Column B
0,-1.104124,1.292348
1,-0.33096,1.392151


In [9]:
df.columns

Index([' Column A ', ' Column B '], dtype='object')

In [10]:
df[' Column A ']

0   -1.104124
1   -0.330960
Name:  Column A , dtype: float64

In [12]:
df.columns.str.strip()

Index(['Column A', 'Column B'], dtype='object')

In [13]:
df.columns.str.lower()

Index([' column a ', ' column b '], dtype='object')

In [16]:
# 컬럼명 양쪽 공백 제거, 전체 소문자, 컬럼명 사이의 공백은 _ 대체
df.columns = df.columns.str.strip().str.lower().str.replace(" ", "_")
df.columns

Index(['column_a', 'column_b'], dtype='object')

#### 3) split() : 반환값은 무조건 리스트 형태로 반환

In [18]:
ser = pd.Series(['ha_a_b', 'hi_c_d', np.nan, 'ho_e_f'])
ser

0    ha_a_b
1    hi_c_d
2       NaN
3    ho_e_f
dtype: object

In [20]:
ser.str.split("-")

0    [ha_a_b]
1    [hi_c_d]
2         NaN
3    [ho_e_f]
dtype: object

In [21]:
ser.str.split("_")

0    [ha, a, b]
1    [hi, c, d]
2           NaN
3    [ho, e, f]
dtype: object

* **expand=True** 결과를 데이터 프레임으로 돌려줌

In [24]:
ser.str.split("_",expand=True)

Unnamed: 0,0,1,2
0,ha,a,b
1,hi,c,d
2,,,
3,ho,e,f


#### 4) replace()

In [25]:
ser = pd.Series(['Suho','bAAa',np.nan,'cute_dog'])
ser

0        Suho
1        bAAa
2         NaN
3    cute_dog
dtype: object

In [26]:
ser.str.replace('^.a|dog','***',case=False,regex=True)

0        Suho
1       ***Aa
2         NaN
3    cute_***
dtype: object

- ^는 입력라인의 시작
- .a 는 맨 첫 문자를 포함하고 a로 끝나는 부분을 매칭
- | or 의 의미
- dog에 해당하는 부분 매칭
- case=False 대소문자 구분 안함
- regex=True 전달된 패턴이 정규식

#### 5) cat : 텍스트 이어 붙이기 

* **손실값이 있다면 연결 안함**

### [실습2] 일기 형식의 데이터 가공

In [6]:
day_plan = [
    "1st_seq : getting up at 05:45am",
    "2st_seq : swimming from 06:00 to 07:00",
    "3st_seq : My morning food is American style",
    "4st_seq : Writing some proposal from 02:00pm to 06:00pm",
    "5st_seq : Arriving at JongGak at 07:00pm",
    "6st_seq : Fun wuth friends enjoy beer til 09:00",
    "7st_seq : My house at 10:30pm and sleeping by",
]
df = pd.DataFrame(day_plan, columns=['schedule'])
df

Unnamed: 0,schedule
0,1st_seq : getting up at 05:45am
1,2st_seq : swimming from 06:00 to 07:00
2,3st_seq : My morning food is American style
3,4st_seq : Writing some proposal from 02:00pm t...
4,5st_seq : Arriving at JongGak at 07:00pm
5,6st_seq : Fun wuth friends enjoy beer til 09:00
6,7st_seq : My house at 10:30pm and sleeping by


In [7]:
# split() : 공백기준
df['schedule'].str.split()

0               [1st_seq, :, getting, up, at, 05:45am]
1       [2st_seq, :, swimming, from, 06:00, to, 07:00]
2    [3st_seq, :, My, morning, food, is, American, ...
3    [4st_seq, :, Writing, some, proposal, from, 02...
4     [5st_seq, :, Arriving, at, JongGak, at, 07:00pm]
5    [6st_seq, :, Fun, wuth, friends, enjoy, beer, ...
6    [7st_seq, :, My, house, at, 10:30pm, and, slee...
Name: schedule, dtype: object

In [8]:
# 공백기준으로 분할 된 문자열의 수 파악
df['schedule'].str.split().str.len()

0    6
1    7
2    8
3    9
4    7
5    9
6    9
Name: schedule, dtype: int64

#### contains() : 특정 문자열을 가지고 있는지 확인 ( True|False 반환 )

In [9]:
df['schedule'].str.contains('My')

0    False
1    False
2     True
3    False
4    False
5    False
6     True
Name: schedule, dtype: bool

#### count() : 정규식 형태로 조건을 걸어, 정규식에 부합하는 문자열 개수 반환 

In [10]:
# 숫자가 몇개 있는지 확인
df['schedule'].str.count('\d')

0    5
1    9
2    1
3    9
4    5
5    5
6    5
Name: schedule, dtype: int64

#### findall() : 정규식 형태로 조건을 걸어, 정규식에 부합하는 문자열 리스트 반환

In [12]:
df['schedule'].str.findall('(\d\d):(\d\d)')

0              [(05, 45)]
1    [(06, 00), (07, 00)]
2                      []
3    [(02, 00), (06, 00)]
4              [(07, 00)]
5              [(09, 00)]
6              [(10, 30)]
Name: schedule, dtype: object