### [참고] <a href="https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf">Pandas Cheat Sheet</a>

#### https://pandas.pydata.org/docs/user_guide/text.html

**str 메소드**
- pandas.core.strings.StringMethods 의 별칭
- 호출할 수 없기 때문에 괄호를 사용하지 않음

In [1]:
# 라이브러리
import pandas as pd
import numpy as np

In [2]:
# 생성
ser = pd.Series(['Suho','AA', np.nan, 'Rabbit'])
ser

0      Suho
1        AA
2       NaN
3    Rabbit
dtype: object

#### 1) lower() / upper() / len()

In [3]:
# 전체 소문자로 변경.
ser.str.lower()

0      suho
1        aa
2       NaN
3    rabbit
dtype: object

In [4]:
# 전체 대문자로 변경
ser.str.upper()

0      SUHO
1        AA
2       NaN
3    RABBIT
dtype: object

In [5]:
# 길이 구하기
ser.str.len()

0    4.0
1    2.0
2    NaN
3    6.0
dtype: float64

#### 2) strip() : 공백 제거

In [6]:
# 생성
ser = pd.Series(['Suho    ','AA', np.nan, '       Rabbit'])
ser

0         Suho    
1               AA
2              NaN
3           Rabbit
dtype: object

In [7]:
ser.str.strip()

0      Suho
1        AA
2       NaN
3    Rabbit
dtype: object

In [8]:
# 생성
df = pd.DataFrame(np.random.randn(2,2), columns=['   Column A','Column B  '])
df

Unnamed: 0,Column A,Column B
0,0.411809,-2.346133
1,-0.689741,-3.20784


In [9]:
# 공백확인
df.columns

Index(['   Column A', 'Column B  '], dtype='object')

In [10]:
# 공백 때문에 KeyError
df['Column A']

KeyError: 'Column A'

In [12]:
# 컬럼명 공백 제거
df.columns.str.strip()

Index(['Column A', 'Column B'], dtype='object')

In [13]:
# 컬럼명 소문자로 변경
df.columns.str.lower()

Index(['   column a', 'column b  '], dtype='object')

In [14]:
# 컬럼명 양쪽 공백 제거, 전체 소문자, 컬럼명 사이의 공백은 _ 대체 ==> column_a

df.columns = df.columns.str.strip().str.lower().str.replace(" ","_")
df.columns

Index(['column_a', 'column_b'], dtype='object')

#### 3) split() : 문자열 자르기

In [15]:
# 생성
ser = pd.Series(['ha_a_b', 'hi_c_d', np.nan, 'ho_e_f'])
ser

0    ha_a_b
1    hi_c_d
2       NaN
3    ho_e_f
dtype: object

In [16]:
# 무조건 리스트 구조로 돌아옴
ser.str.split("_")

0    [ha, a, b]
1    [hi, c, d]
2           NaN
3    [ho, e, f]
dtype: object

* **expand=True** 결과를 데이터 프레임으로 돌려줌

In [17]:
ser.str.split("_",expand=True)

Unnamed: 0,0,1,2
0,ha,a,b
1,hi,c,d
2,,,
3,ho,e,f


#### 4) replace()

In [18]:
# 생성
ser = pd.Series(['Suho','bAAa',np.nan,'cute_dog'])
ser

0        Suho
1        bAAa
2         NaN
3    cute_dog
dtype: object

In [19]:
ser.str.replace('^.a|dog','***',case=False,regex=True)

0        Suho
1       ***Aa
2         NaN
3    cute_***
dtype: object

- ^는 입력라인의 시작
- .a 는 맨 첫 문자를 포함하고 a로 끝나는 부분을 매칭
- | or 의 의미
- dog에 해당하는 부분 매칭
- case=False 대소문자 구분 안함
- regex=True 전달된 패턴이 정규식

#### 5) cat : 텍스트 이어 붙이기 

In [20]:
# 생성
ser = pd.Series(['ha','hi','ho'])
ser

0    ha
1    hi
2    ho
dtype: object

In [21]:
# ,로 연결
ser.str.cat(sep = " , ")

'ha , hi , ho'

In [22]:
# 구분자 없이 연결
ser.str.cat()

'hahiho'

* **손실값이 있다면 연결 안함**

In [23]:
# 생성
ser = pd.Series(['ha',np.nan,'ho'])
ser

0     ha
1    NaN
2     ho
dtype: object

In [24]:
# 없는 값은 출력되지 않음
ser.str.cat(sep = " , ")

'ha , ho'

In [25]:
# na_rep : 없는 값을 대체 
ser.str.cat(sep = " , ", na_rep="*")

'ha , * , ho'

### [실습2] 일기 형식의 데이터 가공

In [27]:
# 생성
day_plan = [
    "1st_seq : getting up at 05:45am",
    "2nd_seq : swimming from 06:00 to 07:00",
    "3rd_seq : My morning food is American style",
    "4th_seq : Writing some proposal from 02:00pm to 06:00pm",
    "5th_seq : Arriving at JongGak at 07:00pm",
    "6th_seq : Fun with friends enjoy beer till 09:30am",
    "7th_seq : My house at 10:30pm and sleeping by 12:00pm"
]
df = pd.DataFrame(day_plan, columns=['schedule'])
df

Unnamed: 0,schedule
0,1st_seq : getting up at 05:45am
1,2nd_seq : swimming from 06:00 to 07:00
2,3rd_seq : My morning food is American style
3,4th_seq : Writing some proposal from 02:00pm t...
4,5th_seq : Arriving at JongGak at 07:00pm
5,6th_seq : Fun with friends enjoy beer till 09:...
6,7th_seq : My house at 10:30pm and sleeping by ...


In [28]:
# split() : 기준을 주지 않으면 공백기준
df['schedule'].str.split()

0               [1st_seq, :, getting, up, at, 05:45am]
1       [2nd_seq, :, swimming, from, 06:00, to, 07:00]
2    [3rd_seq, :, My, morning, food, is, American, ...
3    [4th_seq, :, Writing, some, proposal, from, 02...
4     [5th_seq, :, Arriving, at, JongGak, at, 07:00pm]
5    [6th_seq, :, Fun, with, friends, enjoy, beer, ...
6    [7th_seq, :, My, house, at, 10:30pm, and, slee...
Name: schedule, dtype: object

In [30]:
# len : 문자열의 수 파악
# 공백기준으로 분할된 문자열의 수 파악
df['schedule'].str.split().str.len()

0     6
1     7
2     8
3     9
4     7
5     9
6    10
Name: schedule, dtype: int64

#### contains() : 특정 문자열을 가지고 있는지 확인

In [31]:
df['schedule'].str.contains('My')

0    False
1    False
2     True
3    False
4    False
5    False
6     True
Name: schedule, dtype: bool

#### count()

In [32]:
# 숫자가 몇 개 있는지 확인
# \ 정규식
# \d == [0-9]
df['schedule'].str.count("\d")

0    5
1    9
2    1
3    9
4    5
5    5
6    9
Name: schedule, dtype: int64

#### findall()

In [33]:
# 매칭되는 부분을 리스트로 출력
df['schedule'].str.findall("\d")

0                [1, 0, 5, 4, 5]
1    [2, 0, 6, 0, 0, 0, 7, 0, 0]
2                            [3]
3    [4, 0, 2, 0, 0, 0, 6, 0, 0]
4                [5, 0, 7, 0, 0]
5                [6, 0, 9, 3, 0]
6    [7, 1, 0, 3, 0, 1, 2, 0, 0]
Name: schedule, dtype: object

In [34]:
# 시간에 해당되는 숫자만 출력.
# 시 분 --> 패턴 만들기. 07:00
df['schedule'].str.findall("(\d\d):(\d\d)")

0              [(05, 45)]
1    [(06, 00), (07, 00)]
2                      []
3    [(02, 00), (06, 00)]
4              [(07, 00)]
5              [(09, 30)]
6    [(10, 30), (12, 00)]
Name: schedule, dtype: object