In [4]:
import pandas as pd
import numpy as np
pd.options.display.max_rows = 6

In [2]:
from faker import Faker
fake= Faker(locale="ko_KR")
fake2= Faker(locale="en_US")
fake.seed_instance(4321)
fake2.seed_instance(4321)

In [3]:
df = pd.DataFrame([(fake.address(), fake2.address()) for _ in range(100)], columns=['address_kr','address_en'])

In [4]:
df

Unnamed: 0,address_kr,address_en
0,충청남도 수원시 팔달구 강남대가,"25102 Tucker Lake\nNew Mariaview, AL 70208"
1,부산광역시 중구 선릉길,"493 Hamilton Fields\nJamesberg, MA 14606"
2,충청남도 포천시 학동로 (지민이리),"3531 Foster Locks\nNew Ryan, VT 73764"
...,...,...
97,서울특별시 마포구 개포825길 (성호최이동),USCGC Walker\nFPO AA 94600
98,서울특별시 노원구 역삼2길 (주원서동),"132 Cummings Pass\nStevenshire, NH 69257"
99,경상남도 의정부시 압구정3길 (진호이마을),"97364 Teresa Fords Suite 545\nLake Scott, HI 7..."


### .str.strip lstrip rstrip

In [33]:
s = pd.Series(['1. Dog.  ', '2. Cow!\n', '3. Bee?\t', np.nan])
s

0    1. Dog.  
1    2. Cow!\n
2    3. Bee?\t
3          NaN
dtype: object

설정이 없으면 스페이스, \n, \t 같은 문자 삭제

In [36]:
s.str.strip()

0    1. Dog.
1    2. Cow!
2    3. Bee?
3        NaN
dtype: object

문자열을 포함하면 해당 글자패턴마다 삭제된다. 

(스페이스도 사용하려면 스스로 추가해야 함)

In [47]:
s.str.strip('123. \n')

0       Dog
1      Cow!
2    Bee?\t
3       NaN
dtype: object

### .str.replace

In [16]:
df["address_kr"].str.replace("충청남도", "충남")

0              충남 수원시 팔달구 강남대가
1                 부산광역시 중구 선릉길
2            충남 포천시 학동로 (지민이리)
                ...           
97    서울특별시 마포구 개포825길 (성호최이동)
98       서울특별시 노원구 역삼2길 (주원서동)
99     경상남도 의정부시 압구정3길 (진호이마을)
Name: address_kr, Length: 100, dtype: object

### .str.contains 활용

In [6]:
df["address_kr"].str.contains(r"[^\s]+구")

0      True
1      True
2     False
      ...  
97     True
98     True
99     True
Name: address_kr, Length: 100, dtype: bool

SQL의 LIKE처럼 패턴 검색 / case : case-sensitive

In [10]:
df["address_en"].str.contains("Lake", case=True, regex=False)

0      True
1     False
2     False
      ...  
97    False
98    False
99     True
Name: address_en, Length: 100, dtype: bool

### .str.extract 활용

- re 모듈을 활용한다. 컴파일 옵션 활용 가능
- 기본 패턴 : r"(   pattern   )"   : 최소한 하나의 괄호 ( capturing group )가 있어야 한다.

In [12]:
df["address_kr"].str.extract(r"([^\s]+구)")

Unnamed: 0,0
0,팔달구
1,중구
2,
...,...
97,마포구
98,노원구
99,압구


참고 : 괄호를 여러 개 사용하는 경우, 리스트처럼 indexing이 필요

In [13]:
df["address_kr"].str.extract(r"(.+시)\s([^\s]+구)")[0]

0      충청남도 수원시
1         부산광역시
2           NaN
        ...    
97        서울특별시
98        서울특별시
99    경상남도 의정부시
Name: 0, Length: 100, dtype: object

In [14]:
df["address_kr"].str.extract(r"(.+시)\s([^\s]+구)")[1]

0     팔달구
1      중구
2     NaN
     ... 
97    마포구
98    노원구
99     압구
Name: 1, Length: 100, dtype: object

?:을 활용하면 no capturing group을 할 수 있음

In [15]:
# ?: 활용 예시 (시 부분을 제외 시킴)
df["address_kr"].str.extract(r"(?:.+시)\s([^\s]+구)")

Unnamed: 0,0
0,팔달구
1,중구
2,
...,...
97,마포구
98,노원구
99,압구
