In [19]:
import pandas as pd
import numpy as np
df = pd.read_csv('./Data/법정동코드 전체자료.txt', sep='\t', encoding='cp949')
df.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


In [20]:
# 판다스에서 문자열 관련 함수를 사용하거나 전처리를 하기 위해서는 함수 및 명령어 앞에 str을 붙여주어야 한다.

# 인덱싱 .str[]

In [21]:
# 앞 5자리까지만 추출
df['법정동명'].str[:5].head()

0    서울특별시
1    서울특별시
2    서울특별시
3    서울특별시
4    서울특별시
Name: 법정동명, dtype: object

In [22]:
# 마지막 한글자만 추출
df['법정동명'].str[-1].head() 


0    시
1    구
2    동
3    동
4    동
Name: 법정동명, dtype: object

# 분할 .str.split()

In [23]:
# 공백(" ")으로 분리
df['법정동명'].str.split(" ").head()


0              [서울특별시]
1         [서울특별시, 종로구]
2    [서울특별시, 종로구, 청운동]
3    [서울특별시, 종로구, 신교동]
4    [서울특별시, 종로구, 궁정동]
Name: 법정동명, dtype: object

In [24]:
#이렇게 분할된 개별 리스트를 바로 데이터 프레임으로 만드려면, expand=True옵션을 추가한다.
df['법정동명'].str.split(" ", expand=True).head()

Unnamed: 0,0,1,2,3,4
0,서울특별시,,,,
1,서울특별시,종로구,,,
2,서울특별시,종로구,청운동,,
3,서울특별시,종로구,신교동,,
4,서울특별시,종로구,궁정동,,


# 시작글자 인식 .str.startswith()

In [25]:
# 이는 특정 boolean을 반환하는데, 특정 글자로 시작하면 True, 아니면 False 반환
df['법정동명'].str.startswith("서울").head()

0    True
1    True
2    True
3    True
4    True
Name: 법정동명, dtype: bool

In [26]:
# 서울로 시작하는 데이터만 필터링
df[df['법정동명'].str.startswith("서울")].head()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


# 끝글자 인식 .str.endswith()

In [27]:
# 동으로 끝나는 데이터만 필터링
df[df['법정동명'].str.endswith("동")].head()

Unnamed: 0,법정동코드,법정동명,폐지여부
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
5,1111010400,서울특별시 종로구 효자동,존재
6,1111010500,서울특별시 종로구 창성동,존재


# 포함글자 인식 .str.contains()

In [28]:
# 이는 특정 boolean을 반환하는데, 특정 글자가 포함되면 True, 아니면 False 반환

# 강서구가 들어간 데이터만 필터링
df[df['법정동명'].str.contains("강서구")].head()

Unnamed: 0,법정동코드,법정동명,폐지여부
737,1150000000,서울특별시 강서구,존재
738,1150000100,서울특별시 강서구 신정동,폐지
739,1150000200,서울특별시 강서구 신월동,폐지
740,1150010100,서울특별시 강서구 염창동,존재
741,1150010200,서울특별시 강서구 등촌동,존재


## 복수 단어 or

In [30]:
df[df['법정동명'].str.contains("강서구|종로구")]

Unnamed: 0,법정동코드,법정동명,폐지여부
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
5,1111010400,서울특별시 종로구 효자동,존재
...,...,...,...
2810,2644011800,부산광역시 강서구 동선동,존재
2811,2644011900,부산광역시 강서구 성북동,존재
2812,2644012000,부산광역시 강서구 눌차동,존재
2813,2644012100,부산광역시 강서구 천성동,존재


## nan 존재

In [16]:
# nan 이 존재하는 경우 그냥 contrains 로 하게 되면 에러가 난다. 그러므로
df = pd.DataFrame({'name': ['Alice','Bob','Charlie','Dave',np.nan,'Frank'],
                   'age': [24,42,18,68,24,30],
                   'state': ['NY','CA','CA','TX','CA','NY'],
                   'point': [64,24,70,70,88,57]})

# NaN이 존재하는 경우 False로 치환
print(df['name'].str.contains('li', na=False))

# NaN이 존재하는 경우 True로 치환
print(df['name'].str.contains('li', na=True))

0     True
1    False
2     True
3    False
4    False
5    False
Name: name, dtype: bool
0     True
1    False
2     True
3    False
4     True
5    False
Name: name, dtype: bool


## 대소문자

In [17]:
# 기본적으로 대소문자를 구분한다.
print(df['name'].str.contains('LI'))

# 대소문자를 구분하지 않게 하려면 case = False 로 지정하면 된다.
print(df['name'].str.contains('LI', case=False))

0    False
1    False
2    False
3    False
4      NaN
5    False
Name: name, dtype: object


# 문자 위치찾기

In [27]:
# 왼쪽부터 검색후 위치반환 없으면 -1
df['법정동명'].str.find(' ').head()

0   -1
1    5
2    5
3    5
4    5
Name: 법정동명, dtype: int64

In [28]:
# 오른쪽부터 sub값 검색후 위치반환
df['법정동명'].str.rfind(sub=' ').head()


0   -1
1    5
2    9
3    9
4    9
Name: 법정동명, dtype: int64

In [29]:
# 찾은 모든 값 반환(정규식)
df['법정동명'].str.findall('\w+동').head()


0       []
1       []
2    [청운동]
3    [신교동]
4    [궁정동]
Name: 법정동명, dtype: object

# 문자 대체 .str.replace()

In [30]:
# 공백을 "_"로 대체
df['법정동명'].str.replace(" ", "_").head()

0            서울특별시
1        서울특별시_종로구
2    서울특별시_종로구_청운동
3    서울특별시_종로구_신교동
4    서울특별시_종로구_궁정동
Name: 법정동명, dtype: object

# 원하는 문자열 추출 str.extract()
그룹 ()을 꼭 지정해서 패턴을 입력해야 하며, 패턴에 맞는 단어가 없을 시 NaN이 출력된다.

추출그룹이 많을 땐 자동으로 데이터프레임 처리

In [31]:
df['법정동명'].str.extract('( \w*시 )|( \w*군 )|( \w*구 )')

Unnamed: 0,0,1,2
0,,,
1,,,
2,,,종로구
3,,,종로구
4,,,종로구
...,...,...,...
46175,서귀포시,,
46176,서귀포시,,
46177,서귀포시,,
46178,서귀포시,,


In [32]:
df['법정동명'].str.extract('( \w*읍)|( \w*면)|( \w*동)|(\w*\d+가)').dropna(how='all')

Unnamed: 0,0,1,2,3
2,,,청운동,
3,,,신교동,
4,,,궁정동,
5,,,효자동,
6,,,창성동,
...,...,...,...,...
46175,,표선면,,
46176,,표선면,,
46177,,표선면,,
46178,,표선면,,


# 문자열 패딩
문자열의 길이가 고정되어 부족할 경우 채워야할 때가 있다.

In [33]:
# 문자열 길이 20자, 왼쪽부터 "_"로 채우기
df['법정동명'].str.pad(width=20, side='left', fillchar='_').head(10)

0    _______________서울특별시
1    ___________서울특별시 종로구
2    _______서울특별시 종로구 청운동
3    _______서울특별시 종로구 신교동
4    _______서울특별시 종로구 궁정동
5    _______서울특별시 종로구 효자동
6    _______서울특별시 종로구 창성동
7    _______서울특별시 종로구 통의동
8    _______서울특별시 종로구 적선동
9    _______서울특별시 종로구 통인동
Name: 법정동명, dtype: object

In [34]:
# 문자열 길이 20자, 오른쪽부터 "_"로 채우기
df['법정동명'].str.pad(width=20, side='right', fillchar='_').head(10)

0    서울특별시_______________
1    서울특별시 종로구___________
2    서울특별시 종로구 청운동_______
3    서울특별시 종로구 신교동_______
4    서울특별시 종로구 궁정동_______
5    서울특별시 종로구 효자동_______
6    서울특별시 종로구 창성동_______
7    서울특별시 종로구 통의동_______
8    서울특별시 종로구 적선동_______
9    서울특별시 종로구 통인동_______
Name: 법정동명, dtype: object

In [35]:
# 문자열 길이 20자, 좌우로 "_"로 채우기
df['법정동명'].str.center(width=20, fillchar='_').head(10)

0    _______서울특별시________
1    _____서울특별시 종로구______
2    ___서울특별시 종로구 청운동____
3    ___서울특별시 종로구 신교동____
4    ___서울특별시 종로구 궁정동____
5    ___서울특별시 종로구 효자동____
6    ___서울특별시 종로구 창성동____
7    ___서울특별시 종로구 통의동____
8    ___서울특별시 종로구 적선동____
9    ___서울특별시 종로구 통인동____
Name: 법정동명, dtype: object

In [36]:
# 왼쪽부터 0으로 채우기
df['법정동명'].str.zfill(width=20).head(10)

0    000000000000000서울특별시
1    00000000000서울특별시 종로구
2    0000000서울특별시 종로구 청운동
3    0000000서울특별시 종로구 신교동
4    0000000서울특별시 종로구 궁정동
5    0000000서울특별시 종로구 효자동
6    0000000서울특별시 종로구 창성동
7    0000000서울특별시 종로구 통의동
8    0000000서울특별시 종로구 적선동
9    0000000서울특별시 종로구 통인동
Name: 법정동명, dtype: object

In [37]:
df2 = pd.DataFrame({'col1':['abcde  ',' FFFFghij ','abCCe   '],
                    'col2':['   fgHAAij  ',' fghij ','lmnop   ']})
df2

Unnamed: 0,col1,col2
0,abcde,fgHAAij
1,FFFFghij,fghij
2,abCCe,lmnop
