# Pandas - 문자열 조작

In [1]:
import numpy as np
import pandas as pd

In [6]:
filename = 'code.txt'
df = pd.read_csv(filename, encoding='EUC-KR', sep='\t')
df.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


In [9]:
df.head(100).tail(5)

Unnamed: 0,법정동코드,법정동명,폐지여부
95,1114000100,서울특별시 중구 동자동,폐지
96,1114000200,서울특별시 중구 도동1가,폐지
97,1114000300,서울특별시 중구 도동2가,폐지
98,1114000400,서울특별시 중구 양동,폐지
99,1114010100,서울특별시 중구 무교동,존재


In [12]:
# 폐지된 주소는 삭제되도록 필터링
df = df[df.폐지여부 == '존재']
df.head(100).tail(5)

Unnamed: 0,법정동코드,법정동명,폐지여부
104,1114010600,서울특별시 중구 남대문로1가,존재
105,1114010700,서울특별시 중구 삼각동,존재
106,1114010800,서울특별시 중구 수하동,존재
107,1114010900,서울특별시 중구 장교동,존재
108,1114011000,서울특별시 중구 수표동,존재


- 인덱싱

In [13]:
df.법정동명.str[:5].head()          # 앞에서 5글자만 출력

0    서울특별시
1    서울특별시
2    서울특별시
3    서울특별시
4    서울특별시
Name: 법정동명, dtype: object

- 찾기: find

In [17]:
df.법정동명.str.find('서울').head()       # 문자열을 포함하면 0 출력 포함x면 -1 출력

0    0
1    0
2    0
3    0
4    0
Name: 법정동명, dtype: int64

In [18]:
df.법정동명.str.find('서울').tail()

46323   -1
46324   -1
46325   -1
46326   -1
46327   -1
Name: 법정동명, dtype: int64

- 분할: split

In [19]:
df.법정동명.str.split().head()

0              [서울특별시]
1         [서울특별시, 종로구]
2    [서울특별시, 종로구, 청운동]
3    [서울특별시, 종로구, 신교동]
4    [서울특별시, 종로구, 궁정동]
Name: 법정동명, dtype: object

- 포함글자 인식: contains

In [20]:
df.법정동명.str.contains('서울').head()

0    True
1    True
2    True
3    True
4    True
Name: 법정동명, dtype: bool

In [23]:
seocho = df[df.법정동명.str.contains('서초')]
seocho

Unnamed: 0,법정동코드,법정동명,폐지여부
975,1165000000,서울특별시 서초구,존재
977,1165010100,서울특별시 서초구 방배동,존재
978,1165010200,서울특별시 서초구 양재동,존재
979,1165010300,서울특별시 서초구 우면동,존재
980,1165010400,서울특별시 서초구 원지동,존재
982,1165010600,서울특별시 서초구 잠원동,존재
983,1165010700,서울특별시 서초구 반포동,존재
984,1165010800,서울특별시 서초구 서초동,존재
985,1165010900,서울특별시 서초구 내곡동,존재
986,1165011000,서울특별시 서초구 염곡동,존재


- 문자 대체: replace

In [24]:
df.법정동명.str.replace(' ','_').head()

0            서울특별시
1        서울특별시_종로구
2    서울특별시_종로구_청운동
3    서울특별시_종로구_신교동
4    서울특별시_종로구_궁정동
Name: 법정동명, dtype: object

In [27]:
import warnings
warnings.filterwarnings('ignore')
seocho.법정동명 = seocho.법정동명.str.replace(' ', '$#&*')
seocho.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
975,1165000000,서울특별시$#&*서초구,존재
977,1165010100,서울특별시$#&*서초구$#&*방배동,존재
978,1165010200,서울특별시$#&*서초구$#&*양재동,존재
979,1165010300,서울특별시$#&*서초구$#&*우면동,존재
980,1165010400,서울특별시$#&*서초구$#&*원지동,존재


In [28]:
# .str.replace() 에서는 정규표현식 사용가능
seocho.법정동명 = seocho.법정동명.str.replace('[^가-힣]', ' ')
seocho.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
975,1165000000,서울특별시 서초구,존재
977,1165010100,서울특별시 서초구 방배동,존재
978,1165010200,서울특별시 서초구 양재동,존재
979,1165010300,서울특별시 서초구 우면동,존재
980,1165010400,서울특별시 서초구 원지동,존재


In [29]:
filename = 'cctv.csv'
cctv = pd.read_csv(filename, skiprows = 1, encoding='EUC-KR')
cctv['총계'].apply(lambda x: int(x.replace(',',''))).head()

0    83557
1     1715
2     2447
3     2611
4     3829
Name: 총계, dtype: int64

In [35]:
cctv['총계'].str.replace(',','').astype(int).head()

0    83557
1     1715
2     2447
3     2611
4     3829
Name: 총계, dtype: int32