# Pandas - 문자열 조작

In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.read_csv('법정동코드 전체자료.txt', sep='\t', encoding='euc-kr')
df.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


In [4]:
len(df), df.shape

(46328, (46328, 3))

In [5]:
# 폐지된 주소는 삭제되도록 필터링
df = df[df.폐지여부 == '존재']
df.shape

(20551, 3)

- 인덱싱

In [6]:
df.법정동명.str[:5].head()

0    서울특별시
1    서울특별시
2    서울특별시
3    서울특별시
4    서울특별시
Name: 법정동명, dtype: object

- 찾기: find

In [9]:
df.법정동명.str.find('서울').head()

0    0
1    0
2    0
3    0
4    0
Name: 법정동명, dtype: int64

In [10]:
df.법정동명.str.find('서울').tail()

46323   -1
46324   -1
46325   -1
46326   -1
46327   -1
Name: 법정동명, dtype: int64

- 분할: split

In [11]:
df.법정동명.str.split().head()

0              [서울특별시]
1         [서울특별시, 종로구]
2    [서울특별시, 종로구, 청운동]
3    [서울특별시, 종로구, 신교동]
4    [서울특별시, 종로구, 궁정동]
Name: 법정동명, dtype: object

- 포함글자 인식: contains

In [12]:
df.법정동명.str.contains('서울').head()

0    True
1    True
2    True
3    True
4    True
Name: 법정동명, dtype: bool

In [14]:
seocho = df[df.법정동명.str.contains('서초')]
seocho

Unnamed: 0,법정동코드,법정동명,폐지여부
975,1165000000,서울특별시 서초구,존재
977,1165010100,서울특별시 서초구 방배동,존재
978,1165010200,서울특별시 서초구 양재동,존재
979,1165010300,서울특별시 서초구 우면동,존재
980,1165010400,서울특별시 서초구 원지동,존재
982,1165010600,서울특별시 서초구 잠원동,존재
983,1165010700,서울특별시 서초구 반포동,존재
984,1165010800,서울특별시 서초구 서초동,존재
985,1165010900,서울특별시 서초구 내곡동,존재
986,1165011000,서울특별시 서초구 염곡동,존재


- 문자 대체: replace

In [15]:
df.법정동명.str.replace(' ','_').head()

0            서울특별시
1        서울특별시_종로구
2    서울특별시_종로구_청운동
3    서울특별시_종로구_신교동
4    서울특별시_종로구_궁정동
Name: 법정동명, dtype: object

In [16]:
seocho.법정동명 = seocho.법정동명.str.replace(' ', '$#&*')
seocho.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[name] = value


Unnamed: 0,법정동코드,법정동명,폐지여부
975,1165000000,서울특별시$#&*서초구,존재
977,1165010100,서울특별시$#&*서초구$#&*방배동,존재
978,1165010200,서울특별시$#&*서초구$#&*양재동,존재
979,1165010300,서울특별시$#&*서초구$#&*우면동,존재
980,1165010400,서울특별시$#&*서초구$#&*원지동,존재


In [18]:
# .str.replace() 에서는 정규표현식 사용가능
seocho.법정동명 = seocho.법정동명.str.replace('[^가-힣]', ' ')
seocho.head()

  seocho.법정동명 = seocho.법정동명.str.replace('[^가-힣]', ' ')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[name] = value


Unnamed: 0,법정동코드,법정동명,폐지여부
975,1165000000,서울특별시 서초구,존재
977,1165010100,서울특별시 서초구 방배동,존재
978,1165010200,서울특별시 서초구 양재동,존재
979,1165010300,서울특별시 서초구 우면동,존재
980,1165010400,서울특별시 서초구 원지동,존재


In [19]:
filename = '서울시CCTV설치운영현황(자치구)_년도별_211231기준.csv'
cctv = pd.read_csv(filename, skiprows=1, encoding='EUC-KR')
cctv['총계'].apply(lambda x: int(x.replace(',',''))).head()

0    83557
1     1715
2     2447
3     2611
4     3829
Name: 총계, dtype: int64

In [20]:
cctv['총계'].str.replace(',','').astype(int).head()

0    83557
1     1715
2     2447
3     2611
4     3829
Name: 총계, dtype: int32