### 문자열 조작

In [1]:
import numpy as np
import pandas as pd

- 데이터 타입

In [2]:
df = pd.read_csv('data/법정동코드 전체자료.txt', sep='\t', encoding='euc-kr')
df.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


In [3]:
df.shape

(46328, 3)

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46328 entries, 0 to 46327
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   법정동코드   46328 non-null  int64 
 1   법정동명    46328 non-null  object
 2   폐지여부    46328 non-null  object
dtypes: int64(1), object(2)
memory usage: 1.1+ MB


- Filtering / Selection

In [5]:
df.폐지여부.value_counts()

폐지    25777
존재    20551
Name: 폐지여부, dtype: int64

- Filtering / Selection

In [6]:
# 폐지된 주소는 삭제하도록 필터링
df = df[df.폐지여부 == '존재']
df

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
...,...,...,...
46323,5013032022,제주특별자치도 서귀포시 표선면 하천리,존재
46324,5013032023,제주특별자치도 서귀포시 표선면 성읍리,존재
46325,5013032024,제주특별자치도 서귀포시 표선면 가시리,존재
46326,5013032025,제주특별자치도 서귀포시 표선면 세화리,존재


- 인덱싱

In [7]:
df.shape

(20551, 3)

In [8]:
df.법정동명.str[:5].head()

0    서울특별시
1    서울특별시
2    서울특별시
3    서울특별시
4    서울특별시
Name: 법정동명, dtype: object

- 찾기 : find, contains

In [9]:
df.법정동명.str.find('서울').head()

0    0
1    0
2    0
3    0
4    0
Name: 법정동명, dtype: int64

In [10]:
df.법정동명.str.find('종로구').head()

0   -1
1    6
2    6
3    6
4    6
Name: 법정동명, dtype: int64

In [11]:
df.법정동명.str.contains('종로구').head()

0    False
1     True
2     True
3     True
4     True
Name: 법정동명, dtype: bool

In [12]:
# 경기도만 추출
df1 = df[df.법정동명.str.contains('경기도')]

In [13]:
print(df1.shape)
df1.head()

(2211, 3)


Unnamed: 0,법정동코드,법정동명,폐지여부
4470,4100000000,경기도,존재
4819,4111000000,경기도 수원시,존재
4884,4111100000,경기도 수원시 장안구,존재
4913,4111112900,경기도 수원시 장안구 파장동,존재
4914,4111113000,경기도 수원시 장안구 정자동,존재


In [14]:
# 수원시만 추출
df2 = df1[df1.법정동명.str.contains('수원시')]
print(df2.shape)
df2.head()

(61, 3)


Unnamed: 0,법정동코드,법정동명,폐지여부
4819,4111000000,경기도 수원시,존재
4884,4111100000,경기도 수원시 장안구,존재
4913,4111112900,경기도 수원시 장안구 파장동,존재
4914,4111113000,경기도 수원시 장안구 정자동,존재
4915,4111113100,경기도 수원시 장안구 이목동,존재


In [15]:
# 파장동 인덱싱
df2.법정동명[4913], df2.iloc[2, 1]

('경기도 수원시 장안구 파장동', '경기도 수원시 장안구 파장동')

- 분할: split

In [16]:
df2.법정동명.str.split().head()

4819              [경기도, 수원시]
4884         [경기도, 수원시, 장안구]
4913    [경기도, 수원시, 장안구, 파장동]
4914    [경기도, 수원시, 장안구, 정자동]
4915    [경기도, 수원시, 장안구, 이목동]
Name: 법정동명, dtype: object

- 대체: replace, 문자열의 replace method와는 달리 정규표현식 사용 가능

In [17]:
df2.법정동명.str.replace(' ', '_').head()

4819            경기도_수원시
4884        경기도_수원시_장안구
4913    경기도_수원시_장안구_파장동
4914    경기도_수원시_장안구_정자동
4915    경기도_수원시_장안구_이목동
Name: 법정동명, dtype: object

In [18]:
# 초성이 ㅅ, ㅇ인 데이터를 공백으로
df2.법정동명.str.replace('[사-잏]', ' ', regex=True).head() 

4819            경기도    
4884        경기도     장 구
4913    경기도     장 구 파장동
4914    경기도     장 구 정자동
4915    경기도     장 구  목동
Name: 법정동명, dtype: object

- CCTV 데이터

In [19]:
filename = 'data/서울시 자치구 년도별 CCTV 설치 현황_221231기준2.csv'
# filename = 'data/서울시 자치구 연도별 방범용 CCTV 운영 현황_221231기준.csv'
columns = '구분,총계,2013년 이전 설치된 CCTV,2013년,2014년,2015년,2016년,2017년,2018년,2019년,2020년,2021년,2022년'.split(',')
cctv = pd.read_csv(filename, encoding='euc-kr')
cctv = cctv[columns]
cctv.head()


Unnamed: 0,구분,총계,2013년 이전 설치된 CCTV,2013년,2014년,2015년,2016년,2017년,2018년,2019년,2020년,2021년,2022년
0,계,91341,2804,3097,3981,6576,8850,11566,11024,13151,11912,9144,9236
1,종로구,1980,36,540,107,161,131,158,152,69,250,85,291
2,중 구,2584,130,87,77,236,240,372,386,155,361,403,137
3,용산구,2847,44,50,68,83,295,491,115,322,623,422,334
4,성동구,4047,58,99,110,366,279,945,459,647,485,367,232


In [20]:
# 총계 데이터를 정수로 변환
cctv['총계'] = cctv['총계'].str.replace(',', '').astype(int)


In [21]:
cctv.head()

Unnamed: 0,구분,총계,2013년 이전 설치된 CCTV,2013년,2014년,2015년,2016년,2017년,2018년,2019년,2020년,2021년,2022년
0,계,91341,2804,3097,3981,6576,8850,11566,11024,13151,11912,9144,9236
1,종로구,1980,36,540,107,161,131,158,152,69,250,85,291
2,중 구,2584,130,87,77,236,240,372,386,155,361,403,137
3,용산구,2847,44,50,68,83,295,491,115,322,623,422,334
4,성동구,4047,58,99,110,366,279,945,459,647,485,367,232


In [22]:
# 나머지 컬럼도 천단위 구분기호 없애고 정수로 변환
for col in columns[2:]:
    cctv[col] = cctv[col].str.replace(',', '').astype(int)

cctv.head()


Unnamed: 0,구분,총계,2013년 이전 설치된 CCTV,2013년,2014년,2015년,2016년,2017년,2018년,2019년,2020년,2021년,2022년
0,계,91341,2804,3097,3981,6576,8850,11566,11024,13151,11912,9144,9236
1,종로구,1980,36,540,107,161,131,158,152,69,250,85,291
2,중 구,2584,130,87,77,236,240,372,386,155,361,403,137
3,용산구,2847,44,50,68,83,295,491,115,322,623,422,334
4,성동구,4047,58,99,110,366,279,945,459,647,485,367,232


In [23]:
for i in cctv.index:
    print(cctv.구분[i], len(cctv.구분[i]))

계 1
종로구 3
중 구 3
용산구 3
성동구 3
광진구 3
동대문구 4
중랑구 3
성북구 3
강북구 3
도봉구 3
노원구 3
은평구 3
서대문구 4
마포구 3
양천구 3
강서구 3
구로구 3
금천구 3
영등포구 4
동작구 3
관악구 3
서초구 3
강남구 3
송파구 3
강동구 3


- 파일을 제대로 읽는 방법

In [28]:
# 데이터 값에 , 가 포함된 것을 없애줌
cctv = pd.read_csv(filename, encoding='euc-kr', thousands=',', usecols=columns)
# cctv = cctv[columns]
# cctv = pd.read_csv(filename, encoding='euc-kr', usecols=['2013년', '2014년', '2015년', '2016년'])
# cctv = pd.read_csv(filename, encoding='euc-kr', usecols=['구분', '총계'])
cctv.head()

Unnamed: 0,구분,총계,2013년 이전 설치된 CCTV,2013년,2014년,2015년,2016년,2017년,2018년,2019년,2020년,2021년,2022년
0,계,91341,2804,3097,3981,6576,8850,11566,11024,13151,11912,9144,9236
1,종로구,1980,36,540,107,161,131,158,152,69,250,85,291
2,중 구,2584,130,87,77,236,240,372,386,155,361,403,137
3,용산구,2847,44,50,68,83,295,491,115,322,623,422,334
4,성동구,4047,58,99,110,366,279,945,459,647,485,367,232


In [25]:
type(cctv['총계'][0])

str

In [26]:
cctv.columns = ['a', 'b']

In [27]:
cctv

Unnamed: 0,a,b
0,계,91341
1,종로구,1980
2,중 구,2584
3,용산구,2847
4,성동구,4047
5,광진구,3480
6,동대문구,2759
7,중랑구,4193
8,성북구,4842
9,강북구,3321
