In [65]:
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [66]:
df = pd.read_csv('법정동코드 전체자료.txt', sep='\t', encoding='euc-kr')
df.tail()

Unnamed: 0,법정동코드,법정동명,폐지여부
46295,5013032022,제주특별자치도 서귀포시 표선면 하천리,존재
46296,5013032023,제주특별자치도 서귀포시 표선면 성읍리,존재
46297,5013032024,제주특별자치도 서귀포시 표선면 가시리,존재
46298,5013032025,제주특별자치도 서귀포시 표선면 세화리,존재
46299,5013032026,제주특별자치도 서귀포시 표선면 토산리,존재


In [67]:
len(df)

46300

In [68]:
# 폐지된 주소는 삭제되도록 필터링 (dropna는 null값만 삭제)
df=df[df['폐지여부']=='존재']
len(df)

20551

In [69]:
# 인덱싱(법정동명 column에서 다섯글자만 인덱싱)
df.법정동명.str[:5]

0        서울특별시
1        서울특별시
2        서울특별시
3        서울특별시
4        서울특별시
         ...  
46295    제주특별자
46296    제주특별자
46297    제주특별자
46298    제주특별자
46299    제주특별자
Name: 법정동명, Length: 20551, dtype: object

In [70]:
# 찾기
df['법정동명'].str.find('제주').tail()

46295    0
46296    0
46297    0
46298    0
46299    0
Name: 법정동명, dtype: int64

In [71]:
# 찾기
df['법정동명'].str.find('제주').head()

0   -1
1   -1
2   -1
3   -1
4   -1
Name: 법정동명, dtype: int64

In [72]:
# 분할(split을 줘서 리스트가 됨)
df.법정동명.str.split().tail()

46295    [제주특별자치도, 서귀포시, 표선면, 하천리]
46296    [제주특별자치도, 서귀포시, 표선면, 성읍리]
46297    [제주특별자치도, 서귀포시, 표선면, 가시리]
46298    [제주특별자치도, 서귀포시, 표선면, 세화리]
46299    [제주특별자치도, 서귀포시, 표선면, 토산리]
Name: 법정동명, dtype: object

In [73]:
# 포함글자 여부
df.법정동명.str.contains('제주').tail()

46295    True
46296    True
46297    True
46298    True
46299    True
Name: 법정동명, dtype: bool

In [74]:
jeju=df[df.법정동명.str.contains('제주')]
len(jeju)

213

In [75]:
#문자 대체
df['법정동명'].str.replace(' ','_').tail()

46295    제주특별자치도_서귀포시_표선면_하천리
46296    제주특별자치도_서귀포시_표선면_성읍리
46297    제주특별자치도_서귀포시_표선면_가시리
46298    제주특별자치도_서귀포시_표선면_세화리
46299    제주특별자치도_서귀포시_표선면_토산리
Name: 법정동명, dtype: object

In [76]:
jeju['법정동명']=jeju['법정동명'].str.replace(' ','?#&*')
jeju.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
46084,5000000000,제주특별자치도,존재
46085,5011000000,제주특별자치도?#&*제주시,존재
46086,5011010100,제주특별자치도?#&*제주시?#&*일도일동,존재
46087,5011010200,제주특별자치도?#&*제주시?#&*일도이동,존재
46088,5011010300,제주특별자치도?#&*제주시?#&*이도일동,존재


In [77]:
# .str.replace() 에서는 정규표현식 사용가능
jeju['법정동명']=jeju['법정동명'].str.replace('[^가-힣]',' ')
jeju.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
46084,5000000000,제주특별자치도,존재
46085,5011000000,제주특별자치도 제주시,존재
46086,5011010100,제주특별자치도 제주시 일도일동,존재
46087,5011010200,제주특별자치도 제주시 일도이동,존재
46088,5011010300,제주특별자치도 제주시 이도일동,존재


In [78]:
cctv = pd.read_csv('서울시CCTV설치운영현황(자치구)_년도별_210731기준.csv', skiprows=1, encoding='EUC-KR')
cctv.head()

Unnamed: 0,구분,총계,2012년 이전,2012년,2013년,2014년,2015년,2016년,2017년,2018년,2019년,2020년,2021년
0,계,77032,7667,2200,3491,4439,6582,8129,9947,9876,11961,11132,1608
1,종로구,1772,813,0,0,210,150,1,261,85,9,200,43
2,중 구,2333,16,114,87,77,236,240,372,386,155,361,289
3,용산구,2383,34,71,234,125,221,298,351,125,307,617,0
4,성동구,3602,448,125,212,105,339,310,874,390,262,461,76


In [79]:
cctv['총계'].apply(lambda x : int(x.replace(',',''))).head()

0    77032
1     1772
2     2333
3     2383
4     3602
Name: 총계, dtype: int64

In [80]:
# 복잡한 람다함수를 간단한 .str구문으로 바꿀수있다
cctv['총계'].str.replace(',','').astype(int).head()

0    77032
1     1772
2     2333
3     2383
4     3602
Name: 총계, dtype: int32

In [81]:
#첫 열을 빼고 도시
cctv.iloc[:,1:]

Unnamed: 0,총계,2012년 이전,2012년,2013년,2014년,2015년,2016년,2017년,2018년,2019년,2020년,2021년
0,77032,7667,2200,3491,4439,6582,8129,9947,9876,11961,11132,1608
1,1772,813,0,0,210,150,1,261,85,9,200,43
2,2333,16,114,87,77,236,240,372,386,155,361,289
3,2383,34,71,234,125,221,298,351,125,307,617,0
4,3602,448,125,212,105,339,310,874,390,262,461,76
5,2588,35,57,100,187,98,52,675,465,712,175,32
6,2497,1090,146,60,29,111,233,136,197,209,223,63
7,3296,302,24,253,88,141,161,162,173,1049,939,4
8,3958,83,78,170,230,323,594,460,867,714,251,188
9,2462,0,0,24,65,105,243,6,392,1000,588,39


DF apply (lambda x) x = 시리즈
시리즈 apply (lambda x) x = element

In [82]:
cctv.iloc[:,1:] = cctv.iloc[:,1:].apply(lambda x : x.str.replace(',','')).astype(int)
cctv.head()

Unnamed: 0,구분,총계,2012년 이전,2012년,2013년,2014년,2015년,2016년,2017년,2018년,2019년,2020년,2021년
0,계,77032,7667,2200,3491,4439,6582,8129,9947,9876,11961,11132,1608
1,종로구,1772,813,0,0,210,150,1,261,85,9,200,43
2,중 구,2333,16,114,87,77,236,240,372,386,155,361,289
3,용산구,2383,34,71,234,125,221,298,351,125,307,617,0
4,성동구,3602,448,125,212,105,339,310,874,390,262,461,76


In [84]:
for column in cctv.columns[1:]:
    cctv[column] = cctv[column].str.replace(',','').astype(int)
cctv.head()

AttributeError: Can only use .str accessor with string values!