# 서울(강남구) 보안등 정보 가져오기

In [1]:
import numpy as np
import pandas as pd

## 1. 보안등 데이터 읽기

In [2]:
#file 읽기 (encoding 주의)

# Python 3.6에서 한글파일명이 포함된 CSV 읽을 경우 에러가 날 때가 있습니다.
# 이러한 오류가 뜬다 --> OSError: Initializing from file failed
# 해결법은 engine='python'  을 추가하면 된다.
# 출처: https://kkckc.tistory.com/187 [kkckc의 일상]

light_df = pd.read_csv('전국보안등정보표준데이터.csv', encoding='ms949', engine='python')

## 2. 데이터 전처리

### 2-1. 결측치 확인

In [3]:
# light_df.info()
# light_df.head(5)
# light_df.describe()
print(light_df.shape)    # (1462304, 14)
light_df.isnull().sum()

(1462304, 14)


보안등위치명               0
설치개수                 0
소재지도로명주소        811530
소재지지번주소          73577
위도               96887
경도               97043
설치년도            886239
설치형태            542870
관리기관전화번호             6
관리기관명                0
데이터기준일자              0
제공기관코드               0
제공기관명                0
Unnamed: 13    1462304
dtype: int64

In [4]:
light_df.head()

Unnamed: 0,보안등위치명,설치개수,소재지도로명주소,소재지지번주소,위도,경도,설치년도,설치형태,관리기관전화번호,관리기관명,데이터기준일자,제공기관코드,제공기관명,Unnamed: 13
0,광도1,1,경상남도 통영시 상노산길 7-16,경상남도 통영시 광도면 노산리 875-5,34.902439,128.394625,2009.0,한전주,055-650-5518,경상남도 통영시,2018-08-09,5330000,경상남도 통영시,
1,광도10,1,,경상남도 통영시 광도면 죽림리 69-36,34.887917,128.414075,2009.0,전용주,055-650-5518,경상남도 통영시,2018-08-09,5330000,경상남도 통영시,
2,광도100,1,,경상남도 통영시 광도면 용호리 158-22,34.874091,128.392083,2009.0,한전주,055-650-5518,경상남도 통영시,2018-08-09,5330000,경상남도 통영시,
3,광도101,1,,경상남도 통영시 광도면 죽림리 693-2,34.868291,128.412093,2009.0,한전주,055-650-5518,경상남도 통영시,2018-08-09,5330000,경상남도 통영시,
4,광도102,1,경상남도 통영시 남해안대로 885-20,경상남도 통영시 광도면 죽림리 496-1,34.872798,128.414577,2009.0,한전주,055-650-5518,경상남도 통영시,2018-08-09,5330000,경상남도 통영시,


### 2-2. 지역필터링

1. 원하는 지역 필터를 위한 열로 결측치가 많은 '소재지도로명주소', '소재지지번주소'는 부적합하므로 제외

2. 결측치 없는 '관리기관명', '제공기관코드', '제공기관명' 중에 적절한 것 고르기

3. 제공기관명, 관리기관명 '강남'으로 확인시
   제공기관명 : {'서울특별시 강남구청'} / 관리기관명 : {'서울특별시 강남구청', '강원도 강릉시 강남동장'} => '강남구' 로 변경해서 확인

4. 관리기관명보다는** 코드로 관리**되고 있는 제공기관으로 필터링 하는 것이 더 적합할 것으로 보인다.

5. 따라서, 강남구의 제공기관 코드를 이용하여 Filtering : '3220000'

In [5]:
# mng_name_df = light_df[light_df.관리기관명.str.contains('강남구')]
# print(mng_name_df.shape)   # (11474, 14)
# mng_name_df

prvd_name_df = light_df[light_df.제공기관명.str.contains('강남구')]
# print(prvd_name_df.shape)   # (11474, 14)

# a1= set(prvd_name_df['관리기관명'])   # 집합 자료형 set  순서가 없고 중복을 허용하지 않는다는 특징
# a1   # {'서울특별시 강남구청'}
# a2 = set(prvd_name_df['제공기관명'])
# a2  # {'서울특별시 강남구'}
# a3 = set(mng_name_df['관리기관명'])
# a3  # {'서울특별시 강남구청'}
# a4 = set(mng_name_df['제공기관명'])
# a4  # {'서울특별시 강남구'}
# print(len(a1),len(a2),len(a3),len(a4))   # 1 1 1 1
# print(a1, a3)   # {'서울특별시 강남구청'} {'서울특별시 강남구청'}

gu_df = light_df[light_df.제공기관코드 == '3220000']

In [6]:
gu_df    # 11474 rows × 14 columns

Unnamed: 0,보안등위치명,설치개수,소재지도로명주소,소재지지번주소,위도,경도,설치년도,설치형태,관리기관전화번호,관리기관명,데이터기준일자,제공기관코드,제공기관명,Unnamed: 13
648107,개포동660-37,1,,서울특별시 강남구 개포동660-37,37.480474,127.062079,,,02-3423-6583,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
648108,개포동660-37,1,,서울특별시 강남구 개포동660-37,37.480474,127.062079,,,02-3423-6583,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
648109,개포동660-37,1,,서울특별시 강남구 개포동660-37,37.480474,127.062079,,,02-3423-6583,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
648110,개포동660-37,1,,서울특별시 강남구 개포동660-37,37.480474,127.062079,,,02-3423-6583,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
648111,개포동660-37,1,,서울특별시 강남구 개포동660-37,37.480474,127.062079,,,02-3423-6583,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
648112,개포동660-37,1,,서울특별시 강남구 개포동660-37,37.480474,127.062079,,,02-3423-6583,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
648113,개포동660-37,1,,서울특별시 강남구 개포동660-37,37.480474,127.062079,,,02-3423-6583,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
648114,개포동660-37,1,,서울특별시 강남구 개포동660-37,37.480474,127.062079,,,02-3423-6583,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
648115,개포동660-37,1,,서울특별시 강남구 개포동660-37,37.480474,127.062079,,,02-3423-6583,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
648116,개포동660-37,1,,서울특별시 강남구 개포동660-37,37.480474,127.062079,,,02-3423-6583,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,


### 3_3. 위도/경도 결측치 확인

대치1동청실 APT 19동 610 와 같이 단지내, 학교내 가로등에 대한 정확한 위도/경도가 없음
추후 기관에 정확한 위도/경도 요청 필요
본 prototype 프로젝트는 특정 지역에 한정하므로 해당 지역에 필요한 Data는 로드뷰로 해결하기


### 3_4. 이외에 소재지도로명주소, 설치년도, 설치형태의 결측치는 사용하지 않으므로 무시

In [7]:
print(gu_df.isnull().sum())
gu_df[gu_df.위도.isnull()]

보안등위치명             0
설치개수               0
소재지도로명주소       11474
소재지지번주소            0
위도              1352
경도              1352
설치년도           11474
설치형태           11474
관리기관전화번호           0
관리기관명              0
데이터기준일자            0
제공기관코드             0
제공기관명              0
Unnamed: 13    11474
dtype: int64


Unnamed: 0,보안등위치명,설치개수,소재지도로명주소,소재지지번주소,위도,경도,설치년도,설치형태,관리기관전화번호,관리기관명,데이터기준일자,제공기관코드,제공기관명,Unnamed: 13
648210,대치1동청실 APT 19동 610,1,,서울특별시 강남구 대치1동청실 APT 19동 610,,,,,02-3423-6585,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
648211,대치1동청실 APT 19동 610,1,,서울특별시 강남구 대치1동청실 APT 19동 610,,,,,02-3423-6585,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
648212,대치1동청실 APT 19동 610,1,,서울특별시 강남구 대치1동청실 APT 19동 610,,,,,02-3423-6585,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
648213,대치1동청실 APT 19동 610,1,,서울특별시 강남구 대치1동청실 APT 19동 610,,,,,02-3423-6585,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
648214,대치1동청실 APT 10동 610,1,,서울특별시 강남구 대치1동청실 APT 10동 610,,,,,02-3423-6585,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
648215,대치1동청실 APT 10동 610,1,,서울특별시 강남구 대치1동청실 APT 10동 610,,,,,02-3423-6585,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
648216,대치1동선경3차 602,1,,서울특별시 강남구 대치1동선경3차 602,,,,,02-3423-6585,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
648217,대치2동603,1,,서울특별시 강남구 대치2동603,,,,,02-3423-6585,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
648218,대치1동청실 11동 633,1,,서울특별시 강남구 대치1동청실 11동 633,,,,,02-3423-6585,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
648219,대치1동청실 11동 633,1,,서울특별시 강남구 대치1동청실 11동 633,,,,,02-3423-6585,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,


### 3_5. '동' 단위 데이터로 재필터링 (역삼1동) 후 필요한 열만 선택

In [8]:
dong_df = gu_df[gu_df.보안등위치명.str.contains('역삼1동')]
# print(dong_df.shape)    # (1619, 14)
print(dong_df.isnull().sum())

# 결측치 확인  : 20개의 위도/경도 결측치 보정 필요. -> csv로 저장하고 보정
# print(dong_df.isnull().sum())
# dong_df[dong_df.위도.isnull()]   # Null 값 20개

# 결측치가 있는 데이터만 na로 따로 저장
na = dong_df[dong_df.위도.isnull()]
na

# gu_df[gu_df.보안등위치명.str.contains('역삼1동 613')].sort_values('보안등위치명')
dong_df.shape # 1619, 14)

보안등위치명            0
설치개수              0
소재지도로명주소       1619
소재지지번주소           0
위도               20
경도               20
설치년도           1619
설치형태           1619
관리기관전화번호          0
관리기관명             0
데이터기준일자           0
제공기관코드            0
제공기관명             0
Unnamed: 13    1619
dtype: int64


(1619, 14)

In [9]:
na.iloc[:,0:2].groupby('보안등위치명').sum()

Unnamed: 0_level_0,설치개수
보안등위치명,Unnamed: 1_level_1
역삼1동 613-3,1
역삼1동 629-32,1
역삼1동 642-42,1
역삼1동 66-12,1
역삼1동 665,4
역삼1동 685-20,1
역삼1동 692-32,1
역삼1동 695-63,1
역삼1동 720-16,1
역삼1동 841,1


In [10]:
# 위도 경도 수정하기   수작업
# 4 = 위도  5 = 경도

na1 = na

na1.iloc[0,4] = 37.493900
na1.iloc[0,5] = 127.033720

na1.iloc[1,4] = 37.501153
na1.iloc[1,5] = 127.035221

na1.iloc[2,4] = 37.504353
na1.iloc[2,5] = 127.030042

na1.iloc[3,4] = 37.501711
na1.iloc[3,5] = 127.042343

na1.iloc[4,4] = 37.491600
na1.iloc[4,5] = 127.036678

na1.iloc[5,4] = 37.504585
na1.iloc[5,5] = 127.027828

na1.iloc[6,4] = 37.504438
na1.iloc[6,5] = 127.027302

na1.iloc[7,4] = 37.502774
na1.iloc[7,5] = 127.028417

na1.iloc[8,4] = 37.507476 
na1.iloc[8,5] = 127.042587

na1.iloc[9,4] = 37.508083 
na1.iloc[9,5] = 127.041993

na1.iloc[10,4] = 37.497102 
na1.iloc[10,5] = 127.038893

na1.iloc[11,4] = 37.503106 
na1.iloc[11,5] = 127.033000

na1.iloc[12,4] = 37.497712 
na1.iloc[12,5] = 127.048095

na1.iloc[13,4] = 37.500119
na1.iloc[13,5] = 127.044236


# 역삼1동 665 충현교회

na1.iloc[14,4] = 37.504596 
na1.iloc[14,5] = 127.038316

na1.iloc[15,4] = 37.505643 
na1.iloc[15,5] = 127.037918

na1.iloc[16,4] = 37.505086 
na1.iloc[16,5] = 127.036539

na1.iloc[17,4] = 37.503937 
na1.iloc[17,5] = 127.037102

na1.iloc[18,4] = 37.497349 
na1.iloc[18,5] = 127.031770

na1.iloc[19,4] = 37.506817 
na1.iloc[19,5] = 127.044662



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self.obj[item] = s


In [11]:
na1

Unnamed: 0,보안등위치명,설치개수,소재지도로명주소,소재지지번주소,위도,경도,설치년도,설치형태,관리기관전화번호,관리기관명,데이터기준일자,제공기관코드,제공기관명,Unnamed: 13
648955,역삼1동834-11,1,,서울특별시 강남구 역삼1동834-11,37.4939,127.03372,,,02-3423-6583,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
655563,역삼1동 642-42,1,,서울특별시 강남구 역삼1동 642-42,37.501153,127.035221,,,02-3423-6583,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
655843,역삼1동 613-3,1,,서울특별시 강남구 역삼1동 613-3,37.504353,127.030042,,,02-3423-6583,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
656213,역삼1동 720-16,1,,서울특별시 강남구 역삼1동 720-16,37.501711,127.042343,,,02-3423-6583,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
656672,역삼1동799-34,1,,서울특별시 강남구 역삼1동799-34,37.4916,127.036678,,,02-3423-6583,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
657695,역삼1동602-26,1,,서울특별시 강남구 역삼1동602-26,37.504585,127.027828,,,02-3423-6583,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
657696,역삼1동602-26,1,,서울특별시 강남구 역삼1동602-26,37.504438,127.027302,,,02-3423-6583,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
657721,역삼1동 66-12,1,,서울특별시 강남구 역삼1동 66-12,37.502774,127.028417,,,02-3423-6583,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
658026,역삼1동 692-32,1,,서울특별시 강남구 역삼1동 692-32,37.507476,127.042587,,,02-3423-6583,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,
658036,역삼1동 685-20,1,,서울특별시 강남구 역삼1동 685-20,37.508083,127.041993,,,02-3423-6583,서울특별시 강남구청,2018-08-27,3220000,서울특별시 강남구,


In [12]:
# 사용하는 자료만 이용해 na2 생성    후에 분류하기 위해 분류 항목 추가

na2 = pd.DataFrame()

na2['분류'] = na1['Unnamed: 13']
na2['명칭'] = na1['보안등위치명']
na2['위도'] = na1['위도']
na2['경도'] = na1['경도']
na2 = na2.fillna('보안등')

In [13]:
na2

Unnamed: 0,분류,명칭,위도,경도
648955,보안등,역삼1동834-11,37.4939,127.03372
655563,보안등,역삼1동 642-42,37.501153,127.035221
655843,보안등,역삼1동 613-3,37.504353,127.030042
656213,보안등,역삼1동 720-16,37.501711,127.042343
656672,보안등,역삼1동799-34,37.4916,127.036678
657695,보안등,역삼1동602-26,37.504585,127.027828
657696,보안등,역삼1동602-26,37.504438,127.027302
657721,보안등,역삼1동 66-12,37.502774,127.028417
658026,보안등,역삼1동 692-32,37.507476,127.042587
658036,보안등,역삼1동 685-20,37.508083,127.041993


In [14]:
dong_df2 = pd.DataFrame()

dong_df2['명칭'] = dong_df['보안등위치명']
dong_df2['위도'] = dong_df['위도']
dong_df2['경도'] = dong_df['경도']

dong_df2

Unnamed: 0,명칭,위도,경도
648502,역삼1동833,37.493349,127.032033
648503,역삼1동833,37.493349,127.032033
648504,역삼1동833,37.493349,127.032033
648505,역삼1동833,37.493349,127.032033
648506,역삼1동833,37.493349,127.032033
648507,역삼1동832-25,37.492834,127.031413
648508,역삼1동832-27,37.492632,127.031508
648509,역삼1동832-28,37.492480,127.031581
648510,역삼1동832-28,37.492480,127.031581
648511,역삼1동832-29,37.492343,127.031644


In [15]:
# df.dropna()  NaN 값이 하나라도 들어가 있는 행은 그 행 전체를 제거

dong_df2.shape    # (1619, 3)
dong_df3 = dong_df2.dropna()
dong_df3.shape  # (1599, 3)

(1599, 3)

In [16]:
dong_df4 = dong_df3.append(na2)
dong_df4.shape  # (1619, 3)

dong_df4 = dong_df4.fillna('보안등')
dong_df4

# row를 추가한 후에 reset index를 통해 index를 0부터 새롭게 지정한다. 이는 실제 작업할 때 많이 쓰는 테크닉이다. 

dong_df5 = dong_df4.reset_index(drop=True)

# columns 위치를 통일 시키기 위해 변경
dong_df5 = pd.DataFrame(dong_df5, columns = ['분류', '명칭', '위도', '경도'])
dong_df5


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  sort=sort)


Unnamed: 0,분류,명칭,위도,경도
0,보안등,역삼1동833,37.493349,127.032033
1,보안등,역삼1동833,37.493349,127.032033
2,보안등,역삼1동833,37.493349,127.032033
3,보안등,역삼1동833,37.493349,127.032033
4,보안등,역삼1동833,37.493349,127.032033
5,보안등,역삼1동832-25,37.492834,127.031413
6,보안등,역삼1동832-27,37.492632,127.031508
7,보안등,역삼1동832-28,37.492480,127.031581
8,보안등,역삼1동832-28,37.492480,127.031581
9,보안등,역삼1동832-29,37.492343,127.031644


## 4. 구글좌표 찍어보기

In [17]:
#google map 라이브러리로부터 lng, lat 추출
import googlemaps
import folium

gmaps_key = 'AIzaSyBUO5DHeoX8bW5lljNi9zf35lxDzC3xWHM'
gmaps = googlemaps.Client(key=gmaps_key)

slight_df = dong_df5

# 역삼동 중심 = 역삼역 /  좌표 : 37.500742, 127.036891

map = folium.Map(location=[37.500742, 127.036891], zoom_start=18)
slight_df

# slight_df = slight_df.rename(columns = {'보안등위치명': '명칭'})  위에서 바꿔버림
# slight_df

Unnamed: 0,분류,명칭,위도,경도
0,보안등,역삼1동833,37.493349,127.032033
1,보안등,역삼1동833,37.493349,127.032033
2,보안등,역삼1동833,37.493349,127.032033
3,보안등,역삼1동833,37.493349,127.032033
4,보안등,역삼1동833,37.493349,127.032033
5,보안등,역삼1동832-25,37.492834,127.031413
6,보안등,역삼1동832-27,37.492632,127.031508
7,보안등,역삼1동832-28,37.492480,127.031581
8,보안등,역삼1동832-28,37.492480,127.031581
9,보안등,역삼1동832-29,37.492343,127.031644


In [18]:
# 결측치가 있을 경우 a에 숫자가 카운트 된다
# 지금은 위에서 결측치 처리를 해서 0으로 나와야 한다...


a = 0
for n in range(0, len(slight_df)) :
  if np.isnan(slight_df['위도'][n] ) == False : 
    folium.Marker([slight_df['위도'][n], slight_df['경도'][n]], popup= slight_df['명칭'][n]).add_to(map)
  else :
    a += 1
   # print(n)
print(a) 

0


 ## 5. csv로 저장 및 지도 출력

In [19]:
# DataFrame 을 csv 파일로 저장하기

slight_df.to_csv("slight.csv", mode='w', encoding='ms949')   # encoding 을 안 하면 한글이 깨짐

#df_node.to_csv('./gdrive/My Drive/Colab Notebooks/Lumos_9X/Test/nodes.csv', encoding = 'utf-8' ) # node list
#df_link.to_csv('./gdrive/My Drive/Colab Notebooks/Lumos_9X/Test/link.csv', encoding = 'utf-8') # edge(=link) list

folium.Marker([slight_df['위도'][1], slight_df['경도'][1]]).add_to(map)
map


In [20]:
# 역삼2동에 찍히는 데이터 왜 그런지 모르겠음... 우선 패스 빼는 것도 괜찮을듯?
# 역삼1동 720-16
# 역삼1동 841
# 역삼1동 758-5

# 서울 강남구 역삼1동 편의점 데이터 가져오기

In [21]:
from selenium import webdriver

driver = webdriver.Chrome('./chromedriver.exe')
driver.get('https://map.naver.com/')

from bs4 import BeautifulSoup

import time

# 키워드 입력
driver.find_element_by_id('search-input').send_keys('역삼1동 편의점')
driver.find_element_by_css_selector('#header > div.sch > fieldset > button').click()

page = 1
cs_name = []
cs_address = []

# 검색 목록에서 21페이지까지 가져오기
while (page <= 21):
    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')
    
    cs_list = soup.select('.lsnx_det')
    for data in cs_list:
        title = data.select_one('a').text
        cs_name.append(title)
        
        address = data.find('dd', 'addr').get_text()
        # 최대 100자리까지 가져옴
        cs_address.append(address[:100])
    
    # 페이지가 정상적으로 넘어가는지 보기 위해 출력해봄
    print(page)
    page = page + 1
    
    try:
        # 5페이지 이후에 6페이지로 넘어가기 위한 처리
        if page % 5 == 1:
            driver.find_element_by_class_name('next').click()
        else:
            driver.find_element_by_xpath('//a[text()=' + str(page) + ']').click()
    except:
        break
    
    # 3초 딜레이를 줌.  하는 이유는 바로바로 작업하면 중간에 안 넘어가거나 중복 데이터가 발생함
    time.sleep(3)
        
import pandas as pd
data = {'csName': cs_name,
        'csAddress': cs_address,
       '분류': np.nan}
con_df = pd.DataFrame(data)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21


In [22]:
con_df

Unnamed: 0,csName,csAddress,분류
0,GS25 강남메트로점,서울특별시 강남구 테헤란로 101 강남역지하쇼핑센터 A-10 ...,
1,미니스톱 강남시티3점,서울특별시 강남구 테헤란로 103 명선상가빌딩 ...,
2,GS25 역삼지에스점,서울특별시 강남구 봉은사로30길 78 1층 ...,
3,이마트24 R강남역삼점,서울특별시 강남구 강남대로 428 만이빌딩 ...,
4,세븐일레븐 역삼8호점,서울특별시 강남구 강남대로102길 11 ...,
5,GS25 지에스강남점,서울특별시 강남구 논현로 508 GS타워 ...,
6,CU M강남역점,서울특별시 강남구 테헤란로 101 이즈타워 ...,
7,CU 역삼본점,서울특별시 강남구 강남대로110길 11 ...,
8,세븐일레븐 역삼11호점,서울특별시 강남구 논현로 546 ...,
9,GS25 역삼상록점,서울특별시 강남구 테헤란로43길 12 ...,


In [23]:
# csAddress 내용들을 list 형태로 저장
con_df2 = con_df['csAddress'].values.tolist()

## 데이터 전처리

In [24]:
con_df3 = []

# csAddress 에 같이 딸려 나오는 불필요한 공백과 '지번' 제거
for i in range(0, len(con_df2)):
    con_df3.append(con_df2[i].rstrip(' 지번'))

con_df3

['서울특별시 강남구 테헤란로 101 강남역지하쇼핑센터 A-10',
 '서울특별시 강남구 테헤란로 103 명선상가빌딩',
 '서울특별시 강남구 봉은사로30길 78 1층',
 '서울특별시 강남구 강남대로 428 만이빌딩',
 '서울특별시 강남구 강남대로102길 11',
 '서울특별시 강남구 논현로 508 GS타워',
 '서울특별시 강남구 테헤란로 101 이즈타워',
 '서울특별시 강남구 강남대로110길 11',
 '서울특별시 강남구 논현로 546',
 '서울특별시 강남구 테헤란로43길 12',
 '서울특별시 강남구 강남대로94길 23',
 '서울특별시 강남구 봉은사로 102',
 '서울특별시 강남구 강남대로94길 9',
 '서울특별시 강남구 테헤란로8길 11',
 '서울특별시 강남구 강남대로98길 17 시티힐 빌딩',
 '서울특별시 강남구 봉은사로26길 14',
 '서울특별시 강남구 언주로 517 102호202호',
 '서울특별시 강남구 테헤란로51길 10 정다운빌딩',
 '서울특별시 강남구 논현로102길 33',
 '서울특별시 강남구 강남대로 338 102호',
 '서울특별시 강남구 봉은사로48길 32',
 '서울특별시 강남구 논현로93길 3 양빌딩',
 '서울특별시 강남구 논현로94길 32 1층',
 '서울특별시 강남구 테헤란로 115 동원빌딩',
 '서울특별시 강남구 테헤란로20길 19 엘지에클라트',
 '서울특별시 강남구 언주로70길 10',
 '서울특별시 강남구 강남대로84길 16 제이스타워',
 '서울특별시 강남구 강남대로 396 강남역',
 '서울특별시 강남구 강남대로96길 5',
 '서울특별시 강남구 테헤란로2길 8 1층',
 '서울특별시 강남구 논현로 566 차병원',
 '서울특별시 강남구 언주로69길 7 농협',
 '서울특별시 강남구 강남대로84길 8',
 '서울특별시 강남구 테헤란로 152 강남파이낸스센터',
 '서울특별시 강남구 도곡로21길 18 삼정빌딩',
 '서울특별시 강남구 논현로79길 7',
 '서울특별시 강남구 논현로85길 5',


In [25]:
type(con_df3)   # list

list

In [26]:
con_df4 = []

# csAddress 에 괄호 들어가기 전까지만 df4에 저장
for i in con_df3:
    if i.find("(") > 0 :
        con_df4.append(i[0:i.find("(")])
    else:
        con_df4.append(i)

con_df4

['서울특별시 강남구 테헤란로 101 강남역지하쇼핑센터 A-10',
 '서울특별시 강남구 테헤란로 103 명선상가빌딩',
 '서울특별시 강남구 봉은사로30길 78 1층',
 '서울특별시 강남구 강남대로 428 만이빌딩',
 '서울특별시 강남구 강남대로102길 11',
 '서울특별시 강남구 논현로 508 GS타워',
 '서울특별시 강남구 테헤란로 101 이즈타워',
 '서울특별시 강남구 강남대로110길 11',
 '서울특별시 강남구 논현로 546',
 '서울특별시 강남구 테헤란로43길 12',
 '서울특별시 강남구 강남대로94길 23',
 '서울특별시 강남구 봉은사로 102',
 '서울특별시 강남구 강남대로94길 9',
 '서울특별시 강남구 테헤란로8길 11',
 '서울특별시 강남구 강남대로98길 17 시티힐 빌딩',
 '서울특별시 강남구 봉은사로26길 14',
 '서울특별시 강남구 언주로 517 102호202호',
 '서울특별시 강남구 테헤란로51길 10 정다운빌딩',
 '서울특별시 강남구 논현로102길 33',
 '서울특별시 강남구 강남대로 338 102호',
 '서울특별시 강남구 봉은사로48길 32',
 '서울특별시 강남구 논현로93길 3 양빌딩',
 '서울특별시 강남구 논현로94길 32 1층',
 '서울특별시 강남구 테헤란로 115 동원빌딩',
 '서울특별시 강남구 테헤란로20길 19 엘지에클라트',
 '서울특별시 강남구 언주로70길 10',
 '서울특별시 강남구 강남대로84길 16 제이스타워',
 '서울특별시 강남구 강남대로 396 강남역',
 '서울특별시 강남구 강남대로96길 5',
 '서울특별시 강남구 테헤란로2길 8 1층',
 '서울특별시 강남구 논현로 566 차병원',
 '서울특별시 강남구 언주로69길 7 농협',
 '서울특별시 강남구 강남대로84길 8',
 '서울특별시 강남구 테헤란로 152 강남파이낸스센터',
 '서울특별시 강남구 도곡로21길 18 삼정빌딩',
 '서울특별시 강남구 논현로79길 7',
 '서울특별시 강남구 논현로85길 5',


In [27]:
con_df4[155]   # '서울특별시 강남구 논현로95길 29-13 1층 '

'서울특별시 강남구 역삼로17길 60 역삼동'

In [28]:
con_df5 = []

# csAddress 에 '1층' 제거

for i in range(0, len(con_df4)):
    con_df5.append(con_df4[i].rstrip(' 1층'))

con_df5

['서울특별시 강남구 테헤란로 101 강남역지하쇼핑센터 A-10',
 '서울특별시 강남구 테헤란로 103 명선상가빌딩',
 '서울특별시 강남구 봉은사로30길 78',
 '서울특별시 강남구 강남대로 428 만이빌딩',
 '서울특별시 강남구 강남대로102길',
 '서울특별시 강남구 논현로 508 GS타워',
 '서울특별시 강남구 테헤란로 101 이즈타워',
 '서울특별시 강남구 강남대로110길',
 '서울특별시 강남구 논현로 546',
 '서울특별시 강남구 테헤란로43길 12',
 '서울특별시 강남구 강남대로94길 23',
 '서울특별시 강남구 봉은사로 102',
 '서울특별시 강남구 강남대로94길 9',
 '서울특별시 강남구 테헤란로8길',
 '서울특별시 강남구 강남대로98길 17 시티힐 빌딩',
 '서울특별시 강남구 봉은사로26길 14',
 '서울특별시 강남구 언주로 517 102호202호',
 '서울특별시 강남구 테헤란로51길 10 정다운빌딩',
 '서울특별시 강남구 논현로102길 33',
 '서울특별시 강남구 강남대로 338 102호',
 '서울특별시 강남구 봉은사로48길 32',
 '서울특별시 강남구 논현로93길 3 양빌딩',
 '서울특별시 강남구 논현로94길 32',
 '서울특별시 강남구 테헤란로 115 동원빌딩',
 '서울특별시 강남구 테헤란로20길 19 엘지에클라트',
 '서울특별시 강남구 언주로70길 10',
 '서울특별시 강남구 강남대로84길 16 제이스타워',
 '서울특별시 강남구 강남대로 396 강남역',
 '서울특별시 강남구 강남대로96길 5',
 '서울특별시 강남구 테헤란로2길 8',
 '서울특별시 강남구 논현로 566 차병원',
 '서울특별시 강남구 언주로69길 7 농협',
 '서울특별시 강남구 강남대로84길 8',
 '서울특별시 강남구 테헤란로 152 강남파이낸스센터',
 '서울특별시 강남구 도곡로21길 18 삼정빌딩',
 '서울특별시 강남구 논현로79길 7',
 '서울특별시 강남구 논현로85길 5',
 '서울특별시 강남구 강남대로 3

In [29]:
con_df5[155]

'서울특별시 강남구 역삼로17길 60 역삼동'

In [31]:
cs_lat = []
cs_lng = []

for i in range(0,len(con_df5)):
# 위의 코드에서 'geometry'가 가지고 데이터('location'의 'lat', 'lng')를 모두 가져옴
    e = gmaps.geocode(con_df5[i], language = 'ko')[0].get('geometry')
   # print(i)
   # print(e)
# e 에 있는 'location'에서 'lat' 위도 데이터를 가져옴
    cs_lat.append(e['location']['lat'])
# e에 있는 'location'에서 'lng' 경도 데이터를 가져옴
    cs_lng.append(e['location']['lng'])

In [32]:
print(len(cs_lat))
print(len(cs_lng))
#print(len(cs_df))
#cs_lat

210
210


In [33]:
convenient_df = pd.DataFrame()
convenient_df['분류'] = con_df['분류']
convenient_df['명칭'] = con_df['csName']
convenient_df['위도'] = cs_lat
convenient_df['경도'] = cs_lng

convenient_df = convenient_df.fillna('편의점')

convenient_df

Unnamed: 0,분류,명칭,위도,경도
0,편의점,GS25 강남메트로점,37.498572,127.028043
1,편의점,미니스톱 강남시티3점,37.498477,127.028340
2,편의점,GS25 역삼지에스점,37.502450,127.037007
3,편의점,이마트24 R강남역삼점,37.500794,127.026828
4,편의점,세븐일레븐 역삼8호점,37.502882,127.027757
5,편의점,GS25 지에스강남점,37.502423,127.037589
6,편의점,CU M강남역점,37.492184,127.029050
7,편의점,CU 역삼본점,37.503561,127.028559
8,편의점,세븐일레븐 역삼11호점,37.504894,127.035310
9,편의점,GS25 역삼상록점,37.504039,127.043984


## CSV로 저장 및 지도에 표시

In [34]:
# DataFrame 을 csv 파일로 저장하기

convenient_df.to_csv("convenient.csv", mode='w', encoding='ms949')   # encoding 을 안 하면 한글이 깨짐

In [30]:
import googlemaps
gmaps_key = "AIzaSyBUO5DHeoX8bW5lljNi9zf35lxDzC3xWHM"
gmaps = googlemaps.Client(key = gmaps_key)

In [35]:
# 역삼동 중심 = 역삼역 /  좌표 : 37.500742, 127.036891

map1 = folium.Map(location=[37.500742, 127.036891], zoom_start=18)

for n in range(0, len(convenient_df)) :
    folium.Marker([convenient_df['위도'][n], convenient_df['경도'][n]], popup= convenient_df['명칭'][n]).add_to(map1)

map1

# CCTV 데이터 가져오기

In [36]:
import numpy as np
import pandas as pd

In [63]:
# 서울특별시_강남구_CCTV_20190312.csv 이름을 gangnam_cctv.csv로 변경함

gucc_df = pd.read_csv('서울특별시_강남구_CCTV_20190312.csv.', encoding='ms949', engine='python')
gucc_df

Unnamed: 0,관리기관명,소재지도로명주소,소재지지번주소,설치목적구분,카메라대수,카메라화소수,촬영방면정보,보관일수,설치년월,관리기관전화번호,위도,경도,데이터기준일자
0,서울특별시 강남구청,서울특별시 강남구 학동로 156(논현동),서울특별시 강남구 논현동 126-5 (디오스인갤러리 주변),교통단속,1,400,360도전방면,30,1905-07,02-3423-6772,37.512973,127.027904,2019-03-12
1,서울특별시 강남구청,"서울특별시 강남구 논현로 209(도곡동, 경남아파트)",서울특별시 강남구 도곡동 967-1 (도곡경남아파트 주변),교통단속,1,200,360도전방면,30,1905-07,02-3423-6772,37.489311,127.041354,2019-03-12
2,서울특별시 강남구청,"서울특별시 강남구 봉은사로 510(삼성동, 삼성동포스코 더샵)",서울특별시 강남구 삼성동 146-2 (삼성1동 더샵 주변),교통단속,1,400,360도전방면,30,1905-07,02-3423-6772,37.513250,127.055296,2019-03-12
3,서울특별시 강남구청,서울특별시 강남구 봉은사로 533(삼성동),서울특별시 강남구 삼성동 77-24 (봉은사 주변),교통단속,1,400,360도전방면,30,1905-07,02-3423-6772,37.514075,127.058436,2019-03-12
4,서울특별시 강남구청,"서울특별시 강남구 압구정로 401(압구정동, 한양아파트)",서울특별시 강남구 압구정동 513 (한양아파트 주변),교통단속,1,400,360도전방면,30,1905-07,02-3423-6772,37.529011,127.041269,2019-03-12
5,서울특별시 강남구청,서울특별시 강남구 언주로85길 23-11(역삼동),서울특별시 강남구 역삼동 722-9 (역삼2동성당 주변),교통단속,1,400,360도전방면,30,1905-07,02-3423-6772,37.500955,127.041796,2019-03-12
6,서울특별시 강남구청,서울특별시 강남구 양재대로55길 11(일원동),서울특별시 강남구 일원동 644-3 (일원1동주민센터 주변),교통단속,3,400,360도전방면,30,1905-07,02-3423-6772,37.491491,127.087817,2019-03-12
7,서울특별시 강남구청,서울특별시 강남구 선릉로 828(청담동),서울특별시 강남구 청담동 84-8 (태그호이어 주변),교통단속,1,400,360도전방면,30,1905-07,02-3423-6772,37.525789,127.040138,2019-03-12
8,서울특별시 강남구청,서울특별시 강남구 세곡동 258 (리엔파크A 104동 건너 어린이공원 내),서울특별시 강남구 세곡동 258 (리엔파크A 104동 건너 어린이공원 내),생활방범,1,41,360도전방면,30,1905-07,02-3423-6772,37.463139,127.101072,2019-03-12
9,서울특별시 강남구청,서울특별시 강남구 세곡동 185 (건너 어린이공원 내),서울특별시 강남구 세곡동 185 (건너 어린이공원 내),생활방범,1,41,360도전방면,30,1905-07,02-3423-6772,37.462427,127.104338,2019-03-12


## 결측치 확인하기

In [64]:
# gucc_df.info()
# gucc_df.head(5)
# gucc_df.describe()
print(gucc_df.shape)    # (1880, 13)
gucc_df.isnull().sum()

(1880, 13)


관리기관명       0
소재지도로명주소    0
소재지지번주소     0
설치목적구분      0
카메라대수       0
카메라화소수      0
촬영방면정보      0
보관일수        0
설치년월        0
관리기관전화번호    0
위도          0
경도          0
데이터기준일자     0
dtype: int64

In [65]:
# 역삼동에 있는 CCTV만 가져오기 

dongcc_df = gucc_df[gucc_df.소재지지번주소.str.contains('역삼동')]
dongcc_df

Unnamed: 0,관리기관명,소재지도로명주소,소재지지번주소,설치목적구분,카메라대수,카메라화소수,촬영방면정보,보관일수,설치년월,관리기관전화번호,위도,경도,데이터기준일자
5,서울특별시 강남구청,서울특별시 강남구 언주로85길 23-11(역삼동),서울특별시 강남구 역삼동 722-9 (역삼2동성당 주변),교통단속,1,400,360도전방면,30,1905-07,02-3423-6772,37.500955,127.041796,2019-03-12
86,서울특별시 강남구청,서울특별시 강남구 봉은사로18길 32 (역삼동),서울특별시 강남구 역삼동 614-8,생활방범,1,200,360도전방면,30,2004-04,02-3423-6772,37.504353,127.029811,2019-03-12
87,서울특별시 강남구청,서울특별시 강남구 봉은사로 130 (역삼동),서울특별시 강남구 역삼동 603,생활방범,1,200,360도전방면,30,2004-04,02-3423-6772,37.505123,127.029489,2019-03-12
88,서울특별시 강남구청,서울특별시 강남구 봉은사로18길 66 (역삼동),서울특별시 강남구 역삼동 619-10,생활방범,1,200,360도전방면,30,2004-04,02-3423-6772,37.502332,127.028110,2019-03-12
89,서울특별시 강남구청,서울특별시 강남구 테헤란로19길 29 (역삼동),서울특별시 강남구 역삼동 637-41,생활방범,1,200,360도전방면,30,2004-04,02-3423-6772,37.501974,127.032911,2019-03-12
90,서울특별시 강남구청,서울특별시 강남구 봉은사로34길 21 (역삼동),서울특별시 강남구 역삼동 655-13,생활방범,1,200,360도전방면,30,2004-04,02-3423-6772,37.506711,127.037181,2019-03-12
91,서울특별시 강남구청,서울특별시 강남구 논현로102길 8 (역삼동),서울특별시 강남구 역삼동 667-3,생활방범,1,200,360도전방면,30,2004-04,02-3423-6772,37.504949,127.035894,2019-03-12
92,서울특별시 강남구청,"서울특별시 강남구 봉은사로48길 44-7 (역삼동, 동원스위트)",서울특별시 강남구 역삼동 691-2,생활방범,1,200,360도전방면,30,2004-04,02-3423-6772,37.506575,127.042766,2019-03-12
93,서울특별시 강남구청,서울특별시 강남구 언주로104길 42 (역삼동),서울특별시 강남구 역삼동 693-14,생활방범,4,200,360도전방면,30,2004-04,02-3423-6772,37.508302,127.043544,2019-03-12
94,서울특별시 강남구청,서울특별시 강남구 테헤란로51길 33 (역삼동),서울특별시 강남구 역삼동 704-24,생활방범,1,200,360도전방면,30,2004-04,02-3423-6772,37.505583,127.044954,2019-03-12


In [66]:
yeok_df = pd.DataFrame()
yeok_df['분류'] = np.nan
yeok_df['명칭'] = dongcc_df['소재지지번주소']
yeok_df['위도'] = dongcc_df['위도']
yeok_df['경도'] = dongcc_df['경도']

yeok_df = yeok_df.fillna('CCTV')

yeok_df = yeok_df.reset_index(drop=True)
yeok_df    # 261 rows × 4 columns

Unnamed: 0,분류,명칭,위도,경도
0,CCTV,서울특별시 강남구 역삼동 722-9 (역삼2동성당 주변),37.500955,127.041796
1,CCTV,서울특별시 강남구 역삼동 614-8,37.504353,127.029811
2,CCTV,서울특별시 강남구 역삼동 603,37.505123,127.029489
3,CCTV,서울특별시 강남구 역삼동 619-10,37.502332,127.028110
4,CCTV,서울특별시 강남구 역삼동 637-41,37.501974,127.032911
5,CCTV,서울특별시 강남구 역삼동 655-13,37.506711,127.037181
6,CCTV,서울특별시 강남구 역삼동 667-3,37.504949,127.035894
7,CCTV,서울특별시 강남구 역삼동 691-2,37.506575,127.042766
8,CCTV,서울특별시 강남구 역삼동 693-14,37.508302,127.043544
9,CCTV,서울특별시 강남구 역삼동 704-24,37.505583,127.044954


In [67]:
# 명칭에서 거추장스러운 부분 제거

address = []

for name in yeok_df['명칭'] :
    nm = name[10 :]
    address.append(nm)
address    

['역삼동 722-9 (역삼2동성당 주변)',
 '역삼동 614-8',
 '역삼동 603',
 '역삼동 619-10',
 '역삼동 637-41',
 '역삼동 655-13',
 '역삼동 667-3',
 '역삼동 691-2',
 '역삼동 693-14',
 '역삼동 704-24',
 '역삼동 705',
 '역삼동 815-10',
 '역삼동 660-9',
 '역삼동 671-12',
 '역삼동 703-9',
 '역삼동 735-17',
 '역삼동 741-25',
 '역삼동 744 (역삼어린이집 앞)',
 '역삼동 747',
 '역삼동 748',
 '역삼동 751-10',
 '역삼동 752',
 '역삼동 794-22',
 '역삼동 795-25 (강남구 제10호 공영주차장 앞)',
 '역삼동 824-11',
 '역삼동 828-11',
 '역삼동 830-23 (역삼무궁화공원 코너)',
 '역삼동 836 (한스빌A 앞)',
 '역삼동 836-43',
 '역삼동 837-26 (삼일프라자 오피스텔 앞)',
 '역삼동 714 (도성초 정문 앞)',
 '역삼동 725-13 (삼환베르사이유 담장)',
 '역삼동 728-10',
 '역삼동 728-40',
 '역삼동 724-31',
 '역삼동 729-10',
 '역삼동 754-1 (역삼푸르지오A 107동 앞)',
 '역삼동 767-20 (역삼중 담장)',
 '역삼동 772 (주차빌딩 앞)',
 '역삼동 774',
 '역삼동 774-20',
 '역삼동 776-2 (총지사 앞)',
 '역삼동 777-23',
 '역삼동 779-10 (청운교회 앞)',
 '역삼동 780-25',
 '역삼동 782-18',
 '역삼동 782-38',
 '역삼동 676 (르네상스호텔2 주변)',
 '역삼동 677-25 (르네상스호텔 주변)',
 '역삼동 619-24',
 '역삼동 629',
 '역삼동 673-6',
 '역삼동 683-10',
 '역삼동 683-43',
 '역삼동 796-1',
 '역삼동 831-3',
 '역삼동 840-5',
 '역삼동 644-18 

In [68]:
cctv_df = pd.DataFrame()
cctv_df['분류'] = yeok_df['분류']
cctv_df['명칭'] = address
cctv_df['위도'] = yeok_df['위도']
cctv_df['경도'] = yeok_df['경도']
cctv_df

Unnamed: 0,분류,명칭,위도,경도
0,CCTV,역삼동 722-9 (역삼2동성당 주변),37.500955,127.041796
1,CCTV,역삼동 614-8,37.504353,127.029811
2,CCTV,역삼동 603,37.505123,127.029489
3,CCTV,역삼동 619-10,37.502332,127.028110
4,CCTV,역삼동 637-41,37.501974,127.032911
5,CCTV,역삼동 655-13,37.506711,127.037181
6,CCTV,역삼동 667-3,37.504949,127.035894
7,CCTV,역삼동 691-2,37.506575,127.042766
8,CCTV,역삼동 693-14,37.508302,127.043544
9,CCTV,역삼동 704-24,37.505583,127.044954


In [69]:
# DataFrame 을 csv 파일로 저장하기

cctv_df.to_csv("cctv.csv", mode='w', encoding='ms949')   # encoding 을 안 하면 한글이 깨짐

In [70]:
import googlemaps
import folium

gmaps_key = "AIzaSyBUO5DHeoX8bW5lljNi9zf35lxDzC3xWHM"
gmaps = googlemaps.Client(key = gmaps_key)

# 역삼동 중심 = 역삼역 /  좌표 : 37.500742, 127.036891

map2 = folium.Map(location=[37.500742, 127.036891], zoom_start=18)

for n in range(0, len(cctv_df)) :
    folium.Marker([cctv_df['위도'][n], cctv_df['경도'][n]], popup= cctv_df['명칭'][n]).add_to(map2)

map2

# 서울 강남구 파출소 가져오기

In [46]:
from selenium import webdriver

driver = webdriver.Chrome('./chromedriver.exe')
driver.get('https://map.naver.com/')

from bs4 import BeautifulSoup

import time

# 키워드 입력
driver.find_element_by_id('search-input').send_keys('역삼동 파출소')
driver.find_element_by_css_selector('#header > div.sch > fieldset > button').click()

page = 1
po_name = []
po_address = []

# 검색 목록에서 2페이지까지 가져오기    2페이지까지 밖에 없음
while (page <= 2):
    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')
    
    cs_list = soup.select('.lsnx_det')
    for data in cs_list:
        title = data.select_one('a').text
        po_name.append(title)
        
        address = data.find('dd', 'addr').get_text()
        # 최대 100자리까지 가져옴
        po_address.append(address[:100])
    
    # 페이지가 정상적으로 넘어가는지 보기 위해 출력해봄
    print(page)
    page = page + 1
    
    try:
        # 5페이지 이후에 6페이지로 넘어가기 위한 처리
        if page % 5 == 1:
            driver.find_element_by_class_name('next').click()
        else:
            driver.find_element_by_xpath('//a[text()=' + str(page) + ']').click()
    except:
        break
    
    # 3초 딜레이를 줌.  하는 이유는 바로바로 작업하면 중간에 안 넘어가거나 중복 데이터가 발생함
    time.sleep(3)
        
import pandas as pd

data = {'분류': np.nan,
        'poName': po_name,
        'poAddress': po_address
       }
po_df = pd.DataFrame(data)

1
2


In [47]:
po_df

Unnamed: 0,분류,poName,poAddress
0,,도곡지구대,서울특별시 강남구 역삼동 711-4
1,,역삼지구대,서울특별시 강남구 언주로108길 20 U-강남도시관제센터 ...
2,,역서치안센타,서울특별시 강남구 역삼로 117 ...
3,,서울지방경찰청국제범죄수사대,서울특별시 강남구 테헤란로27길 33 역삼1동 파출소 ...
4,,역서파출소앞공중전화(옥외),서울특별시 강남구 역삼로 117 ...
5,,양재파출소,서울특별시 서초구 남부순환로356길 9 ...
6,,신사파출소,서울특별시 강남구 도산대로 143 ...
7,,서울강남경찰서삼성1파출소,서울특별시 강남구 영동대로112길 4 ...
8,,논현1파출소,서울특별시 강남구 학동로 169 논현1파출소 ...
9,,서초2파출소,서울특별시 서초구 서초동 1356-6


In [48]:
# csAddress 내용들을 list 형태로 저장

po_df2 = po_df['poAddress'].values.tolist()

## 불필요한 문구 제거

In [49]:
po_df3 = []

# csAddress 에 같이 딸려 나오는 불필요한 공백과 '지번' 제거
for i in range(0, len(po_df2)):
    po_df3.append(po_df2[i].rstrip(' 지번'))

po_df3

['서울특별시 강남구 역삼동 711-4',
 '서울특별시 강남구 언주로108길 20 U-강남도시관제센터',
 '서울특별시 강남구 역삼로 117',
 '서울특별시 강남구 테헤란로27길 33 역삼1동 파출소',
 '서울특별시 강남구 역삼로 117',
 '서울특별시 서초구 남부순환로356길 9',
 '서울특별시 강남구 도산대로 143',
 '서울특별시 강남구 영동대로112길 4',
 '서울특별시 강남구 학동로 169 논현1파출소',
 '서울특별시 서초구 서초동 1356-6',
 '서울특별시 서초구 효령로 297 서초파출소',
 '서울특별시 강남구 학동로 227 논현2파출소',
 '서울특별시 강남구 선릉로 626 교통정보센터',
 '서울특별시 강남구 삼성로 203 대치지구대',
 '서울특별시 강남구 개포동 1268-2',
 '서울특별시 강남구 남부순환로378길 29',
 '서울특별시 강남구 삼성로 236',
 '서울특별시 강남구 삼성동 111-32']

In [50]:
po_df4 = []

# csAddress 에 '파출소' 제거
for i in range(0, len(po_df3)):
    po_df4.append(po_df3[i].rstrip(' 파출소'))

po_df4

['서울특별시 강남구 역삼동 711-4',
 '서울특별시 강남구 언주로108길 20 U-강남도시관제센터',
 '서울특별시 강남구 역삼로 117',
 '서울특별시 강남구 테헤란로27길 33 역삼1동',
 '서울특별시 강남구 역삼로 117',
 '서울특별시 서초구 남부순환로356길 9',
 '서울특별시 강남구 도산대로 143',
 '서울특별시 강남구 영동대로112길 4',
 '서울특별시 강남구 학동로 169 논현1',
 '서울특별시 서초구 서초동 1356-6',
 '서울특별시 서초구 효령로 297 서초',
 '서울특별시 강남구 학동로 227 논현2',
 '서울특별시 강남구 선릉로 626 교통정보센터',
 '서울특별시 강남구 삼성로 203 대치지구대',
 '서울특별시 강남구 개포동 1268-2',
 '서울특별시 강남구 남부순환로378길 29',
 '서울특별시 강남구 삼성로 236',
 '서울특별시 강남구 삼성동 111-32']

In [51]:
po_lat = []
po_lng = []

# gmaps.geocode('서울특별시 강남구 테헤란로27길 33 역삼1동 파출소', language = 'ko')[0].get('geometry')


for i in range(0,len(po_df3)):
# 위의 코드에서 'geometry'가 가지고 데이터('location'의 'lat', 'lng')를 모두 가져옴
    e = gmaps.geocode(po_df4[i], language = 'ko')[0].get('geometry')
   # print(i)
   # print(e)
# e 에 있는 'location'에서 'lat' 위도 데이터를 가져옴
    po_lat.append(e['location']['lat'])
# e에 있는 'location'에서 'lng' 경도 데이터를 가져옴
    po_lng.append(e['location']['lng'])

In [52]:
print(len(po_lat))
print(len(po_lng))

18
18


In [53]:
police_df = pd.DataFrame()
police_df['분류'] = po_df['분류']
police_df['명칭'] = po_df['poName']
police_df['위도'] = po_lat
police_df['경도'] = po_lng

police_df = police_df.fillna('파출소')

police_df

Unnamed: 0,분류,명칭,위도,경도
0,파출소,도곡지구대,37.501322,127.044028
1,파출소,역삼지구대,37.508291,127.041003
2,파출소,역서치안센타,37.493819,127.032197
3,파출소,서울지방경찰청국제범죄수사대,37.503378,127.037102
4,파출소,역서파출소앞공중전화(옥외),37.493819,127.032197
5,파출소,양재파출소,37.484506,127.037802
6,파출소,신사파출소,37.518331,127.024119
7,파출소,서울강남경찰서삼성1파출소,37.514869,127.060533
8,파출소,논현1파출소,37.511487,127.028522
9,파출소,서초2파출소,37.48748,127.028963


In [54]:
import googlemaps
import folium

gmaps_key = "AIzaSyBUO5DHeoX8bW5lljNi9zf35lxDzC3xWHM"
gmaps = googlemaps.Client(key = gmaps_key)

## csv 로 저장하고 지도에 표시하기

In [55]:
# DataFrame 을 csv 파일로 저장하기

police_df.to_csv("police.csv", mode='w', encoding='ms949')   # encoding 을 안 하면 한글이 깨짐

In [56]:
# 역삼동 중심 = 역삼역 /  좌표 : 37.500742, 127.036891

map3 = folium.Map(location=[37.500742, 127.036891], zoom_start=18)

for n in range(0, len(police_df)) :
    folium.Marker([police_df['위도'][n], police_df['경도'][n]], popup= police_df['명칭'][n]).add_to(map3)

map3

In [71]:
total_df = slight_df.append(convenient_df)
total_df = total_df.append(cctv_df)
total_df = total_df.append(police_df)

total_df

Unnamed: 0,분류,명칭,위도,경도
0,보안등,역삼1동833,37.493349,127.032033
1,보안등,역삼1동833,37.493349,127.032033
2,보안등,역삼1동833,37.493349,127.032033
3,보안등,역삼1동833,37.493349,127.032033
4,보안등,역삼1동833,37.493349,127.032033
5,보안등,역삼1동832-25,37.492834,127.031413
6,보안등,역삼1동832-27,37.492632,127.031508
7,보안등,역삼1동832-28,37.492480,127.031581
8,보안등,역삼1동832-28,37.492480,127.031581
9,보안등,역삼1동832-29,37.492343,127.031644


In [72]:
# 인덱스 초기화
total_df = total_df.reset_index(drop=True)
total_df

Unnamed: 0,분류,명칭,위도,경도
0,보안등,역삼1동833,37.493349,127.032033
1,보안등,역삼1동833,37.493349,127.032033
2,보안등,역삼1동833,37.493349,127.032033
3,보안등,역삼1동833,37.493349,127.032033
4,보안등,역삼1동833,37.493349,127.032033
5,보안등,역삼1동832-25,37.492834,127.031413
6,보안등,역삼1동832-27,37.492632,127.031508
7,보안등,역삼1동832-28,37.492480,127.031581
8,보안등,역삼1동832-28,37.492480,127.031581
9,보안등,역삼1동832-29,37.492343,127.031644


## 통합 데이터를 csv로 저장하고 지도에 표시하기

In [73]:
# DataFrame 을 csv 파일로 저장하기

total_df.to_csv("total.csv", mode='w', encoding='ms949')   # encoding 을 안 하면 한글이 깨짐

In [75]:
# 역삼동 중심 = 역삼역 /  좌표 : 37.500742, 127.036891

to_map = folium.Map(location=[37.500742, 127.036891], zoom_start=18)

for n in range(0, len(total_df)) :
    folium.Marker([total_df['위도'][n], total_df['경도'][n]], popup= total_df['명칭'][n]).add_to(to_map)

# to_map

# 위도, 경도로 거리 구하기

In [152]:
from haversine import haversine

#출발지 37.506059, 127.036863
strt = (37.499907 , 127.037393) # (lat, lng)
#도착지
dstn = (37.509122, 127.043816)

#총 거리
d_m = haversine(strt, dstn, unit='m') # in meters
d_km = haversine(strt, dstn)  # in kilometers

#block단위 
# 경유지가 총 3개까지만 가능하니까 3개의 반경으로 나누자. 700 이상인 경우는 api다시 받기 (추후에)
dvd = d_m / 4

print(dvd,d_m)

292.7189764711792 1170.8759058847168


#### 내가(홍) 몰라서 참고하는 예시
Specify orient='index' to create the DataFrame using dictionary keys as rows:

>>> data = {'row_1': [3, 2, 1, 0], 'row_2': ['a', 'b', 'c', 'd']}
>>> pd.DataFrame.from_dict(data, orient='index')

       0  1  2  3
row_1  3  2  1  0
row_2  a  b  c  d


>>> data1212 = {'row_1': [3, 2, 1, 0], 'row_2': ['a', 'b', 'c', 'd']}
>>> pd.DataFrame.from_dict(data1212, orient='index').T

  row_1 row_2
0	3	a
1	2	b
2	1	c
3	0	d

In [169]:
from  random import randint
df_ptInRange = pd.DataFrame(columns=['point_ID','거리', '밝기', '분류', '명칭', '위도', '경도', '경유여부'])
n = int(0)

for i in range(0, len(total_df)):
    
    # 점과 출발점 거리측정 (strt는 이후에 경유지로 재설정 되어야한다.)
    dis = haversine(strt, [total_df.loc[i,'위도'] , total_df.loc[i,'경도'] ], unit='m')
    
    ## 1 block 내에 포함되는 points
    if dis <= d_m / 2 :
        tmp = {'point_ID' : 'Point_%d' % int(n), '분류' :total_df.loc[i,'분류'], '명칭' : total_df.loc[i,'명칭'], '위도' : total_df.loc[i,'위도'], '경도' : total_df.loc[i,'경도'] , '거리' : dis, '밝기' : randint(0,5) , '경유여부' : 0 } 
        
        # 아래 코드의 마지막 .T는 transform
        df_ptInRange = df_ptInRange.append(df_ptInRange.from_dict(tmp, orient = 'index').T)
        n += 1

                
# ascending 오름차순 
a = df_ptInRange.sort_values(by = ['거리','밝기'], ascending=[True, False] )
b = df_ptInRange.sort_values(by = ['밝기', '거리'], ascending=[False, True] )


# 주변 시설물의 개수라고 생각하면 될듯
print(len(a))

# 인덱스 정리
a = a.reset_index(drop=True)
b = b.reset_index(drop=True)

a = pd.DataFrame(a, columns = ['point_ID','거리', '밝기', '분류', '명칭', '위도', '경도', '경유여부'])
b = pd.DataFrame(b, columns = ['point_ID','거리', '밝기', '분류', '명칭', '위도', '경도', '경유여부'])

a
#print(total_df[total_df.명칭.str.contains('772')])
#print(df_ptInRange[df_ptInRange.명칭.str.contains('772')])
#print(a[a.point_ID == 'Point_858'].위도.values)

#a.loc[458,'위도']

647


Unnamed: 0,point_ID,거리,밝기,분류,명칭,위도,경도,경유여부
0,Point_586,0,0,CCTV,역삼동 772 (주차빌딩 앞),37.4999,127.037,0
1,Point_564,74.1707,2,편의점,세븐일레븐역삼메트로점,37.4999,127.037,0
2,Point_596,74.7398,4,CCTV,역삼동 738-9 (최수사 주변),37.4992,127.037,0
3,Point_494,87.9528,0,편의점,세븐일레븐 역삼GFC점,37.5,127.036,0
4,Point_421,95.7287,3,보안등,역삼1동738-7,37.4991,127.037,0
5,Point_422,95.7287,0,보안등,역삼1동738-7,37.4991,127.037,0
6,Point_496,101.941,0,편의점,GS25 역삼스타점,37.499,127.037,0
7,Point_304,112.73,4,보안등,역삼1동738-6,37.499,127.037,0
8,Point_305,112.73,4,보안등,역삼1동738-6,37.499,127.037,0
9,Point_306,129.238,0,보안등,역삼1동739-1,37.499,127.036,0


In [173]:
# 역삼동 중심 = 역삼역 /  좌표 : 37.500742, 127.036891

to_map1 = folium.Map(location=strt, zoom_start=18)

for n in range(0, len(a)) :
    if a['분류'][n] == '편의점' :
        folium.Marker([a['위도'][n], a['경도'][n]], popup= a['분류'][n], icon=folium.Icon(color='green')).add_to(to_map1)
    elif a['분류'][n] == 'CCTV' : 
        folium.CircleMarker([a['위도'][n], a['경도'][n]], popup= a['명칭'][n], icon=folium.Icon(color='yellow'), radius = 5).add_to(to_map1)        
    elif a['분류'][n] == '보안등' : 
        folium.CircleMarker([a['위도'][n], a['경도'][n]], popup= a['명칭'][n], fill_color = 'blue', radius = 2).add_to(to_map1)  
    else : 
        folium.Marker([a['위도'][n], a['경도'][n]], popup= a['분류'][n], icon=folium.Icon(color='black')).add_to(to_map1)        

        
# 구분하기 쉽게 스타팅 지역은 빨간색 마커로 표시        
folium.Marker(strt, popup= 'SP', icon=folium.Icon(color='red', )).add_to(to_map1)
    
to_map1
