# 빅프9조

분석방법
순찰 영역은 원형이지만 격자점 내부에서는 분석을 정사각형으로 함

# 기본 설정

 필수 라이브러리 import

In [None]:
import numpy as np
import pandas as pd

from selenium import webdriver as wb
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException
import time

import folium
from IPython.display import display, HTML

파일경로, csv인코딩 설정

In [None]:
data_path = "전처리완료데이터/"
raw_path = "전처리필요데이터/"
encoding = "cp949"
extension = ".csv"

경찰서 목록

In [None]:
police = np.array([37.679699, 127.055066], dtype=np.float64)

격자점 생성에 필요한 상수 선언

In [None]:
NS_DIFF_1M = 0.000007
EW_DIFF_1M = 0.000009
PATROL_HR = 900
GRID_DIFF = 90

### 데이터를 순찰 반경 안의 것만 잘라내는 함수

In [None]:
def filtering(data, police, mode = "시설"):
    distance = PATROL_HR + GRID_DIFF/2 + 5 if mode == "시설" else PATROL_HR + 10 
    ft = (data[["위도", "경도"]] - police).copy()
    ft.loc[:, "위도"] /= NS_DIFF_1M
    ft.loc[:, "경도"] /= EW_DIFF_1M
    ft = np.sqrt( np.sum( np.square(ft), axis=1 ))
    return data.loc[ft <= distance, :].reset_index(drop=True)

# 기본 격자점 생성

기본 격자점 반환함수

In [None]:
def grids(police):
    hcount = PATROL_HR//GRID_DIFF
    ew = np.arange(-hcount, hcount + 1, dtype=np.float64)
    ns = ew.reshape(-1,1).copy()
    ew *= EW_DIFF_1M * GRID_DIFF
    ns *= NS_DIFF_1M * GRID_DIFF
    
    result = np.full((2*hcount+1, 2*hcount+1, 2), police, dtype=np.float64)
    result[:,:,0] += ns
    result[:,:,1] += ew
    
    return pd.DataFrame(result.reshape(-1,2), columns=["위도", "경도"])

원형 격자점 생성

In [None]:
police_grid = grids(police)
police_grid = filtering(police_grid, police, "격자")
police_grid

# 장소별 범죄 발생 확률 이용

### 샘플링

뽑을 개수 (5개)

In [None]:
SAMPLING = 5

격자점 범위 내에서 무작위로 5개 점 추가

In [None]:
def sampled_grids(grid):
    interval_size = SAMPLING+1
    result = np.zeros((grid.shape[0]*interval_size, 2), dtype=np.float64)
    for i in range(0, result.shape[0], interval_size):
        ran = np.zeros((interval_size, 2), dtype=np.float64)
        ran[1:] = np.random.uniform(-1, 1, (interval_size-1, 2))
        ran[:, 0] *= (GRID_DIFF/2)*NS_DIFF_1M
        ran[:, 1] *= (GRID_DIFF/2)*EW_DIFF_1M
        ran += grid.values[i//interval_size]
        result[i:i+interval_size] += ran
    return pd.DataFrame(result, columns = ["위도", "경도"])

추가한 데이터 csv내보내기

In [None]:
police_sampled = sampled_grids(police_grid)
police_sampled

In [None]:
#police_sampled.to_csv(raw_path + "sampled_grid" + extension, index=False, encoding=encoding)

### 주소로 변환

https://www.geoservice.co.kr/

내보낸 csv 파일 이용, 위 링크에서 역지오코딩, 주소얻기

주소 기본 데이터 생성

In [None]:
def addr_data(file_path):
    data=pd.read_csv(file_path)
    data["이름"] = None
    data["확률"] = None
    data["index"]=[i//(SAMPLING+1) for i in range(data.shape[0])]
    return data

In [None]:
police_addr = addr_data(data_path + "sampled_addr.csv")
police_addr

# 건물 이름 크롤링

지연 시간(1초), 웹 지도 url(카카오맵) 설정

In [None]:
DELAY_TIME = 0.5
map_url = "https://map.kakao.com/"

브라우저 드라이버 반환(no 전달시 창 안뜸)

In [None]:
def openweb(mode="window"):
    if mode == "no":
        options = wb.ChromeOptions()
        options.add_argument('headless')
        driver = wb.Chrome(options=options)
    else:
        driver = wb.Chrome()
    driver.get(map_url)
    time.sleep(DELAY_TIME)
    return driver

검색어 입력 후 실행

In [None]:
def search(browser, address):
    search_box = browser.find_element(By.ID, "search.keyword.query")
    while search_box.get_attribute("value"):
        search_box.send_keys(Keys.CONTROL, 'a')
        search_box.send_keys(Keys.BACKSPACE)
    search_box.send_keys(address)
    search_box.send_keys(Keys.RETURN)
    time.sleep(DELAY_TIME)

### 크롤링 함수

도로나 강 야외의 경우 지번주소는 있지만 우편번호가 없다

지번주소 먼저 검색 -> 야외 분류

우편번호 있으면 -> 도로명주소 검색

건물이름 뜨면 -> 이름 반환

안뜨면 -> 우편번호 반환

In [None]:
def find_name(browser, addr, road_addr):
    if "산" in addr:
        return "산"
    if "지하" in road_addr:
        return "지하철"
    search(browser, addr)
    try:
        postage = browser.find_element(By.CLASS_NAME, "zip")
    except NoSuchElementException:
        return "nozip"
    else:
        postnum = postage.text
        search(browser, road_addr)
        try:
            buildname = browser.find_element(By.CLASS_NAME, "building")
        except NoSuchElementException:
            return postnum
        else:
            return buildname.text

주소 전부 검색 후 csv로 내보내기

In [None]:
def search_to_csv(browser, data, file_path):
    for i in range(len(data.index)):
        data.iloc[i, 4] = find_name(browser, data.iloc[i, 2], data.iloc[i, 3])
    data.to_csv(file_path, index=False, encoding=encoding)

In [None]:
#browser = openweb("no")
#search_to_csv(browser, police_addr, data_path+"sampled_name.csv")

### 이름을 토대로 유형 분류, 확률 점수 부여

In [None]:
police_per = pd.read_csv(data_path + "sampled_name.csv", encoding=encoding)
set(police_per["이름"])

장소 분류에 따른 범죄확률

In [None]:
crime_per = pd.read_csv(data_path+"processed_crime.csv", encoding=encoding)
crime_per

분류 결과를 바탕으로 이름이 어떤유형인지 분류

In [None]:
def namespace(file_path):
    space = dict()
    with open(file_path, 'r', encoding='UTF8') as file:
        for i in file:
            temp=i.split(" - ")
            space[temp[0]] = temp[1].strip()
    return space

자료에 맞춰 확률 계산후 대입

In [None]:
def insert_percentage(file_path, addr_data):
    space = namespace(file_path)
    for i in space:
        addr_data.loc[addr_data["이름"]==i, "확률"] = crime_per.loc[0, space[i]]

In [None]:
insert_percentage(data_path + "상계1_name_category.txt", police_per)       
police_per

동일 지역에서 샘플된 데이터끼리 확률 합 구하고 격자점 데이터에 새로운 열로 추가

In [None]:
def insert_location(grid, percentage_data):
    score = percentage_data[["index", "확률"]].groupby("index").sum()
    grid["location"] = score

In [None]:
insert_location(police_grid, police_per)
police_grid

# 시설물 데이터 이용

시설물 점수 기준

시설물 밀도 계산 => 격자점 반경 내 개수 / 전체 범위 내 개수

이때 데이터를 순찰반경에 맞게 필터링해 쓸 것이므로 전체 범위 개수는 필터링된 데이터프레임의 행 개수이다

긍정적 시설(cctv 등)일 경우 밀도 뺌

부정적 시설(유흥업소 등)일 경우 밀도 더함

### 데이터 준비

안심시설물, cctv, 보안등 유흥업소

전체데이터는 너무 많으므로 filtering() 이용

긍정요소, 부정요소 정의

In [None]:
failcity_data = {"ansim" : pd.read_csv(data_path+"processed_ansim.csv", encoding=encoding),
                 "cctv"  : pd.read_csv(data_path+"processed_cctv.csv", encoding=encoding),
                 "light" : pd.read_csv(data_path+"processed_light.csv", encoding=encoding),
                 "salon" : pd.read_csv(data_path+"processed_salon.csv", encoding=encoding),}
for k, v in failcity_data.items():
    failcity_data[k]=filtering(v,police)
    
positive = ["ansim", "cctv", "light"]
negative = ["salon"]

해당 범위 안에 목표물이 몇개 있는가?

In [None]:
def location_count(data, location):
    ns_min = location.iloc[0] - GRID_DIFF/2*NS_DIFF_1M
    ns_max = location.iloc[0] + GRID_DIFF/2*NS_DIFF_1M
    ew_min = location.iloc[1] - GRID_DIFF/2*EW_DIFF_1M
    ew_max = location.iloc[1] + GRID_DIFF/2*EW_DIFF_1M
    return len(data.loc[(data["위도"] >= ns_min)&
                         (data["위도"] <= ns_max)&
                         (data["경도"] >= ew_min)&
                         (data["경도"] <= ew_max) , :].index)

격자점 데이터에 시설 밀도 열 추가하는 함수

In [None]:
def insert_facility(grid, data):
    for k, v in data.items():
        for i in grid.index:
            grid.loc[i, k] = location_count(v, grid.loc[i, ["위도", "경도"]])
        total = grid.loc[:, k].sum()
        if total != 0:
            grid.loc[:, k] /= grid.loc[:, k].sum()
        else:
            grid.loc[:, k] = 0

밀도를 토대로 점수 계산

In [None]:
def score(grid):
    grid["score"] = grid["location"]
    grid.drop(columns=["location"], inplace=True)
    for k in failcity_data.keys():
        mode = 1 if k in positive else -1
        grid["score"] += mode*grid[k]
        grid.drop(columns=[k], inplace=True)

밀도 계산후 열로 추가

In [None]:
insert_facility(police_grid, failcity_data)
police_grid

점수 계산후 위경도, 점수 열만 남기기

In [None]:
score(police_grid)
police_grid

# 지도에 시각화

지도에 해당 위도경도에 위치한 점 찍기

In [None]:
def draw_marker(m, grid, color):
    color = "#" + color
    for i in grid[["위도","경도"]].values:
        folium.Circle(location=i, radius=2, color=color, fill_color=color).add_to(m)

시각화를 위해 점수를 -255(초록)~255(빨강)으로 변환

변환후 rgb코드에 맞게 문자열 생성 안전->초록, 위험->빨강

In [None]:
def colorstr(num):
    b = num>=0
    num=hex(int(255-abs(num)))[2:]
    if len(num)==1:
        num="0"+num
    return "#ff"+num*2 if b else "#"+num+"ff"+num

In [None]:
def score_to_color(grid):
    result = grid["score"].copy()
    mins = result.min()
    maxs = result.max()
    result = ((result - mins) / (maxs - mins) * 2 - 1) * 255
    result = result.apply(colorstr)
    return result

격자점 점수 시각화

In [None]:
def draw_score(m, grid, color):
    for i in grid.index:
        folium.Circle(location=grid.iloc[i,:2].values,
                      radius=GRID_DIFF/2,
                      color=color[i],
                      fill=True,
                      fill_color=color[i]).add_to(m)

지도객체 생성, 이름 붙이기

In [None]:
m = folium.Map(location = police, zoom_start=60)

name="상계1"
title_html = f'<h3 align="center" style="font-size:20px"><b>{name}</b></h3>'
             
m.get_root().html.add_child(folium.Element(title_html))

경찰서, 격자점, 모든 시설물 표시

In [None]:
folium.Marker(location=police, 
              popup='지구대',
              icon=folium.Icon(color='lightblue', icon='star')
).add_to(m)

failcity_data_color = {"ansim" : '0000ff',
                       "cctv"  : '00ffff',
                       "light" : 'ffff00',
                       "salon" : 'ff00ff'}

draw_marker(m, police_grid, '000000')
for k, v in failcity_data.items():
    draw_marker(m, v, failcity_data_color[k])

점수에서 색 문자열 생성

In [None]:
color = score_to_color(police_grid)
color

점수 시각화

In [None]:
draw_score(m, police_grid, color)
display(m)