# 02. Analysis Seoul Crime 

## 1. 프로젝트 개요 

## 2. 데이터 개요

In [1]:
import numpy as np 
import pandas as pd 

In [1]:
# 데이터 읽기 
crime_raw_data = pd.read_csv("../data/02. crime_in_Seoul.csv", thousands=",", encoding="euc-kr") # thousands 숫자값을 문자로 인식할 수 있어서 설정
crime_raw_data.head()

FileNotFoundError: [Errno 2] No such file or directory: '../data/02. crime_in_Seoul.csv'

In [None]:
crime_raw_data.info()

- info(): 데이터의 개요 확인하기 
- RangeIndex가 65534인데, 310개이다

In [None]:
crime_raw_data["죄종"].unique()

- 특정 컬럼에서 unique 조사 
- nan 값이 들어가 있다

In [None]:
crime_raw_data[crime_raw_data["죄종"].isnull()].head()

In [None]:
crime_raw_data = crime_raw_data[crime_raw_data["죄종"].notnull()]

In [None]:
crime_raw_data.info()

In [None]:
crime_raw_data.head()

In [None]:
crime_raw_data.tail()

---

## Pandas pivot table 
- index, columns, values, aggfunc

In [None]:
df = pd.read_excel("../data/02. sales-funnel.xlsx")
df.head()

#### index 설정

In [None]:
# Name 컬럼을 인덱스로 설정
# pd.pivot_table(df, index="Name")
df.pivot_table(index="Name")

In [None]:
# 멀티 인덱스 설정 
df.pivot_table(index=["Name", "Rep", "Manager"])

In [None]:
# 멀티 인덱스 설정 
df.pivot_table(index=["Manager", "Rep"])

#### values 설정

In [None]:
df.head()

In [None]:
df.pivot_table(index=["Manager", "Rep"], values="Price")

In [None]:
# Price 컬럼 sum 연산 적용 
df.pivot_table(index=["Manager", "Rep"], values="Price", aggfunc=np.sum)

In [None]:
 df.pivot_table(index=["Manager", "Rep"], values="Price", aggfunc=[np.sum, len])

#### columns 설정

In [None]:
df.head()

In [None]:
# Product를 컬럼으로 지정
df.pivot_table(index=["Manager", "Rep"], values="Price", columns="Product", aggfunc=np.sum)

In [None]:
# Nan 값 설정 : fill_value 
df.pivot_table(index=["Manager", "Rep"], values="Price", columns="Product", aggfunc=np.sum, fill_value=0)

In [None]:
# 2개 이상 index, values 설정 
df.pivot_table(index=["Manager", "Rep", "Product"], values=["Price", "Quantity"], aggfunc=np.sum, fill_value=0)

In [None]:
# aggfunc 2개 이상 설정 
df.pivot_table(
    index=["Manager", "Rep", "Product"], 
    values=["Price", "Quantity"], 
    aggfunc=[np.sum, np.mean], 
    fill_value=0,
    margins=True) # 총계(All) 추가

---

## 3. 서울시 범죄 현황 데이터 정리

In [None]:
crime_raw_data.head()

In [None]:
crime_station = crime_raw_data.pivot_table(
    crime_raw_data, 
    index="구분", 
    columns=["죄종", "발생검거"], 
    aggfunc=[np.sum])
crime_station.head()

In [None]:
crime_station.columns # Multiindex

In [None]:
crime_station["sum", "건수", "강도", "검거"][:5]

In [None]:
crime_station.columns = crime_station.columns.droplevel([0, 1]) # 다중 컬럼에서 특정 컬럼 제거 
crime_station.columns

In [None]:
crime_station.head()

In [None]:
crime_station.index

- 현재 index는 경찰서 이름으로 되어 있습니다
- 경찰서 이름으로 구 이름을 알아내야 한다

## 4. Python 모듈 설치 

#### pip 명령 
- python의 공식 모듈 관리자 
- pip list 
- pip install module_name 
- pip uninstall module_name 
- mac(M1) 

In [None]:
# !pip list
get_ipython().system("pip list")

#### conda 명령
- conda list 
- conda install module_name 
- conda uninstall module_name 
- conda install -c channel_name module_name 
    - 지정된 배포 채널에서 모듈 설치
    
- Windows, mac(intel) 

## 5. Google Maps API 설치

In [None]:
# 구글 계정
# AIzaSyDmJzezN3W6GDp3ud_w8mRF_CcGRjg1Vns 

#### Windows, mac(intel)
- conda install -c conda-forge googlemaps

#### mac(M1)
- pip install googlemaps

In [None]:
import googlemaps

In [None]:
gmaps_key = "AIzaSyDmJzezN3W6GDp3ud_w8mRF_CcGRjg1Vns"
gmaps = googlemaps.Client(key=gmaps_key)

In [None]:
gmaps.geocode("서울영등포경찰서", language="ko")

--- 

## Python 반복문

#### 간단한 for문 예제

In [None]:
for n in [1, 2, 3, 4]:
    print("Number is", n)

#### 조금 복잡한 for문 예제

In [None]:
for n in range(0, 10): 
    print(n ** 2)

#### 위 코드를 한 줄로 : list comprehension

In [None]:
[n ** 2 for n in range(0, 10)]

## Pandas에 잘 맞춰진 반복문용 명령 iterrows() 
- Pandas 데이터 프레임은 대부분 2차원 
- 이럴 때 for문을 사용하면, n번째라는 지정을 반복해서 가독률이 떨어짐 
- Pandas 데이터 프레임으로 반복문을 만들때 itterows() 옵션을 사용하면 편함 
- 받을 때, 인덱스와 내용으로 나누어 받는 것만 주의

---

## 6. Google Maps를 이용한 데이터 정리

In [None]:
import googlemaps

In [None]:
gmaps_key = "AIzaSyDmJzezN3W6GDp3ud_w8mRF_CcGRjg1Vns"
gmaps = googlemaps.Client(key=gmaps_key)

In [None]:
gmaps.geocode("서울영등포경찰서", language="ko") # 단순 테스트 코드

In [None]:
tmp = gmaps.geocode("서울영등포경찰서", language="ko")

In [None]:
len(tmp)

In [None]:
type(tmp[0].get("geometry")["location"])

In [None]:
print(tmp[0].get("geometry")["location"]["lat"])
print(tmp[0].get("geometry")["location"]["lng"])

In [None]:
tmp[0].get("formatted_address").split()[2]

In [None]:
crime_station.head()

- 구별, lat, lng 컬럼

In [None]:
crime_station["구별"] = np.nan
crime_station["lat"] = np.nan
crime_station["lng"] = np.nan

In [None]:
crime_station.head()

- 경찰서 이름에서 소속된 구이름 얻기 
- 구이름과 위도 경도 정보를 저장할 준비 
- 반복문을 이용해서 위 표의 NaN을 모두 채워줍니다
- iterrows()

In [None]:
count = 0 

for idx, rows in crime_station.iterrows():
    station_name = "서울" + str(idx) + "경찰서"
    tmp = gmaps.geocode(station_name, language="ko")
    
    tmp[0].get("formatted_address")
    tmp_gu = tmp[0].get("formatted_address")
    
    lat = tmp[0].get("geometry")["location"]["lat"]
    lng = tmp[0].get("geometry")["location"]["lng"]
    
    crime_station.loc[idx, "lat"] = lat 
    crime_station.loc[idx, "lng"] = lng
    crime_station.loc[idx, "구별"] = tmp_gu.split()[2]
    
    print(count)
    count = count + 1 

In [None]:
crime_station.head()

In [None]:
crime_station.columns.get_level_values(0)[2] + crime_station.columns.get_level_values(1)[2]

In [None]:
len(crime_station.columns.get_level_values(0))

In [None]:
tmp = [ 
    crime_station.columns.get_level_values(0)[n] + crime_station.columns.get_level_values(1)[n]
    for n in range(0, len(crime_station.columns.get_level_values(0)))
]
tmp

In [None]:
tmp, len(tmp), len(crime_station.columns.get_level_values(0))

In [None]:
crime_station.columns = tmp 

In [None]:
crime_station.head()

In [None]:
# 데이터 저장
crime_station.to_csv("../data/02. crime_in_Seuol_raw.csv", sep=",", encoding="utf-8")

In [None]:
pd.read_csv("../data/02. crime_in_Seoul_raw.csv").head(2)

## 7. 구별 데이터로 정리

In [None]:
crime_anal_station = pd.read_csv(
    "../data/02. crime_in_Seoul_raw.csv", index_col=0, encoding="utf-8") # index_col "구분"을 인덱스 컬럼으로 설정
crime_anal_station.head()

In [None]:
crime_anal_gu = pd.pivot_table(crime_anal_station, index="구별", aggfunc=np.sum)

del crime_anal_gu["lat"]
crime_anal_gu.drop("lng", axis=1, inplace=True)

crime_anal_gu.head()

In [None]:
# 검거율 생성 
# 하나의 컬럼을 다른 컬럼으로 나누기 

crime_anal_gu["강도검거"] / crime_anal_gu["강도발생"]

In [None]:
# 다수의 컬럼을 다른 컬럼으로 나누기 
crime_anal_gu[["강도검거", "살인검거"]].div(crime_anal_gu["강도발생"], axis=0).head(3)

In [None]:
# 다수의 컬럼을 다수의 컬럼으로 각각 나누기 

num = ["강간검거", "강도검거", "살인검거", "절도검거", "폭력검거"]
den = ["강간발생", "강도발생", "살인발생", "절도발생", "폭력발생"]

crime_anal_gu[num].div(crime_anal_gu[den].values).head()

In [None]:
target = ["강간검거율", "강도검거율", "살인검거율", "절도검거율", "폭력검거율"]

num = ["강간검거", "강도검거", "살인검거", "절도검거", "폭력검거"]
den = ["강간발생", "강도발생", "살인발생", "절도발생", "폭력발생"]

crime_anal_gu[target] = crime_anal_gu[num].div(crime_anal_gu[den].values) * 100 
crime_anal_gu.head()

In [None]:
# 필요 없는 컬럼 제거 

del crime_anal_gu["강간검거"]
del crime_anal_gu["강도검거"]
crime_anal_gu.drop(["살인검거", "절도검거", "폭력검거"], axis=1, inplace=True)

crime_anal_gu.head()

In [None]:
# 100보다 큰 숫자 찾아서 바꾸기 

crime_anal_gu[crime_anal_gu[target] > 100] = 100 
crime_anal_gu.head()

In [None]:
# 컬럼 이름 변경 

crime_anal_gu.rename(columns={"강간발생": "강간", "강도발생": "강도", "살인발생": "살인", "절도발생": "절도", "폭력발생": "폭력"},
                    inplace=True)
crime_anal_gu.head()

## 8. 범죄 데이터 정렬을 위한 데이터 정리

In [None]:
crime_anal_gu.head()

In [None]:
# 정규화 : 최고값은 1, 최소값은 0 
crime_anal_gu["강도"] / crime_anal_gu["강도"].max() 

In [None]:
col = ["살인", "강도", "강간", "절도", "폭력"]
crime_anal_norm = crime_anal_gu[col] / crime_anal_gu[col].max()
crime_anal_norm.head()

In [None]:
crime_anal_gu.head(1)

In [3]:
# 검거율 추가 
col2 = ["강간검거율", "강도검거율", "살인검거율", "절도검거율", "폭력검거율"]
crime_anal_norm[col2] = crime_anal_gu[col2]
crime_anal_norm.head()

NameError: name 'crime_anal_gu' is not defined

In [None]:
# 구별 CCTV 자료에서 인구수와 CCTV수 추가

result_CCTV = pd.read_csv("../data/01. CCTV_result.csv", index_col="구별", encoding="utf-8")
result_CCTV.head()

In [None]:
crime_anal_norm[["인구수", "CCTV"]] = result_CCTV[["인구수", "소계"]]
crime_anal_norm.head()

In [None]:
# 정규화된 범죄발생 건수 전체의 평균을 구해서 범죄 컬럼 대표값으로 사용 

col = ["강간", "강도", "살인", "절도", "폭력"]
crime_anal_norm["범죄"] = np.mean(crime_anal_norm[col], axis=1)
crime_anal_norm.head()

---

## np.mean()

In [None]:
np.array([0.357143, 1.000000, 1.000000, 0.977118, 0.733773])

In [None]:
np.mean(np.array([0.357143, 1.000000, 1.000000, 0.977118, 0.733773]))

In [None]:
np.array(
    [[0.357143, 1.000000, 1.000000, 0.977118, 0.733773],
    [0.285714, 0.358974, 0.310078, 0.477799, 0.463880]]
)

In [None]:
np.mean(np.array(
    [[0.357143, 1.000000, 1.000000, 0.977118, 0.733773],
    [0.285714, 0.358974, 0.310078, 0.477799, 0.463880]]
), axis=1) # axis=1 행, axis=0 열

In [None]:
np.mean(np.array(
    [[0.357143, 1.000000, 1.000000, 0.977118, 0.733773],
    [0.285714, 0.358974, 0.310078, 0.477799, 0.463880]]
), axis=0) # axis=1 행, axis=0 열

---

In [None]:
# 검거율의 평균을 구해서 검거 컬럼의 대표값으로 사용 

col = ["강간검거율", "강도검거율", "살인검거율", "절도검거율", "폭력검거율"]
crime_anal_norm["검거"] = np.mean(crime_anal_norm[col], axis=1) # axis=1 행을 따라서 연산하는 옵션 
crime_anal_norm.head()

In [None]:
crime_anal_norm

In [None]:
crime_anal_norm = pd.read_csv("../data/02. crime_in_Seoul_final.csv", index_col=0, encoding="utf-8")
crime_anal_norm

---

## Seaborn 

In [None]:
# !conda install -y seaborn 

In [None]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns 
from matplotlib import rc 

plt.rcParams["axes.unicode_minus"] = False 
rc("font", family="Arial Unicode MS") # Windows: Malgun Gothic 
# %matplotlib inline 
get_ipython().run_line_magic("matplotlib", "inline")

#### 예제1: seaborn 기초 

In [None]:
np.linspace(0, 14, 100)

In [None]:
x = np.linspace(0, 14, 100)
y1 = np.sin(x)
y2 = 2 * np.sin(x + 0.5)
y3 = 3 * np.sin(x + 1.0)
y4 = 4 * np.sin(x + 1.5)

In [None]:
plt.figure(figsize=(10, 6))
plt.plot(x, y1, x, y2, x, y3, x, y4)
plt.show()

In [None]:
# sns.set_style()
# "white", "whitegrid", "dark", "darkgrid"

sns.set_style("white")
plt.figure(figsize=(10, 6))
plt.plot(x, y1, x, y2, x, y3, x, y4)
plt.show()

In [None]:
# sns.set_style()

sns.set_style("dark")
plt.figure(figsize=(10, 6))
plt.plot(x, y1, x, y2, x, y3, x, y4)
plt.show()

In [None]:
# sns.set_style()

sns.set_style("whitegrid")
plt.figure(figsize=(10, 6))
plt.plot(x, y1, x, y2, x, y3, x, y4)
plt.show()

In [None]:
# sns.set_style()

sns.set_style("darkgrid")
plt.figure(figsize=(10, 6))
plt.plot(x, y1, x, y2, x, y3, x, y4)
plt.show()

#### 예제2: seaborn tips data 
- boxplot 
- swarmplot 
- lmplot 

In [None]:
tips = sns.load_dataset("tips")
tips

In [None]:
tips.info()

In [None]:
# boxplot 
plt.figure(figsize=(8, 6))
sns.boxplot(x=tips["total_bill"])
plt.show()

In [None]:
tips["day"].unique()

In [None]:
# boxplot 
plt.figure(figsize=(8, 6))
sns.boxplot(x="day", y="total_bill", data=tips)
plt.show()

In [None]:
tips.head(2)

In [None]:
# boxplot hue, palette option 
# hue: 카테고리 데이터 표현 

plt.figure(figsize=(8, 6))
sns.boxplot(x="day", y="total_bill", data=tips, hue="smoker", palette="Set1") # Set 1 ~ 3 
plt.show()

In [None]:
# swarmplot 
# color: 0~1 사이 검은색부터 흰색 사이 값을 조절 

plt.figure(figsize=(8, 6))
sns.swarmplot(x="day", y="total_bill", data=tips, color="0.5") 
plt.show()

In [None]:
# boxplot with swarmplot 

plt.figure(figsize=(8, 6))
sns.boxplot(x="day", y="total_bill", data=tips)
sns.swarmplot(x="day", y="total_bill", data=tips, color="0.25")
plt.show()

In [None]:
tips

In [None]:
# lmplot: total_bil과 tip 사이 관계 파악 

sns.set_style("darkgrid")
sns.lmplot(x="total_bill", y="tip", data=tips, height=7) # size => height 
plt.show()

In [None]:
tips

In [None]:
# hue option 

sns.set_style("darkgrid")
sns.lmplot(x="total_bill", y="tip", data=tips, height=7, hue="smoker")
plt.show()

#### 예제3: flights data
- heatmap

In [None]:
flights = sns.load_dataset("flights")
flights.head()

In [None]:
flights.info()

In [None]:
# pivot 
# index, columns, values
flights = flights.pivot(index="month", columns="year", values="passengers")
flights.head()

In [None]:
# heatmap 

plt.figure(figsize=(10, 8))
sns.heatmap(data=flights, annot=True, fmt="d") # annot=True 데이터 값 표시, fmt="d" 정수형 표현
plt.show()

In [None]:
# colormap 

plt.figure(figsize=(10, 8))
sns.heatmap(flights, annot=True, fmt="d", cmap="YlGnBu")
plt.show()

#### 예제4: iris data 
- pairplot 

In [None]:
iris = sns.load_dataset("iris")
iris.tail()

In [None]:
# pairplot 

sns.set_style("ticks")
sns.pairplot(iris)
plt.show()

In [4]:
iris.head(2)

NameError: name 'iris' is not defined

In [None]:
iris["species"].unique()

In [None]:
# hue option 

sns.pairplot(iris, hue="species")
plt.show()

In [None]:
# 원하는 컬럼만 pairplot 

sns.pairplot(iris, 
             x_vars=["sepal_width", "sepal_length"], 
             y_vars=["petal_width", "petal_length"])
plt.show()

#### 예제5: anscombe data 
- lmplot 

In [None]:
anscombe = sns.load_dataset("anscombe")
anscombe.tail()

In [None]:
anscombe["dataset"].unique()

In [None]:
sns.set_style("darkgrid")
sns.lmplot(x="x", y="y", data=anscombe.query("dataset == 'I'"), ci=None, height=7) # ci 신뢰구간 선택 
plt.show()

In [None]:
sns.set_style("darkgrid")
sns.lmplot(x="x", y="y", data=anscombe.query("dataset == 'I'"), ci=None, height=7, scatter_kws={"s": 80}) # ci 신뢰구간 선택 
plt.show()

In [None]:
# order option 
sns.set_style("darkgrid")
sns.lmplot(
    x="x", 
    y="y", 
    data=anscombe.query("dataset == 'II'"),
    order=1,
    ci=None, 
    height=7, 
    scatter_kws={"s": 80}) # ci 신뢰구간 선택 
plt.show()

In [None]:
# order option 
sns.set_style("darkgrid")
sns.lmplot(
    x="x", 
    y="y", 
    data=anscombe.query("dataset == 'II'"),
    order=2,
    ci=None, 
    height=7, 
    scatter_kws={"s": 80}) # ci 신뢰구간 선택 
plt.show()

In [None]:
# outlier 
sns.set_style("darkgrid")
sns.lmplot(
    x="x", 
    y="y", 
    data=anscombe.query("dataset == 'III'"),
    ci=None, 
    height=7, 
    scatter_kws={"s": 80}) # ci 신뢰구간 선택 
plt.show()

In [None]:
# outlier 
sns.set_style("darkgrid")
sns.lmplot(
    x="x", 
    y="y", 
    data=anscombe.query("dataset == 'III'"),
    robust=True,
    ci=None, 
    height=7, 
    scatter_kws={"s": 80}) # ci 신뢰구간 선택 
plt.show()

---

## 9. 서울시 범죄현황 데이터 시각화

In [None]:
import matplotlib.pyplot as plt 
import seaborn as sns 
from matplotlib import rc 

plt.rcParams["axes.unicode_minus"] = False 
get_ipython().run_line_magic("matplotlib", "inline")
rc("font", family="Arial Unicode MS") # Windows: Malgun Gothic 

In [None]:
crime_anal_norm.head()

In [None]:
# pairplot 강도, 살인, 폭력에 대한 상관관계 확인 

sns.pairplot(data=crime_anal_norm, vars=["살인", "강도", "폭력"], kind="reg", height=3);

In [None]:
crime_anal_norm.head(1)

In [None]:
# "인구수", "CCTV"와 "살인", "강도"의 상관관계 확인 

def drawGraph():
    sns.pairplot(
        data=crime_anal_norm, 
        x_vars=["인구수", "CCTV"],
        y_vars=["살인", "강도"],
        kind="reg",
        height=4
    )
    plt.show()
drawGraph()

In [None]:
# "인구수", "CCTV"와 "살인검거율", "폭력검거율"의 상관관계 확인

def drawGraph():
    sns.pairplot(
        data=crime_anal_norm, 
        x_vars=["인구수", "CCTV"],
        y_vars=["살인검거율", "폭력검거율"],
        kind="reg",
        height=4
    )
    plt.show()
drawGraph()

In [None]:
# "인구수", "CCTV"와 "절도검거율", "강도검거율"의 상관관계 확인

def drawGraph():
    sns.pairplot(
        data=crime_anal_norm, 
        x_vars=["인구수", "CCTV"],
        y_vars=["절도검거율", "강도검거율"],
        kind="reg",
        height=4
    )
    plt.show()
drawGraph()

In [None]:
crime_anal_norm.head(3)

In [None]:
# 검거율 heatmap 
# "검거" 컬럼을 기준으로 정렬 

def drawGraph():
    
    # 데이터 프레임 생성 
    target_col = ["강간검거율", "강도검거율", "살인검거율", "절도검거율", "폭력검거율", "검거"]
    crime_anal_norm_sort = crime_anal_norm.sort_values(by="검거", ascending=False) # 내림차순 
    
    # 그래프 설정
    plt.figure(figsize=(10, 10))
    sns.heatmap(
        data=crime_anal_norm_sort[target_col],
        annot=True, # 데이터값 표현 
        fmt="f", # d: 정수, f: 실수
        linewidths=0.5, # 간격설정 
        cmap="RdPu",
    )
    plt.title("범죄 검거 비율(정규화된 검거의 합으로 정렬")
    plt.show()

In [None]:
drawGraph()

In [None]:
crime_anal_norm.head(1)

In [None]:
# 범죄발생 건수 heatmap 
# "범죄" 컬럼을 기준으로 정렬 

def drawGraph():
    
    # 데이터 프레임 생성 
    target_col = ["살인", "강도", "강간", "절도", "폭력", "범죄"]
    crime_anal_norm_sort = crime_anal_norm.sort_values(by="범죄", ascending=False) # 내림차순 
    
    # 그래프 설정
    plt.figure(figsize=(10, 10))
    sns.heatmap(
        data=crime_anal_norm_sort[target_col],
        annot=True, # 데이터값 표현 
        fmt="f", # 실수값으로 표현
        linewidths=0.5, # 간격설정
        cmap="RdPu",
    )
    plt.title("범죄 비율(정규화된 발생 건수로 정렬)")
    plt.show()
drawGraph()

In [None]:
# 데이터 저장 

crime_anal_norm.to_csv("../data/02. crime_in_Seoul_final.csv", sep=",", encoding="utf-8")

--- 

## folium 

In [None]:
# Windows, mac(intel, m1) 

# !pip install folium 

# Windows 
# !pip install charset 
# !pip install charset-normalizer 

In [None]:
import folium
import pandas as pd 
import json 

### folium.Map()


```
location: tuple or list, default None
    Latitude and Longitude of Map (Northing, Easting).
```

In [None]:
m = folium.Map(location=[37.544564958079896, 127.05582307754338], zoom_start=14) # 0 ~ 18 
m

### save("path")

In [5]:
m.save("./folium.html")

NameError: name 'm' is not defined

In [None]:
!ls

### tiles option

```
- "OpenStreetMap"
- "Mapbox Bright" (Limited levels of zoom for free tiles)
- "Mapbox Control Room" (Limited levels of zoom for free tiles)
- "Stamen" (Terrain, Toner, and Watercolor)
- "Cloudmade" (Must pass API key)
- "Mapbox" (Must pass API key)
- "CartoDB" (positron and dark_matter)
```

In [None]:
m = folium.Map(
    location=[37.544564958079896, 127.05582307754338], 
    zoom_start=14,
    tiles="OpenStreetMap"
) # 0 ~ 18 
m

### folium.Marker()
- 지도에 마커 생성 

In [None]:
m = folium.Map(
    location=[37.544564958079896, 127.05582307754338], # 성수역 
    zoom_start=14,
    tiles="OpenStreetMap"
) # 0 ~ 18 

# 뚝섬역 
folium.Marker((37.54712311308356, 127.04721916917774)).add_to(m)

# 성수역 
folium.Marker(
    location=[37.544564958079896, 127.05582307754338],
    popup="<b>Subway</b>"
).add_to(m)

# tooltip 
folium.Marker(
    location=[37.544564958079896, 127.05582307754338],
    popup="<b>Subway</b>",
    tooltip="<i>성수역</i>"
).add_to(m)

# html  
folium.Marker(
    location=[37.54558642069953, 127.05729705810472],
    popup="<a href='https://zero-base.co.kr/' target=_'blink'>제로베이스</a>",
    tooltip="<i>Zerobase</i>"
).add_to(m)

m

### folium.Icon()

- https://fontawesome.com/v5.15/icons?d=gallery&p=2&m=free 
- https://getbootstrap.com/docs/3.3/components/

In [None]:
m = folium.Map(
    location=[37.544564958079896, 127.05582307754338], # 성수역 
    zoom_start=14,
    tiles="OpenStreetMap"
) # 0 ~ 18 

# icon basic  
folium.Marker(
    (37.54712311308356, 127.04721916917774), 
    icon=folium.Icon(color="black", icon='info-sign')
).add_to(m)

# icon icon_color
folium.Marker(
    location=[37.544564958079896, 127.05582307754338],
    popup="<b>Subway</b>",
    tooltip="icon color",
    icon=folium.Icon(
        color="red",
        icon_color="blue",
        icon="cloud")
).add_to(m)

# Icon custom 
folium.Marker(
    location=[37.54035903907497, 127.06913328776446], # 건대입구역
    popup="건대입구역",
    tooltip="Icon custom",
    icon=folium.Icon(
        color="purple",
        icon_color="white",
        icon="glyphicon glyphicon-cloud",
        angle=50,
        prefix="glyphicon") # glyphicon
).add_to(m)


m

### folium.ClickForMarker()
- 지도위에 마우스로 클릭했을 때 마커를 생성해줍니다 

In [None]:
m = folium.Map(
    location=[37.544564958079896, 127.05582307754338], # 성수역 
    zoom_start=14,
    tiles="OpenStreetMap"
) # 0 ~ 18 

m.add_child(folium.ClickForMarker(popup="ClickForMarker"))

### folium.LatLngPopup()
- 지도를 마우스로 클릭했을 때 위도 경도 정보를 반환해줍니다

In [None]:
m = folium.Map(
    location=[37.544564958079896, 127.05582307754338], # 성수역 
    zoom_start=14,
    tiles="OpenStreetMap"
) # 0 ~ 18 

m.add_child(folium.LatLngPopup())

### folium.Circle(), folium.CircleMarker() 

In [None]:
m = folium.Map(
    location=[37.55068861733562, 127.04420997492151], 
    zoom_start=14,
    tiles="OpenStreetMap"
) # 0 ~ 18 


# Circle 
folium.Circle(
    location=[37.555243442409406, 127.04370422643919], # 한양대학교
    radius=100, 
    fill=True,
    color="#eb9e34",
    fill_color="red",
    popup="Circle Popup",
    tooltip="Circle Tooltip"
).add_to(m)

# CircleMarker
folium.CircleMarker(
    location=[37.54347089498245, 127.04439204503049], # 한양대학교
    radius=100, 
    fill=True,
    color="#34ebc6",
    fill_color="#c634eb",
    popup="CircleMarker Popup",
    tooltip="CircleMarker Tooltip"
).add_to(m)

m

### folium.Choropleth

In [None]:
import json 

In [None]:
state_data = pd.read_csv("../data/02. US_Unemployment_Oct2012.csv")
state_data.tail(2)

In [None]:
m = folium.Map([43, -102], zoom_start=3)

folium.Choropleth(
    geo_data="../data/02. us-states.json", # 경계선 좌표값이 담긴 데이터
    data=state_data, # Series or DataFrame 
    columns=["State", "Unemployment"], # DataFrame columns 
    key_on="feature.id",
    fill_color="BuPu",
    fill_opacity=0.5, # 0~1 
    line_opacity=0.2, # 0~1
    legend_name="Unemployment rate (%)"    
).add_to(m)

m

### 아파트 유형 지도 시각화 

- 공공데이터포털
- https://www.data.go.kr/data/15066101/fileData.do

In [None]:
import pandas as pd 

In [None]:
df = pd.read_csv("../data/02. 서울특별시 동작구_주택유형별 위치 정보 및 세대수 현황_20210825.csv", encoding="cp949")
df.tail(2)

In [None]:
df.info()

In [None]:
# NaN 데이터 제거 
df = df.dropna()
df.info()

In [None]:
df = df.reset_index(drop=True)
df.tail(2)

In [None]:
del df["연번"]

In [None]:
df.columns

In [None]:
df["연번 "]

In [6]:
df = df.rename(columns={"연번 ": "연번", "분류 ": "분류"})
df.연번[:10]

NameError: name 'df' is not defined

In [None]:
df.tail(2)

In [None]:
df.위도[0]

In [None]:
df.describe()

In [None]:
# folium 

m = folium.Map(location=[37.50589466533131, 126.93450729567374], zoom_start=13)

for idx, rows in df.iterrows():
    
    # location 
    lat, lng = rows.위도, rows.경도
    
    # Marker 
    folium.Marker(
        location=[lat, lng],
        popup=rows.주소,
        tooltip=rows.분류, 
        icon=folium.Icon(
            icon="home",
            color="lightred" if rows.세대수 >= 199 else "lightblue",
            icon_color="darkred" if rows.세대수 >= 199 else "darkblue",
        )
    ).add_to(m)

    # CircleMarker
    folium.Circle(
        location=[lat, lng],
        radius=rows.세대수 * 0.5, 
        fill=True, 
        color="pink" if rows.세대수 >= 518 else "green",
        fill_color="pink" if rows.세대수 >= 518 else "green",
    ).add_to(m)
    
m   

### reference
- https://nbviewer.jupyter.org/github/python-visualization/folium/tree/master/examples/

---

## 10. 지도시각화

In [7]:
import json

crime_anal_norm = pd.read_csv(
    "../data/02. crime_in_Seoul_final.csv", index_col=0, encoding="utf-8"
)
geo_path = "../data/02. skorea_municipalities_geo_simple.json"
geo_str = json.load(open(geo_path, encoding="utf-8"))

FileNotFoundError: [Errno 2] No such file or directory: '../data/02. crime_in_Seoul_final.csv'

In [None]:
my_map = folium.Map(location=[37.5502, 126.982], zoom_start=11, tiles="Stamen Toner")

my_map.choropleth(
    geo_data=geo_str,
    data=crime_anal_norm["살인"],
    columns=[crime_anal_norm.index, crime_anal_norm["살인"]],
    fill_color="PuRd",
    key_on="feature.id",
    fill_opacity=0.7,
    line_opacity=0.2,
    legend_name="정규화된 살인 발생 건수",
)

In [None]:
my_map

### 성범죄 발생 건수

In [None]:
my_map = folium.Map(location=[37.5502, 126.982], zoom_start=11, tiles="Stamen Toner")

my_map.choropleth(
    geo_data=geo_str,
    data=crime_anal_norm["강간"],
    columns=[crime_anal_norm.index, crime_anal_norm["강간"]],
    fill_color="PuRd",
    key_on="feature.id",
    fill_opacity=0.7,
    line_opacity=0.2,
    legend_name="정규화된 강간 발생 건수",
)

In [None]:
my_map

### 5대 범죄 발생 건수

In [None]:
my_map = folium.Map(location=[37.5502, 126.982], zoom_start=11, tiles="Stamen Toner")

my_map.choropleth(
    geo_data=geo_str,
    data=crime_anal_norm["범죄"],
    columns=[crime_anal_norm.index, crime_anal_norm["범죄"]],
    fill_color="PuRd",
    key_on="feature.id",
    fill_opacity=0.7,
    line_opacity=0.2,
    legend_name="정규화된 범죄 발생 건수",
)

In [None]:
my_map

### 인구 대비 범죄 발생 건수

In [None]:
tmp_criminal = crime_anal_norm["범죄"] / crime_anal_norm["인구수"]

my_map = folium.Map(location=[37.5502, 126.982], zoom_start=11, tiles="Stamen Toner")

my_map.choropleth(
    geo_data=geo_str,
    data=tmp_criminal,
    columns=[crime_anal_norm.index, tmp_criminal],
    fill_color="PuRd",
    key_on="feature.id",
    fill_opacity=0.7,
    line_opacity=0.2,
    legend_name="정규화된 범죄 발생 건수",
)

In [None]:
my_map

## 경찰서별 검거현황과 구별 범죄발생 현황을 표현하기
* 경찰서별 정보를 가지고 범죄발생과 함께 정리

In [None]:
crime_anal_station = pd.read_csv(
    "../data/02. crime_in_Seoul_1st.csv", index_col=0, encoding="utf-8"
)
col = ["살인검거", "강도검거", "강간검거", "절도검거", "폭력검거"]
tmp = crime_anal_station[col] / crime_anal_station[col].max()
crime_anal_station["검거"] = np.mean(tmp, axis=1)
crime_anal_station.head()

### 경찰서 위치를 지도에 표시

In [None]:
my_map = folium.Map(location=[37.5502, 126.982], zoom_start=11)

for idx, rows in crime_anal_station.iterrows():
    folium.Marker([rows["lat"], rows["lng"]]).add_to(my_map)

In [None]:
my_map

### 검거에 적절한 값을 곱해서 원의 넓이로 사용

In [None]:
my_map = folium.Map(location=[37.5502, 126.982], zoom_start=11)

for idx, rows in crime_anal_station.iterrows():
    folium.CircleMarker(
        [rows["lat"], rows["lng"]],
        radius=rows["검거"] * 50,
        popup=rows["구분"] + " : " + "%.2f" % rows["검거"],
        color="#3186cc",
        fill=True,
        fill_color="#3186cc",
    ).add_to(my_map)

In [None]:
my_map

### 구별 범죄 현황과 경찰서별 검거율을 함께 표시

In [None]:
my_map = folium.Map(location=[37.5502, 126.982], zoom_start=11)

my_map.choropleth(
    geo_data=geo_str,
    data=crime_anal_norm["범죄"],
    columns=[crime_anal_norm.index, crime_anal_norm["범죄"]],
    fill_color="PuRd",
    key_on="feature.id",
    fill_opacity=0.7,
    line_opacity=0.2,
)

for idx, rows in crime_anal_station.iterrows():
    folium.CircleMarker(
        [rows["lat"], rows["lng"]],
        radius=rows["검거"] * 50,
        popup=rows["구분"] + " : " + "%.2f" % rows["검거"],
        color="#3186cc",
        fill=True,
        fill_color="#3186cc",
    ).add_to(my_map)

In [None]:
my_map

### 강남의 범죄 발생이 많은 것은 혹시 유흥업소의 밀집과 관련이 있지는 않을까
* 확인을 위해 최초 받았던 발생 장소별 데이터를 읽어보자

In [None]:
crime_loc_raw = pd.read_csv(
    "../data/02. crime_in_Seoul_location.csv", thousands=",", encoding="euc-kr"
)
crime_loc_raw.head()

In [None]:
crime_loc_raw["범죄명"].unique()

In [None]:
crime_loc_raw["장소"].unique()

In [None]:
crime_loc = crime_loc_raw.pivot_table(
    crime_loc_raw, index=["장소"], columns=["범죄명"], aggfunc=[np.sum]
)
crime_loc.columns = crime_loc.columns.droplevel([0, 1])
crime_loc.head()

In [None]:
col = ["살인", "강도", "강간", "절도", "폭력"]
crime_loc_norm = crime_loc / crime_loc.max()
crime_loc_norm.head()

In [None]:
crime_loc_norm["종합"] = np.mean(crime_loc_norm, axis=1)
crime_loc_norm.head()

In [None]:
crime_loc_norm_sort = crime_loc_norm.sort_values(by="종합", ascending=False)


def drawGraph():
    plt.figure(figsize=(10, 10))
    sns.heatmap(crime_loc_norm_sort, annot=True, fmt="f", linewidths=0.5, cmap="RdPu")
    plt.title("범죄와 발생 장소")
    plt.show()

In [None]:
drawGraph()