# 1. 공공데이터 상권정보 분석해 보기
- https://www.data.go.kr/dataset/15012005/fileData.do
- 국가중점데이터인 상권정보를 살펴보기
- 먼저 파일데이터에서 `상가(상권)정보_의료기관_201909`를 다운로드 받기

## 1.1 필요한 라이브러리 불러오기

## 핵심 키워드
- read_csv()
- shape
- head()/tail()
- info()
- columns
- dtypes

In [None]:
import pandas as pd
import numpy as np  # 고성능의 수치계산, 대규모 다차원 배열을 쉽게 처리하는 라이브러리
import seaborn as sns  # 데이터 시각화 라이브러리

## 1.2 시각화를 위한 폰트 설정

In [None]:
import matplotlib.pyplot as plt  # 데이터 시각화 라이브러리

# Window의 한글 폰트 설정
plt.rc('font', family='Malgun Gothic')
plt.rc('axes', unicode_minus=False)  # 한글 폰트에서 minus font가 깨지는 문제 방지
# Mac의 한글 폰트 설정
# plt.rc('font', family='AppleGothic')


# 그래프가 노트북 안에 보이게 하기
%matplotlib inline

In [None]:
from IPython.display import set_matplotlib_formats

# 폰트를 선명하게 보기 위해 retina 설정
set_matplotlib_formats("retina")
# %config InlineBackend.figure_format = 'retina'  # ipython 7.23이후 버전

## 1.3 데이터 로드하기
- 판다스에서 데이터를 로드할 때는 read_csv를 사용
- 데이터를 로드해서 df라는 변수에 담기
- shape를 통해 데이터의 갯수 찍기 -> 결과는 (행, 열) 순으로 출력됨

In [None]:
# read_csv로 불러온 파일을 df라는 변수에 담기
df = pd.read_csv("./data/소상공인시장진흥공단_상가업소정보_의료기관_201909.csv", low_memory=False)
df.shape

## 1.4 데이터 미리보기
- head, tail을 통해 데이터를 미리 볼 수 있음

In [None]:
# head로 데이터를 미리보기
df.head(1)

In [None]:
# tail로 마지막 부분에 있는 데이터를 불러오기
df.tail(1)

In [None]:
# sample로 미리보기(랜덤한 row 값)
df.sample()

## 1.5 데이터 요약하기

### 1.5.1 요약 정보

In [None]:
# info로 데이터의 요약 보기
# object : 문자열
df.info()  # 메모리 : 27MB

### 1.5.2 컬럼명 보기

In [None]:
df.columns

### 1.5.3 데이터 타입 확인하기

In [None]:
# 데이터 타입만 출력
df.dtypes

## 1.6 결측치 확인

## 핵심 키워드
- insull().sum()
- plot()/plot.bar()/plot.barh()
- reset_index
- sort_values()
- NaN
- drop()

### 1.6.1 결측치 확인하기


In [None]:
# 각 column별 결측치 개수 확인
# boolean indexing : True는 1이니 isnull()을 하여 해당 데이터가 결측치라면 True를 출력
# .sum() : True의 개수를 세줌
null_count = df.isnull().sum()
null_count

### 1.6.2 결측치 시각화하기

In [None]:
# 위에서 구한 결측치를 .plot.bar를 통해 막대 그래프로 시각화
# rot : 글자들이 회전하여 표시됨
# barh : x, y축을 바꿈. 세로 막대형 그래프
# firsize : 그래프 사이즈 지정
null_count.plot.barh(figsize=(5, 7))

### 1.6.3 데이터 프레임 형태로 변형하기

In [None]:
# 위에서 계산한 결측치 수를 reset_index를 활용해 dataframe 형태로 변환
# df_null_count 변수에 결과를 담아서 head로 미리보기
df_null_count = null_count.reset_index()
df_null_count.head()

## 1.7 컬럼명 변경하기

### 1.7.1 새로운 컬럼명 지정하기

In [None]:
# df_null_count 변수에 담겨있는 컬럼의 이름을 "컬럼명", "결측치수"로 변경
df_null_count.columns = ["컬럼명", "결측치수"]
df_null_count.head()

## 1.8 정렬하기

### 1.8.1 결측치만 보기

In [None]:
# df_null_count dataframe에 있는 결측치수 컬럼을 sort_values를 통해 정렬
# 결측치가 많은 순으로 상위 10개만 출력
df_null_count_top = df_null_count.sort_values(by="결측치수", ascending=False).head(10)
df_null_count_top

In [None]:
# 참고
df_null_count.sort_index(ascending=False).head()  # index 값으로 sort

## 1.9 특정 컬럼만 불러오기
- 결측치 column 자체도 데이터가 큰 경우 메모리를 많이 차지함

In [None]:
# 지점명 컬럼을 불러오기(결측치의 상황을 확인하기)
# NaN : Not a Number의 약자로 결측치를 의미
df['지점명'].head()

### 1.9.1 column명 리스트화하기

In [None]:
# 삭제할 column의 이름을 리스트 형태로 만들어 drop_columns 변수에 담기
drop_columns = df_null_count_top["컬럼명"].tolist()
drop_columns

### 1.9.2 삭제할 column 확인하기

In [None]:
# drop_columns 변수로 해당 컬럼 정보만 dataframe에서 가져오기
df[drop_columns].head()

## 1.10 제거하기

In [None]:
print(df.shape)
df = df.drop(drop_columns, axis=1)  # column을 기준으로 drop, 행을 삭제하려면 axis=0
print(df.shape)

In [None]:
# 제거 결과를 info로 확인
df.info()  # 메모리 20MB로 줄어듬

## 1.11 기초 통계값 보기

## 핵심 키워드
- mean
- median
- max
- min
- count
- describe

### 1.11.1 기초 통계 수치

In [None]:
# 데이터 타입 확인
# df.dtypes

# 평균값 -> 최솟값, 최댓값에 많이 편형되어 있음
df["위도"].mean()

In [None]:
# 중앙값 -> 데이터의 중간에 있는 값. 최솟값, 최댓값의 영향을 많이받지 않음
df["위도"].median()

In [None]:
# 최댓값
df["위도"].max()

In [None]:
# 최솟값
df["위도"].min()

In [None]:
# 데이터의 개수
df["위도"].count()

### 1.11.2 기초통계 값 요약하기 - describe
- describe를 사용하면 데이터를 요약해 볼 수 있음
- 기본적으로 수치형 데이터를 요약해서 보여줌
- 데이터의 개수, 평균, 표준편차, 최솟값, 1사분위수(25%), 2사분위수(50%), 3사분위수(75%), 최댓값을 볼 수 있음

### 

In [None]:
# 위도를 descirbe로 요약하기
# 1개의 데이터를 가져오면 series 형태로 출력
# 25% : 앞에서 1/4이 되는 값, 1사분위수
# 50% : 중앙값, 2사분위수
# 75% : 앞에서 3/4 번째 되는 값, 3사분위수
df["위도"].describe()

In [None]:
# 2개의 column을 describe로 요약하기
# pandas는 2개 이상의 데이터를 가져올 때, list를 사용 -> dataframe 형태로 출력
df[["위도", "경도"]].describe()

In [None]:
# describe로 문자열 데이터타입의 요약 보기
# describe는 기본적으로 수치형 data만 가져옴
# top : 가장 높은 빈도로 저장된 object data
# freq : 빈도수
df.describe(include="object") # 결측치는 빼고 보여줌

In [None]:
# include="all" : number와 object 데이터 모두 요약. 결측치는 요약하지 않음
df.describe(include="all")

### 1.11.3 중복제거한 값 보기
- unique : 값의 종류가 몇 개인지 보여줌
- unique로 중복을 제거한 값을 보고 nunique로 개수 세어보기

### 핵심 키워드
- unique() / nunique()
- value_counts()
- barh() / pie chart()

In [None]:
# "상권업종대분류명"
df["상권업종대분류명"].unique()

In [None]:
df["상권업종대분류명"].nunique()

In [None]:
# "상권업종중분류명"
df["상권업종중분류명"].unique()

In [None]:
df["상권업종중분류명"].nunique()

In [None]:
# "상권업종소분류명"
df["상권업종소분류명"].unique()

In [None]:
df["상권업종소분류명"].nunique()

In [None]:
# nunique 대신 len을 사용
len(df["상권업종소분류명"].unique())

### 1.11.3 그룹화된 요약값 보기 - value_counts
- value_counts를 사용하면 카테고리 형태의 데이터 개수를 세어볼 수 있음

In [None]:
# 시도명 확인하기
df["시도명"].head()

In [None]:
# 시도명 세어보기
city = df["시도명"].value_counts()
city

In [None]:
# normalize=True : 전체에서 차지하는 비율을 계산
city_normalize = df["시도명"].value_counts(normalize=True)
city_normalize

In [None]:
# pandas에는 plot 기능을 내장하고 있음
# 위에서 분석한 시도명 수를 막대 그래프로 표현하기
city.plot.barh()

In [None]:
# pandas의 plot.pie()를 사용해서 파이 그래프 그리기
# 서울시, 경기도의 차이를 확인하기 어려워서 막대 그래프가 더 보기 편함
# seaborn에서는 pie chart의 모호함 때문에 pie chart를 만들 계획이 없다고 함
city_normalize.plot.pie(figsize=(7, 7))

### 1.11.4 seaborn으로 빈도수 시각화 하기
- seaborn과 matplotlib으로 빈도수 시각화
- 장점 : 고급 통계 기능을 그래프 내부에서 제공
- 단점 : 데이터가 클수록 속도가 느림
- seaborn은 대체로 x, y, data를 기본으로 넣어줘야 하지만 countplot은 x, y 중 하나만 넣어도 됨

### 핵심 키워드
- countplot
- seaborn
- value_counts
- df.plot.bar
- df.plot.barh

In [None]:
# seaborn의 countplot으로 그려보기
# 그래프 설명이 뜨지 않게 하려면 변수에 담기
plt.figure(figsize=(7,5))  # seaborn의 figsize 조절
c = sns.countplot(data=df, y="시도명")  # value_counts를 알아서 적용함

In [None]:
# "상권업종대분류명"의 데이터 값 당 개수를 세어보기
df["상권업종대분류명"].value_counts()

In [None]:
# "상권업종중분류명"으로 개수 세어보기
c = df["상권업종중분류명"].value_counts()
c

In [None]:
# normalize=True를 사용해 전체 대비 비율 구하기
n = df["상권업종중분류명"].value_counts(normalize=True)
n

In [None]:
# pandas의 plot.bar()를 사용해서 막대 그래프 그리기
# rot : label 값 회전
n.plot.bar(rot=0)  # rot=0: 그래프의 글자를 수평으로 만듦

In [None]:
# pandas의 plot.pie()를 사용해서 파이 그래프 그리기
n.plot.pie()

In [None]:
# "상권업종소분류명"에 대한 그룹화된 값을 카운트하기
c = df["상권업종소분류명"].value_counts()
c

In [None]:
# pandas의 plot.bar()를 사용해서 막대 그래프 그리기
# grid : 격자 표시
c.plot.barh(figsize=(7, 8), grid=True)

## 1.12 데이터 색인하기
- 특정 데이터만 모아서 따로 보기

## 핵심 키워드
- ==
- loc
- boolean indexing
- True/False
- &, |

In [None]:
# "상권업종중분류명"이 "약국/한약방"인 데이터만 가져오기
# df_medical 변수에 담고, head()로 미리보기
# copy : 다른 목적으로 사용한다면 copy()를 해야 warning이 뜨지 않거나 원본에 영향을 미치지 않음
df_medical = df[df["상권업종중분류명"] == "약국/한약방"].copy()
df_medical.head(1)

### 2개의 조건 사용하기

In [None]:
# "상권업종대분류명"이 "의료"인 데이터에서 "상권업종중분류명"을 가져오기
# 가져온 결과를 value_counts를 통해 중분류의 개수를 세어보기
# df.loc를 사용하면 행, 열을 함께 가져올 수 있음
df.loc[df["상권업종대분류명"] == "의료", "상권업종중분류명"].value_counts()

# 아래 코드는 dataframe에 2번 접근해서 가져오기 때문에 속도가 약간 느림
# df[df["상권업종대분류명"] == "의료"]["상권업종중분류명"].value_counts()


In [None]:
# 위와 똑같은 기능을 수행하는 코드(boolean indexing 사용)
m = df["상권업종대분류명"] == "의료"
df.loc[m, "상권업종중분류명"].value_counts()

In [None]:
# 유사의료업만 따로 모으기
df_medi = df[df["상권업종중분류명"] == "유사의료업"]
df_medi.shape

In [None]:
# 상호명을 그룹화해서 개수 세기
# value_counts를 사용해서 상위 10개를 출력하기
df["상호명"].value_counts().head(10)

In [None]:
# 유사의료업만 df_medi 변수에 담기
# df_medi 변수에서 상호명으로 개수 세고 상위 10개를 출력하기
df_medi["상호명"].value_counts().head(10)

### 1.12.1 여러 조건으로 색인하기
- 연산자 우선순위에 의해 각 조건에 ()를 걸어줌
- and는 &, or은 |를 사용하여 조건을 정해줌

In [None]:
# "상권업종소분류명"이 "약국"인 것과
# "시도명"이 "서울특별시"인 데이터만 가져오기
df_seoul_drug = df[(df["상권업종소분류명"] == "약국") & (df["시도명"] == "서울특별시")]
print(df_seoul_drug.shape)
df_seoul_drug.head(1)

In [None]:
# 지번주소 중 원하는 텍스트가 들어간 데이터만 추출하는방법
df[df["지번주소"].str.contains("서초구")].head(1)

### 1.12.2 구별로 보기

In [None]:
# 위에서 색인한 데이터를 "시군구명"으로 그룹화해서 개수 세기
# 구별로 약국이 몇 개가 있는지 확인하기
c = df_seoul_drug["시군구명"].value_counts()
c.head()

In [None]:
# normalize=True를 통해 비율 구하기
n = df_seoul_drug["시군구명"].value_counts(normalize=True)
n.head()

In [None]:
# pandas의 plot.bar()를 활용해 막대 그래프 그리기
c.plot.bar(rot=60)

In [None]:
# 서울시의 종합병원만 분석하기
# "상권업종소분류명"이 "종합병원"인 것과
# "시도명"이 "서울특별시"인 데이터를 가져와 df_seoul_hospital에 할당해서 재사용하기
df_seoul_hospital = df[(df["상권업종소분류명"] == "종합병원") & (df["시도명"] == "서울특별시")].copy()
df_seoul_hospital.head(1)

In [None]:
# "시군구명"으로 그룹화해서 구별로 종합병원의 수 세어보기
df_seoul_hospital["시군구명"].value_counts().head()

### 1.12.3 텍스트 데이터 색인하기

In [None]:
# 색인하기 전에 상호명 중 종합병원이 없는 데이터를 중복없이 가져오기
# ~ : 조건이 False인 것을 가져옴
df_seoul_hospital.loc[~df_seoul_hospital["상호명"].str.contains("종합병원"), "상호명"].unique()

### 제거할 데이터 지정하기

In [None]:
# 상호명에서 특정 단어가 들어가는 데이터만 가져오기 - 꽃배달
df_seoul_hospital[df_seoul_hospital["상호명"].str.contains("꽃배달")].head(1)

In [None]:
# 특정 단어가 들어가는 데이터만 가져오기 - 의료기
df_seoul_hospital[df_seoul_hospital["상호명"].str.contains("의료기")].head()

In [None]:
# "꽃배달|의료기|장례식장|상담소|어린이집"은 종합병원과 무관하기 때문에
# 전처리를 위해 해당 텍스트를 한 번에 검색하기
# 제거할 데이터의 인덱스만 drop_row에 담아주고 list 형태로 변환하기
# .index : 해당 row의 index만 가져옴
drop_row = df_seoul_hospital[df_seoul_hospital["상호명"].str.contains("꽃배달|의료기|장례식장|상담소|어린이집")].index
drop_row = drop_row.tolist()
drop_row

In [None]:
# 의원으로 끝나는 데이터도 종합병원으로 볼 수 없기 때문에 인덱스를 찾아서
# drop_row2에 담아주고 list 형태로 변환하기
# endswith("문자열") : 해당 문자열로 끝나는 것
drop_row2 = df_seoul_hospital[df_seoul_hospital["상호명"].str.endswith("의원")].index
drop_row2 = drop_row2.tolist()
drop_row2

In [None]:
# 삭제할 행을 drop_row에 합치기
drop_row = drop_row + drop_row2
len(drop_row)

In [None]:
# 해당 셀을 삭제하고 삭제 전과 후의 행의 개수를 비교하기
# drop()에서는 drop_row에 들어있는 index 번호에 해당하는 행을 제거하고
# 다시 df_seoul_hospital에 넣어서 전체 데이터를 업데이트
print(len(df_seoul_hospital))
df_seoul_hospital = df_seoul_hospital.drop(drop_row, axis=0)
print(len(df_seoul_hospital))

In [None]:
# pandas의 plot으로 막대 그래프 그리기
df_seoul_hospital["시군구명"].value_counts().plot.bar()


In [None]:
# 시군구명에 따라 종합병원의 숫자를 seaborn의 countplot으로 그리기
plt.figure(figsize=(15, 4))
sns.countplot(data=df_seoul_hospital, x="시군구명", order=df_seoul_hospital["시군구명"].value_counts().index)

In [None]:
df_seoul_hospital["상호명"].unique()

- 전처리를 위해서 특정 지역에 데이터가 많이 치우쳐져 있는지 확인하고, 종합병원이 아닌 데이터를 제거하는 과정을 거침
- 전처리는 데이터 분석 과정에서 시간이 많이 걸리고, 지루할 수 있는 부분임

### 1.12.4 특정 지역만 보기

### 핵심 키워드
- scatter plot : 수치형 데이터가 어디 좌표에 위치하는지 출력할 때 주로 이용
- 보통 상관계수, 회귀선을 출력하는데 사용하는데, 지리 데이터에서도 사용이 가능함

In [None]:
# 서울에 있는 데이터의 위도와 경도를 보기
# 결과를 df_seoul이라는 dataframe에 저장하기
# 새로운 변수에 dataframe을 저장 시 copy()를 사용
df_seoul = df[df["시도명"] == "서울특별시"].copy()
df_seoul.shape

In [None]:
# 서울시의 구에 얼마나 많은 가게가 있는지 파악하기
df_seoul["시군구명"].value_counts().head()

In [None]:
# pandas plot의 막대 그래프로 시군구명 시각화하기
df_seoul["시군구명"].value_counts().plot.bar(figsize=(10, 4), rot=30)

In [None]:
# 시군구명을 seaborn의 countplot으로 그리기
plt.figure(figsize=(15, 4))
sns.countplot(data=df_seoul, x="시군구명")

In [None]:
# matplotlib의 plot.scatter를 통해 경도와 위도를 표시하기
df_seoul[["경도", "위도", "시군구명"]].plot.scatter(x="경도", y="위도", figsize=(8, 7), grid=True)

In [None]:
# seaborn의 scatterplot을 통해 구별 경도와 위도를 표시하기
# hue : 시군구별로 다른 색상을 적용
plt.figure(figsize=(9, 8))
sns.scatterplot(data=df_seoul, x="경도", y="위도", hue="시군구명")

In [None]:
# seaborn의 scatterplot을 통해 "상권업종중분류명" 경도와 위도를 표시하기
plt.figure(figsize=(9, 8))
sns.scatterplot(data=df_seoul, x="경도", y="위도", hue="상권업종중분류명")

In [None]:
# seaborn의 scatterplot을 통해 전국 데이터(df)로 구별 경도와 위도를 표시하기
# scatter plot은 데이터가 어디쯤에 위치하는지를 나타냈지만, 정확한 위치를 알기는 어려움
plt.figure(figsize=(10, 10))
sns.scatterplot(data=df, x="경도", y="위도", hue="시도명")

## 1.13 Folium으로 지도 활용하기
- `conda install -c conda-forge folium`으로 folium 설치
- Folium map에 직관적으로 지역 표시하기

### 핵심 키워드
- folium
- Map
- Marker

### 1.13.1 Folium 사용예제
- http://nbviewer.jupyter.org/github/python-visualization/folium/tree/master/examples/
- https://nbviewer.org/github/python-visualization/folium/blob/main/examples/Quickstart.ipynb

In [None]:
# 아나콘다에서 folium을 사용하기 위해서는 별도의 설치가 필요
# https://anaconda.org/conda-forge/folium
# 지도 시각화를 위한 라이브러리
import folium

# folium.Map만 찍으면 세계지도가 나옴
# folium.Map()

# 지도 저장
# m.save('index.html')  # html 파일로 저장

In [None]:
# 지도의 중심을 지정하기 위해 위도와 경도의 평균을 구하기
df_seoul_hospital["위도"].mean()
df_seoul_hospital["경도"].mean()

In [None]:
# tiles : 테마 설정
map = folium.Map(tiles="Stamen Toner")
map

In [None]:
df_seoul_hospital.tail(1)

In [None]:
# location과 zoom_start로 위치를 설정할 수 있음
# tooltip : 마커에 마우스를 올릴시 표현될 문구
# popup : 마커 클릭시 표현될 문구
map = folium.Map(location=[df_seoul_hospital["위도"].mean(), df_seoul_hospital["경도"].mean()], zoom_start=12)

# 함수를 통해 마커와 팝업 설정
for n in df_seoul_hospital.index:
    name = df_seoul_hospital.loc[n, "상호명"]  # loc : 행 기준으로 데이터 가져옴
    address = df_seoul_hospital.loc[n, "도로명주소"]
    popup = f"{name}-{address}"
    location = [df_seoul_hospital.loc[n, "위도"], df_seoul_hospital.loc[n, "경도"]]
    folium.Marker(
        location = location,
        popup = popup,
    ).add_to(map)
map

- 서울 외곽에 갈수록 종합병원 수가 적다는 것을 알 수 있음

## 1.14 자율주제를 세우고 직접 분석해 보세요.
- 상권업종중분류명, 상권업종소분류명 중에 관심 있는 분류명을 색인 후에 시도별, 시군구별 분석하기
- 예시
    - 언어치료는 시군구별로 어디에 많이 위치할까?
    - 의료시설은 서울과 강남에 집중되어 있을까?
    - 강남에는 피부과, 성형외과가 다른 지역에 비해 많을까?