# 전국동물보호센터정보표준데이터 살펴보기

공공데이터포털의 [표준데이터](https://www.data.go.kr/search/index.do?index=DATAGRID)에서 “동물보호센터”를 검색합니다.

전국동물보호센터정보표준데이터: <https://www.data.go.kr/dataset/15025454/standard.do>

여기서는 “CSV” 파일을 다운로드해 사용합니다.

## Matplotlib 준비

그래프를 그리기 위해 Plotting 라이브러리를 사용합니다.

<https://matplotlib.org/>

In [1]:
# matplotlib 모듈 사용

import matplotlib
import matplotlib.pyplot as plt

# matplotlib 버전 확인
# 버전이 다를 때 문제가 생기는 경우가 종종 있어서 이렇게 사용 중인 버전을 확인합니다.

matplotlib.__version__

'3.1.1'

## Pandas 준비

데이터를 다루기 위해 Pandas 라이브러리를 사용합니다.

Pandas를 사용하면 CSV 파일을 로딩하고, 컬럼 중심으로 데이터를 다룰 수 있습니다.

<https://pandas.pydata.org/>

In [2]:
# pandas 모듈 사용

import pandas as pd

# pandas 버전 확인

pd.__version__

'0.25.1'

## Folium 준비

인터랙티브한 지도를 표현하기 위해 folium 라이브러리를 사용합니다.

<https://python-visualization.github.io/folium/>

In [5]:
# folium 패키지 설치

# !pip uninstall folium

In [6]:
# folium 버전 확인

import folium

folium.__version__

'0.10.0'

In [7]:
# folium 라이브러리의 Map과 HeatMap 사용

from folium import Map
from folium.plugins import HeatMap

## Matplotlib의 한국어 표시 문제

Matplotlib을 쓰면 한국어가 제대로 표시되지 않는 문제가 있습니다.

여기서는 한국어 글꼴을 지정함으로써 이 문제를 해결하겠습니다.

In [8]:
# 임의의 점수를 만들어서 쓰기 위해 random 모듈을 사용하겠습니다.
# https://docs.python.org/3/library/random.html

import random

# 사용할 점수 목록
scores = [0, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100]

# Accumulator
students = []

# Accumulation
for i in range(10):
    # random.choice를 쓰면 주사위 굴리기처럼 임의의 값을 하나 선택해서 쓸 수 있습니다.
    students.append({'번호': i + 1, '점수': random.choice(scores)})

# 학생 성적을 다루기 좋도록 Pandas를 씁니다.

df = pd.DataFrame(students)

df

Unnamed: 0,번호,점수
0,1,80
1,2,50
2,3,70
3,4,70
4,5,80
5,6,50
6,7,60
7,8,80
8,9,100
9,10,100


In [None]:
# 히스토그램 표시

df[['점수']].plot.hist(bins=20)

plt.show()

히스토그램 오른쪽 위에 글씨가 제대로 나오지 않는 걸 확인할 수 있습니다.

### 사용할 수 있는 글꼴 확인

시스템마다 설치된 글꼴이 다르기 때문에 먼저 우리가 쓸 수 있는 글꼴 목록을 확인하겠습니다.

In [None]:
# matplotlib에서 쓸 수 있는 ttf 글꼴 목록 중 “Gothic“이 포함된 걸 확인

import matplotlib.font_manager as fm

for font in fm.fontManager.ttflist:
    if 'Gothic' in font.name:
        print(font.name)

### 글꼴 사용

Mac에선 “AppleGothic” 등이 보일 거고, Windows에선 “Malgun Gothic” 등이 보일 겁니다.

이 글꼴을 사용하면 됩니다.

In [None]:
# 이 부분은 바로 위에 있는 글꼴 목록을 참고해서 바꿔서 쓰세요.

plt.rcParams['font.family'] = 'AppleGothic'

In [None]:
# 히스토그램 표시

df[['점수']].plot.hist(bins=20)

plt.show()

히스토그램 오른쪽 위에 “점수”란 글씨가 올바르게 나오는 걸 확인할 수 있습니다.

## 전국동물보호센터정보표준데이터 읽기

Pandas의 `read_csv` 함수를 이용해 CSV 파일을 읽습니다.

공공데이터는 예전에 구축한 시스템의 “EUC-KR” 인코딩을 사용하는 경우가 많습니다.

(인코딩이 맞지 않아 깨지는 건 이 글을 참고하세요: <http://openlook.org/wp/cb-1167/>)

In [None]:
# 인코딩이 맞지 않아 이걸 실패합니다.

pd.read_csv('data/animal.csv')

In [None]:
# EUC-KR 인코딩으로 CSV 파일 읽기

df = pd.read_csv('data/animal.csv', encoding='euc-kr')

## 데이터 첫인상 확인

일단 데이터가 어떻게 생겼는지 확인합니다.

In [None]:
# 1. 컬럼 목록

df.columns

In [None]:
# 2. 전체 갯수와 컬럼 갯수 확인

df.shape

In [None]:
# 3. 데이터 일부 확인

df.head()

## 불필요한 컬럼 제거

결측값이 너무 많거나 당장에 필요하지 않은 컬럼을 정리합니다.

In [None]:
# 컬럼별 결측값 갯수 확인

data = df.isnull().sum()

pd.DataFrame(data)

In [None]:
# 안 쓰는 컬럼 이름을 넣어 drop해서 simple 데이터를 만듭니다.

simple_df = df.drop(columns=[
    '소재지지번주소', '동물보호센터지정일자',
    '평일운영시작시각', '평일운영종료시각', '평일분양시작시각', '평일분양종료시각',
    '주말운영시작시각', '주말운영종료시각', '주말분양시작시각', '주말분양종료시각',
    '진료실수', '사육실수', '격리실수', '사료보관실수', '구조운반용차량보유대수', '전화번호',
    '데이터기준일자', '제공기관코드', '제공기관명', 'Unnamed: 29'
])

# 정리된 데이터 확인

simple_df.head()

## 기본적인 분류

데이터가 어떻게 분류되어 있는지 확인합니다.

In [None]:
# “동물보호센터유형” 컬럼에 있는 값의 갯수를 확인

data = simple_df['동물보호센터유형'].value_counts()

pd.DataFrame(data)

만약 `value_counts`를 쓰지 않고 `count`를 쓴다면 다음과 같이 해야 합니다.

In [None]:
values = simple_df['동물보호센터유형'].unique()

values

In [None]:
counts = []

for value in values:
    condition = simple_df['동물보호센터유형'] == value
    count = simple_df[condition]['동물보호센터유형'].count()
    counts.append({'동물보호센터유형': value, '갯수': count})

pd.DataFrame(counts, columns=['동물보호센터유형', '갯수'])

이렇게 하면 어떤 게 가장 많은지, 그 순서는 어떻게 되는지 따로 확인해야 합니다.

게다가 코드가 너무 길다는 것도 문제죠.

`value_counts`를 강력히 추천합니다.

In [None]:
# 파이 그래프 표시

data = simple_df['동물보호센터유형'].value_counts()

data.plot.pie()

plt.show()

In [None]:
# 휴무일도 똑같이 처리해 봅니다.

data = simple_df['휴무일'].value_counts()

pd.DataFrame(data)

In [None]:
# nlargest를 쓰면 상위권에 있는 것만 확인할 수 있습니다.

data = simple_df['휴무일'].value_counts().nlargest(10)

pd.DataFrame(data)

In [None]:
# 파이 그래프 표시

data = simple_df['휴무일'].value_counts()

data.plot.pie()

plt.show()

이렇게 많은 걸 파이 그래프로 그리면 지옥을 볼 수 있습니다.

# 분포 확인

데이터가 어떤 식으로 분포됐는지 히스토그램을 그려보면 알 수 있습니다.

In [None]:
# 위에서 쓴 걸 일단 해봅니다.

data = simple_df['수의사인원수'].value_counts()

pd.DataFrame(data)

In [None]:
# 히스토그램 표시

simple_df[['수의사인원수']].plot.hist(bins=100)

plt.show()

In [None]:
# 마찬가지로 일단 value_counts부터 확인합니다.

data = simple_df['사양관리사인원수'].value_counts()

pd.DataFrame(data)

In [None]:
# 히스토그램 표시

simple_df[['사양관리사인원수']].plot.hist(bins=100)

plt.show()

## 주소 확인

주소 정보는 완전 개별적이지만 활용할 방법이 있습니다.

In [None]:
# 결측값을 제외합니다.

address_df = simple_df[simple_df['소재지도로명주소'].notnull()]

# 데이터 갯수가 어떻게 바뀌는지 확인합니다.

simple_df.shape, address_df.shape

188 -> 184

“소재지도로명주소”에 있던 결측값 4개를 정리한 걸 알 수 있습니다.

In [None]:
# “소재지도로명주소”에 “서울”이 포함된 곳을 찾습니다.

address_df[address_df['소재지도로명주소'].str.contains('서울')]

## 지도 그리기

위도, 경도 데이터가 있기 때문에 지도에 그려볼 수 있습니다.

지도 초기값(위도, 경도, 확대)은 구글맵에서 확인해 보세요: <https://maps.google.com/>

In [None]:
# 지도 표시

Map(location=[36.5, 127.5], zoom_start=7)

In [None]:
# 위도, 경도만 모읍니다.

coordinates = simple_df[['위도', '경도']]

coordinates

In [None]:
# 지도 다시 준비

map = Map(location=[36.5, 127.5], zoom_start=7)

# 지도에 위치 표시

for lat, lng in coordinates.values:
    marker = folium.Circle(
        location=[lat, lng],
        radius=5_000,
        weight=1,
        fill_color='#F00',
        fill_opacity=0.3,
    )
    marker.add_to(map)

map

In [None]:
# 지도 다시 준비

map = Map(location=[36.5, 127.5], zoom_start=7)

# 히트맵 표시

HeatMap(data=coordinates, radius=20).add_to(map)

map