# 공공데이터 로드하고 데이터 미리보기

## 학습목표
- 라이브러리 불러오기
- Pandas 로 데이터 가져오기
- 데이터 확인하고, 미리보기, 요약하기

## 핵심키워드
- read_csv()
- shape
- head() / tail()

- 데이터 Columns 확인하기
    - info()
    - columns
    - dtypes

## 학습하기

### 1.1 라이브러리 불러오기

In [3]:
import pandas as pd
import numpy as np
import seaborn

### 1.2 시각화를 위한 폰트 설정

In [5]:
import matplotlib.pyplot as plt

# window 의 한글 폰트 설정
plt.rc('font', family='Malgun Gothic')

# Mac 의 한글 폰트 설정
# plt.rc('font', family='AppleGothic')
plt.rc('axes', unicode_minus=False)

# 그래프가 노트북 안에 보이게 하기 위해
%matplotlib inline

In [6]:
from IPython.display import set_matplotlib_formats
# 폰트가 선명하게 보이기 위해
set_matplotlib_formats('retina')

### 1.3 데이터 로드하기
- Pandas에서 데이터를 로드할 때는 `read_csv()`라는 함수를 사용합니다.
- 데이터를 로드해서 df라는 변수에 담습니다.
- 그리고 `shape`를 통해 데이터의 행/열 크기 파악

In [9]:
df = pd.read_csv('source/dataset.csv', low_memory=False)

# 데이터의 크기확인 (행/열)
df.shape

(91335, 39)

### 1.4 데이터 미리보기
- head(), tail() 을 통해 데이터를 미리 볼 수 있습니다.

In [12]:
# head() 로 데이터 앞 5개 미리보기
df.head()

Unnamed: 0,상가업소번호,상호명,지점명,상권업종대분류코드,상권업종대분류명,상권업종중분류코드,상권업종중분류명,상권업종소분류코드,상권업종소분류명,표준산업분류코드,...,건물관리번호,건물명,도로명주소,구우편번호,신우편번호,동정보,층정보,호정보,경도,위도
0,19956873,하나산부인과,,S,의료,S01,병원,S01B10,산부인과,Q86201,...,4127310900110810000010857,산호한양아파트,경기도 안산시 단원구 달미로 10,425764.0,15236.0,,,,126.814295,37.336344
1,20024149,타워광명내과의원,,S,의료,S01,병원,S01B07,내과/외과,Q86201,...,1168011800104670014000001,,서울특별시 강남구 언주로30길 39,135270.0,6292.0,,4.0,,127.053198,37.488742
2,20152277,조정현신경외과의원,,S,의료,S01,병원,S01B15,신경외과,Q86201,...,4139013200117400001017064,한라프라자,경기도 시흥시 중심상가로 178,429450.0,15066.0,,,,126.734841,37.344955


In [13]:
# tail() 로 데이터 뒤 5개 미리보기
df.tail()

Unnamed: 0,상가업소번호,상호명,지점명,상권업종대분류코드,상권업종대분류명,상권업종중분류코드,상권업종중분류명,상권업종소분류코드,상권업종소분류명,표준산업분류코드,...,건물관리번호,건물명,도로명주소,구우편번호,신우편번호,동정보,층정보,호정보,경도,위도
91330,16196725,온누리약국,베스트,S,의료,S02,약국/한약방,S02A01,약국,G47811,...,3017011200115070000021096,,대전광역시 서구 문예로 67,302831.0,35240.0,,,,127.389865,36.352728
91331,16192180,리원,봄산후조,S,의료,S07,의료관련서비스업,S07A07,산후조리원,S96993,...,4128112300111460000011715,청한프라자,경기도 고양시 덕양구 성신로 14,412827.0,10503.0,,,,126.830144,37.62753
91332,16127538,참좋은요양병원,,S,의료,S01,병원,S01B17,노인/치매병원,Q86102,...,2641010800105380001005572,한신시티빌,부산광역시 금정구 금강로 209,609841.0,46294.0,,2.0,,129.08279,35.227138
91333,16108681,경희중앙한의원,,S,의료,S01,병원,S01B06,한의원,Q86203,...,1174010500103450009002392,,서울특별시 강동구 천중로 213,134811.0,5303.0,,,,127.143958,37.540993
91334,16109073,천안김안과천안역본점의원,,S,의료,S01,병원,S01B13,안과의원,Q86201,...,4413110700102660017016314,김안과,충청남도 천안시 동남구 중앙로 92,330952.0,31127.0,,,,127.152651,36.80664


### 1.5 데이터 요약하기

In [14]:
# info()로 데이터 요약 | 결측치도 볼 수 있음
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 91335 entries, 0 to 91334
Data columns (total 39 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   상가업소번호     91335 non-null  int64  
 1   상호명        91335 non-null  object 
 2   지점명        1346 non-null   object 
 3   상권업종대분류코드  91335 non-null  object 
 4   상권업종대분류명   91335 non-null  object 
 5   상권업종중분류코드  91335 non-null  object 
 6   상권업종중분류명   91335 non-null  object 
 7   상권업종소분류코드  91335 non-null  object 
 8   상권업종소분류명   91335 non-null  object 
 9   표준산업분류코드   86413 non-null  object 
 10  표준산업분류명    86413 non-null  object 
 11  시도코드       90956 non-null  float64
 12  시도명        90956 non-null  object 
 13  시군구코드      90956 non-null  float64
 14  시군구명       90956 non-null  object 
 15  행정동코드      91335 non-null  int64  
 16  행정동명       90956 non-null  object 
 17  법정동코드      91280 non-null  float64
 18  법정동명       91280 non-null  object 
 19  지번코드       91335 non-null  int64  
 20  대지구분코드

In [15]:
# columns 컬럼명만 출력하기
df.columns

Index(['상가업소번호', '상호명', '지점명', '상권업종대분류코드', '상권업종대분류명', '상권업종중분류코드',
       '상권업종중분류명', '상권업종소분류코드', '상권업종소분류명', '표준산업분류코드', '표준산업분류명', '시도코드',
       '시도명', '시군구코드', '시군구명', '행정동코드', '행정동명', '법정동코드', '법정동명', '지번코드',
       '대지구분코드', '대지구분명', '지번본번지', '지번부번지', '지번주소', '도로명코드', '도로명', '건물본번지',
       '건물부번지', '건물관리번호', '건물명', '도로명주소', '구우편번호', '신우편번호', '동정보', '층정보',
       '호정보', '경도', '위도'],
      dtype='object')

In [16]:
# 데이터 타입만 출력하기.
df.dtypes

상가업소번호         int64
상호명           object
지점명           object
상권업종대분류코드     object
상권업종대분류명      object
상권업종중분류코드     object
상권업종중분류명      object
상권업종소분류코드     object
상권업종소분류명      object
표준산업분류코드      object
표준산업분류명       object
시도코드         float64
시도명           object
시군구코드        float64
시군구명          object
행정동코드          int64
행정동명          object
법정동코드        float64
법정동명          object
지번코드           int64
대지구분코드         int64
대지구분명         object
지번본번지          int64
지번부번지        float64
지번주소          object
도로명코드          int64
도로명           object
건물본번지          int64
건물부번지        float64
건물관리번호        object
건물명           object
도로명주소         object
구우편번호        float64
신우편번호        float64
동정보           object
층정보           object
호정보           object
경도           float64
위도           float64
dtype: object