# 원하는 데이터만 따로 추출해 오기 - 데이터 색인하기

## 학습목표
- 원하는 데이터를 조건을 활용하여 불러온다.

## 핵심 키워드
- ==
- loc
- boolean indexing
- True / False
- &, | (and, or)

## 학습하기

In [1]:
# 기본셋팅
import pandas as pd
import numpy as np
import seaborn

import matplotlib.pyplot as plt
# window 의 한글 폰트 설정
plt.rc('font', family='Malgun Gothic')

# Mac 의 한글 폰트 설정
# plt.rc('font', family='AppleGothic')
plt.rc('axes', unicode_minus=False)

# 그래프가 노트북 안에 보이게 하기 위해
%matplotlib inline

# 폰트가 선명하게 보이기 위해
from IPython.display import set_matplotlib_formats
set_matplotlib_formats('retina')

# 데이터 불러오기
df = pd.read_csv('source/dataset.csv', low_memory=False)

# 데이터 확인하기
df

Unnamed: 0,상가업소번호,상호명,지점명,상권업종대분류코드,상권업종대분류명,상권업종중분류코드,상권업종중분류명,상권업종소분류코드,상권업종소분류명,표준산업분류코드,...,건물관리번호,건물명,도로명주소,구우편번호,신우편번호,동정보,층정보,호정보,경도,위도
0,19956873,하나산부인과,,S,의료,S01,병원,S01B10,산부인과,Q86201,...,4127310900110810000010857,산호한양아파트,경기도 안산시 단원구 달미로 10,425764.0,15236.0,,,,126.814295,37.336344
1,20024149,타워광명내과의원,,S,의료,S01,병원,S01B07,내과/외과,Q86201,...,1168011800104670014000001,,서울특별시 강남구 언주로30길 39,135270.0,6292.0,,4,,127.053198,37.488742
2,20152277,조정현신경외과의원,,S,의료,S01,병원,S01B15,신경외과,Q86201,...,4139013200117400001017064,한라프라자,경기도 시흥시 중심상가로 178,429450.0,15066.0,,,,126.734841,37.344955
3,20350610,한귀원정신과의원,,S,의료,S01,병원,S01B99,기타병원,,...,2650010400100740001009932,,부산광역시 수영구 수영로 688,613100.0,48266.0,,5,,129.115438,35.166872
4,20364049,더블유스토어수지점,수지점,S,의료,S02,약국/한약방,S02A01,약국,G47811,...,4146510100107120002026238,,경기도 용인시 수지구 문정로 32,448170.0,16837.0,,1,,127.095522,37.323528
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
91330,16196725,온누리약국,베스트,S,의료,S02,약국/한약방,S02A01,약국,G47811,...,3017011200115070000021096,,대전광역시 서구 문예로 67,302831.0,35240.0,,,,127.389865,36.352728
91331,16192180,리원,봄산후조,S,의료,S07,의료관련서비스업,S07A07,산후조리원,S96993,...,4128112300111460000011715,청한프라자,경기도 고양시 덕양구 성신로 14,412827.0,10503.0,,,,126.830144,37.627530
91332,16127538,참좋은요양병원,,S,의료,S01,병원,S01B17,노인/치매병원,Q86102,...,2641010800105380001005572,한신시티빌,부산광역시 금정구 금강로 209,609841.0,46294.0,,2,,129.082790,35.227138
91333,16108681,경희중앙한의원,,S,의료,S01,병원,S01B06,한의원,Q86203,...,1174010500103450009002392,,서울특별시 강동구 천중로 213,134811.0,5303.0,,,,127.143958,37.540993


### 데이터 색인하기
- 특정 데이터만 모아서 따로 봅니다.

In [64]:
# '상권업종중분류명'이 '약국/한약방' 인 데이터만 가져오기
# df_medical 이라는 변수에 담기
# head() 앞 5개 데이터 요약보기

# df['상권업종중분류명'] == '약국/한약방' | Series 로 True/False 반환
df[df['상권업종중분류명'] == '약국/한약방'] # df에서 True 로 걸린애들만 추출됨
df_medical = df[df['상권업종중분류명'] == '약국/한약방'].copy() # copy() 를 안쓰고 df_medical값을 바꾸면 같이 바뀌게됨
df_medical.head()

Unnamed: 0,상가업소번호,상호명,지점명,상권업종대분류코드,상권업종대분류명,상권업종중분류코드,상권업종중분류명,상권업종소분류코드,상권업종소분류명,표준산업분류코드,...,건물관리번호,건물명,도로명주소,구우편번호,신우편번호,동정보,층정보,호정보,경도,위도
4,20364049,더블유스토어수지점,수지점,S,의료,S02,약국/한약방,S02A01,약국,G47811,...,4146510100107120002026238,,경기도 용인시 수지구 문정로 32,448170.0,16837.0,,1.0,,127.095522,37.323528
6,20733252,춘산한약방,,S,의료,S02,약국/한약방,S02A02,한약방,G47811,...,4211010500101000000023668,,강원도 춘천시 낙원길 50,200042.0,24273.0,,2.0,,127.726905,37.880504
7,20582210,부부탕제원,,S,의료,S02,약국/한약방,S02A03,탕제원,G47859,...,4311112000101870017042942,,충청북도 청주시 상당구 중고개로337번길 134,360802.0,28726.0,,1.0,,127.499206,36.625355
10,21057519,민생약국,,S,의료,S02,약국/한약방,S02A01,약국,G47811,...,4889046030200780002048274,,경상남도 합천군 용주면 월평길 149-35,678912.0,50212.0,,,,128.118615,35.575962
13,21217689,제중당한약방,,S,의료,S02,약국/한약방,S02A02,한약방,G47811,...,4683035023102960000000001,,전라남도 영암군 도포면 인덕길 75-10,526832.0,58429.0,,,,126.630348,34.83408


In [70]:
# '상권업종대분류명' 에서 '의료' 만 가져옵니다.
# df.loc() 를 사용하면 행,열을 함께 가져올 수 있습니다.
# 이 기능을 통해 '상권업종대분류명' 만 가져옵니다.
# 그리고 가져온 결과를 value_counts() 을 통해 중분류의 갯수를 세어봅니다.

df.loc[df['상권업종대분류명'] == '의료', '상권업종중분류명'].value_counts()

병원          60774
약국/한약방      20923
수의업          5323
유사의료업        3774
의료관련서비스업      541
Name: 상권업종중분류명, dtype: int64

In [92]:
# 유사의료업만 따로 모아봅니다.

df_medi = df[df['상권업종중분류명'] == '유사의료업']
df_medi['상호명'].value_counts().head(10)

리원           32
고려수지침        22
대한적십자사       17
헌혈의집         12
고려수지침학회      10
수치과기공소       10
제일치과기공소       9
대한응급환자이송단     8
아트치과기공소       8
미소치과기공소       8
Name: 상호명, dtype: int64

In [77]:
# 상호명을 구룹화해서 갯수를 세어봅니다.
# value_counts() 를 사용해서 상위 10개를 출력합니다.
df['상호명'].value_counts().head(10)
# df['상호명'].value_counts().tail()

리원       152
온누리약국    149
경희한의원    141
우리약국     119
중앙약국     111
전자담배      98
조은약국      95
건강약국      87
제일약국      79
사랑약국      73
Name: 상호명, dtype: int64

### 여러 조건으로 색인하기

In [112]:
# '상권업종 소분류명' 이 '약국' 인 것과
# '시도명' 이 '서울특별시' 인 데이터 가져오기
df_seoul_drug = df[ (df['상권업종소분류명'] == '약국') & (df['시도명'] == '서울특별시') ]
print(df_seoul_drug.shape)
df_seoul_drug

(3579, 39)


Unnamed: 0,상가업소번호,상호명,지점명,상권업종대분류코드,상권업종대분류명,상권업종중분류코드,상권업종중분류명,상권업종소분류코드,상권업종소분류명,표준산업분류코드,...,건물관리번호,건물명,도로명주소,구우편번호,신우편번호,동정보,층정보,호정보,경도,위도
33,20816709,이즈타워약,,S,의료,S02,약국/한약방,S02A01,약국,G47811,...,1168010100108210001000001,이즈타워,서울특별시 강남구 테헤란로 101,135080.0,6134.0,,1,,127.028023,37.498656
51,20855710,진흥약국,,S,의료,S02,약국/한약방,S02A01,약국,G47811,...,1174010600106090000000001,둔촌푸르지오아파트,서울특별시 강동구 명일로 172,134767.0,5360.0,,,,127.145055,37.534135
130,21589838,신세계약국,,S,의료,S02,약국/한약방,S02A01,약국,G47811,...,1126010600106460000000300,금강리빙스텔,서울특별시 중랑구 신내로 211,131130.0,2024.0,,1,,127.092597,37.616424
136,22388303,메디팜한솔약국,,S,의료,S02,약국/한약방,S02A01,약국,G47811,...,1120010700103460012016935,한진노변상가,서울특별시 성동구 행당로 82,133777.0,4717.0,,1,,127.027513,37.556238
141,22412563,명약국,,S,의료,S02,약국/한약방,S02A01,약국,G47811,...,1123010900102860121007257,,서울특별시 동대문구 망우로18나길 3,130090.0,2498.0,,1,,127.060556,37.587349
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
91239,16131547,우리이웃약국,,S,의료,S02,약국/한약방,S02A01,약국,G47811,...,1129013500100340003022753,종암선경아파트,서울특별시 성북구 종암로5길 26,136769.0,2811.0,,1,116,127.033908,37.594792
91275,16195709,더블유스토어,세계로,S,의료,S02,약국/한약방,S02A01,약국,G47811,...,1153010200105010000000001,신구로자이나인스에비뉴,서울특별시 구로구 구로중앙로 134,152731.0,8293.0,1,1,,126.884285,37.499936
91288,16131839,종각팜약국,,S,의료,S02,약국/한약방,S02A01,약국,G47811,...,1111013800100160006014311,대한기독교서회,서울특별시 종로구 종로 68,110122.0,3189.0,,1,,126.984930,37.569882
91301,16188650,온누리약국,우리네,S,의료,S02,약국/한약방,S02A01,약국,G47811,...,1153010200107980032000001,,서울특별시 구로구 디지털로27길 116,152875.0,8374.0,,,,126.888070,37.484897


### `loc() | iloc()`
- loc(행, 열)
    - row, column 이름 그대로 넣어야함
- iloc(행, 열)
    - index 값 인덱스(숫자)로 넣어야함

In [36]:
df.loc[:10, :'상권업종소분류명']

Unnamed: 0,상가업소번호,상호명,지점명,상권업종대분류코드,상권업종대분류명,상권업종중분류코드,상권업종중분류명,상권업종소분류코드,상권업종소분류명
0,19956873,하나산부인과,,S,의료,S01,병원,S01B10,산부인과
1,20024149,타워광명내과의원,,S,의료,S01,병원,S01B07,내과/외과
2,20152277,조정현신경외과의원,,S,의료,S01,병원,S01B15,신경외과
3,20350610,한귀원정신과의원,,S,의료,S01,병원,S01B99,기타병원
4,20364049,더블유스토어수지점,수지점,S,의료,S02,약국/한약방,S02A01,약국
5,20809147,행신동물병원,,S,의료,S04,수의업,S04A02,동물병원
6,20733252,춘산한약방,,S,의료,S02,약국/한약방,S02A02,한약방
7,20582210,부부탕제원,,S,의료,S02,약국/한약방,S02A03,탕제원
8,20808534,코원성형외과,,S,의료,S01,병원,S01B08,정형/성형외과
9,20755460,헬로스마일소아과,,S,의료,S01,병원,S01B11,소아과


In [44]:
# print(df.iloc[0])
# print(df.iloc[[0, 2]])
# print(df.iloc[0:2])
# print(df.iloc[:, 0])
# print(df.iloc[:, [0, 2]])
# print(df.iloc[:, 0:2])
df.iloc[:10, :10]

Unnamed: 0,상가업소번호,상호명,지점명,상권업종대분류코드,상권업종대분류명,상권업종중분류코드,상권업종중분류명,상권업종소분류코드,상권업종소분류명,표준산업분류코드
0,19956873,하나산부인과,,S,의료,S01,병원,S01B10,산부인과,Q86201
1,20024149,타워광명내과의원,,S,의료,S01,병원,S01B07,내과/외과,Q86201
2,20152277,조정현신경외과의원,,S,의료,S01,병원,S01B15,신경외과,Q86201
3,20350610,한귀원정신과의원,,S,의료,S01,병원,S01B99,기타병원,
4,20364049,더블유스토어수지점,수지점,S,의료,S02,약국/한약방,S02A01,약국,G47811
5,20809147,행신동물병원,,S,의료,S04,수의업,S04A02,동물병원,M73100
6,20733252,춘산한약방,,S,의료,S02,약국/한약방,S02A02,한약방,G47811
7,20582210,부부탕제원,,S,의료,S02,약국/한약방,S02A03,탕제원,G47859
8,20808534,코원성형외과,,S,의료,S01,병원,S01B08,정형/성형외과,Q86201
9,20755460,헬로스마일소아과,,S,의료,S01,병원,S01B11,소아과,Q86201
