### Pandas로 행정구역 정보 분석
* https://www.data.go.kr/ 에서 다운받음
* data/data_draw_korea.csv 파일 활용

### read_csv() 함수
* csv file 읽기
* head(), tail() 함수로 일부 데이터 가져오기
* columns, index, shape, info() 로 meta정보 확인
* describe(), max(), min(), mean() 집게함수

In [1]:
!pip show pandas

Name: pandas
Version: 0.23.4
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: http://pandas.pydata.org
Author: None
Author-email: None
License: BSD
Location: c:\anaconda3\lib\site-packages
Requires: python-dateutil, pytz, numpy
Required-by: seaborn, odo


In [2]:
import pandas as pd

data = pd.read_csv('data/data_draw_korea.csv')
print(type(data)) # <class 'pandas.core.frame.DataFrame'>
data.head()

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0.1,Unnamed: 0,인구수,shortName,x,y,면적,광역시도,행정구역
0,0,202520,강릉,11,4,1040.07,강원도,강릉시
1,1,25589,고성(강원),9,0,664.19,강원도,고성군
2,2,86747,동해,11,5,180.01,강원도,동해시
3,3,63986,삼척,11,8,1185.8,강원도,삼척시
4,4,76733,속초,9,1,105.25,강원도,속초시


In [3]:
data.tail(3)

Unnamed: 0.1,Unnamed: 0,인구수,shortName,x,y,면적,광역시도,행정구역
226,226,62809,진천,5,11,406.08,충청북도,진천군
227,227,790216,청주,6,12,932.51,충청북도,청주시
228,228,198077,충주,6,10,983.7,충청북도,충주시


In [4]:
# 컬럼명
print(data.columns)

# 인덱스
print(data.index)

# ?행 ?열
print(data.shape)

Index(['Unnamed: 0', '인구수', 'shortName', 'x', 'y', '면적', '광역시도', '행정구역'], dtype='object')
RangeIndex(start=0, stop=229, step=1)
(229, 8)


In [5]:
# info() : dataframe의 meta 정보
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 229 entries, 0 to 228
Data columns (total 8 columns):
Unnamed: 0    229 non-null int64
인구수           229 non-null int64
shortName     229 non-null object
x             229 non-null int64
y             229 non-null int64
면적            229 non-null float64
광역시도          229 non-null object
행정구역          229 non-null object
dtypes: float64(1), int64(4), object(3)
memory usage: 14.4+ KB


In [6]:
# describe() - 집계함수
data.describe()

Unnamed: 0.1,Unnamed: 0,인구수,x,y,면적
count,229.0,229.0,229.0,229.0,229.0
mean,114.0,211089.8,6.117904,11.262009,435.419795
std,66.250786,207437.8,3.320469,6.040898,381.612549
min,0.0,8392.0,0.0,0.0,2.8
25%,57.0,49559.0,3.0,6.0,54.0
50%,114.0,140159.0,6.0,11.0,436.4
75%,171.0,321618.0,9.0,16.0,692.8
max,228.0,1125461.0,13.0,25.0,1817.94


In [7]:
# 인구수 컬럼값의 최대 최소 평균
print(type(data['인구수']))  #<class 'pandas.core.series.Series'>
data['인구수'].head()

# Series: dataframe 중 특정 한 column만 선택함
# DataFrame: columns 2개이상 선택시, 

print('최소', data['인구수'].min())
print('평균', data['인구수'].mean())
print('최대', data['인구수'].max())

<class 'pandas.core.series.Series'>
최소 8392
평균 211089.77729257641
최대 1125461


In [8]:
print('면적 최소', data['면적'].min())
print('면적 최대', data['면적'].max())

면적 최소 2.8
면적 최대 1817.94


In [9]:
data.head()

# 컬럼명 변경
data = data.rename(columns={'Unnamed: 0': 'seq'})
data.head(2)

Unnamed: 0,seq,인구수,shortName,x,y,면적,광역시도,행정구역
0,0,202520,강릉,11,4,1040.07,강원도,강릉시
1,1,25589,고성(강원),9,0,664.19,강원도,고성군


In [10]:
# seq 컬럼을 index로 변경
data = data.set_index('seq')
data.head(2)

Unnamed: 0_level_0,인구수,shortName,x,y,면적,광역시도,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,202520,강릉,11,4,1040.07,강원도,강릉시
1,25589,고성(강원),9,0,664.19,강원도,고성군


#### 특정 행과 열을 선택하기
* loc[] 사용, iloc[] 사용
* 여러개의 열을 선택, slicing 으로 열을 선택
* 특정 행을 선택, slicing으로 행을 선택
* boolean indexing - 조건식을 만족하는 행을 선택


In [15]:
# 인구수, 행정구역 2개 선택
data.loc[:,['인구수','행정구역']].head(3)

Unnamed: 0_level_0,인구수,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1
0,202520,강릉시
1,25589,고성군
2,86747,동해시


In [19]:
# 인구수, 행정구역, 광역시도 3개 선택
# 특정열을 여러개 선택할때는 컬럼명을 []로 감싸간다.
col_list = ['인구수', '행정구역', '광역시도']
data.loc[:,col_list].head(3)

Unnamed: 0_level_0,인구수,행정구역,광역시도
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,202520,강릉시,강원도
1,25589,고성군,강원도
2,86747,동해시,강원도


In [18]:
# 인구수 column~ 면적 colnume까지 - slicing
# 컬럼의 특정구간을 주려면: 를 사용한다.
data.loc[:,'인구수':'면적']

Unnamed: 0_level_0,인구수,shortName,x,y,면적
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,202520,강릉,11,4,1040.070
1,25589,고성(강원),9,0,664.190
2,86747,동해,11,5,180.010
3,63986,삼척,11,8,1185.800
4,76733,속초,9,1,105.250
5,20809,양구,8,0,700.800
6,24551,양양,10,2,628.680
7,34966,영월,10,8,1127.360
8,313851,원주,10,7,867.300
9,29260,인제,9,2,1646.080


In [20]:
# 1개 행만 선택
data.loc[0,:]

인구수           202520
shortName         강릉
x                 11
y                  4
면적           1040.07
광역시도             강원도
행정구역             강릉시
Name: 0, dtype: object

In [22]:
# 여러개의 특정행 
data.loc[[0,3,4],:]

Unnamed: 0_level_0,인구수,shortName,x,y,면적,광역시도,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,202520,강릉,11,4,1040.07,강원도,강릉시
3,63986,삼척,11,8,1185.8,강원도,삼척시
4,76733,속초,9,1,105.25,강원도,속초시


In [23]:
# 여러개의 행 (구간 - slicing)
data.loc[0:3,:]

Unnamed: 0_level_0,인구수,shortName,x,y,면적,광역시도,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,202520,강릉,11,4,1040.07,강원도,강릉시
1,25589,고성(강원),9,0,664.19,강원도,고성군
2,86747,동해,11,5,180.01,강원도,동해시
3,63986,삼척,11,8,1185.8,강원도,삼척시


In [24]:
# 여러개의 행 (구간 - slicing) - 2칸씩 건너뛰기
data.loc[0:10:2,:]

Unnamed: 0_level_0,인구수,shortName,x,y,면적,광역시도,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,202520,강릉,11,4,1040.07,강원도,강릉시
2,86747,동해,11,5,180.01,강원도,동해시
4,76733,속초,9,1,105.25,강원도,속초시
6,24551,양양,10,2,628.68,강원도,양양군
8,313851,원주,10,7,867.3,강원도,원주시
10,34242,정선,11,6,1220.67,강원도,정선군


In [29]:
# 20개의 행, '행정구역', '광역시도' 가져오기
data.loc[:19, ['행정구역', '광역시도']]

Unnamed: 0_level_0,행정구역,광역시도
seq,Unnamed: 1_level_1,Unnamed: 2_level_1
0,강릉시,강원도
1,고성군,강원도
2,동해시,강원도
3,삼척시,강원도
4,속초시,강원도
5,양구군,강원도
6,양양군,강원도
7,영월군,강원도
8,원주시,강원도
9,인제군,강원도


In [28]:
# 10,20,30 행, '인구수'부터 '면적' 까지 가져오기
data.loc[10:30:10, '인구수':'면적']

Unnamed: 0_level_0,인구수,shortName,x,y,면적
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
10,34242,정선,11,6,1220.67
20,63227,과천,7,7,35.813
30,1125461,수원,6,9,121.09
