### Pandas로 행정구역 정보 분석
* https://www.data.go.kr/ 에서 다운받음
* data/data_draw_korea.csv 파일 활용

### read_csv() 함수
* csv file 읽기
* head(), tail() 함수로 일부 데이터 가져오기
* columns, index, shape, info() 로 meta정보 확인
* describe(), max(), min(), mean() 집게함수

In [1]:
!pip show pandas

Name: pandas
Version: 1.0.5
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: https://pandas.pydata.org
Author: None
Author-email: None
License: BSD
Location: c:\python37\lib\site-packages
Requires: python-dateutil, numpy, pytz
Required-by: 


In [2]:
import pandas as pd

data = pd.read_csv('data/data_draw_korea.csv')
print(type(data)) # <class 'pandas.core.frame.DataFrame'>
data.head()

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0.1,Unnamed: 0,인구수,shortName,x,y,면적,광역시도,행정구역
0,0,202520,강릉,11,4,1040.07,강원도,강릉시
1,1,25589,고성(강원),9,0,664.19,강원도,고성군
2,2,86747,동해,11,5,180.01,강원도,동해시
3,3,63986,삼척,11,8,1185.8,강원도,삼척시
4,4,76733,속초,9,1,105.25,강원도,속초시


In [3]:
data.tail(3)

Unnamed: 0.1,Unnamed: 0,인구수,shortName,x,y,면적,광역시도,행정구역
226,226,62809,진천,5,11,406.08,충청북도,진천군
227,227,790216,청주,6,12,932.51,충청북도,청주시
228,228,198077,충주,6,10,983.7,충청북도,충주시


In [4]:
# 컬럼명
print(data.columns)

# 인덱스
print(data.index)

# ?행 ?열
print(data.shape)

Index(['Unnamed: 0', '인구수', 'shortName', 'x', 'y', '면적', '광역시도', '행정구역'], dtype='object')
RangeIndex(start=0, stop=229, step=1)
(229, 8)


In [5]:
# info() : dataframe의 meta 정보
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 229 entries, 0 to 228
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  229 non-null    int64  
 1   인구수         229 non-null    int64  
 2   shortName   229 non-null    object 
 3   x           229 non-null    int64  
 4   y           229 non-null    int64  
 5   면적          229 non-null    float64
 6   광역시도        229 non-null    object 
 7   행정구역        229 non-null    object 
dtypes: float64(1), int64(4), object(3)
memory usage: 14.4+ KB


In [6]:
# describe() - 집계함수
data.describe()

Unnamed: 0.1,Unnamed: 0,인구수,x,y,면적
count,229.0,229.0,229.0,229.0,229.0
mean,114.0,211089.8,6.117904,11.262009,435.419795
std,66.250786,207437.8,3.320469,6.040898,381.612549
min,0.0,8392.0,0.0,0.0,2.8
25%,57.0,49559.0,3.0,6.0,54.0
50%,114.0,140159.0,6.0,11.0,436.4
75%,171.0,321618.0,9.0,16.0,692.8
max,228.0,1125461.0,13.0,25.0,1817.94


In [7]:
# 인구수 컬럼값의 최대 최소 평균
print(type(data['인구수']))  #<class 'pandas.core.series.Series'>
data['인구수'].head()

# Series: dataframe 중 특정 한 column만 선택함
# DataFrame: columns 2개이상 선택시, 

print('최소', data['인구수'].min())
print('평균', data['인구수'].mean())
print('최대', data['인구수'].max())

<class 'pandas.core.series.Series'>
최소 8392
평균 211089.77729257641
최대 1125461


In [8]:
print('면적 최소', data['면적'].min())
print('면적 최대', data['면적'].max())

면적 최소 2.8
면적 최대 1817.94


In [9]:
data.head()

# 컬럼명 변경
data = data.rename(columns={'Unnamed: 0': 'seq'})
data.head(2)

Unnamed: 0,seq,인구수,shortName,x,y,면적,광역시도,행정구역
0,0,202520,강릉,11,4,1040.07,강원도,강릉시
1,1,25589,고성(강원),9,0,664.19,강원도,고성군


In [10]:
# seq 컬럼을 index로 변경
data = data.set_index('seq')
data.head(2)

Unnamed: 0_level_0,인구수,shortName,x,y,면적,광역시도,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,202520,강릉,11,4,1040.07,강원도,강릉시
1,25589,고성(강원),9,0,664.19,강원도,고성군


#### 특정 행과 열을 선택하기
* loc[] 사용, iloc[] 사용
* 여러개의 열을 선택, slicing 으로 열을 선택
* 특정 행을 선택, slicing으로 행을 선택
* boolean indexing - 조건식을 만족하는 행을 선택


In [11]:
# 인구수, 행정구역 2개 선택
data.loc[:,['인구수','행정구역']].head(3)

Unnamed: 0_level_0,인구수,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1
0,202520,강릉시
1,25589,고성군
2,86747,동해시


In [12]:
# 인구수, 행정구역, 광역시도 3개 선택
# 특정열을 여러개 선택할때는 컬럼명을 []로 감싸간다.
col_list = ['인구수', '행정구역', '광역시도']
data.loc[:,col_list].head(3)

Unnamed: 0_level_0,인구수,행정구역,광역시도
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,202520,강릉시,강원도
1,25589,고성군,강원도
2,86747,동해시,강원도


In [13]:
# 인구수 column~ 면적 colnume까지 - slicing
# 컬럼의 특정구간을 주려면: 를 사용한다.
data.loc[:,'인구수':'면적']

Unnamed: 0_level_0,인구수,shortName,x,y,면적
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,202520,강릉,11,4,1040.07
1,25589,고성(강원),9,0,664.19
2,86747,동해,11,5,180.01
3,63986,삼척,11,8,1185.80
4,76733,속초,9,1,105.25
...,...,...,...,...,...
224,127462,제천,8,10,882.47
225,34480,증평,6,11,81.84
226,62809,진천,5,11,406.08
227,790216,청주,6,12,932.51


In [14]:
# iloc[] 사용
data.iloc[0:3,0:3]

data.iloc[0:20:2,0:3]

# 1개 행만 선택
data.loc[0,:]

인구수           202520
shortName         강릉
x                 11
y                  4
면적           1040.07
광역시도             강원도
행정구역             강릉시
Name: 0, dtype: object

In [15]:
# 여러개의 특정행 
data.loc[[0,3,4],:]

Unnamed: 0_level_0,인구수,shortName,x,y,면적,광역시도,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,202520,강릉,11,4,1040.07,강원도,강릉시
3,63986,삼척,11,8,1185.8,강원도,삼척시
4,76733,속초,9,1,105.25,강원도,속초시


In [16]:
# 여러개의 행 (구간 - slicing)
data.loc[0:3,:]

Unnamed: 0_level_0,인구수,shortName,x,y,면적,광역시도,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,202520,강릉,11,4,1040.07,강원도,강릉시
1,25589,고성(강원),9,0,664.19,강원도,고성군
2,86747,동해,11,5,180.01,강원도,동해시
3,63986,삼척,11,8,1185.8,강원도,삼척시


In [17]:
# 여러개의 행 (구간 - slicing) - 2칸씩 건너뛰기
data.loc[0:10:2,:]

Unnamed: 0_level_0,인구수,shortName,x,y,면적,광역시도,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,202520,강릉,11,4,1040.07,강원도,강릉시
2,86747,동해,11,5,180.01,강원도,동해시
4,76733,속초,9,1,105.25,강원도,속초시
6,24551,양양,10,2,628.68,강원도,양양군
8,313851,원주,10,7,867.3,강원도,원주시
10,34242,정선,11,6,1220.67,강원도,정선군


In [18]:
# 20개의 행, '행정구역', '광역시도' 가져오기
data.loc[:19, ['행정구역', '광역시도']]

Unnamed: 0_level_0,행정구역,광역시도
seq,Unnamed: 1_level_1,Unnamed: 2_level_1
0,강릉시,강원도
1,고성군,강원도
2,동해시,강원도
3,삼척시,강원도
4,속초시,강원도
5,양구군,강원도
6,양양군,강원도
7,영월군,강원도
8,원주시,강원도
9,인제군,강원도


In [19]:
# 10,20,30 행, '인구수'부터 '면적' 까지 가져오기
data.loc[10:30:10, '인구수':'면적']

Unnamed: 0_level_0,인구수,shortName,x,y,면적
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
10,34242,정선,11,6,1220.67
20,63227,과천,7,7,35.813
30,1125461,수원,6,9,121.09


#### iloc[] 함수
* 행열 이름이 아닌, index번호로 data 가져오기

In [20]:
# iloc[] 사용
data.iloc[0:3,0:3]

Unnamed: 0_level_0,인구수,shortName,x
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,202520,강릉,11
1,25589,고성(강원),9
2,86747,동해,11


In [21]:
data.iloc[0:20:2,0:3]

Unnamed: 0_level_0,인구수,shortName,x
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,202520,강릉,11
2,86747,동해,11
4,76733,속초,9
6,24551,양양,10
8,313851,원주,10
10,34242,정선,11
12,264144,춘천,10
14,38439,평창,10
16,23612,화천,7
18,53497,가평,9


In [22]:
data.head()

Unnamed: 0_level_0,인구수,shortName,x,y,면적,광역시도,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,202520,강릉,11,4,1040.07,강원도,강릉시
1,25589,고성(강원),9,0,664.19,강원도,고성군
2,86747,동해,11,5,180.01,강원도,동해시
3,63986,삼척,11,8,1185.8,강원도,삼척시
4,76733,속초,9,1,105.25,강원도,속초시


In [23]:
# 광역시도 이름 확인 (중복 제외)
data['광역시도'].unique()

array(['강원도', '경기도', '경상남도', '경상북도', '광주광역시', '대구광역시', '대전광역시', '부산광역시',
       '서울특별시', '세종특별자치시', '울산광역시', '인천광역시', '전라남도', '전라북도', '제주특별자치도',
       '충청남도', '충청북도'], dtype=object)

In [24]:
# 행정구역 이름 확인 (중복 제외)
data['행정구역'].unique()

array(['강릉시', '고성군', '동해시', '삼척시', '속초시', '양구군', '양양군', '영월군', '원주시',
       '인제군', '정선군', '철원군', '춘천시', '태백시', '평창군', '홍천군', '화천군', '횡성군',
       '가평군', '고양시', '과천시', '광명시', '광주시', '구리시', '군포시', '김포시', '남양주시',
       '동두천시', '부천시', '성남시', '수원시', '시흥시', '안산시', '안성시', '안양시', '양주시',
       '양평군', '여주시', '연천군', '오산시', '용인시', '의왕시', '의정부시', '이천시', '파주시',
       '평택시', '포천시', '하남시', '화성시', '거제시', '거창군', '김해시', '남해군', '밀양시',
       '사천시', '산청군', '양산시', '의령군', '진주시', '창녕군', '창원시', '통영시', '하동군',
       '함안군', '함양군', '합천군', '경산시', '경주시', '고령군', '구미시', '군위군', '김천시',
       '문경시', '봉화군', '상주시', '성주군', '안동시', '영덕군', '영양군', '영주시', '영천시',
       '예천군', '울릉군', '울진군', '의성군', '청도군', '청송군', '칠곡군', '포항시', '광산구',
       '남구', '동구', '북구', '서구', '달서구', '달성군', '수성구', '중구', '대덕구', '유성구',
       '강서구', '금정구', '기장군', '동래구', '부산진구', '사상구', '사하구', '수영구', '연제구',
       '영도구', '해운대구', '강남구', '강동구', '강북구', '관악구', '광진구', '구로구', '금천구',
       '노원구', '도봉구', '동대문구', '동작구', '마포구', '서대문구', '서초구', '성동구', '성북구',
       '송파구

In [25]:
# 광역시도 이름별로 counting
data['광역시도'].value_counts()

경기도        31
서울특별시      25
경상북도       23
전라남도       22
강원도        18
경상남도       18
부산광역시      16
충청남도       15
전라북도       14
충청북도       11
인천광역시      10
대구광역시       8
울산광역시       5
대전광역시       5
광주광역시       5
제주특별자치도     2
세종특별자치시     1
Name: 광역시도, dtype: int64

In [26]:
# 부산광역시
busan = data['광역시도'] == '부산광역시'

In [27]:
# loc[행,열]함수 내에 조건식을 넣으면 filtering 가능
data.loc[busan,].head()

Unnamed: 0_level_0,인구수,shortName,x,y,면적,광역시도,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
108,84722,부산강서,8,18,179.05,부산광역시,강서구
109,235887,부산금정,10,15,65.19,부산광역시,금정구
110,142223,부산기장,12,16,217.9,부산광역시,기장군
111,271753,부산남구,11,19,25.91,부산광역시,남구
112,85952,부산동구,10,17,9.77,부산광역시,동구


In [28]:
data.loc[data['광역시도'] == '부산광역시',:].head()

Unnamed: 0_level_0,인구수,shortName,x,y,면적,광역시도,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
108,84722,부산강서,8,18,179.05,부산광역시,강서구
109,235887,부산금정,10,15,65.19,부산광역시,금정구
110,142223,부산기장,12,16,217.9,부산광역시,기장군
111,271753,부산남구,11,19,25.91,부산광역시,남구
112,85952,부산동구,10,17,9.77,부산광역시,동구


In [29]:
data.loc[data['광역시도'] == '부산광역시']

Unnamed: 0_level_0,인구수,shortName,x,y,면적,광역시도,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
108,84722,부산강서,8,18,179.05,부산광역시,강서구
109,235887,부산금정,10,15,65.19,부산광역시,금정구
110,142223,부산기장,12,16,217.9,부산광역시,기장군
111,271753,부산남구,11,19,25.91,부산광역시,남구
112,85952,부산동구,10,17,9.77,부산광역시,동구
113,256584,부산동래,11,16,16.6,부산광역시,동래구
114,365721,부산부산진,10,16,29.7,부산광역시,부산진구
115,292375,부산북구,9,16,38.3,부산광역시,북구
116,228824,부산사상,9,17,35.8,부산광역시,사상구
117,322757,부산사하,9,19,40.89,부산광역시,사하구


In [30]:
# 부산광역시의 행정구역, 인구수 추출
data.loc[data['광역시도']=='부산광역시',['행정구역', '인구수']]

Unnamed: 0_level_0,행정구역,인구수
seq,Unnamed: 1_level_1,Unnamed: 2_level_1
108,강서구,84722
109,금정구,235887
110,기장군,142223
111,남구,271753
112,동구,85952
113,동래구,256584
114,부산진구,365721
115,북구,292375
116,사상구,228824
117,사하구,322757


In [31]:
# 인구수, 면적 평균
p_avg = data['인구수'].mean()
area_avg = data['면적'].mean()

In [32]:
# 인구수가 평균보다 높은 행정구역
data.loc[data['인구수'] > p_avg]

Unnamed: 0_level_0,인구수,shortName,x,y,면적,광역시도,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
8,313851,원주,10,7,867.30,강원도,원주시
12,264144,춘천,10,3,1116.35,강원도,춘천시
19,955384,고양,4,2,267.33,경기도,고양시
21,327111,광명,3,3,38.50,경기도,광명시
22,290210,광주,8,7,431.84,경기도,광주시
...,...,...,...,...,...,...,...
198,630708,전주,3,16,206.45,전라북도,전주시
202,430504,제주,4,24,977.80,제주특별자치도,제주시
212,281938,아산,3,9,542.20,충청남도,아산시
214,584912,천안,4,9,636.50,충청남도,천안시


In [33]:
# 인구수와 면적이 평균보다 높은 행정구역
data.loc[(data['인구수'] > p_avg) & (data['면적'] > area_avg)]

Unnamed: 0_level_0,인구수,shortName,x,y,면적,광역시도,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
8,313851,원주,10,7,867.3,강원도,원주시
12,264144,춘천,10,3,1116.35,강원도,춘천시
26,610300,남양주,8,3,458.44,경기도,남양주시
40,915005,용인,7,9,591.5,경기도,용인시
44,385528,파주,3,2,672.56,경기도,파주시
45,423763,평택,5,9,452.31,경기도,평택시
48,555129,화성,3,7,688.1,경기도,화성시
52,500641,김해,8,19,463.26,경상남도,김해시
59,330378,진주,6,17,712.62,경상남도,진주시
61,1010040,창원,7,18,734.87,경상남도,창원시


In [34]:
# 경기도에서 인구수가 평균보다 낮은 행정구역
data.loc[data['광역시도']== '경기도'].loc[data['인구수'] < p_avg]

Unnamed: 0_level_0,인구수,shortName,x,y,면적,광역시도,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
18,53497,가평,9,3,843.04,경기도,가평군
20,63227,과천,7,7,35.813,경기도,과천시
23,175676,구리,9,4,33.3,경기도,구리시
27,90398,동두천,7,2,95.68,경기도,동두천시
33,173061,안성,4,8,554.2,경기도,안성시
35,191266,양주,8,2,310.31,경기도,양주시
36,95614,양평,9,6,877.08,경기도,양평군
37,100669,여주,9,7,608.64,경기도,여주시
38,41076,연천,7,1,695.23,경기도,연천군
39,200793,오산,3,8,42.74,경기도,오산시


In [35]:
# 전국데이터 중에 높은 인구수
# data.loc['인구수'].max()
# 강원도에서 가장 높은 인구수
data.loc[data['광역시도']=='강원도', '인구수'].max()

313851

In [36]:
def max_population(do):
    return data.loc[data['광역시도'] == do, '인구수'].max()

# lambda식
max_value = lambda do: data.loc[data['광역시도'] == do, '인구수'].max()

In [37]:
print(max_population('인천광역시'))
max_value('인천광역시')

527153


527153

In [38]:
data.loc[data['인구수'] == max_population('서울특별시')]

Unnamed: 0_level_0,인구수,shortName,x,y,면적,광역시도,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
141,615487,서울송파,8,6,33.9,서울특별시,송파구


In [39]:
get_max_pop_df = lambda si: data.loc[data['인구수'] == max_population(si),['광역시도', '행정구역', '인구수']]

In [40]:
get_max_pop_df('서울특별시')

Unnamed: 0_level_0,광역시도,행정구역,인구수
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
141,서울특별시,송파구,615487


In [41]:
type(data['광역시도'].unique())
# numpy는 모두 형식이 같아야해서 속도가 빠름

numpy.ndarray

In [42]:
for sido in data['광역시도'].unique():
    print(type(get_max_pop_df(sido))) # <class 'pandas.core.frame.DataFrame'>
    print(get_max_pop_df(sido))
#     print(sido)
    

<class 'pandas.core.frame.DataFrame'>
    광역시도 행정구역     인구수
seq                  
8    강원도  원주시  313851
<class 'pandas.core.frame.DataFrame'>
    광역시도 행정구역      인구수
seq                   
30   경기도  수원시  1125461
<class 'pandas.core.frame.DataFrame'>
     광역시도 행정구역      인구수
seq                    
61   경상남도  창원시  1010040
<class 'pandas.core.frame.DataFrame'>
     광역시도 행정구역     인구수
seq                   
89   경상북도  포항시  488395
<class 'pandas.core.frame.DataFrame'>
      광역시도 행정구역     인구수
seq                    
93   광주광역시   북구  439683
<class 'pandas.core.frame.DataFrame'>
      광역시도 행정구역     인구수
seq                    
96   대구광역시  달서구  584517
<class 'pandas.core.frame.DataFrame'>
      광역시도 행정구역     인구수
seq                    
105  대전광역시   서구  475094
<class 'pandas.core.frame.DataFrame'>
      광역시도  행정구역     인구수
seq                     
123  부산광역시  해운대구  397134
<class 'pandas.core.frame.DataFrame'>
      광역시도 행정구역     인구수
seq                    
141  서울특별시  송파구  615487
<class 'pandas.core

In [43]:
# 새로운 DataFrame 생성하기
max_pop_df = pd.DataFrame(columns=['광역시도', '행정구역', '인구수'])

for sido in data['광역시도'].unique():
    max_pop_df = max_pop_df.append(get_max_pop_df(sido))
    # 반드시 추가하고 기존 df에 대입해야 함
max_pop_df

Unnamed: 0,광역시도,행정구역,인구수
8,강원도,원주시,313851
30,경기도,수원시,1125461
61,경상남도,창원시,1010040
89,경상북도,포항시,488395
93,광주광역시,북구,439683
96,대구광역시,달서구,584517
105,대전광역시,서구,475094
123,부산광역시,해운대구,397134
141,서울특별시,송파구,615487
149,세종특별자치시,세종시,191233


In [44]:
# reset_index(drop=False) - 인덱스 초기화(조정)
# 인덱스를 변경하면서 기존 인덱스 값을 column으로 남겨둔다
# max_pop_df = max_pop_df.reset_index(drop=False)

# drop=True로 설정하면 기존 인덱스 값이 포함된 index column을 제거
max_pop_df = max_pop_df.reset_index(drop=True)
max_pop_df

Unnamed: 0,광역시도,행정구역,인구수
0,강원도,원주시,313851
1,경기도,수원시,1125461
2,경상남도,창원시,1010040
3,경상북도,포항시,488395
4,광주광역시,북구,439683
5,대구광역시,달서구,584517
6,대전광역시,서구,475094
7,부산광역시,해운대구,397134
8,서울특별시,송파구,615487
9,세종특별자치시,세종시,191233


In [45]:
data.head()

Unnamed: 0_level_0,인구수,shortName,x,y,면적,광역시도,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,202520,강릉,11,4,1040.07,강원도,강릉시
1,25589,고성(강원),9,0,664.19,강원도,고성군
2,86747,동해,11,5,180.01,강원도,동해시
3,63986,삼척,11,8,1185.8,강원도,삼척시
4,76733,속초,9,1,105.25,강원도,속초시


In [46]:
max_area = lambda do: data.loc[data['광역시도']== do,'면적'].max()
max_area('서울특별시')

47.04

In [47]:
max_area_part = lambda sido: data.loc[data['면적'] == max_area(sido),['광역시도', '행정구역', '면적']]

In [48]:
max_area_df = pd.DataFrame(columns=['광역시도', '행정구역', '면적'])
max_area_df

Unnamed: 0,광역시도,행정구역,면적


In [49]:
for sido in data['광역시도'].unique():
    max_area_df = max_area_df.append(max_area_part(sido))
    
max_area_df = max_area_df.reset_index(drop='True')
max_area_df

Unnamed: 0,광역시도,행정구역,면적
0,강원도,홍천군,1817.94
1,경기도,양평군,877.08
2,경상남도,합천군,983.42
3,경상북도,안동시,1519.0
4,광주광역시,광산구,222.88
5,대구광역시,달성군,427.03
6,대전광역시,유성구,177.16
7,부산광역시,기장군,217.9
8,서울특별시,서초구,47.04
9,세종특별자치시,세종시,465.23


In [50]:
max_pop_df = max_pop_df.reset_index(drop=True)
max_pop_df

Unnamed: 0,광역시도,행정구역,인구수
0,강원도,원주시,313851
1,경기도,수원시,1125461
2,경상남도,창원시,1010040
3,경상북도,포항시,488395
4,광주광역시,북구,439683
5,대구광역시,달서구,584517
6,대전광역시,서구,475094
7,부산광역시,해운대구,397134
8,서울특별시,송파구,615487
9,세종특별자치시,세종시,191233


In [51]:
# 인덱스를 1부터 시작하는 방법
import numpy as np

# index 값을 변경
max_pop_df.index = np.arange(1, len(max_pop_df)+1)
# index 값 조회
print(max_pop_df.index)
max_pop_df

Int64Index([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17], dtype='int64')


Unnamed: 0,광역시도,행정구역,인구수
1,강원도,원주시,313851
2,경기도,수원시,1125461
3,경상남도,창원시,1010040
4,경상북도,포항시,488395
5,광주광역시,북구,439683
6,대구광역시,달서구,584517
7,대전광역시,서구,475094
8,부산광역시,해운대구,397134
9,서울특별시,송파구,615487
10,세종특별자치시,세종시,191233


In [52]:
# 값을 원한느 조건으로 정렬
# shift + tab : 함수의 인자들을 알려줌 ( 함수 help)
max_pop_df.sort_values(by='인구수', ascending=False).reset_index(drop=True) # 내림차순


Unnamed: 0,광역시도,행정구역,인구수
0,경기도,수원시,1125461
1,경상남도,창원시,1010040
2,충청북도,청주시,790216
3,전라북도,전주시,630708
4,서울특별시,송파구,615487
5,충청남도,천안시,584912
6,대구광역시,달서구,584517
7,인천광역시,부평구,527153
8,경상북도,포항시,488395
9,대전광역시,서구,475094


#### 상관계수
* 상관계수는 -1~1사이의 값
* 1에 가까울수록 서로 관련성이 있음
* corr() 함수를 사용

In [53]:
# 전체면적과 인구수의 상관관계
data['면적'].corr(data['인구수'])

-0.346035160504577

In [54]:
# 서울광역시의 면적과 인구수의 상관관계
seoul_df = data.loc[data['광역시도'] == '서울특별시']
# seoul_df.head()
seoul_df['면적'].corr(seoul_df['인구수'])

0.6644268188909778

In [55]:
for do in data['광역시도'].unique():
    tmp_df = data.loc[data['광역시도'] == do]
    print('{} : {}'.format(do, tmp_df['면적'].corr(tmp_df['인구수'])))


강원도 : -0.003424870292108486
경기도 : -0.21572485071590813
경상남도 : 0.029951565364477125
경상북도 : 0.20592950800967932
광주광역시 : 0.6769289677125123
대구광역시 : -0.057946386652948614
대전광역시 : 0.1997155244648549
부산광역시 : -0.13823708369604065
서울특별시 : 0.6644268188909778
세종특별자치시 : nan
울산광역시 : -0.13435717195061844
인천광역시 : -0.4571430756049645
전라남도 : -0.05786859599072531
전라북도 : -0.695805033826725
제주특별자치도 : 1.0
충청남도 : 0.2729636767632082
충청북도 : 0.4110669104748176


  c = cov(x, y, rowvar)
  c *= np.true_divide(1, fact)


#### Group By 기능 사용하기
* Series 객체의 groupby()
* DataFrame 객체의 groupby()

In [56]:
data['광역시도'].value_counts()

경기도        31
서울특별시      25
경상북도       23
전라남도       22
강원도        18
경상남도       18
부산광역시      16
충청남도       15
전라북도       14
충청북도       11
인천광역시      10
대구광역시       8
울산광역시       5
대전광역시       5
광주광역시       5
제주특별자치도     2
세종특별자치시     1
Name: 광역시도, dtype: int64

In [57]:
# 광역시도 별 인구수의 합계 (Series 객체의 groupby())
# grouping 기준이 되는 column은 groupby() 함수의 인자로 전달한다.
data['인구수'].groupby(data['광역시도']).sum().sort_values(ascending=False)

광역시도
경기도        11744210
서울특별시       9394807
부산광역시       3323591
경상남도        3144487
인천광역시       2766575
경상북도        2508964
대구광역시       2378450
충청남도        1946129
전라북도        1739048
전라남도        1700563
충청북도        1484720
대전광역시       1467677
광주광역시       1438209
강원도         1429438
울산광역시       1105585
제주특별자치도      575873
세종특별자치시      191233
Name: 인구수, dtype: int64

In [58]:
# 광역시도별 면적 합계
data['면적'].groupby(data['광역시도']).sum().sort_values(ascending=False)

광역시도
경상북도       19021.850
강원도        16874.810
전라남도       12008.390
경상남도       10437.460
경기도        10179.743
충청남도        8272.270
전라북도        7907.220
충청북도        7397.310
제주특별자치도     1848.480
인천광역시       1022.910
울산광역시        980.220
대구광역시        885.690
부산광역시        763.240
서울특별시        605.390
대전광역시        539.640
광주광역시        501.280
세종특별자치시      465.230
Name: 면적, dtype: float64

In [59]:
# DataFrame 객체의 groupby
# 광역시도 별 인구수의 합계
data.groupby('광역시도').sum()

Unnamed: 0_level_0,인구수,x,y,면적
광역시도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
강원도,1429438,173,68,16874.81
경기도,11744210,182,162,10179.743
경상남도,3144487,123,313,10437.46
경상북도,2508964,229,240,19021.85
광주광역시,1438209,12,99,501.28
대구광역시,2378450,74,111,885.69
대전광역시,1467677,23,66,539.64
부산광역시,3323591,162,276,763.24
서울특별시,9394807,142,111,605.39
세종특별자치시,191233,4,11,465.23


In [60]:
data.groupby('광역시도')['인구수'].sum()

광역시도
강원도         1429438
경기도        11744210
경상남도        3144487
경상북도        2508964
광주광역시       1438209
대구광역시       2378450
대전광역시       1467677
부산광역시       3323591
서울특별시       9394807
세종특별자치시      191233
울산광역시       1105585
인천광역시       2766575
전라남도        1700563
전라북도        1739048
제주특별자치도      575873
충청남도        1946129
충청북도        1484720
Name: 인구수, dtype: int64

In [61]:
# 광역시별, 행정구역별 인구수
grouping_data = data.groupby(['광역시도', '행정구역'])['인구수'].sum()
type(grouping_data)

pandas.core.series.Series

In [62]:
# Excel File로 저장하기
grouping_data.to_excel('data/광역시도행정구역별인구수.xlsx', sheet_name='인구수')

ModuleNotFoundError: No module named 'openpyxl'

### matplotlib

#####      시각화 용어
* Figure: 도화지
* Axes: plot이 그려지는 공간
* Axis: plot의 축 (x,y축같은)

In [None]:
# jupyter notebook에서 plot이 그려지게 하기 위한 설정
# 이 설정을 하면 notbook에서 show() 함수를 호출하지 않아도 plot이 출력된다
%matplotlib inline

In [None]:
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
import seaborn as sns

print('matplotlib 버전: ', matplotlib.__version__)
print('seabon 버전: ', sns.__version__)
print('pandas 버전: ', pd.__version__)

In [None]:
# matplotlib에 맑은고딕 한글폰트 설정하기
font_path = 'C:/Windows/Fonts/malgun.ttf'

# font property 가져오기
font_prop = fm.FontProperties(fname=font_path).get_name()

# matplotlib의 rc(run command) 명령을 사용해서 한글폰트 설정
matplotlib.rc('font', family=font_prop)

In [None]:
# figure와 plot을 생성
figure, (axes1, axes2) = plt.subplots(nrows=2, ncols=1)

# figure size 조정
figure.set_size_inches(16,12)
print(figure)
print(axes1, axes2)

seoul_df.head()
sns.barplot(data=seoul_df.sort_values(by='인구수',ascending=False), x='행정구역', y='인구수', ax=axes1)
# 1번 plot에 그리기
sns.barplot(data=seoul_df.sort_values(by='면적', ascending=False), x='행정구역', y='면적', ax=axes2)
# 2번 plot에 그리기

In [None]:
def make_barplot_area_pop(do):
    sum_df = data.loc[data['광역시도']==do].sort_values(by='인구수',ascending=False)
    # figure와 plot을 생성
    figure, (axes1, axes2) = plt.subplots(nrows=2, ncols=1)

    # figure size 조정
    figure.set_size_inches(16,12)
    print(figure)
    print(axes1, axes2)
    
#     sns.barplot(data=sum_df.sort_values(by='인구수',ascending=False), x='행정구역', y='인구수', ax=axes1)
    sns.barplot(data=sum_df, x='행정구역', y='인구수', ax=axes1)
    # 1번 plot에 그리기
    sns.barplot(data=sum_df, x='행정구역', y='면적', ax=axes2)
    # 2번 plot에 그리기

In [None]:
make_barplot_area_pop('인천광역시')

In [None]:
data['광역시도'].unique()

#### MariaDB 연동
* pymysql 과 sqlalchemy 사용
* pymysql : python 프로그램과 DB를 연결해주는 역할
* sqlalchemy : object(DataFrame)를 DB의 Table로 mapping해주는 역할

In [None]:
!pip show pymysql

In [None]:
!pip show sqlalchemy

In [None]:
# max_pop_df 를 maxpop 테이블로 저장
import pymysql

pymysql.install_as_MySQLdb()
from sqlalchemy import create_engine

engine = create_engine("mysql+mysqldb://python:"+"python"+"@localhost/python_db"\
                       ,encoding='utf-8') 
                        # 사용자명 + 디비명
conn = engine.connect()
# max_pop_df.to_sql(name='maxpop', con=engine, if_exists='fail', index=False)
# name: table명, if_exits: fail db에 이미 있으면 저장안함
max_pop_df.to_sql(name='maxpop', con=engine, if_exists='replace', index=False)
# replace: 있어도 덮어씌워서 저장

In [None]:
# 그후에 python_db에 접속해서 show tables;
# select * from maxpop;

# db접속방법: mysql client창에서 use python_db;

In [None]:
# 전체에서 표준편차 인구수보다 낮거나 평균 면적보다 높은 지역은? 광역시도, 행정구역, 인구수, 면적만 출력\
mean_area = data['면적'].mean()
std_pop = data['인구수'].std()

data.loc[(data['면적'] > mean_area) | (data['인구수'] < std_pop), \
         ['광역시도', '행정구역', '인구수', '면적']].reset_index(drop=True)


In [None]:
data.sample(5)