### 행정구역정보(CSV)를 읽고, 분석하기
* read_csv() 함수로 csv 파일 읽기
* 행과열을 선택(Selection)
* 상관계수 구하기 
* 시각화

In [1]:
import pandas as pd

data = pd.read_csv('data/data_draw_korea.csv')
data.head()

Unnamed: 0.1,Unnamed: 0,인구수,shortName,x,y,면적,광역시도,행정구역
0,0,202520,강릉,11,4,1040.07,강원도,강릉시
1,1,25589,고성(강원),9,0,664.19,강원도,고성군
2,2,86747,동해,11,5,180.01,강원도,동해시
3,3,63986,삼척,11,8,1185.8,강원도,삼척시
4,4,76733,속초,9,1,105.25,강원도,속초시


In [2]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 229 entries, 0 to 228
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  229 non-null    int64  
 1   인구수         229 non-null    int64  
 2   shortName   229 non-null    object 
 3   x           229 non-null    int64  
 4   y           229 non-null    int64  
 5   면적          229 non-null    float64
 6   광역시도        229 non-null    object 
 7   행정구역        229 non-null    object 
dtypes: float64(1), int64(4), object(3)
memory usage: 14.4+ KB


In [3]:
data.describe()

Unnamed: 0.1,Unnamed: 0,인구수,x,y,면적
count,229.0,229.0,229.0,229.0,229.0
mean,114.0,211089.8,6.117904,11.262009,435.419795
std,66.250786,207437.8,3.320469,6.040898,381.612549
min,0.0,8392.0,0.0,0.0,2.8
25%,57.0,49559.0,3.0,6.0,54.0
50%,114.0,140159.0,6.0,11.0,436.4
75%,171.0,321618.0,9.0,16.0,692.8
max,228.0,1125461.0,13.0,25.0,1817.94


In [4]:
#인구수 컬럼의 평균, 중간, 최대, 최소
print('표준편차 ',data['인구수'].std())
print('평균 ',data['인구수'].mean())
print('중간 ',data['인구수'].median())
print('최대 ',data['인구수'].max())
print('최소 ',data['인구수'].min())

표준편차  207437.8370475227
평균  211089.77729257641
중간  140159.0
최대  1125461
최소  8392


In [5]:
#광역시도명(unique)
data['광역시도'].unique()

array(['강원도', '경기도', '경상남도', '경상북도', '광주광역시', '대구광역시', '대전광역시', '부산광역시',
       '서울특별시', '세종특별자치시', '울산광역시', '인천광역시', '전라남도', '전라북도', '제주특별자치도',
       '충청남도', '충청북도'], dtype=object)

In [6]:
#광역시도 row count
data['광역시도'].value_counts()

경기도        31
서울특별시      25
경상북도       23
전라남도       22
강원도        18
경상남도       18
부산광역시      16
충청남도       15
전라북도       14
충청북도       11
인천광역시      10
대구광역시       8
대전광역시       5
울산광역시       5
광주광역시       5
제주특별자치도     2
세종특별자치시     1
Name: 광역시도, dtype: int64

In [7]:
#경기도의 인구수 표준편차
data.loc[data['광역시도'] == '경기도','인구수'].std()

304548.39514203876

In [8]:
#서울특별시의 인구수 표준편차
data.loc[data['광역시도'] == '서울특별시','인구수'].std()

125231.24797500289

#### Data Selection
* loc, iloc 사용
* 슬라이싱 , 조건식, 특정행과 열을 여러개 선택

In [9]:
#6개의 행과 2개의 컬럼을 선택
data.loc[0:5,['행정구역','인구수']]

Unnamed: 0,행정구역,인구수
0,강릉시,202520
1,고성군,25589
2,동해시,86747
3,삼척시,63986
4,속초시,76733
5,양구군,20809


In [10]:
data.loc[0:5:2,['행정구역','인구수']]

Unnamed: 0,행정구역,인구수
0,강릉시,202520
2,동해시,86747
4,속초시,76733


In [11]:
#3,7,10행과 인구수부터 광역시도 컬럼까지
data.loc[[3,7,10],'인구수':'광역시도']

Unnamed: 0,인구수,shortName,x,y,면적,광역시도
3,63986,삼척,11,8,1185.8,강원도
7,34966,영월,10,8,1127.36,강원도
10,34242,정선,11,6,1220.67,강원도


In [28]:
#경상북도의 행정구역,인구수,면적 
data.loc[data['광역시도'] == '경상북도',['행정구역','인구수','면적']].head()

Unnamed: 0_level_0,행정구역,인구수,면적
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
67,경산시,251220,411.58
68,경주시,242618,1323.85
69,고령군,31189,383.7
70,구미시,396685,616.1
71,군위군,20596,614.15


In [29]:
#iloc
data.iloc[0:5,0:4]

Unnamed: 0_level_0,인구수,shortName,x,y
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,202520,강릉,11,4
1,25589,고성(강원),9,0
2,86747,동해,11,5
3,63986,삼척,11,8
4,76733,속초,9,1


In [18]:
#컬럼명 변경
print(data.columns)
data = data.rename(columns={'Unnamed: 0':'seq'})
data.head(2)

Index(['seq', '인구수', 'shortName', 'x', 'y', '면적', '광역시도', '행정구역'], dtype='object')


Unnamed: 0,seq,인구수,shortName,x,y,면적,광역시도,행정구역
0,0,202520,강릉,11,4,1040.07,강원도,강릉시
1,1,25589,고성(강원),9,0,664.19,강원도,고성군


In [19]:
#seq 컬럼을 index로 변환하기
data = data.set_index('seq')
data.head(2)

Unnamed: 0_level_0,인구수,shortName,x,y,면적,광역시도,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,202520,강릉,11,4,1040.07,강원도,강릉시
1,25589,고성(강원),9,0,664.19,강원도,고성군


In [27]:
#인구수가 전국평균보다 작은 행정구역은?
pop_mean_value = data['인구수'].mean()
print(pop_mean_value)

pop_mean_lt = data.loc[data['인구수'] < pop_mean_value].sort_values(by='인구수',ascending=False).reset_index(drop=True)
pop_mean_lt.head(3)

211089.77729257641


Unnamed: 0,인구수,shortName,x,y,면적,광역시도,행정구역
0,208603,서울용산,6,5,21.87,서울특별시,용산구
1,203232,울산울주,11,15,754.93,울산광역시,울주군
2,202520,강릉,11,4,1040.07,강원도,강릉시


In [33]:
#index를 1부터 시작하도록 변경하기
import numpy as np
print(pop_mean_lt.index)
pop_mean_lt.index = np.arange(1, len(pop_mean_lt)+1)
pop_mean_lt.head(2)

RangeIndex(start=0, stop=141, step=1)


Unnamed: 0,인구수,shortName,x,y,면적,광역시도,행정구역
1,208603,서울용산,6,5,21.87,서울특별시,용산구
2,203232,울산울주,11,15,754.93,울산광역시,울주군


In [35]:
#excel file로 저장하기
pop_mean_lt.to_excel('data/평균인구수미만지역.xlsx', sheet_name='평균인구수미만지역')

#### 상관계수
* 인구수와 면적이 관련성이 있는지 확인하기
* 상관계수는 -1 ~ 1 사이의 값이며, 0에 가까울수록 관련성이 낮고, 1에 가까울수록 관련성이 높다. 
* corr() 함수 사용

In [37]:
#전체 행정구역의 인구수와 면적의 상관계수
data['인구수'].corr(data['면적'])

-0.3460351605045768

In [40]:
#서울특별시 행정구역의 인구수와 면적의 상관계수
seoul_df = data.loc[data['광역시도'] == '서울특별시']
seoul_df['인구수'].corr(seoul_df['면적'])

0.6644268188909777

#### GroupBy 