## 행정구역 정보를 읽고 분석하기

In [2]:
import pandas as pd

data = pd.read_csv('data/data_draw_korea.csv')
data.sample()

Unnamed: 0.1,Unnamed: 0,인구수,shortName,x,y,면적,광역시도,행정구역
224,224,127462,제천,8,10,882.47,충청북도,제천시


In [2]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 229 entries, 0 to 228
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  229 non-null    int64  
 1   인구수         229 non-null    int64  
 2   shortName   229 non-null    object 
 3   x           229 non-null    int64  
 4   y           229 non-null    int64  
 5   면적          229 non-null    float64
 6   광역시도        229 non-null    object 
 7   행정구역        229 non-null    object 
dtypes: float64(1), int64(4), object(3)
memory usage: 14.4+ KB


In [3]:
data.describe()

Unnamed: 0.1,Unnamed: 0,인구수,x,y,면적
count,229.0,229.0,229.0,229.0,229.0
mean,114.0,211089.8,6.117904,11.262009,435.419795
std,66.250786,207437.8,3.320469,6.040898,381.612549
min,0.0,8392.0,0.0,0.0,2.8
25%,57.0,49559.0,3.0,6.0,54.0
50%,114.0,140159.0,6.0,11.0,436.4
75%,171.0,321618.0,9.0,16.0,692.8
max,228.0,1125461.0,13.0,25.0,1817.94


In [5]:
print(f"인구수 최댓값: {data['인구수'].max()}")
print(f"인구수 최솟값: {data['인구수'].min()}")
print(f"인구수 평균값: {data['인구수'].mean()}")
print(f"인구수 표준편차값: {data['인구수'].std()}")

인구수 최댓값: 1125461
인구수 최솟값: 8392
인구수 평균값: 211089.77729257641
인구수 표준편차값: 207437.8370475227


In [7]:
# 중복값 제거한 광역시도 출력
data['광역시도'].unique()

array(['강원도', '경기도', '경상남도', '경상북도', '광주광역시', '대구광역시', '대전광역시', '부산광역시',
       '서울특별시', '세종특별자치시', '울산광역시', '인천광역시', '전라남도', '전라북도', '제주특별자치도',
       '충청남도', '충청북도'], dtype=object)

In [10]:
# 광역시도 값 counting
data['광역시도'].value_counts()

경기도        31
서울특별시      25
경상북도       23
전라남도       22
강원도        18
경상남도       18
부산광역시      16
충청남도       15
전라북도       14
충청북도       11
인천광역시      10
대구광역시       8
대전광역시       5
광주광역시       5
울산광역시       5
제주특별자치도     2
세종특별자치시     1
Name: 광역시도, dtype: int64

In [26]:
# 서울특별시에 속한 구에 대한 정보 선택
def si_to_do(si):
    return data.loc[data['광역시도'] == si].reset_index(drop=True).sort_values(by='인구수', ascending=False)

In [27]:
sel = input("검색하고 싶은 시 또는 도를 입력: ")
si_to_do(sel)

Unnamed: 0.1,Unnamed: 0,인구수,shortName,x,y,면적,광역시도,행정구역
12,30,1125461,수원,6,9,121.09,경기도,수원시
1,19,955384,고양,4,2,267.33,경기도,고양시
22,40,915005,용인,7,9,591.5,경기도,용인시
11,29,911628,성남,7,8,141.82,경기도,성남시
10,28,805473,부천,2,4,53.44,경기도,부천시
14,32,668089,안산,3,6,144.78,경기도,안산시
8,26,610300,남양주,8,3,458.44,경기도,남양주시
16,34,566558,안양,3,4,58.52,경기도,안양시
30,48,555129,화성,3,7,688.1,경기도,화성시
27,45,423763,평택,5,9,452.31,경기도,평택시


In [22]:
# 서울특별시에 속한 구의 인구수 평균 및 표준편차
print(f"인구수 평균: {data.loc[data['광역시도'] == '서울특별시', '인구수'].mean()}")
print(f"인구수 표준편차: {data.loc[data['광역시도'] == '서울특별시', '인구수'].std()}")

인구수 평균: 375792.28
인구수 표준편차: 125231.24797500289


In [36]:
# 입력 받은 시, 도에 속한 구의 인구수 평균 및 표준편차
# '표준편차가 크다'는 것이 어떤 의미를 가지는지 생각해볼것
def popularity(si):
    print(f'광역시도: {si}')
    print(f"인구수 평균: {data.loc[data['광역시도'] == si, '인구수'].mean()}")
    print(f"인구수 표준편차: {data.loc[data['광역시도'] == si, '인구수'].std()}")

In [37]:
sel = input("검색하고 싶은 시 또는 도를 입력: ")
popularity(sel)

인구수 평균: 378845.48387096776
인구수 표준편차: 304548.39514203876


In [3]:
# 경북에 속한 행정구역, 인구수, 면적을 출력하고 인구가 많은 순으로 정렬 후, index를 순서대로 출력
data.loc[data['광역시도'] == '경상북도', ['행정구역', '인구수', '면적']].sort_values(by='인구수', ascending=False).reset_index(drop=True)

# sort_values에서 여러 컬럼을 받아서 정렬하고 싶을 때 by=['col1', 'col2', ...] 형태로 작성하면 된다

Unnamed: 0,행정구역,인구수,면적
0,포항시,488395,1127.0
1,구미시,396685,616.1
2,경산시,251220,411.58
3,경주시,242618,1323.85
4,안동시,157317,1519.0
5,김천시,127941,1009.56
6,칠곡군,112446,451.0
7,영주시,101612,668.45
8,상주시,93305,1254.82
9,영천시,91214,919.76


In [5]:
# iloc 사용
# ex) 인덱스 20~25의 행, '인구수' ~ '광역시도'의 열
# data.loc[20:25, '인구수':'광역시도'] # 마지막 값이 포함됨, 컬럼명을 씀
data.iloc[20:25, 1:4]   # 마지막 값이 포함되지 않음, 컬럼의 인덱스 값을 씀

Unnamed: 0,인구수,shortName,x
20,63227,과천,7
21,327111,광명,3
22,290210,광주,8
23,175676,구리,9
24,273302,군포,5


In [17]:
# 인구수가 전국평균 인구수 보다 작은 지역을 선택하고, 결과를 엑셀 파일로 저장
pop_mean_val = data['인구수'].mean()
# round(pop_mean_val) # Same function as pop_mean_val:.2f
pop_mean_lt_df = data.loc[data['인구수'] < pop_mean_val, ['광역시도', '행정구역', '면적', '인구수' ]].sort_values(by='인구수').reset_index(drop=True)
pop_mean_lt_df.to_excel('data/평균인구수미달지역.xlsx')

In [20]:
#컬럼명 변경
data = data.rename(columns={'Unnamed: 0':'seq'})
data.head()

Unnamed: 0,seq,인구수,shortName,x,y,면적,광역시도,행정구역
0,0,202520,강릉,11,4,1040.07,강원도,강릉시
1,1,25589,고성(강원),9,0,664.19,강원도,고성군
2,2,86747,동해,11,5,180.01,강원도,동해시
3,3,63986,삼척,11,8,1185.8,강원도,삼척시
4,4,76733,속초,9,1,105.25,강원도,속초시


In [21]:
data = data.set_index('seq')
data.head()

Unnamed: 0_level_0,인구수,shortName,x,y,면적,광역시도,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,202520,강릉,11,4,1040.07,강원도,강릉시
1,25589,고성(강원),9,0,664.19,강원도,고성군
2,86747,동해,11,5,180.01,강원도,동해시
3,63986,삼척,11,8,1185.8,강원도,삼척시
4,76733,속초,9,1,105.25,강원도,속초시


In [23]:
# 광역시도별 인구수가 가장 많은 행정구역 선택

# 1. Sample로 경기도에서 가장 인구수가 많은 행정구역을 확인
data.loc[data['광역시도'] == '경기도', ['행정구역', '인구수']].sort_values(by='인구수', ascending=False)

Unnamed: 0_level_0,행정구역,인구수
seq,Unnamed: 1_level_1,Unnamed: 2_level_1
30,수원시,1125461
19,고양시,955384
40,용인시,915005
29,성남시,911628
28,부천시,805473
32,안산시,668089
26,남양주시,610300
34,안양시,566558
48,화성시,555129
45,평택시,423763


In [24]:
# 2. 확인한 값을 토대로 인구수 최댓값을 찾는 변수를 선언  ->  수원시,1125461
pop_max_val = data.loc[data['광역시도'] == '경기도', '인구수'].max()
pop_max_val

1125461

In [26]:
# 3. 두 가지 조건(광역시도 매칭, 최댓값 매칭)이 맞아야 의도한대로 결과가 도출되므로 &를 사용하여 조건문을 완성
# data.loc[(...) & (...)]
data.loc[(data['광역시도'] == '경기도') & (data['인구수'] == pop_max_val)]

Unnamed: 0_level_0,인구수,shortName,x,y,면적,광역시도,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
30,1125461,수원,6,9,121.09,경기도,수원시


In [52]:
# 4. 함수화
def get_pop_max(sido):
    max_val = data.loc[data['광역시도'] == sido, '인구수'].max()
    return data.loc[(data['광역시도'] == sido) & (data['인구수'] == max_val), ['광역시도','행정구역','인구수']]

In [53]:
# txt = input('검색하고 싶은 광역시도를 입력: ')
get_pop_max('충청북도')

Unnamed: 0_level_0,광역시도,행정구역,인구수
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
227,충청북도,청주시,790216


In [56]:
# 5. 광역시도별로 값을 출력해야하므로 for 문을 가동
for sido_name in data['광역시도'].unique():
    # print(type(get_pop_max(sido_name)))
    print(get_pop_max(sido_name))

<class 'pandas.core.frame.DataFrame'>
    광역시도 행정구역     인구수
seq                  
8    강원도  원주시  313851
<class 'pandas.core.frame.DataFrame'>
    광역시도 행정구역      인구수
seq                   
30   경기도  수원시  1125461
<class 'pandas.core.frame.DataFrame'>
     광역시도 행정구역      인구수
seq                    
61   경상남도  창원시  1010040
<class 'pandas.core.frame.DataFrame'>
     광역시도 행정구역     인구수
seq                   
89   경상북도  포항시  488395
<class 'pandas.core.frame.DataFrame'>
      광역시도 행정구역     인구수
seq                    
93   광주광역시   북구  439683
<class 'pandas.core.frame.DataFrame'>
      광역시도 행정구역     인구수
seq                    
96   대구광역시  달서구  584517
<class 'pandas.core.frame.DataFrame'>
      광역시도 행정구역     인구수
seq                    
105  대전광역시   서구  475094
<class 'pandas.core.frame.DataFrame'>
      광역시도  행정구역     인구수
seq                     
123  부산광역시  해운대구  397134
<class 'pandas.core.frame.DataFrame'>
      광역시도 행정구역     인구수
seq                    
141  서울특별시  송파구  615487
<class 'pandas.core

In [62]:
pop_max_df = pd.DataFrame(columns=['광역시도', '행정구역', '인구수'])
for sido_name in data['광역시도'].unique():
    pop_max_df = pop_max_df.append(get_pop_max(sido_name))

pop_max_df = pop_max_df.sort_values(by='인구수', ascending=False).reset_index(drop=True)
pop_max_df

Unnamed: 0,광역시도,행정구역,인구수
0,경기도,수원시,1125461
1,경상남도,창원시,1010040
2,충청북도,청주시,790216
3,전라북도,전주시,630708
4,서울특별시,송파구,615487
5,충청남도,천안시,584912
6,대구광역시,달서구,584517
7,인천광역시,부평구,527153
8,경상북도,포항시,488395
9,대전광역시,서구,475094
