### 행정구역 정보 분석 및 시각화
1. pandas의 read_csv() 함수로 csv file을 읽어서 DataFrame 객체로 생성하고 데이터 확인하기
2. Data Selection : loc[] / iloc[] 를 사용해서 특정 Row와 Column 선택하기
3. 컬럼명 변경하기
4. DataFrame 객체를 Excel file로 저장하기
5. Data Grouping : groupby() 함수를 사용해서 그룹핑하기
6. 상관관계 분석 : corr() 함수를 사용해서 인구수와 면적간의 상관관계 
7. 시각화 : seaborn의 barplot() 함수를 사용해서 Plot 그리기

In [None]:
import pandas as pd
print(pd.__version__)

##### pandas의 read_csv() 함수로 csv file을 읽어서 DataFrame 객체로 생성하고 데이터 확인하기

In [None]:
data = pd.read_csv('data/data_draw_korea.csv')
print(data.shape)
print(type(data))
data.head()

In [None]:
# head() 함수
data.head(3)

In [None]:
# tail() 함수
data.tail()

In [None]:
# sample() 함수
data.sample(2)

In [None]:
# 컬렴명 확인하기
print(f'컬럼명 = {data.columns}')
# 인덱스 확인하기
print(f'인덱스 = {data.index}')

In [None]:
# values 속성으로 값 확인하기
print(type(data.values))
data.values

In [None]:
# info() 함수
data.info()

In [None]:
# 모든 컬럼의 타입 확인
data.dtypes

In [None]:
# 면적 컬럼의 타입을 확인
print(type(data['면적']))
data['면적'].dtype

In [None]:
# 특정컬럼(인구수)의 타입 확인
print(type(data['인구수']))
data['인구수'].dtype

In [None]:
import numpy as np
data.describe(include=[np.number])

In [None]:
# describe() 함수, 숫자 타입인 컬럼의 통계함수 출력
data.describe()

In [None]:
# describe() 함수, 문자열(object) 타입인 컬럼의 통계함수 출력
data.describe(include=[object])

In [None]:
data['행정구역'] == '동구'

In [None]:
# 해당 조건식과 매칭되는 Row data 출력
data.loc[data['행정구역'] == '동구']

In [None]:
# '광역시도' == '경기도'
data.loc[data['광역시도'] == '경기도'].reset_index(drop=True)

In [None]:
# describe() 함수, 모든 컬럼의 통계함수 출력
data.describe(include='all')

### Data Selection
* loc[] 또는 iloc[]
* loc[Row 선택, Column 선택]

In [None]:
# 인구수 1개의 컬럼 선택
data['인구수']

In [None]:
# ['행정구역','인구수','면적'] 컬럼의 데이터 출력
data[['행정구역','인구수','면적']].head()

In [None]:
# 인구수 가장 많은 행정구역 top 5
data[['행정구역','인구수','면적']].sort_values(by='인구수',ascending=False).head().reset_index(drop=True)

In [None]:
#인구가 가장 작은 top 5
data[['광역시도','행정구역','인구수','면적']].sort_values(by='인구수',ascending=True).head().reset_index(drop=True)

In [None]:
# 인구수 컬럼의 집계함수
print(f"인구수 최대값 {data['인구수'].max():,}")
print(f"인구수 최소값 {data['인구수'].min():,}")
print(f"인구수 평균 {round(data['인구수'].mean()):,}")
print(f"인구수 표준편차 {round(data['인구수'].std()):,}")
print(f"인구수 중간값 {data['인구수'].median():,}")
data['인구수'].quantile([0.25, 0.75])

In [None]:
# 인구수가 가장 많은 행정구역?
# 인구수의 최대값을 max_prop 변수에 저장
max_prop = data['인구수'].max()
#data['인구수'] == max_prop
data.loc[data['인구수'] == max_prop]

In [None]:
# 면적이 넓은 행정구역?
data.loc[data['면적'] == data['면적'].max()]

In [None]:
# 인구수가 가장 적은 행정구역?
data.loc[data['인구수'] == data['인구수'].min()]

In [None]:
# unique한 광역시도명
print(len(data['광역시도'].unique()))
data['광역시도'].unique()

In [None]:
# 광역시도별 Row Counting
data['광역시도'].value_counts()

In [None]:
# data['광역시도'] == '경기도' 의 ['행정구역','인구수','면적']  컬럼의 데이터 출력하기
data.loc[data['광역시도'] == '경기도',['행정구역','인구수','면적']].sort_values(by='인구수',ascending=False).reset_index(drop=True)

In [None]:
# data['행정구역'] == '경기도' 의 ['행정구역','인구수','면적']  컬럼의 데이터를 면적을 descending 순서대로 출력하기
data.loc[data['광역시도'] == '경기도',['행정구역','인구수','면적']].sort_values(by='면적',ascending=False).reset_index(drop=True)

In [None]:
#경기도에 속한 행정구역명, 인구수, 면적 선택하기 인구수를 descending 순서대로 출력하고 index reset 하여 gy_df 라는 변수에 저장하기
#data.loc[row , col]
gy_df = data.loc[data['광역시도'] == '경기도',['행정구역','인구수','면적']].sort_values(by='인구수',ascending=False).reset_index(drop=True)
gy_df
# 인구수2 라는 새로운 컬럼을 생성 , 전체 Row에 적용됨
gy_df['인구수2'] = gy_df['인구수'].map('{:,}'.format)


In [None]:
# 면적2 라는 새로운 컬럼을 생성, 전체 Row에 적용됨
gy_df['면적2'] = gy_df['면적'].map(lambda val:f"{val:.2f}")
gy_df[['면적','면적2']].head(3)

In [None]:
# 면적이 > 1000 큰 조건과 매핑되는 새로운 DataFrame 생성해서 area_1000 라는 변수에 저장하기
area_1000 = data.loc[data['면적'] > 1000].copy()
# area_1000 DataFrame 객체에 면적2 컬럼을 생성, 전체 Row에 적용됨
area_1000.loc[:,'면적2'] = area_1000['면적'].map('{:,}'.format)


In [None]:
# area_1000 DataFrame 객체에 면적3 컬럼을 생성, 조건을 만족하는 Row에 적용됨
area_1000.loc[area_1000['면적'] > 1500,'면적3'] = area_1000['면적'].map('{:,}'.format)

area_1000[['행정구역','면적','면적2','면적3']]

In [None]:
#경기도 인구수의 평균과 표준편차
print(f"경기도 인구수 평균 = {gy_df['인구수'].mean()}")
print(f"경기도 인구수 편차 = {gy_df['인구수'].std()}")

In [None]:
#광역시도명을 인자로 받아서 해당 광역시에 속한 행정구역들의 인구수의 평균과 편차 구하기
def pop_mean_std(df, sido_name):
    sido_df = df.loc[data['광역시도'] == sido_name,'인구수':'행정구역']
    print(f"{sido_name} 인구수 평균 = {sido_df['인구수'].mean()}")
    print(f"{sido_name} 인구수 편차 = {sido_df['인구수'].std()}")

In [None]:
pop_mean_std(data,'서울특별시')

In [None]:
# Unique한 광역시도명 순회하면서  광역시도명을 출력합니다. 
for sido_name in data['광역시도'].unique():
    pop_mean_std(data, sido_name)

In [None]:
#loc[] 사용
#인덱스가 20 부터 25까지
data.loc[20:25]


In [None]:
#iloc[] 사용
#인덱스가 20 부터 24까지
data.iloc[20:25]

In [None]:
# !!!----- iloc[row index, column index] 사용 -----!!! (column 이름 못 씀. index로 접근) 
# 인덱스가 20 부터 25까지 컬럼이 인구수부터 행정구역 까지
data.iloc[20:26, 1:8]

In [None]:
# index가 40,55,60 이고, column이 인구수,광역시도,행정구역

# loc[] 사용
data.loc[[40, 55, 60], ['인구수', '광역시도', '행정구역']]

# iloc[] 사용
# data.loc[[40, 55, 60], [1, 6, 7]]

In [None]:
# 인덱스가 0인 행 하나만 선택
# DataFrame에서 row나 column 하나를 선택하면 series type
print(type(data.loc[0]))
data.loc[0]

In [None]:
#열 하나만 선택
print(type(data['면적'].head()))
data['면적'].head()

### 컬럼명 변경하기, 컬럼을 인덱스 전환하기
* rename() 함수
* inPlace=False (default) 원본 DataFrame객체를 변경하지 않고, 변경한 결과만 출력한다.
* inPlace=True 원본 DataFrame객체를 변경하고, 변경한 결과는 출력하지 않는다.

In [None]:
data.columns

In [None]:
# 'Unnamed: 0' 컬럼명을 'seq' 로 변경한다. 원본 객체는 변경되지 않고 변경된 결과만 출력함
data.rename(columns={'Unnamed: 0': 'seq'})


In [None]:
#원본 객체가 변경되고 변경된 결과는 출력하지 않는다. (default가 inplace=False)
data.rename(columns={'Unnamed: 0': 'seq'}, inplace=True)

In [127]:
# seq 컬럼을 인덱스로 변경한다 (원본 객체가 변경되지 않음. default가 inplace=False 이기 때문)
# data.set_index('seq')
data.set_index('seq', inplace=True)

In [128]:
data.head(3)

Unnamed: 0_level_0,인구수,shortName,x,y,면적,광역시도,행정구역
seq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,202520,강릉,11,4,1040.07,강원도,강릉시
1,25589,고성(강원),9,0,664.19,강원도,고성군
2,86747,동해,11,5,180.01,강원도,동해시


### DataFrame을 Excel file로 저장하기
* 인구수가 평균보다 작은 행정구역, 광역시도, 인구수를 선택해서 DataFrame생성하기
* DataFrame의 to_excel() 함수 사용

In [130]:
# 인구수의 평균값 구하기
pop_mean_value=data['인구수'].mean()
print(pop_mean_value)
print(round(pop_mean_value))
print(f'{pop_mean_value:.2f}')

211089.77729257641
211090
211089.78


In [139]:
# 인구수의 평균값보다 작은 Row를 선택하고, '광역시도','행정구역','인구수' 컬럼값을 가져오기
# 정렬할때 광역시도는 ascending으로 , 인구수는 descending
pop_mean_lt_df = data.loc[data['인구수'] < pop_mean_value, ['광역시도', '행정구역', '인구수']]\
  .sort_values(by=['광역시도', '인구수'], ascending=[True, False]).reset_index(drop=True)

pop_mean_lt_df.head()

Unnamed: 0,광역시도,행정구역,인구수
0,강원도,강릉시,202520
1,강원도,동해시,86747
2,강원도,속초시,76733
3,강원도,삼척시,63986
4,강원도,홍천군,62957


In [140]:
# DataFrame의 to_excel() 함수를 사용하여 excel 파일로 저장
pop_mean_lt_df.to_excel('data/평균인구수미만지역.xlsx')

### GroupBy 기능 사용하기
* 광역시도별 행정구역의 인구수 합계
* ~별에 해당하는 컬럼명이나 컬럼값을 groupby() 함수의 인자로 전달한다.
* Series 객체의 groupby(data['광역시도']) 함수는 컬럼의 값을 인자로 전달하고
* DataFrame 객체의 groupby('광역시도') 함수는 컬럼명을 인자로 전달합니다.

In [143]:
# Series 객체 사용 - 광역시도별 인구수의 합계 
# SeriesGroupBy object
print(type(data['인구수'].groupby(data['광역시도'])))

data['인구수'].groupby(data['광역시도']).sum()

<class 'pandas.core.groupby.generic.SeriesGroupBy'>


광역시도
강원도         1429438
경기도        11744210
경상남도        3144487
경상북도        2508964
광주광역시       1438209
대구광역시       2378450
대전광역시       1467677
부산광역시       3323591
서울특별시       9394807
세종특별자치시      191233
울산광역시       1105585
인천광역시       2766575
전라남도        1700563
전라북도        1739048
제주특별자치도      575873
충청남도        1946129
충청북도        1484720
Name: 인구수, dtype: int64

In [None]:
# data.groupby('광역시도').sum()
data.groupby('광역시도').sum(numeric_only=True)

In [153]:
# DataFrame 객체 사용 - 광역시도별 인구수의 합계 
# DataFrameGroupBy object
print(type(data.groupby('광역시도')))

<class 'pandas.core.groupby.generic.DataFrameGroupBy'>


In [152]:
# DataFrameGroupBy 
data.groupby('광역시도')['인구수']

<pandas.core.groupby.generic.SeriesGroupBy object at 0x00000293D81698E0>

In [None]:
# 광역시도별 행정구역별 인구수의 합계
data.groupby('광역시도')['인구수'].sum()

In [154]:
# data/광역시도별행정구역별인구수의합계.xlsx 파일로 저장하기
data.groupby('광역시도')['인구수'].sum().sort_values(ascending=False)  # dataframe에 대한 sort가 아니므로 조건 필요 X, default는 asc

광역시도
경기도        11744210
서울특별시       9394807
부산광역시       3323591
경상남도        3144487
인천광역시       2766575
경상북도        2508964
대구광역시       2378450
충청남도        1946129
전라북도        1739048
전라남도        1700563
충청북도        1484720
대전광역시       1467677
광주광역시       1438209
강원도         1429438
울산광역시       1105585
제주특별자치도      575873
세종특별자치시      191233
Name: 인구수, dtype: int64

In [160]:
# data/광역시도별행정구역별인구수의합계.xlsx 파일로 저장하기
group_df = data.groupby(['광역시도', '행정구역'])['인구수'].sum()
group_df.head(10)
group_df.to_excel('data/광역시도별행정구역별인구수의합계.xlsx', sheet_name='인구수')

### 엑셀 수치 데이터에 콤마찍기
[pandas.ExcelWriter](https://pandas.pydata.org/docs/reference/api/pandas.ExcelWriter.html)

In [None]:
# %pip install xlsxwriter

Name: XlsxWriter
Version: 3.2.2
Summary: A Python module for creating Excel XLSX files.
Home-page: https://github.com/jmcnamara/XlsxWriter
Author: John McNamara
Author-email: jmcnamara@cpan.org
License: BSD-2-Clause
Location: c:\Users\user\anaconda3\Lib\site-packages
Requires: 
Required-by: 
Note: you may need to restart the kernel to use updated packages.


In [168]:
# Create a Pandas Excel writer using XlsxWriter as the engine.
writer = pd.ExcelWriter('data/광역시도별인구수의합계1.xlsx', engine='xlsxwriter')

# Convert the dataframe to an XlsxWriter Excel object.
group_df.to_excel(writer, sheet_name='인구수합계')

# Get the xlsxwriter workbook and worksheet objects.
workbook  = writer.book
worksheet = writer.sheets['인구수합계']

# Set a currency number format for a column.
num_format = workbook.add_format({'num_format': '#,###'})
worksheet.set_column('C:C', None, num_format)

# Close the Pandas Excel writer and output the Excel file.
writer.close() #_save()

print(writer)
print(workbook)
print(worksheet)
print(num_format)

<pandas.io.excel._xlsxwriter.XlsxWriter object at 0x00000293D82CB320>
<xlsxwriter.workbook.Workbook object at 0x00000293D3B2C890>
<xlsxwriter.worksheet.Worksheet object at 0x00000293D82C9D30>
<xlsxwriter.format.Format object at 0x00000293D06165D0>


#### 상관계수 (Correlation Coefficient)
* 인구수와 면적 데이터간에 관련성이 있는지 살펴보기 위해서 상관계수 구하기
* 상관계수 값은 -1 ~ 1 사이의 값이며, 0에 가까울 수록 관련성이 낮고, 1에 가까울 수록 관련성이 높다. 
* 음수는 반비례 (면적이 넓은 반면 인구수는 적은 경우), 양수는 비례 (면적이 넓고, 인구수도 높은 경우)
* corr() 함수

In [177]:
#전국의 면적과 인구수의 상관계수 구하기
data['면적'].corr(data['인구수'])

-0.3460351605045768

In [179]:
#서울의 면적과 인구수의 상관계수 구하기
seoul_df = data.loc[data['광역시도'] == '서울특별시', ['행정구역', '인구수', '면적']]
seoul_df['면적'].corr(seoul_df['인구수'])

0.6644268188909778

In [175]:
#경기도의 면적과 인구수의 상관계수 구하기
gy_df = data.loc[data['광역시도'] == '경기도', ['행정구역', '인구수', '면적']]
gy_df['면적'].corr(gy_df['인구수'])

-0.21572485071590813

#### Groupby 한 DataFrame에 집계함수를 여러개 설정하기
* agg() 함수
* agg(['max','mean','std'])

In [192]:
# agg() 함수 사용하여 여러개의 통계함수를 사용합니다. 
# fillna(0) NaN 을 0 으로 변경해 줌

# data.groupby('광역시도')['인구수'].sum()
# data.groupby('광역시도')['인구수'].agg('sum')
data.groupby('광역시도')['인구수'].agg(['max', 'min', 'std', 'mean']).fillna(0)


Unnamed: 0_level_0,max,min,std,mean
광역시도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
강원도,313851,20809,87316.383238,79413.222222
경기도,1125461,41076,304548.395142,378845.483871
경상남도,1010040,25091,245796.465077,174693.722222
경상북도,488395,8392,124954.740885,109085.391304
광주광역시,439683,97571,137076.683206,287641.8
대구광역시,584517,74950,174375.39438,297306.25
대전광역시,475094,190815,111853.571882,293535.4
부산광역시,397134,43105,106246.041384,207724.4375
서울특별시,615487,114967,125231.247975,375792.28
세종특별자치시,191233,191233,0.0,191233.0


In [193]:
# agg() 함수 사용 - 그룹핑한 데이터를 여러개의 집계함수를 사용해서 새로운 DataFrame 객체 생성하기
group_agg_df = data.groupby('광역시도')['인구수'].agg(['max', 'min', 'std', 'mean']).fillna(0).sort_values(by="std", ascending=False)
group_agg_df

Unnamed: 0_level_0,max,min,std,mean
광역시도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
경기도,1125461,41076,304548.395142,378845.483871
경상남도,1010040,25091,245796.465077,174693.722222
충청북도,790216,27130,223460.356657,134974.545455
제주특별자치도,430504,145369,201620.892054,287936.5
인천광역시,527153,17735,199353.596491,276657.5
대구광역시,584517,74950,174375.39438,297306.25
전라북도,630708,20492,168327.134821,124217.714286
충청남도,584912,29671,141125.10808,129741.933333
광주광역시,439683,97571,137076.683206,287641.8
서울특별시,615487,114967,125231.247975,375792.28


In [194]:
# DataFrame의 style.format() 함수 사용하기
group_agg_df.style.format('{0:.2f}')

Unnamed: 0_level_0,max,min,std,mean
광역시도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
경기도,1125461.0,41076.0,304548.4,378845.48
경상남도,1010040.0,25091.0,245796.47,174693.72
충청북도,790216.0,27130.0,223460.36,134974.55
제주특별자치도,430504.0,145369.0,201620.89,287936.5
인천광역시,527153.0,17735.0,199353.6,276657.5
대구광역시,584517.0,74950.0,174375.39,297306.25
전라북도,630708.0,20492.0,168327.13,124217.71
충청남도,584912.0,29671.0,141125.11,129741.93
광주광역시,439683.0,97571.0,137076.68,287641.8
서울특별시,615487.0,114967.0,125231.25,375792.28


In [195]:
# 컬럼의 값을 변경하기 map() 함수를 사용하여 포맷하기
group_agg_df['mean'] = group_agg_df['mean'].map('{:.2f}'.format)
group_agg_df['std'] = group_agg_df['std'].map('{:.2f}'.format)

In [196]:
group_agg_df

Unnamed: 0_level_0,max,min,std,mean
광역시도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
경기도,1125461,41076,304548.4,378845.48
경상남도,1010040,25091,245796.47,174693.72
충청북도,790216,27130,223460.36,134974.55
제주특별자치도,430504,145369,201620.89,287936.5
인천광역시,527153,17735,199353.6,276657.5
대구광역시,584517,74950,174375.39,297306.25
전라북도,630708,20492,168327.13,124217.71
충청남도,584912,29671,141125.11,129741.93
광주광역시,439683,97571,137076.68,287641.8
서울특별시,615487,114967,125231.25,375792.28


#### 시각화
* %matplotlib inline 설정 (jupyter 에서는 show() 함수를 호출하지 않아도 plot이 출력된다)
* 한글폰트 설정이 필요함
* Plot에 대한 설정은 matplotlib의 함수를 사용하고, Plot을 그려주는 기능은 seaborn()의 함수를 사용합니다. 

In [None]:
%matplotlib inline

In [None]:
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
import seaborn as sns

print('matplotlib ', matplotlib.__version__)
print('seaborn ', sns.__version__)

In [None]:
# for font in fm.fontManager.ttflist:
#     print((font.name, font.fname))
# 폰트이름과 폰트파일 정보 출력 list comprehension 
[ (font.name, font.fname) for font in fm.fontManager.ttflist if 'Mal' in font.name ] # if 'Mal' in font.name 

In [None]:
# font name을 알고 있다면 생략가능
#한글폰트 path 설정
font_path = 'C:\\windows\\Fonts\\malgun.ttf'
#font의 파일정보로 font name 을 알아내기
font_prop = fm.FontProperties(fname=font_path).get_name()
print(font_prop)


In [None]:
# matplotlib의 rc(run command) 함수를 사용해서 font name(Malgun Gothic) 설정
matplotlib.rc('font', family=font_prop)

### Figure, Axes, Plot
* Axes는 Plot이 실제 그려지는 공간
* Figure는 Axes 보다 더 상위의 공간 : Figure을 여러개의 Axes로 분할해서 Plot를 그릴 수 있다
* 비교) Axis는 X 축, Y축
* seaborn의 barplot() 함수(막대그래프) 사용

In [None]:
seoul_df = data.loc[data['광역시도'] == '서울특별시']
seoul_df.head(2)

In [None]:
# subplots() 함수를 사용하여 axes 객체를 생성하기
figure,(axes1, axes2) = plt.subplots(nrows=2, ncols=1)
figure.set_size_inches(18,12)
# seaborn의 barplot() 함수 호출하기 - 행정구역과 인구수
sns.barplot(data=seoul_df.sort_values(by="인구수",ascending=False),\
    x='행정구역',y='인구수',ax=axes1, hue='행정구역')
# seaborn의 barplot() 함수 호출하기 - 행정구역과 면적
sns.barplot(data=seoul_df.sort_values(by="면적",ascending=False),\
    x='행정구역',y='면적',ax=axes2, hue='행정구역')
plt.show()


In [None]:
# 광역시도 이름을 인자로 받아서 인구수와 면적을 그려주는 함수
def show_pop_area(sido_name):
    # 입력받은 광역시도에 해당하는 DataFrame 객체생성
    sido_df = data.loc[data['광역시도'] == sido_name]
    # Figure와 Axes 객체 생성
    figure, (axes1,axes2) = plt.subplots(nrows=2, ncols=1)
    # Figure size 확대
    figure.set_size_inches(18,12)
    
    pop_plot = sns.barplot(x='행정구역', y='인구수', data=sido_df.sort_values(by='인구수',ascending=False), ax=axes1,hue='행정구역')
    pop_plot.set_title(f'{sido_name} 행정구역별 인구수')
    area_plot = sns.barplot(x='행정구역', y='면적', data=sido_df.sort_values(by='면적',ascending=False), ax=axes2,hue='행정구역')
    area_plot.set_title(f'{sido_name} 행정구역별 면적')
    plt.show()

In [None]:
show_pop_area('경기도')

In [None]:
# 전국데이터의 광역시도의 인구수 
# 전국데이터의 광역시도의 인구수 
figure, axes1 = plt.subplots(1,1)
figure.set_size_inches(18,12)
sns.barplot(x='광역시도', y='인구수', data=data, ax=axes1, hue='광역시도')
plt.show()

In [None]:
figure, ax1 = plt.subplots(nrows=1, ncols=1)
figure.set_size_inches(18,12)
sns.barplot(data=seoul_df, x="행정구역", y="인구수", ax=ax1,hue='행정구역')

# y축의 label값에 ,(콤마) 출력하기
ax1.get_yaxis().set_major_formatter(plt.FuncFormatter(lambda x, loc: "{:,}".format(int(x))))

for item in ax1.get_xticklabels(): 
    item.set_rotation(90)
for i, v in enumerate(seoul_df["인구수"].items()):
    ax1.text(i ,v[1], "{:,}".format(v[1]), color='m', va ='bottom', rotation=45)
plt.tight_layout()