### 행정구역 정보 분석 및 시각화
1. pandas의 read_csv() 함수로 csv file을 읽어서 DataFrame 객체로 생성하고 데이터 확인하기
2. Data Selection : loc[] / iloc[] 를 사용해서 특정 Row와 Column 선택하기
3. 컬럼명 변경하기
4. DataFrame 객체를 Excel file로 저장하기
5. Data Grouping : groupby() 함수를 사용해서 그룹핑하기
6. 상관관계 분석 : corr() 함수를 사용해서 인구수와 면적간의 상관관계 
7. 시각화 : seaborn의 barplot() 함수를 사용해서 Plot 그리기

In [2]:
import pandas as pd
print(pd.__version__)

2.2.2


In [4]:
data = pd.read_csv('data/data_draw_korea.csv')
print(type(data))
#행과열 확인
print(data.shape)

<class 'pandas.core.frame.DataFrame'>
(229, 8)


In [6]:
data.head()

Unnamed: 0.1,Unnamed: 0,인구수,shortName,x,y,면적,광역시도,행정구역
0,0,202520,강릉,11,4,1040.07,강원도,강릉시
1,1,25589,고성(강원),9,0,664.19,강원도,고성군
2,2,86747,동해,11,5,180.01,강원도,동해시
3,3,63986,삼척,11,8,1185.8,강원도,삼척시
4,4,76733,속초,9,1,105.25,강원도,속초시


In [9]:
import numpy as np
data.describe(include=[np.number])

Unnamed: 0.1,Unnamed: 0,인구수,x,y,면적
count,229.0,229.0,229.0,229.0,229.0
mean,114.0,211089.8,6.117904,11.262009,435.419795
std,66.250786,207437.8,3.320469,6.040898,381.612549
min,0.0,8392.0,0.0,0.0,2.8
25%,57.0,49559.0,3.0,6.0,54.0
50%,114.0,140159.0,6.0,11.0,436.4
75%,171.0,321618.0,9.0,16.0,692.8
max,228.0,1125461.0,13.0,25.0,1817.94


In [11]:
data.describe(include=[object])

Unnamed: 0,shortName,광역시도,행정구역
count,229,229,229
unique,229,17,206
top,강릉,경기도,동구
freq,1,31,6


In [18]:
data.loc[data['행정구역'] =='동구', ['행정구역','인구수']].sort_values(by='인구수',ascending=False).reset_index(drop=True)

Unnamed: 0,행정구역,인구수
0,동구,330830
1,동구,236524
2,동구,164738
3,동구,97571
4,동구,85952
5,동구,68950


In [24]:
pN = '인구수'
print(type(data[pN]))
data[pN]

<class 'pandas.core.series.Series'>


0      202520
1       25589
2       86747
3       63986
4       76733
        ...  
224    127462
225     34480
226     62809
227    790216
228    198077
Name: 인구수, Length: 229, dtype: int64

In [26]:
pop_max_val = data[pN].max()
exp = data.loc[data['인구수'] == pop_max_val]


#### 상관계수 (Correlation Coefficient)
* 인구수와 면적 데이터간에 관련성이 있는지 살펴보기 위해서 상관계수 구하기
* 상관계수 값은 -1 ~ 1 사이의 값이며, 0에 가까울 수록 관련성이 낮고, 1에 가까울 수록 관련성이 높다. 
* 음수는 반비례 (면적이 넓은 반면 인구수는 적은 경우), 양수는 비례 (면적이 넓고, 인구수도 높은 경우)
* corr() 함수

In [28]:
!pip install xlsxwriter



#### 시각화
* %matplotlib inline 설정 (jupyter 에서는 show() 함수를 호출하지 않아도 plot이 출력된다)
* 한글폰트 설정이 필요함
* Plot에 대한 설정은 matplotlib의 함수를 사용하고, Plot을 그려주는 기능은 seaborn()의 함수를 사용합니다. 

In [31]:
%matplotlib

Using matplotlib backend: QtAgg


In [33]:
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
import seaborn as sns

In [35]:
print('matplotlib ', matplotlib.__version__)
print('seaborn ', sns.__version__)

matplotlib  3.8.4
seaborn  0.13.2


In [37]:
[ (font.name, font.fname) for font in fm.fontManager.ttflist if 'Mal' in font.name ]

[('Malgun Gothic', 'C:\\Windows\\Fonts\\malgunsl.ttf'),
 ('Malgun Gothic', 'C:\\Windows\\Fonts\\malgunbd.ttf'),
 ('Malgun Gothic', 'C:\\Windows\\Fonts\\malgun.ttf')]

In [39]:
# font name을 알고 있다면 생략가능
#한글폰트 path 설정
font_path = 'C:\\windows\\Fonts\\malgun.ttf'
#font의 파일정보로 font name 을 알아내기
font_prop = fm.FontProperties(fname=font_path).get_name()
print(font_prop)

Malgun Gothic


In [None]:
matplotlib.rc('font',family=font_prop)

In [72]:
seoul_df = data.loc[data['광역시도'] == '서울특별시']
print(seoul_df)


     Unnamed: 0     인구수 shortName  x  y     면적   광역시도  행정구역
124         124  526157      서울강남  6  7  39.50  서울특별시   강남구
125         125  432028      서울강동  8  5  24.60  서울특별시   강동구
126         126  310292      서울강북  5  2  23.60  서울특별시   강북구
127         127  554709      서울강서  4  4  41.40  서울특별시   강서구
128         128  484478      서울관악  5  6  29.60  서울특별시   관악구
129         129  342909      서울광진  7  6  17.05  서울특별시   광진구
130         130  401233      서울구로  4  7  20.11  서울특별시   구로구
131         131  222566      서울금천  5  7  13.01  서울특별시   금천구
132         132  547202      서울노원  6  1  35.44  서울특별시   노원구
133         133  331682      서울도봉  5  1  20.80  서울특별시   도봉구
134         134  342429     서울동대문  7  4  14.20  서울특별시  동대문구
135         135  383917      서울동작  5  5  16.36  서울특별시   동작구
136         136  364232      서울마포  5  4  23.87  서울특별시   마포구
137         137  288543     서울서대문  5  3  17.60  서울특별시  서대문구
138         138  407416      서울서초  6  6  47.04  서울특별시   서초구
139         139  279939      서울성동  7  5 

In [82]:
seoul_df_p = data.loc[data['광역시도'] == '서울특별시'].sort_values(by="인구수",ascending=False).reset_index(drop=True)
seoul_df_r = data.loc[data['광역시도'] == '서울특별시'].sort_values(by="면적",ascending=False).reset_index(drop=True)

figure, (ax1, ax2) = plt.subplots(nrows=2, ncols=1)
figure.set_size_inches(18,12)
sns.barplot(data=seoul_df_p, x="행정구역", y="인구수", ax = ax1, hue='행정구역')
sns.barplot(data=seoul_df_r, x="행정구역", y="면적", ax = ax2, hue='행정구역')
#y축의 label값에 ,(콤마) 출력하기
ax1.get_yaxis().set_major_formatter(plt.FuncFormatter(lambda x, loc: "{:,}".format(int(x))))
ax2.get_yaxis().set_major_formatter(plt.FuncFormatter(lambda x, loc: "{:,}".format(int(x))))
#ax1.set(ylabel='인구수')

for item in ax1.get_xticklabels(): 
    item.set_rotation(90)
for i, v in enumerate(seoul_df_p["인구수"].items()):
    ax1.text(i ,v[1], "{:,}".format(v[1]), color='m', va ='bottom', rotation=45)

for item in ax2.get_xticklabels(): 
    item.set_rotation(90)
for i, v in enumerate(seoul_df_r["면적"].items()):
    ax2.text(i ,v[1], "{:,}".format(v[1]), color='m', va ='bottom')
plt.tight_layout()