### 행정구역 정보(.csv파일)을 읽고 분석하기
- read_csv() 함수로 csv 파일 읽기
- 특정 행과 열을 선택하기
- 컬럼명 변경
- 상관관계 분석(인구수와 면적)
- 시각화
#### Pandas
https://pandas.pydata.org/pandasdocs/stable/user_guide/10min.html


In [2]:
import pandas as pd

data = pd.read_csv('data/data_draw_korea.csv')
print(type(data))
data.head()

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0.1,Unnamed: 0,인구수,shortName,x,y,면적,광역시도,행정구역
0,0,202520,강릉,11,4,1040.07,강원도,강릉시
1,1,25589,고성(강원),9,0,664.19,강원도,고성군
2,2,86747,동해,11,5,180.01,강원도,동해시
3,3,63986,삼척,11,8,1185.8,강원도,삼척시
4,4,76733,속초,9,1,105.25,강원도,속초시


In [3]:
data.tail()

Unnamed: 0.1,Unnamed: 0,인구수,shortName,x,y,면적,광역시도,행정구역
224,224,127462,제천,8,10,882.47,충청북도,제천시
225,225,34480,증평,6,11,81.84,충청북도,증평군
226,226,62809,진천,5,11,406.08,충청북도,진천군
227,227,790216,청주,6,12,932.51,충청북도,청주시
228,228,198077,충주,6,10,983.7,충청북도,충주시


In [4]:
data.sample(3) # 임의로 3개의 행 가져오기

Unnamed: 0.1,Unnamed: 0,인구수,shortName,x,y,면적,광역시도,행정구역
149,149,191233,세종,4,11,465.23,세종특별자치시,세종시
113,113,256584,부산동래,11,16,16.6,부산광역시,동래구
30,30,1125461,수원,6,9,121.09,경기도,수원시


In [5]:
print(data.shape)
print(data.columns)
print(data.index)

(229, 8)
Index(['Unnamed: 0', '인구수', 'shortName', 'x', 'y', '면적', '광역시도', '행정구역'], dtype='object')
RangeIndex(start=0, stop=229, step=1)


In [6]:
data.info()
# 문자열 = object타입

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 229 entries, 0 to 228
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  229 non-null    int64  
 1   인구수         229 non-null    int64  
 2   shortName   229 non-null    object 
 3   x           229 non-null    int64  
 4   y           229 non-null    int64  
 5   면적          229 non-null    float64
 6   광역시도        229 non-null    object 
 7   행정구역        229 non-null    object 
dtypes: float64(1), int64(4), object(3)
memory usage: 14.4+ KB


In [7]:
data.describe() # object타입을 제외한 모든 계산

Unnamed: 0.1,Unnamed: 0,인구수,x,y,면적
count,229.0,229.0,229.0,229.0,229.0
mean,114.0,211089.8,6.117904,11.262009,435.419795
std,66.250786,207437.8,3.320469,6.040898,381.612549
min,0.0,8392.0,0.0,0.0,2.8
25%,57.0,49559.0,3.0,6.0,54.0
50%,114.0,140159.0,6.0,11.0,436.4
75%,171.0,321618.0,9.0,16.0,692.8
max,228.0,1125461.0,13.0,25.0,1817.94


In [8]:
print('인구 수 최대값 ', data['인구수'].max())
print('인구 수 최소값 ', data['인구수'].min())
print('인구 수 평균값 ', data['인구수'].mean())
print('인구 수 표준편차값 ', data['인구수'].std())

인구 수 최대값  1125461
인구 수 최소값  8392
인구 수 평균값  211089.77729257641
인구 수 표준편차값  207437.8370475227


In [9]:
# unique한 광역시/도의 이름
data['광역시도'].unique()

array(['강원도', '경기도', '경상남도', '경상북도', '광주광역시', '대구광역시', '대전광역시', '부산광역시',
       '서울특별시', '세종특별자치시', '울산광역시', '인천광역시', '전라남도', '전라북도', '제주특별자치도',
       '충청남도', '충청북도'], dtype=object)

In [10]:
# 광역시도 값 row counting
data['광역시도'].value_counts()

경기도        31
서울특별시      25
경상북도       23
전라남도       22
강원도        18
경상남도       18
부산광역시      16
충청남도       15
전라북도       14
충청북도       11
인천광역시      10
대구광역시       8
대전광역시       5
광주광역시       5
울산광역시       5
제주특별자치도     2
세종특별자치시     1
Name: 광역시도, dtype: int64

In [11]:
# 서울특별시에 속한 구에 대한 정보
data.loc[data['광역시도']=='서울특별시'].reset_index(drop=True)

Unnamed: 0.1,Unnamed: 0,인구수,shortName,x,y,면적,광역시도,행정구역
0,124,526157,서울강남,6,7,39.5,서울특별시,강남구
1,125,432028,서울강동,8,5,24.6,서울특별시,강동구
2,126,310292,서울강북,5,2,23.6,서울특별시,강북구
3,127,554709,서울강서,4,4,41.4,서울특별시,강서구
4,128,484478,서울관악,5,6,29.6,서울특별시,관악구
5,129,342909,서울광진,7,6,17.05,서울특별시,광진구
6,130,401233,서울구로,4,7,20.11,서울특별시,구로구
7,131,222566,서울금천,5,7,13.01,서울특별시,금천구
8,132,547202,서울노원,6,1,35.44,서울특별시,노원구
9,133,331682,서울도봉,5,1,20.8,서울특별시,도봉구


In [12]:
# 입력으로 광역시도 이름을 받아서 광역시도에 속한 행정구역정보를 반환하는 함수 만들기
def function(name):
    return data.loc[data['광역시도']==name].reset_index(drop=True)
function('경기도')

Unnamed: 0.1,Unnamed: 0,인구수,shortName,x,y,면적,광역시도,행정구역
0,18,53497,가평,9,3,843.04,경기도,가평군
1,19,955384,고양,4,2,267.33,경기도,고양시
2,20,63227,과천,7,7,35.813,경기도,과천시
3,21,327111,광명,3,3,38.5,경기도,광명시
4,22,290210,광주,8,7,431.84,경기도,광주시
5,23,175676,구리,9,4,33.3,경기도,구리시
6,24,273302,군포,5,8,36.35,경기도,군포시
7,25,326523,김포,2,3,276.64,경기도,김포시
8,26,610300,남양주,8,3,458.44,경기도,남양주시
9,27,90398,동두천,7,2,95.68,경기도,동두천시


In [13]:
# 서울특별시의 인구수의 평균과 표준편차
print('평균 ', data.loc[data['광역시도']=='서울특별시', '인구수'].mean())
print('표준편차 ', data.loc[data['광역시도']=='서울특별시', '인구수'].std())

평균  375792.28
표준편차  125231.24797500289


In [15]:
# 경기도 인구수의 평균과 표준편차(함수로 만들어서 출력하기)
def avg_std(name):
    print(f'광역시도 = {name}')
    print('인구수 평균 ', data.loc[data['광역시도']== name, '인구수'].mean())
    print('인구수 표준편차 ', data.loc[data['광역시도']==name, '인구수'].std())
avg_std('경기도')

광역시도 = 경기도
인구수 평균  378845.48387096776
인구수 표준편차  304548.39514203876


In [23]:
for sido_name in data['광역시도'].unique():
    avg_std(sido_name)

광역시도 = 강원도
인구수 평균  79413.22222222222
인구수 표준편차  87316.38323837094
광역시도 = 경기도
인구수 평균  378845.48387096776
인구수 표준편차  304548.39514203876
광역시도 = 경상남도
인구수 평균  174693.72222222222
인구수 표준편차  245796.4650767224
광역시도 = 경상북도
인구수 평균  109085.39130434782
인구수 표준편차  124954.74088490057
광역시도 = 광주광역시
인구수 평균  287641.8
인구수 표준편차  137076.68320578814
광역시도 = 대구광역시
인구수 평균  297306.25
인구수 표준편차  174375.39437968715
광역시도 = 대전광역시
인구수 평균  293535.4
인구수 표준편차  111853.57188217103
광역시도 = 부산광역시
인구수 평균  207724.4375
인구수 표준편차  106246.04138380481
광역시도 = 서울특별시
인구수 평균  375792.28
인구수 표준편차  125231.24797500289
광역시도 = 세종특별자치시
인구수 평균  191233.0
인구수 표준편차  nan
광역시도 = 울산광역시
인구수 평균  221117.0
인구수 표준편차  64163.28658196991
광역시도 = 인천광역시
인구수 평균  276657.5
인구수 표준편차  199353.5964908417
광역시도 = 전라남도
인구수 평균  77298.31818181818
인구수 표준편차  74413.25322969875
광역시도 = 전라북도
인구수 평균  124217.71428571429
인구수 표준편차  168327.13482128442
광역시도 = 제주특별자치도
인구수 평균  287936.5
인구수 표준편차  201620.89205362622
광역시도 = 충청남도
인구수 평균  129741.93333333333
인구수 표준편차  141125.1080796583
광역시도 = 충청

In [21]:
# 경상북도에 속한 행정구역의 행정구역, 인구수, 면적을 출력하고 인구수가 많은 순서대로 정렬하고 index를 순서대로 출력하기
data.loc[data['광역시도']=='경상북도', ['행정구역','인구수','면적']].sort_values(by='인구수', ascending=False).reset_index(drop=True)

Unnamed: 0,행정구역,인구수,면적
0,포항시,488395,1127.0
1,구미시,396685,616.1
2,경산시,251220,411.58
3,경주시,242618,1323.85
4,안동시,157317,1519.0
5,김천시,127941,1009.56
6,칠곡군,112446,451.0
7,영주시,101612,668.45
8,상주시,93305,1254.82
9,영천시,91214,919.76


In [28]:
#iloc 사용하기
# index가 20부터 25까지, 컬럼명이 인구수부터 광역시도까지
print(data.loc[20:25, '인구수':'광역시도'])
print(data.iloc[20:25, 1:4])

       인구수 shortName  x  y       면적 광역시도
20   63227        과천  7  7   35.813  경기도
21  327111        광명  3  3   38.500  경기도
22  290210        광주  8  7  431.840  경기도
23  175676        구리  9  4   33.300  경기도
24  273302        군포  5  8   36.350  경기도
25  326523        김포  2  3  276.640  경기도
       인구수 shortName  x
20   63227        과천  7
21  327111        광명  3
22  290210        광주  8
23  175676        구리  9
24  273302        군포  5


In [31]:
# 인구 수가 전국 평균 인구수보다 적은 지역을 선택하고, 결과를 엑셀로 저장하기
avg_value = data['인구수'].mean()
pop_avg_small = data.loc[data['인구수'] < avg_value, '인구수':'행정구역'].sort_values(by='인구수',ascending=False).reset_index(drop=True)
pop_avg_small.to_excel('data/평균인구수미만지역.xlsx')