### 행정구역 정보(.csv파일)을 읽고 분석하기
- read_csv() 함수로 csv 파일 읽기
- 특정 행과 열을 선택하기
- 컬럼명 변경
- 상관관계 분석(인구수와 면적)
- 시각화
#### Pandas
https://pandas.pydata.org/pandasdocs/stable/user_guide/10min.html


In [3]:
import pandas as pd

data = pd.read_csv('data/data_draw_korea.csv')
print(type(data))
data.head()

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0.1,Unnamed: 0,인구수,shortName,x,y,면적,광역시도,행정구역
0,0,202520,강릉,11,4,1040.07,강원도,강릉시
1,1,25589,고성(강원),9,0,664.19,강원도,고성군
2,2,86747,동해,11,5,180.01,강원도,동해시
3,3,63986,삼척,11,8,1185.8,강원도,삼척시
4,4,76733,속초,9,1,105.25,강원도,속초시


In [4]:
data.tail()

Unnamed: 0.1,Unnamed: 0,인구수,shortName,x,y,면적,광역시도,행정구역
224,224,127462,제천,8,10,882.47,충청북도,제천시
225,225,34480,증평,6,11,81.84,충청북도,증평군
226,226,62809,진천,5,11,406.08,충청북도,진천군
227,227,790216,청주,6,12,932.51,충청북도,청주시
228,228,198077,충주,6,10,983.7,충청북도,충주시


In [6]:
data.sample(3) # 임의로 3개의 행 가져오기

Unnamed: 0.1,Unnamed: 0,인구수,shortName,x,y,면적,광역시도,행정구역
140,140,434061,서울성북,6,2,24.57,서울특별시,성북구
147,147,114967,서울중구,6,4,9.96,서울특별시,중구
31,31,381412,시흥,3,5,134.4,경기도,시흥시


In [7]:
print(data.shape)
print(data.columns)
print(data.index)

(229, 8)
Index(['Unnamed: 0', '인구수', 'shortName', 'x', 'y', '면적', '광역시도', '행정구역'], dtype='object')
RangeIndex(start=0, stop=229, step=1)


In [8]:
data.info()
# 문자열 = object타입

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 229 entries, 0 to 228
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  229 non-null    int64  
 1   인구수         229 non-null    int64  
 2   shortName   229 non-null    object 
 3   x           229 non-null    int64  
 4   y           229 non-null    int64  
 5   면적          229 non-null    float64
 6   광역시도        229 non-null    object 
 7   행정구역        229 non-null    object 
dtypes: float64(1), int64(4), object(3)
memory usage: 14.4+ KB


In [9]:
data.describe() # object타입을 제외한 모든 계산

Unnamed: 0.1,Unnamed: 0,인구수,x,y,면적
count,229.0,229.0,229.0,229.0,229.0
mean,114.0,211089.8,6.117904,11.262009,435.419795
std,66.250786,207437.8,3.320469,6.040898,381.612549
min,0.0,8392.0,0.0,0.0,2.8
25%,57.0,49559.0,3.0,6.0,54.0
50%,114.0,140159.0,6.0,11.0,436.4
75%,171.0,321618.0,9.0,16.0,692.8
max,228.0,1125461.0,13.0,25.0,1817.94


In [10]:
print('인구 수 최대값 ', data['인구수'].max())
print('인구 수 최소값 ', data['인구수'].min())
print('인구 수 평균값 ', data['인구수'].mean())
print('인구 수 표준편차값 ', data['인구수'].std())

인구 수 최대값  1125461
인구 수 최소값  8392
인구 수 평균값  211089.77729257641
인구 수 표준편차값  207437.8370475227


In [11]:
# unique한 광역시/도의 이름
data['광역시도'].unique()

array(['강원도', '경기도', '경상남도', '경상북도', '광주광역시', '대구광역시', '대전광역시', '부산광역시',
       '서울특별시', '세종특별자치시', '울산광역시', '인천광역시', '전라남도', '전라북도', '제주특별자치도',
       '충청남도', '충청북도'], dtype=object)

In [12]:
# 광역시도 값 row counting
data['광역시도'].value_counts()

경기도        31
서울특별시      25
경상북도       23
전라남도       22
강원도        18
경상남도       18
부산광역시      16
충청남도       15
전라북도       14
충청북도       11
인천광역시      10
대구광역시       8
대전광역시       5
광주광역시       5
울산광역시       5
제주특별자치도     2
세종특별자치시     1
Name: 광역시도, dtype: int64

In [33]:
# 서울특별시에 속한 구에 대한 정보
data.loc[data['광역시도']=='서울특별시'].reset_index(drop=True)

Unnamed: 0.1,Unnamed: 0,인구수,shortName,x,y,면적,광역시도,행정구역
0,124,526157,서울강남,6,7,39.5,서울특별시,강남구
1,125,432028,서울강동,8,5,24.6,서울특별시,강동구
2,126,310292,서울강북,5,2,23.6,서울특별시,강북구
3,127,554709,서울강서,4,4,41.4,서울특별시,강서구
4,128,484478,서울관악,5,6,29.6,서울특별시,관악구
5,129,342909,서울광진,7,6,17.05,서울특별시,광진구
6,130,401233,서울구로,4,7,20.11,서울특별시,구로구
7,131,222566,서울금천,5,7,13.01,서울특별시,금천구
8,132,547202,서울노원,6,1,35.44,서울특별시,노원구
9,133,331682,서울도봉,5,1,20.8,서울특별시,도봉구


In [34]:
# 입력으로 광역시도 이름을 받아서 광역시도에 속한 행정구역정보를 반환하는 함수 만들기
def function(name):
    return data.loc[data['광역시도']==name].reset_index(drop=True)
function('경기도')

Unnamed: 0.1,Unnamed: 0,인구수,shortName,x,y,면적,광역시도,행정구역
0,18,53497,가평,9,3,843.04,경기도,가평군
1,19,955384,고양,4,2,267.33,경기도,고양시
2,20,63227,과천,7,7,35.813,경기도,과천시
3,21,327111,광명,3,3,38.5,경기도,광명시
4,22,290210,광주,8,7,431.84,경기도,광주시
5,23,175676,구리,9,4,33.3,경기도,구리시
6,24,273302,군포,5,8,36.35,경기도,군포시
7,25,326523,김포,2,3,276.64,경기도,김포시
8,26,610300,남양주,8,3,458.44,경기도,남양주시
9,27,90398,동두천,7,2,95.68,경기도,동두천시


In [37]:
# 서울특별시의 인구수의 평균과 표준편차
print('평균 ', data.loc[data['광역시도']=='서울특별시', '인구수'].mean())
print('표준편차 ', data.loc[data['광역시도']=='서울특별시', '인구수'].std())

평균  375792.28
표준편차  125231.24797500289


In [45]:
# 경기도 인구수의 평균과 표준편차
def avg_std(name):
    avg = data.loc[data['광역시도']== name, '인구수'].mean()
    std = data.loc[data['광역시도']==name, '인구수'].std()
    return [avg, std]
print(avg_std('경기도'))

(378845.48387096776, 304548.39514203876)


In [46]:
# 경기도와 서울특별시의 인구수와 표준편차가 어느지역이 더 큰가?
# 표준편차가 더 크다면 어떤 의미인지 생각해보기
if avg_std('경기도')[1] > avg_std('서울특별시')[1]:
    print('경기도가 표준편차가 더 큼')
else:
    print('서울특별시 표준편차가 더 큼')

경기도가 표준편차가 더 큼
