In [1]:
import pandas as pd

## csv파일 불러오기
- 파일 내용을 불러오는데 에러가 나는 경우 : encoding = 'euc-kr'

In [4]:
pop_1 = pd.read_csv('data/pop_2014.csv', encoding='euc-kr')

In [6]:
pop_1.head()

Unnamed: 0,행정구역명,위치,총인구수,남자 인구수,여자 인구수
0,창원시,창원시청,1075168,546530,528638
1,진주시,진주시청,340241,168480,171761
2,통영시,통영시청,139439,70639,68800
3,사천시,사천시청,116485,58392,58093
4,김해시,김해시청,527240,266361,260879


## excel 파일 불러오기
- Xlrd 패키지 설치가 되어있어야함

In [8]:
pop_2 = pd.read_excel('data/경상남도_년도별_지역별_인구수_2014년.xlsx')

In [9]:
pop_2.head()

Unnamed: 0,행정구역명,위치,총인구수,남자 인구수,여자 인구수
0,창원시,창원시청,1075168,546530,528638
1,진주시,진주시청,340241,168480,171761
2,통영시,통영시청,139439,70639,68800
3,사천시,사천시청,116485,58392,58093
4,김해시,김해시청,527240,266361,260879


### 행 지정하여 불러오기

In [12]:
# 입력한 줄 번호부터 호출 : header= 숫자
pop_3 = pd.read_excel('data/경상남도_년도별_지역별_인구수_2014년.xlsx', header=1)

In [15]:
pop_3.head()

Unnamed: 0,창원시,창원시청,1075168,546530,528638
0,진주시,진주시청,340241,168480,171761
1,통영시,통영시청,139439,70639,68800
2,사천시,사천시청,116485,58392,58093
3,김해시,김해시청,527240,266361,260879
4,밀양시,밀양시청,107765,52759,55006


### 컬럼 지정하여 불러오기
- parse_cols, usecols = "excel 내에 컬럼명"

In [27]:
pop_4 = pd.read_excel('data/경상남도_년도별_지역별_인구수_2014년.xlsx', usecols="A,D,E")

In [28]:
pop_4.head()

Unnamed: 0,행정구역명,남자 인구수,여자 인구수
0,창원시,546530,528638
1,진주시,168480,171761
2,통영시,70639,68800
3,사천시,58392,58093
4,김해시,266361,260879


### 컬럼 이름 변경

In [30]:
pop_4.rename(columns={pop_4.columns[1]:'남자',
                      pop_4.columns[2]:'여자'}, inplace=True)

In [31]:
pop_4.head()

Unnamed: 0,행정구역명,남자,여자
0,창원시,546530,528638
1,진주시,168480,171761
2,통영시,70639,68800
3,사천시,58392,58093
4,김해시,266361,260879


## 데이터 정렬 방법

In [33]:
# 행정구역명으로 오름차순 정렬
# ascending = True
# False : 내림차순
pop_5 = pop_2.sort_values(by="행정구역명", ascending=True)

In [35]:
pop_5.head()

Unnamed: 0,행정구역명,위치,총인구수,남자 인구수,여자 인구수
6,거제시,거제시청,248287,130708,117579
16,거창군,거창군청,63137,30581,32556
11,고성군,고성군청,55916,28020,27896
4,김해시,김해시청,527240,266361,260879
12,남해군,남해군청,46638,22247,24391


## 즉시 컬럼 생성 방법

In [36]:
pop_2.head(10)

Unnamed: 0,행정구역명,위치,총인구수,남자 인구수,여자 인구수
0,창원시,창원시청,1075168,546530,528638
1,진주시,진주시청,340241,168480,171761
2,통영시,통영시청,139439,70639,68800
3,사천시,사천시청,116485,58392,58093
4,김해시,김해시청,527240,266361,260879
5,밀양시,밀양시청,107765,52759,55006
6,거제시,거제시청,248287,130708,117579
7,양산시,양산시청,292376,147189,145187
8,의령군,의령군청,29209,14081,15128
9,함안군,함안군청,68741,34611,34130


In [40]:
pop_2['남자인구비율'] = round((pop_2['남자 인구수']/pop_2['총인구수']) * 100,2)
pop_2['여자인구비율'] = round((pop_2['여자 인구수']/pop_2['총인구수']) * 100,2)

In [41]:
pop_2.head()

Unnamed: 0,행정구역명,위치,총인구수,남자 인구수,여자 인구수,남자인구비율,여자인구비율
0,창원시,창원시청,1075168,546530,528638,50.83,49.17
1,진주시,진주시청,340241,168480,171761,49.52,50.48
2,통영시,통영시청,139439,70639,68800,50.66,49.34
3,사천시,사천시청,116485,58392,58093,50.13,49.87
4,김해시,김해시청,527240,266361,260879,50.52,49.48


## 데이터 프레임 합치기
- concat : (axis=0 : 행으로 합침, axis=1 : 열로 합침, join : 공통적으로 존재하는 데이터만 표기)
- merge

In [43]:
sal_2016 = {'이름' : ['홍길동','일지매','전우치'],
            '급여' : [200,150,250]}

sal_2017 = {'이름' : ['일지매','강감찬','전우치','홍길동'],
            '급여' : [180,210,270,220]}

df_sal_2016 = pd.DataFrame(sal_2016, columns = ['이름','급여'])
df_sal_2017 = pd.DataFrame(sal_2017, columns = ['이름','급여'])

In [44]:
df_sal_2016

Unnamed: 0,이름,급여
0,홍길동,200
1,일지매,150
2,전우치,250


In [45]:
df_sal_2017

Unnamed: 0,이름,급여
0,일지매,180
1,강감찬,210
2,전우치,270
3,홍길동,220


In [46]:
sal_concat = pd.concat([df_sal_2016,df_sal_2017])

In [47]:
sal_concat

Unnamed: 0,이름,급여
0,홍길동,200
1,일지매,150
2,전우치,250
0,일지매,180
1,강감찬,210
2,전우치,270
3,홍길동,220


In [48]:
sal_concat_2 = pd.concat([df_sal_2016, df_sal_2017], axis=1)

In [49]:
sal_concat_2

Unnamed: 0,이름,급여,이름.1,급여.1
0,홍길동,200.0,일지매,180
1,일지매,150.0,강감찬,210
2,전우치,250.0,전우치,270
3,,,홍길동,220


### join

In [50]:
sal_concat_3 = pd.concat([df_sal_2016,df_sal_2017], axis=1, join='inner')

In [51]:
sal_concat_3

Unnamed: 0,이름,급여,이름.1,급여.1
0,홍길동,200,일지매,180
1,일지매,150,강감찬,210
2,전우치,250,전우치,270


### merge 

In [56]:
# on : 특정 컬럼을 기준으로 취합
sal_merge_1 = pd.merge(df_sal_2016, df_sal_2017, on='이름')

In [57]:
sal_merge_1

Unnamed: 0,이름,급여_x,급여_y
0,홍길동,200,220
1,일지매,150,180
2,전우치,250,270


In [58]:
sal_merge_2 = pd.merge(df_sal_2016, df_sal_2017, on='이름', how='right')

In [59]:
sal_merge_2

Unnamed: 0,이름,급여_x,급여_y
0,일지매,150.0,180
1,강감찬,,210
2,전우치,250.0,270
3,홍길동,200.0,220
