## CSV 파일 불러오기
    기본 경로에 파일이 있는 경우 파일 이름만 입력.
    외부 파일을 가져올 경우 전체 이름을 입력.

In [6]:
import pandas as pd
pop_1 = pd.read_csv('UseData/pop_2014.csv', encoding='euc-kr')
# 인코딩 형식이 맞지 않는 경우, encoding='~~' 인자를 더해줌.

In [7]:
pop_1.head(10) # 앞 10건만 추출

Unnamed: 0,행정구역명,위치,총인구수,남자 인구수,여자 인구수
0,창원시,창원시청,1075168,546530,528638
1,진주시,진주시청,340241,168480,171761
2,통영시,통영시청,139439,70639,68800
3,사천시,사천시청,116485,58392,58093
4,김해시,김해시청,527240,266361,260879
5,밀양시,밀양시청,107765,52759,55006
6,거제시,거제시청,248287,130708,117579
7,양산시,양산시청,292376,147189,145187
8,의령군,의령군청,29209,14081,15128
9,함안군,함안군청,68741,34611,34130


    header 인자를 통해 입력한 줄 번호부터 가져올 수 있음.
   

In [9]:
pop_3 = pd.read_csv('UseData/pop_2014.csv', encoding='euc-kr', header=1)

In [10]:
pop_3.head(10)

Unnamed: 0,창원시,창원시청,1075168,546530,528638
0,진주시,진주시청,340241,168480,171761
1,통영시,통영시청,139439,70639,68800
2,사천시,사천시청,116485,58392,58093
3,김해시,김해시청,527240,266361,260879
4,밀양시,밀양시청,107765,52759,55006
5,거제시,거제시청,248287,130708,117579
6,양산시,양산시청,292376,147189,145187
7,의령군,의령군청,29209,14081,15128
8,함안군,함안군청,68741,34611,34130
9,창녕군,창녕군청,63502,31355,32147


    컬럼이 지정한 header로 바뀐걸 볼 수 있음.

In [16]:
# 마찬가지로 컬럼을 지정해 불러올 수 있음.
# read_excel의 경우 parse_cols 한 다음 지정인자는 엑셀의 A,B,C 이런거.
# read_csv의 경우 index_col 한 다음 지정 인자는 실제 column 이름.
pop_4 = pd.read_csv('UseData/pop_2014.csv', encoding='euc-kr', index_col='행정구역명')

In [17]:
pop_4.head(10)

Unnamed: 0_level_0,위치,총인구수,남자 인구수,여자 인구수
행정구역명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
창원시,창원시청,1075168,546530,528638
진주시,진주시청,340241,168480,171761
통영시,통영시청,139439,70639,68800
사천시,사천시청,116485,58392,58093
김해시,김해시청,527240,266361,260879
밀양시,밀양시청,107765,52759,55006
거제시,거제시청,248287,130708,117579
양산시,양산시청,292376,147189,145187
의령군,의령군청,29209,14081,15128
함안군,함안군청,68741,34611,34130


    read_excel을 사용하려면 Xlrd 패키지가 필요.

In [20]:
# 컬럼 이름은 어떻게 변경? rename.
pop_4.rename(columns={pop_4.columns[2] : '남자',
                      pop_4.columns[3] : '여자'})

Unnamed: 0_level_0,위치,총인구수,남자,여자
행정구역명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
창원시,창원시청,1075168,546530,528638
진주시,진주시청,340241,168480,171761
통영시,통영시청,139439,70639,68800
사천시,사천시청,116485,58392,58093
김해시,김해시청,527240,266361,260879
밀양시,밀양시청,107765,52759,55006
거제시,거제시청,248287,130708,117579
양산시,양산시청,292376,147189,145187
의령군,의령군청,29209,14081,15128
함안군,함안군청,68741,34611,34130


In [25]:
# 데이터 정렬이 안되어있음. 데이터 정렬은 어떻게?
# sort_values. 인자 by='~~'를 통해 정렬 기준을 정할 수 있음.
# ascending=True로 지정하면 오름차순으로 정렬.
pop_5 = pop_1.sort_values(by = '행정구역명', ascending=True)

In [26]:
pop_5.head(10)

Unnamed: 0,행정구역명,위치,총인구수,남자 인구수,여자 인구수
6,거제시,거제시청,248287,130708,117579
16,거창군,거창군청,63137,30581,32556
11,고성군,고성군청,55916,28020,27896
4,김해시,김해시청,527240,266361,260879
12,남해군,남해군청,46638,22247,24391
5,밀양시,밀양시청,107765,52759,55006
3,사천시,사천시청,116485,58392,58093
14,산청군,산청군청,35849,17531,18318
7,양산시,양산시청,292376,147189,145187
8,의령군,의령군청,29209,14081,15128


In [28]:
# 새로운 컬럼은 어떻게 추가?
pop_5['남자인구비율'] = pop_5['남자 인구수'] / pop_5['총인구수'] * 100
pop_5['여자인구비율'] = pop_5['여자 인구수'] / pop_5['총인구수'] * 100
pop_5.head(10)

Unnamed: 0,행정구역명,위치,총인구수,남자 인구수,여자 인구수,남자인구비율,여자인구비율
6,거제시,거제시청,248287,130708,117579,52.643916,47.356084
16,거창군,거창군청,63137,30581,32556,48.435941,51.564059
11,고성군,고성군청,55916,28020,27896,50.110881,49.889119
4,김해시,김해시청,527240,266361,260879,50.519877,49.480123
12,남해군,남해군청,46638,22247,24391,47.701445,52.298555
5,밀양시,밀양시청,107765,52759,55006,48.957454,51.042546
3,사천시,사천시청,116485,58392,58093,50.128343,49.871657
14,산청군,산청군청,35849,17531,18318,48.90234,51.09766
7,양산시,양산시청,292376,147189,145187,50.342367,49.657633
8,의령군,의령군청,29209,14081,15128,48.207744,51.792256


    DataFrame 여러개를 합칠 수도 있음. 일종의 JOIN 연산
    주로 concat, merge를 많이 씀.

In [29]:
sal_2016 = {'이름' : ['홍길동', '일지매', '전우치'],
            '급여' : [200, 150, 250]}
sal_2017 = {'이름' : ['일지매', '강감찬', '전우치', '홍길동'], 
            '급여' : [180, 210, 270, 220]}
df_sal_2016 = pd.DataFrame(sal_2016, columns=['이름', '급여'])
df_sal_2017 = pd.DataFrame(sal_2017, columns=['이름', '급여'])

In [30]:
df_sal_2016

Unnamed: 0,이름,급여
0,홍길동,200
1,일지매,150
2,전우치,250


In [31]:
df_sal_2017

Unnamed: 0,이름,급여
0,일지매,180
1,강감찬,210
2,전우치,270
3,홍길동,220


In [32]:
sal_concat = pd.concat([df_sal_2016, df_sal_2017])
sal_concat

Unnamed: 0,이름,급여
0,홍길동,200
1,일지매,150
2,전우치,250
0,일지매,180
1,강감찬,210
2,전우치,270
3,홍길동,220


In [33]:
# axis=1을 지정하면 가로로 합침.
# 한쪽에 행이 없으면 NaN이 나옴.
sal_concat_2 = pd.concat([df_sal_2016, df_sal_2017], axis=1)
sal_concat_2

Unnamed: 0,이름,급여,이름.1,급여.1
0,홍길동,200.0,일지매,180
1,일지매,150.0,강감찬,210
2,전우치,250.0,전우치,270
3,,,홍길동,220


In [34]:
# 공통적으로 존재하는 데이터만 표기한다면?
# join 인자 사용.
sal_concat_3 = pd.concat([df_sal_2016, df_sal_2017], axis=1, join='inner')
sal_concat_3

Unnamed: 0,이름,급여,이름.1,급여.1
0,홍길동,200,일지매,180
1,일지매,150,강감찬,210
2,전우치,250,전우치,270


In [35]:
# merge.
# 특정 컬럼을 기준으로 합치고자 하면 on 인자 사용.
sal_merge_1 = pd.merge(df_sal_2016, df_sal_2017, on='이름')
sal_merge_1

Unnamed: 0,이름,급여_x,급여_y
0,홍길동,200,220
1,일지매,150,180
2,전우치,250,270


In [36]:
# 합치는걸 왼쪽 기준, 오른쪽 기준으로 지정해서 합칠수도 있음.
# how 인자 사용.
sal_merge_2 = pd.merge(df_sal_2016, df_sal_2017, on='이름', how='right')
sal_merge_2

Unnamed: 0,이름,급여_x,급여_y
0,일지매,150.0,180
1,강감찬,,210
2,전우치,250.0,270
3,홍길동,200.0,220
