### append
- 행 방향으로 데이터를 연결
- 주요 파라미터
    - ignore_index : 합친 후 기존 인덱스를 유지 또는 새로운 인덱스를 지정

In [73]:
import pandas as pd
import numpy as np

In [3]:
# 두 개의 시리즈 생성
s1 = pd.Series([1, 2, 3])
s2 = pd.Series([4, 5, 6, 7])

In [4]:
# 행 방향으로 데이터 연결하고 기존 인덱스 유지
s1.append(s2)

0    1
1    2
2    3
0    4
1    5
2    6
3    7
dtype: int64

In [5]:
# 행 방향으로 데이터 연결하고 기존 인덱스 누락시키기
s1. append(s2, ignore_index=True)

0    1
1    2
2    3
3    4
4    5
5    6
6    7
dtype: int64

In [6]:
# 두 개의 데이터프레임
# 서로 다른 컬럼명
df1 = pd.DataFrame([[1, 2], [3, 4]], columns=list('ab'))
df2 = pd.DataFrame([[5, 6], [7, 8], [9, 10]], columns=list('AB'))
print(df1)
print(df2)

   a  b
0  1  2
1  3  4
   A   B
0  5   6
1  7   8
2  9  10


In [7]:
df1.append(df2)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  sort=sort,


Unnamed: 0,A,B,a,b
0,,,1.0,2.0
1,,,3.0,4.0
0,5.0,6.0,,
1,7.0,8.0,,
2,9.0,10.0,,


In [8]:
# 두 개의 데이터프레임
# 동일한 컬럼명
df3 = pd.DataFrame([[10, 20], [30, 40], [50, 60]], columns=list('ab'))
df3

Unnamed: 0,a,b
0,10,20
1,30,40
2,50,60


In [9]:
#동일한 컬럼명에 대해서 append를 하면 컬럼갯수는 원본 데이터 숫자 그대로, 행만 추가
#append는 보통 이런 케이스에 많이 사용함
df1.append(df3)

Unnamed: 0,a,b
0,1,2
1,3,4
0,10,20
1,30,40
2,50,60


In [10]:
# ignore_index를 걸면 인덱스번호도 0부터 다시 초기화
df1.append(df3, ignore_index=True)

Unnamed: 0,a,b
0,1,2
1,3,4
2,10,20
3,30,40
4,50,60


In [11]:
# 시리즈와 데이터프레임
# 데이터프레임에 한 줄 추가할때 보통 시리즈를 사용함
# 시리즈 라벨 & 데이터프레임 컬럼이 서로 매핑됨
# 시리즈 라벨, 데이터프레임 컬럼 모두 a, b, c, d로 매칭
s1 = pd.Series([10, 20, 30, 40], index=list('abcd'))
df1 = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2]], columns=list('abcd'))

In [12]:
s1

a    10
b    20
c    30
d    40
dtype: int64

In [13]:
df1

Unnamed: 0,a,b,c,d
0,1,1,1,1
1,2,2,2,2


In [14]:
# Series의 라벨이 df의 컬럼과 매핑이 됨
# 이 때 Series는 df의 새로운 row로 들어감
df1.append(s1, ignore_index=True)

Unnamed: 0,a,b,c,d
0,1,1,1,1
1,2,2,2,2
2,10,20,30,40


### 집계

- groupby(컬럼명)
    - 특정 속성을 기준으로 묶어서 다양한 집계 함수 적용
    - 대표적인 집계 함수
        - sum : 총합
        - mean : 평균값
        - min : 최소값
        - max : 최대값
        - count : 개수
        - std : 표준편차
- pivot table
    - df.pivot(로우로 사용될 컬럼명, 컬럼으로 사용될 컬럼명, 튜플을 구성하는 값으로 사용될 컬럼명, 집계함수)
    - 일차원으로 컬럼 및 로우가 단순 나열된 형식은 데이터를 파악하는데 적합하지 않기 때문에 pivot을 통해 계층 색인 및 형태 변경을 수행

In [15]:
# 엑셀 데이터 적재
# Os Error -> engine='python'
# Unicode, Encoding -> encoding='utf-8' or 'cp949'
data = pd.read_excel('data/인구수예제.xlsx')
data

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
0,서울,강남구,2013,73,92,165
1,서울,강남구,2014,139,55,194
2,서울,강남구,2015,123,83,206
3,서울,강남구,2016,147,150,297
4,서울,강남구,2017,57,133,190
5,서울,서대문구,2013,95,111,206
6,서울,서대문구,2014,149,150,299
7,서울,서대문구,2015,106,77,183
8,서울,서대문구,2016,56,109,165
9,서울,서대문구,2017,82,96,178


In [16]:
data.shape

(50, 6)

In [17]:
# 상위 5개만 조회
data.head()

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
0,서울,강남구,2013,73,92,165
1,서울,강남구,2014,139,55,194
2,서울,강남구,2015,123,83,206
3,서울,강남구,2016,147,150,297
4,서울,강남구,2017,57,133,190


In [18]:
# 하위 5개만 조회
data.tail()

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
45,부산,동래구,2013,83,65,148
46,부산,동래구,2014,139,87,226
47,부산,동래구,2015,147,115,262
48,부산,동래구,2016,61,102,163
49,부산,동래구,2017,132,105,237


In [19]:
# 상위 10개 조회
data.head(10)

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
0,서울,강남구,2013,73,92,165
1,서울,강남구,2014,139,55,194
2,서울,강남구,2015,123,83,206
3,서울,강남구,2016,147,150,297
4,서울,강남구,2017,57,133,190
5,서울,서대문구,2013,95,111,206
6,서울,서대문구,2014,149,150,299
7,서울,서대문구,2015,106,77,183
8,서울,서대문구,2016,56,109,165
9,서울,서대문구,2017,82,96,178


In [22]:
# 자치구별 남, 여 인구의 총합
# 조사년도는 총 5개년
data.groupby('자치구')[['남자인구', '여자인구']].sum()

Unnamed: 0_level_0,남자인구,여자인구
자치구,Unnamed: 1_level_1,Unnamed: 2_level_1
강남구,539,513
도봉구,485,550
동래구,562,474
동작구,454,582
서대문구,488,543
송파구,415,559
수영구,502,559
영등포구,629,562
종로구,483,373
해운대구,620,515


In [23]:
# 도시별 남여 인구 각각의 총합
data.groupby('도시')[['남자인구', '여자인구']].sum()

Unnamed: 0_level_0,남자인구,여자인구
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,1684,1548
서울,3493,3682


In [24]:
# 연도, 도시별 남여 인구의 최대값
data.groupby(['연도', '도시'])[['남자인구', '여자인구']].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,남자인구,여자인구
연도,도시,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,부산,341,262
2013,서울,758,769
2014,부산,314,369
2014,서울,882,691
2015,부산,331,266
2015,서울,541,710
2016,부산,276,376
2016,서울,671,722
2017,부산,422,275
2017,서울,641,790


In [25]:
# 도시별 연도별 총인구 평균을 구해주세요.
data.groupby(['도시', '연도'])[['총인구']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구
도시,연도,Unnamed: 2_level_1
부산,2013,201.0
부산,2014,227.666667
부산,2015,199.0
부산,2016,217.333333
부산,2017,232.333333
서울,2013,218.142857
서울,2014,224.714286
서울,2015,178.714286
서울,2016,199.0
서울,2017,204.428571


In [28]:
# 데이터 파악에 용이한 구조로 변경
data.groupby(['도시', '연도'])['총인구'].mean().unstack()

연도,2013,2014,2015,2016,2017
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
부산,201.0,227.666667,199.0,217.333333,232.333333
서울,218.142857,224.714286,178.714286,199.0,204.428571


In [29]:
# 데이터 파악에 용이한 구조로 변경 2
data.groupby(['도시', '연도'])[['총인구']].mean().unstack(0)

Unnamed: 0_level_0,총인구,총인구
도시,부산,서울
연도,Unnamed: 1_level_2,Unnamed: 2_level_2
2013,201.0,218.142857
2014,227.666667,224.714286
2015,199.0,178.714286
2016,217.333333,199.0
2017,232.333333,204.428571


#### groupby 결과를 pivot_table로 실행할 수 있다.

In [30]:
# 연도별 & 도시별, 남여 인구 각각의 최대값
# pivot_table(index='로우로 사용할 컬럼', columns='컬럼으로 사용할 컬럼',
# values='집계대상 컬럼', aggfunc='사용할 집계함수 이름')
# 로우 : 연도, 도시
# 사용할 값 : 남자인구, 여자인구
# 집계함수 : max
# groupby => data.groupby(['연도', '도시'])[['남자인구', '여자인구']].max()
data.pivot_table(index=['연도', '도시'], values=['남자인구', '여자인구'],
                aggfunc='max')

Unnamed: 0_level_0,Unnamed: 1_level_0,남자인구,여자인구
연도,도시,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,부산,134,103
2013,서울,146,138
2014,부산,139,144
2014,서울,149,150
2015,부산,147,115
2015,서울,123,139
2016,부산,134,148
2016,서울,147,150
2017,부산,146,105
2017,서울,145,150


In [33]:
# .unique()는 출현한 요소를 한 번씩만 출력한다.
data.도시.unique()

array(['서울', '부산'], dtype=object)

In [34]:
# 도시별, 연도별 총인구 평균
# 로우 : 연도(index)
# 컬럼 : 도시(columns)
# 값 : 총인구(values)
# 집계함수 : 평균(mean)
data.pivot_table(index='연도', columns='도시', values='총인구', aggfunc='mean')

도시,부산,서울
연도,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,201.0,218.142857
2014,227.666667,224.714286
2015,199.0,178.714286
2016,217.333333,199.0
2017,232.333333,204.428571


In [75]:
# 여러개의 집계함수를 서로 다른 값에 사용
# 도시별, 자치구별 남자인구의 평균, 여자인구의 합계
# 로우 : 도시, 자치구
# 값 : 남자인구, 여자인구
# 집계함수 : 평균, 총합
tmp = data.pivot_table(index=['도시', '자치구'], values=['남자인구', '여자인구'],
                      aggfunc={'남자인구':'mean', '여자인구':'sum'})

In [37]:
tmp.columns

Index(['남자인구', '여자인구'], dtype='object')

In [38]:
tmp.columns = ['남자인구_평균', '여자인구_총합']

In [39]:
tmp

Unnamed: 0_level_0,Unnamed: 1_level_0,남자인구_평균,여자인구_총합
도시,자치구,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,동래구,112.4,474
부산,수영구,100.4,559
부산,해운대구,124.0,515
서울,강남구,107.8,513
서울,도봉구,97.0,550
서울,동작구,90.8,582
서울,서대문구,97.6,543
서울,송파구,83.0,559
서울,영등포구,125.8,562
서울,종로구,96.6,373


### pivot_table 실습

In [40]:
# 1. 도시별 자치구별 남자인구 평균(data 변수를 이용해서)
tmp = data.pivot_table(index=['도시', '자치구'], values='남자인구', aggfunc='mean')

In [42]:
tmp.columns=['남자인구_평균']

In [43]:
tmp

Unnamed: 0_level_0,Unnamed: 1_level_0,남자인구_평균
도시,자치구,Unnamed: 2_level_1
부산,동래구,112.4
부산,수영구,100.4
부산,해운대구,124.0
서울,강남구,107.8
서울,도봉구,97.0
서울,동작구,90.8
서울,서대문구,97.6
서울,송파구,83.0
서울,영등포구,125.8
서울,종로구,96.6


In [74]:
# 2. 도시별, 자치구별 평균 남자인구 많은 순서대로 5개 출력
tmp = data.pivot_table(index=['도시', '자치구'], values='남자인구', aggfunc='mean')

In [46]:
tmp.sort_values(by='남자인구', ascending=False).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,남자인구
도시,자치구,Unnamed: 2_level_1
서울,영등포구,125.8
부산,해운대구,124.0
부산,동래구,112.4
서울,강남구,107.8
부산,수영구,100.4


### 통계

- 주요 통계 함수
    - value_count() : 각 고유값의 중복개수
    - count : NaN 값을 제외한 값의 개수
    - describe : 각 컬럼에 대한 요약통계 계산(count, mean, std, min, 1사분위수, 중위값, 3사분위수, max)
    - min, max : 최소, 최대 값
    - sum : 총 합
    - cumsum : 누적합
    - mean : 평균
    - median : 중위값(전체 데이터를 나열 했을 때 중간에 위치한 값)
    - var : 분산(데이터가 전체적으로 흩어진 정도, 편차제곱의 평균)
    - std : 표준편차 = 분산의 양의 제곱근
- 주요 파라미터
    - axis : 연산의 기준이 되는 축, axis=0(기본값)이면 행 방향으로 axis=1이면 열 방향으로 적용
    - skipna : NaN 값을 제외할지 여부를 설정, 기본값 = True

In [88]:
# 샘플 데이터 생성
df = pd.DataFrame(np.random.randint(50,100,(5,4)), index=['Kim','Park','Lee','Jung','Moon'],
                                  columns=[[2016,2016,2017,2017],
                                          ['영어','수학','영어','수학']])
df.index.set_names('학생명', inplace=True)
df.columns.set_names(['연도','과목'], inplace=True)


In [89]:
df

연도,2016,2016,2017,2017
과목,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,85,59,88,86
Park,82,66,56,61
Lee,84,88,66,54
Jung,62,53,91,80
Moon,80,98,83,85


In [90]:
# 기술통계, 요약통계
df.describe()

연도,2016,2016,2017,2017
과목,영어,수학,영어,수학
count,5.0,5.0,5.0,5.0
mean,78.6,72.8,76.8,73.2
std,9.476286,19.331322,15.12283,14.720734
min,62.0,53.0,56.0,54.0
25%,80.0,59.0,66.0,61.0
50%,82.0,66.0,83.0,80.0
75%,84.0,88.0,88.0,85.0
max,85.0,98.0,91.0,86.0


In [92]:
# 2017년도 성적만 분리해서 df2017로 저장(깊은복사)
df2017 = df[2017].copy()
df2017

과목,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,88,86
Park,56,61
Lee,66,54
Jung,91,80
Moon,83,85


In [93]:
df2017.shape

(5, 2)

In [94]:
# 1) count - NaN을 제외한 데이터의 갯수(행 갯수)
# 축 기준 설정 : axis를 통해 행/열 갯수집계 여부 지정 가능
# 행 갯수 : axis=0 (디폴트)
df2017.count()

과목
영어    5
수학    5
dtype: int64

In [95]:
#열 개수 => axis=1
df2017.count(axis=1)

학생명
Kim     2
Park    2
Lee     2
Jung    2
Moon    2
dtype: int64

In [98]:
# value_counts() : 범주형 데이터(문자등)에 대해 각 분류값의 개수
# 도시, 자치구 데이터 사용(data)
data['도시'].value_counts()

서울    35
부산    15
Name: 도시, dtype: int64

In [101]:
# 2) sum() : 값의 총합을 계싼
# 기본 축 방향 : 열별 총합(현재는 과목별 총합)
df2017.sum()

과목
영어    384
수학    366
dtype: int64

In [102]:
# 학생별 점수 총합
df2017.sum(axis=1)

학생명
Kim     174
Park    117
Lee     120
Jung    171
Moon    168
dtype: int64

In [103]:
# 3) mean()
# 과목별 평균
# axis=0(디폴트)
df2017.mean()

과목
영어    76.8
수학    73.2
dtype: float64

In [104]:
# 학생별 과목평균
df2017.mean(axis=1)

학생명
Kim     87.0
Park    58.5
Lee     60.0
Jung    85.5
Moon    84.0
dtype: float64

In [112]:
# 문제 1 : df 변수를 이용해서 2016, 2017 년도별, 과목별 평균 성적 출력

In [113]:
df.mean()

연도    과목
2016  영어    78.6
      수학    72.8
2017  영어    76.8
      수학    73.2
dtype: float64

In [106]:
# 위의 년도별 과목별 평균의 로우가 연도로, 컬럼이 과목이 되도록 수정

In [116]:
df.mean(1)

학생명
Kim     79.50
Park    66.25
Lee     73.00
Jung    71.50
Moon    86.50
dtype: float64

In [None]:
# 문제2 : df변수를 이용해서 학생별 전체평균

In [114]:
df.mean(0)

연도    과목
2016  영어    78.6
      수학    72.8
2017  영어    76.8
      수학    73.2
dtype: float64