In [37]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
xlsx = pd.read_excel('http://itpaper.co.kr/data/grade_card.xlsx', engine='openpyxl')
df = xlsx.set_index('이름')
df

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [3]:
df['총점'] = df['국어'] + df['영어'] + df['수학'] + df['과학']
df

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,총점
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
철수,1,남자,98,,88.0,64.0,
영희,2,여자,88,90.0,62.0,72.0,312.0
민수,1,남자,92,70.0,,,
수현,3,여자,63,60.0,31.0,70.0,224.0
호영,4,남자,120,50.0,,88.0,


### 파생변수

In [4]:
# 집계가 가능한 서열척도만 추출

df2 = df.filter(['국어','영어','수학','과학'])
df2

Unnamed: 0_level_0,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
철수,98,,88.0,64.0
영희,88,90.0,62.0,72.0
민수,92,70.0,,
수현,63,60.0,31.0,70.0
호영,120,50.0,,88.0


In [5]:
# 열단위 합계 산출

df2.sum()

국어    461.0
영어    270.0
수학    181.0
과학    294.0
dtype: float64

In [6]:
# 열단위 평균 산출
df2.mean()

국어    92.200000
영어    67.500000
수학    60.333333
과학    73.500000
dtype: float64

In [7]:
# 행단위합계와 평균을 산출하여 파생변수로 추가

# 복사본 생성
df3 = df2.copy()

# df2에서 합계를 산정하여 df3에 추가함
df3['총점'] = df2.sum(axis=1)
# df2에서 평균을 산정하여 df3에 추가함
# -> 만약 총점을 df2에 추가했다면 평균은 (4과목개별점수+총점)/5 로 계산되어짐
df3['평균'] = df2.mean(axis=1)
df3

Unnamed: 0_level_0,국어,영어,수학,과학,총점,평균
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,98,,88.0,64.0,250.0,83.333333
영희,88,90.0,62.0,72.0,312.0,78.0
민수,92,70.0,,,162.0,81.0
수현,63,60.0,31.0,70.0,224.0,56.0
호영,120,50.0,,88.0,258.0,86.0


#### 조건에 따른 선택적인 값으로 파생변수 추가

In [8]:
# 조건이 참인경우 A 아니면 B

df3['결과'] = np.where(df3['평균'] >= 70, '합격', '불합격')
df3

Unnamed: 0_level_0,국어,영어,수학,과학,총점,평균,결과
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
철수,98,,88.0,64.0,250.0,83.333333,합격
영희,88,90.0,62.0,72.0,312.0,78.0,합격
민수,92,70.0,,,162.0,81.0,합격
수현,63,60.0,31.0,70.0,224.0,56.0,불합격
호영,120,50.0,,88.0,258.0,86.0,합격


In [9]:
# 여러개의 조건중에서 선택적인 값을 추가하기

# 학점을 부여하기 위한 점수의 구간을 설정하는 조건들을 리스트로 설정
conditions = [
                (df3['평균'] >= 90),   # A
                (df3['평균'] >= 80),   # B
                (df3['평균'] >= 70)    # C
             ]

# 조건에 따라 부여될 학점
grade = [ 'A', 'B', 'C' ]

# 조건에 따른 학점열 추가하기
# default 파라미터는 조건에 부합하지 않을 경우 사용할 기본값
df3['학점'] = np.select(conditions, grade, default='F')
df3

Unnamed: 0_level_0,국어,영어,수학,과학,총점,평균,결과,학점
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
철수,98,,88.0,64.0,250.0,83.333333,합격,B
영희,88,90.0,62.0,72.0,312.0,78.0,합격,C
민수,92,70.0,,,162.0,81.0,합격,B
수현,63,60.0,31.0,70.0,224.0,56.0,불합격,F
호영,120,50.0,,88.0,258.0,86.0,합격,B


#### 데이터 재배치

In [10]:
인구조사 = pd.read_excel("http://itpaper.co.kr/data/city_people.xlsx", engine='openpyxl')
인구조사.set_index('도시', inplace=True)
인구조사

Unnamed: 0_level_0,연도,인구,지역
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,2015,9904312,수도권
서울,2010,9631482,수도권
서울,2005,9762546,수도권
부산,2015,3448737,경상권
부산,2010,3393191,경상권
부산,2005,3512547,경상권
인천,2015,2890451,수도권
인천,2010,2632035,수도권


In [11]:
# 인덱스를 일반컬럼으로 재설정

인구조사df = 인구조사.reset_index()
인구조사df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,2632035,수도권


In [12]:
# 피벗테이블 구성

pv = 인구조사df.pivot(index='도시', columns='연도', values='인구')
pv

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,2632035.0,2890451.0


In [13]:
# 동일한 결과를 갖는 Pandas 객체의 함수

pv = pd.pivot_table(인구조사df, index='도시', columns='연도', values='인구')
pv

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,2632035.0,2890451.0


In [14]:
# 두개 이상의 인덱스 사용하기

pv = 인구조사df.pivot(index=['지역','도시'], columns='연도', values='인구')
pv

Unnamed: 0_level_0,연도,2005,2010,2015
지역,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
경상권,부산,3512547.0,3393191.0,3448737.0
수도권,서울,9762546.0,9631482.0,9904312.0
수도권,인천,,2632035.0,2890451.0


In [15]:
# 두개이상의 컬럼 사용하기

pv = 인구조사df.pivot(index=['연도'], columns=['지역','도시'], values='인구')
pv

지역,수도권,경상권,수도권
도시,서울,부산,인천
연도,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
2005,9762546.0,3512547.0,
2010,9631482.0,3393191.0,2632035.0
2015,9904312.0,3448737.0,2890451.0


In [16]:
# 피벗테이블 생성제약 (컬럼과 인덱스로 지정한걸 값으로지정못함)

# 인구조사df.pivot(index='지역', columns='연도', values='인구')

In [17]:
# Pandas객체를 활용한 문제해결

df = pd.pivot_table(인구조사df, index='지역', columns='연도', values='인구', 
                    aggfunc=np.mean)
df

연도,2005,2010,2015
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
경상권,3512547.0,3393191.0,3448737.0
수도권,9762546.0,6131758.5,6397381.5


#### Stack()

In [18]:
# 성적표 데이터를 stack() 처리

df_stack = df.stack()
print(type(df_stack))
df_stack

<class 'pandas.core.series.Series'>


지역   연도  
경상권  2005    3512547.0
     2010    3393191.0
     2015    3448737.0
수도권  2005    9762546.0
     2010    6131758.5
     2015    6397381.5
dtype: float64

In [19]:
df_stack_frame = pd.DataFrame(df_stack)
df_stack_frame

Unnamed: 0_level_0,Unnamed: 1_level_0,0
지역,연도,Unnamed: 2_level_1
경상권,2005,3512547.0
경상권,2010,3393191.0
경상권,2015,3448737.0
수도권,2005,9762546.0
수도권,2010,6131758.5
수도권,2015,6397381.5


In [20]:
# 결측치를 삭제하지않고 stack 처리
s = pd.DataFrame(df.stack(dropna=False))
s

Unnamed: 0_level_0,Unnamed: 1_level_0,0
지역,연도,Unnamed: 2_level_1
경상권,2005,3512547.0
경상권,2010,3393191.0
경상권,2015,3448737.0
수도권,2005,9762546.0
수도권,2010,6131758.5
수도권,2015,6397381.5


In [21]:
# 각 도시의 연도별 인구 수 피벗 테이블

pv = pd.pivot_table(인구조사df, index='도시', columns='연도', values='인구')
pv

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,2632035.0,2890451.0


In [22]:
# 피벗테이블을 stack 처리

pvst = pd.DataFrame(pv.stack())
pvst

Unnamed: 0_level_0,Unnamed: 1_level_0,0
도시,연도,Unnamed: 2_level_1
부산,2005,3512547.0
부산,2010,3393191.0
부산,2015,3448737.0
서울,2005,9762546.0
서울,2010,9631482.0
서울,2015,9904312.0
인천,2010,2632035.0
인천,2015,2890451.0


#### Unstack()

In [23]:
# stack결과를 다시 복원하기

t = s.unstack()
t

Unnamed: 0_level_0,0,0,0
연도,2005,2010,2015
지역,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
경상권,3512547.0,3393191.0,3448737.0
수도권,9762546.0,6131758.5,6397381.5


In [24]:
# stack처리된 피벗테이블 복원

pvun = pvst.unstack()
pvun

Unnamed: 0_level_0,0,0,0
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,2632035.0,2890451.0


#### melt()

In [28]:
xlsx = pd.read_excel('http://itpaper.co.kr/data/grade_card.xlsx', engine='openpyxl')
df = xlsx.set_index('이름')

In [32]:
# 성적표 데이터 프레임에서 인덱스를 일반 컬럼으로 변경
tmp_df = df.reset_index()
# 이름과 학년을 기준으로 melt() 재배치
melt_df = tmp_df.melt(id_vars=['이름','학년'])
melt_df

Unnamed: 0,이름,학년,variable,value
0,철수,1,성별,남자
1,영희,2,성별,여자
2,민수,1,성별,남자
3,수현,3,성별,여자
4,호영,4,성별,남자
5,철수,1,국어,98
6,영희,2,국어,88
7,민수,1,국어,92
8,수현,3,국어,63
9,호영,4,국어,120


In [33]:
# 가독성 향상을 위해 데이터 정렬

melt_df.sort_values(['이름', '학년'])

Unnamed: 0,이름,학년,variable,value
2,민수,1,성별,남자
7,민수,1,국어,92
12,민수,1,영어,70.0
17,민수,1,수학,
22,민수,1,과학,
3,수현,3,성별,여자
8,수현,3,국어,63
13,수현,3,영어,60.0
18,수현,3,수학,31.0
23,수현,3,과학,70.0


In [34]:
# 학년과 설별에 대한 교차표 만들기

# 성적표 데이터 프레임에서 인덱스를 일반 컬럼으로 변경
tmp_df = df.reset_index()
pd.crosstab(tmp_df['학년'], tmp_df['성별'])

성별,남자,여자
학년,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2,0
2,0,1
3,0,1
4,1,0


In [35]:
# Multi-index로 교챠표 만들기

# 성적표 데이터 프레임에서 인덱스를 일반 컬럼으로 변경
tmp_df = df.reset_index()
pd.crosstab(tmp_df['학년'], tmp_df['성별'])

성별,남자,여자
학년,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2,0
2,0,1
3,0,1
4,1,0


In [36]:
# Multi-column로 교차표 만들기

# 성적표 데이터 프레임에서 인덱스를 일반 컬럼으로 변경
tmp_df = df.reset_index()
pd.crosstab(tmp_df['학년'], tmp_df['성별'])

성별,남자,여자
학년,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2,0
2,0,1
3,0,1
4,1,0


In [38]:
# Mulit-column, Multi-index로 교차표 만들기

pd.crosstab([tmp_df['학년'], tmp_df['성별']], [tmp_df['국어'], tmp_df['영어']])

Unnamed: 0_level_0,국어,63,88,92,120
Unnamed: 0_level_1,영어,60.0,90.0,70.0,50.0
학년,성별,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1,남자,0,0,1,0
2,여자,0,1,0,0
3,여자,1,0,0,0
4,남자,0,0,0,1


In [39]:
# 교차표의 행, 열 이름부여

pd.crosstab(tmp_df['학년'], tmp_df['성별'], rownames=['level'], colnames=['sex'])

sex,남자,여자
level,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2,0
2,0,1
3,0,1
4,1,0


In [41]:
# 교차표의 행, 열 합 추가

pd.crosstab(tmp_df['학년'], tmp_df['성별'], margins=True)

성별,남자,여자,All
학년,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2,0,2
2,0,1,1
3,0,1,1
4,1,0,1
All,3,2,5


In [42]:
# 상대도수를 사용한 교차표 만들기

pd.crosstab(tmp_df['학년'], tmp_df['성별'], margins=True, normalize=True)

성별,남자,여자,All
학년,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,0.4,0.0,0.4
2,0.0,0.2,0.2
3,0.0,0.2,0.2
4,0.2,0.0,0.2
All,0.6,0.4,1.0


### 그룹별 집계

#### 하나의 컬럼을 집단별로 나누고 그룹분석

In [43]:
인구조사 = pd.read_excel("http://itpaper.co.kr/data/city_people.xlsx", engine='openpyxl')
인구조사

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,2632035,수도권


In [44]:
# 분석을 위해 그룹을 묶을 컬럼과 집계를 수행할 컬럼 추출

도시별인구 = 인구조사.filter(['도시', '인구'])
도시별인구

Unnamed: 0,도시,인구
0,서울,9904312
1,서울,9631482
2,서울,9762546
3,부산,3448737
4,부산,3393191
5,부산,3512547
6,인천,2890451
7,인천,2632035


In [45]:
# 특정 컬럼을 그룹으로 묶고 다른컬럼으로 집계수행

도시별_최대_인구수 = 도시별인구.groupby('도시').max()
도시별_최대_인구수

Unnamed: 0_level_0,인구
도시,Unnamed: 1_level_1
부산,3512547
서울,9904312
인천,2890451


#### 두개 이상의 컬럼을 집단별로 나누고 그룹분석

In [46]:
# 기준이 될 컬럼 2건과 집계를 수행할 컬럼 추출

지역_연도_인구 = 인구조사.filter(['지역', '연도', '인구'])
지역_연도_인구

Unnamed: 0,지역,연도,인구
0,수도권,2015,9904312
1,수도권,2010,9631482
2,수도권,2005,9762546
3,경상권,2015,3448737
4,경상권,2010,3393191
5,경상권,2005,3512547
6,수도권,2015,2890451
7,수도권,2010,2632035


In [47]:
# 두개이상의 컬럼을 그룹으로 묶은 후 집계 수행

지역_연도별_최대인구 = 지역_연도_인구.groupby([ '지역', '연도' ]).max()
지역_연도별_최대인구

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
지역,연도,Unnamed: 2_level_1
경상권,2005,3512547
경상권,2010,3393191
경상권,2015,3448737
수도권,2005,9762546
수도권,2010,9631482
수도권,2015,9904312


In [48]:
# 집계 결과를 피벗테이블로 변환

지역_연도별_최대인구.unstack()

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
지역,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
경상권,3512547,3393191,3448737
수도권,9762546,9631482,9904312


In [49]:
# 인덱스를 구성하지 않고 그룹으로 묶기

지역_연도_인구_no_idx = 지역_연도_인구.groupby([ '지역', '연도' ], as_index=False).max()
지역_연도_인구_no_idx

Unnamed: 0,지역,연도,인구
0,경상권,2005,3512547
1,경상권,2010,3393191
2,경상권,2015,3448737
3,수도권,2005,9762546
4,수도권,2010,9631482
5,수도권,2015,9904312


In [51]:
# 인덱스가 구성되지않은 집계 결과를 피벗테이블로 구성

지역_연도_인구_no_idx.pivot(index='지역', columns='연도', values='인구')


연도,2005,2010,2015
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
경상권,3512547,3393191,3448737
수도권,9762546,9631482,9904312


#### 하나의 컬럼에대해 여러개의 집계함수 동시사용

In [52]:
# 하나의 커럼에 다중 집게함수 사용

도시인구 = 인구조사.filter(['도시', '인구'])
도시인구_집계 = 도시인구.groupby('도시').agg(['min','max','std','sum'])
도시인구_집계

Unnamed: 0_level_0,인구,인구,인구,인구
Unnamed: 0_level_1,min,max,std,sum
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
부산,3393191,3512547,59725.663038,10354475
서울,9631482,9904312,136449.978473,29298340
인천,2632035,2890451,182727.705967,5522486


In [53]:
# 다중 집계결과데이터 재배치

도시인구_집계_st = 도시인구_집계.stack()
도시인구_집계_st

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,min,3393191.0
부산,max,3512547.0
부산,std,59725.66
부산,sum,10354480.0
서울,min,9631482.0
서울,max,9904312.0
서울,std,136450.0
서울,sum,29298340.0
인천,min,2632035.0
인천,max,2890451.0


In [55]:
# Pandas의 지수표현설정 해제

pd.options.display.float_format = '{:.1f}'.format

도시인구_집계_st

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,min,3393191.0
부산,max,3512547.0
부산,std,59725.7
부산,sum,10354475.0
서울,min,9631482.0
서울,max,9904312.0
서울,std,136450.0
서울,sum,29298340.0
인천,min,2632035.0
인천,max,2890451.0


#### 여러컬럼에 대해 서로 다른 집계함수 적용

In [56]:
# 분석할 필드 추출

지역도시인구 = 인구조사.filter(['지역', '도시', '인구'])
지역도시인구

Unnamed: 0,지역,도시,인구
0,수도권,서울,9904312
1,수도권,서울,9631482
2,수도권,서울,9762546
3,경상권,부산,3448737
4,경상권,부산,3393191
5,경상권,부산,3512547
6,수도권,인천,2890451
7,수도권,인천,2632035


In [57]:
# 여러 컬럼에 서로 다른 집계함수 적용

지역도시인구.groupby('지역').agg({'도시': ['count'], '인구': ['sum', 'max']})

Unnamed: 0_level_0,도시,인구,인구
Unnamed: 0_level_1,count,sum,max
지역,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
경상권,3,10354475,3512547
수도권,5,34820826,9904312


#### 사용자 정의 함수를 적용

In [60]:
# 사용자 함수 설정

def my_range(x):
    return np.max(x) - np.min(x)

In [61]:
# 사용자 정의 함수를 적용한 집계

도시인구.groupby('도시').agg(['min','max','std','sum', my_range])

Unnamed: 0_level_0,인구,인구,인구,인구,인구
Unnamed: 0_level_1,min,max,std,sum,my_range
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
부산,3393191,3512547,59725.7,10354475,119356
서울,9631482,9904312,136450.0,29298340,272830
인천,2632035,2890451,182727.7,5522486,258416
