### 파생변수

#### 파생변수??
기존의 변수들을 기반으로 생성된 변수
이러한 파생변수는 기존변수들의 조합, 변형, 혹은 계산을 통해 얻어지는 새로운 변수

In [19]:
from pandas import read_excel
from pandas import Series
import numpy as np

#### 1. 데이터 새로 가져오기

In [2]:
df = read_excel("https://data.hossam.kr/C02/pre_sample.xlsx", index_col="이름")
df

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
영희,2,여자,88,120,62,72
민철,1,남자,92,70,83,79
수현,3,여자,63,60,31,71
호영,4,남자,75,50,90,88
영호,4,남자,80,88,91,72
용식,2,남자,82,88,79,90
나영,1,여자,90,92,81,95
석영,1,남자,91,90,89,80


#### 2-1. 직접합계 (칼럼간의 연산)

In [3]:
df1 = df.copy()
df1['직접합계'] = df1['국어'] + df1['영어'] + df1['수학'] + df1['과학']
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,직접합계
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
철수,1,남자,98,77,88,64,327
영희,2,여자,88,120,62,72,342
민철,1,남자,92,70,83,79,324
수현,3,여자,63,60,31,71,225
호영,4,남자,75,50,90,88,303
영호,4,남자,80,88,91,72,331
용식,2,남자,82,88,79,90,339
나영,1,여자,90,92,81,95,358
석영,1,남자,91,90,89,80,350


#### 2-2. 기술통계함수를 이용한 합계

In [6]:
df2 = df.copy()
df2['합계'] = df2[df2.columns[2:6]].sum(axis=1)
df2

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,합계
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
철수,1,남자,98,77,88,64,327
영희,2,여자,88,120,62,72,342
민철,1,남자,92,70,83,79,324
수현,3,여자,63,60,31,71,225
호영,4,남자,75,50,90,88,303
영호,4,남자,80,88,91,72,331
용식,2,남자,82,88,79,90,339
나영,1,여자,90,92,81,95,358
석영,1,남자,91,90,89,80,350


#### 2-3. iloc 이용한 합계

In [7]:
# 0번째 행만 가져오기
df.iloc[0]

학년     1
성별    남자
국어    98
영어    77
수학    88
과학    64
Name: 철수, dtype: object

In [8]:
# 1~4번째 전까지 행만 가져오기
df.iloc[1:4]

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
영희,2,여자,88,120,62,72
민철,1,남자,92,70,83,79
수현,3,여자,63,60,31,71


In [9]:
# 1번째 행의 2번째 열 데이터
df.iloc[1,2]

88

In [10]:
# 모든 행에서 3번째 열만 가져옴
df.iloc[:, 3]

이름
철수     77
영희    120
민철     70
수현     60
호영     50
영호     88
용식     88
나영     92
석영     90
Name: 영어, dtype: int64

In [11]:
# 모든 행에 대해서 2번째부터 끝까지 열을 추출하여 합계
df.iloc[:, 2:].sum(axis=1)

이름
철수    327
영희    342
민철    324
수현    225
호영    303
영호    331
용식    339
나영    358
석영    350
dtype: int64

In [12]:
# iloc을 이용한 합계
df3 = df.copy()
df3['합계'] = df3.iloc[:,2:].sum(axis=1)
df3

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,합계
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
철수,1,남자,98,77,88,64,327
영희,2,여자,88,120,62,72,342
민철,1,남자,92,70,83,79,324
수현,3,여자,63,60,31,71,225
호영,4,남자,75,50,90,88,303
영호,4,남자,80,88,91,72,331
용식,2,남자,82,88,79,90,339
나영,1,여자,90,92,81,95,358
석영,1,남자,91,90,89,80,350


#### 2-4. loc 이용한 합계

In [13]:
# iloc : index-location(인덱스번호 기반) / <cf> loc : location(이름기반)
# 평균
df.loc[:,'국어':].mean(axis=1)

이름
철수    81.75
영희    85.50
민철    81.00
수현    56.25
호영    75.75
영호    82.75
용식    84.75
나영    89.50
석영    87.50
dtype: float64

In [14]:
# 최대
df.loc[:,'국어':].max(axis=1)

이름
철수     98
영희    120
민철     92
수현     71
호영     90
영호     91
용식     90
나영     95
석영     91
dtype: int64

In [15]:
# 최소
df.loc[:,'국어':].min(axis=1)

이름
철수    64
영희    62
민철    70
수현    31
호영    50
영호    72
용식    79
나영    81
석영    80
dtype: int64

In [16]:
# 표준편차
df.loc[:,'국어':].std(axis=1)

이름
철수    14.614491
영희    25.370587
민철     9.128709
수현    17.461863
호영    18.409689
영호     8.539126
용식     5.123475
나영     6.027714
석영     5.066228
dtype: float64

In [17]:
# 분산
df.loc[:,'국어':].var(axis=1)

이름
철수    213.583333
영희    643.666667
민철     83.333333
수현    304.916667
호영    338.916667
영호     72.916667
용식     26.250000
나영     36.333333
석영     25.666667
dtype: float64

#### 3. 조건별 파생변수

#### if~else 
> 합계와 평균에 대한 파생변수 추가

In [22]:
df5 = df.copy()
df5['합계'] = df.loc[:, '국어':'과학'].sum(axis=1)
df5['평균'] = df.loc[:, '국어':'과학'].mean(axis=1)
df5

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,합계,평균
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
철수,1,남자,98,77,88,64,175,87.5
영희,2,여자,88,120,62,72,208,104.0
민철,1,남자,92,70,83,79,162,81.0
수현,3,여자,63,60,31,71,123,61.5
호영,4,남자,75,50,90,88,125,62.5
영호,4,남자,80,88,91,72,168,84.0
용식,2,남자,82,88,79,90,170,85.0
나영,1,여자,90,92,81,95,182,91.0
석영,1,남자,91,90,89,80,181,90.5


#### 평균값에 따른 조건부 파생변수

In [20]:
df5['결과'] = np.where(df5['평균'] >= 80, '합격', '불합격')
df5

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,합계,평균,결과
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
철수,1,남자,98,77,88,64,327,81.75,합격
영희,2,여자,88,120,62,72,342,85.5,합격
민철,1,남자,92,70,83,79,324,81.0,합격
수현,3,여자,63,60,31,71,225,56.25,불합격
호영,4,남자,75,50,90,88,303,75.75,불합격
영호,4,남자,80,88,91,72,331,82.75,합격
용식,2,남자,82,88,79,90,339,84.75,합격
나영,1,여자,90,92,81,95,358,89.5,합격
석영,1,남자,91,90,89,80,350,87.5,합격


#### 경우의 수에 따른 조건값

In [21]:
# 학점을 부여하기 위한 점수의 구간을 설정하는 조건들을 리스트로 설정
conditions = [
    (df5['평균']>=90),
    (df5['평균']>=80),
    (df5['평균']>=70)
]

value = ['A','B','C']

df5['학점'] = np.select(conditions, value, default='F')
df5

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,합계,평균,결과,학점
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
철수,1,남자,98,77,88,64,327,81.75,합격,B
영희,2,여자,88,120,62,72,342,85.5,합격,B
민철,1,남자,92,70,83,79,324,81.0,합격,B
수현,3,여자,63,60,31,71,225,56.25,불합격,F
호영,4,남자,75,50,90,88,303,75.75,불합격,C
영호,4,남자,80,88,91,72,331,82.75,합격,B
용식,2,남자,82,88,79,90,339,84.75,합격,B
나영,1,여자,90,92,81,95,358,89.5,합격,B
석영,1,남자,91,90,89,80,350,87.5,합격,B
