# 변수 형식 처리 및 파생변수 생성

### 주요 내용

1. 변수 수정, 추가 및 제거
2. 형식 변환 및 파생변수 생성
<br>

### 목표 
1. 분석 목적에 맞게 변수를 수정하고 파생 변수를 추가할 수 있다.
2. 날짜 등 변수 형식을 활용할 수 있다.

<br>
<hr>
<br>


## 1. 변수(열)의 수정, 추가, 제거

**pandas**의 기본 기능과 메서드를 활용하여 변수를 추가 하거나 수정, 업데이트하거나 제거 가능  
변수를 선택하듯 **=**을 활용해서 변수를 추가하거나 업데이트 가능

### 1.1. 변수 수정 및 추가

In [None]:
# 라이브러리 불러오기
import pandas as pd


# 예제 만들기 : 딕셔너리를 활용한 DataFrame 생성
df_own = pd.DataFrame({'FIRST' : ['A', 'B', 'C', 'D'],
                       'SECOND': [7,6,5,8], 
                       'THIRD' : pd.date_range('2023-01-01', periods=4, freq='W-SAT')})
df_own

In [None]:
# 변수 형식 확인
df_own.dtypes

In [None]:
# 변수이름을 활용한 변수선택
df_own['SECOND']

In [None]:
# =을 활용한 추가
df_own['FOURTH'] = 0
df_own

In [None]:
# =을 활용한 업데이트
df_own['FOURTH'] = df_own['SECOND'] + 1
df_own

In [None]:
# .assign()도 활용 가능
df_own.assign(FOURTH = df_own['SECOND'] + 1)

<br>

pandas의 *dt.weekday*를 활용하여 날짜시간 변수에서 날짜 요소를 추출
 * 참고: [dt.weekday](https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.weekday.html)

In [None]:
# pandas의 dt.weekday 활용
    ## ['THIRD'] 대신 .THIRD 활용가능
df_own['THIRD'].dt.weekday

In [None]:
df_own['WEEKDAY'] = df_own['THIRD'].dt.weekday
df_own

<br>

### 1.2.  변수 제거

*drop()*은 **index**와 **columns**를 활용하여 관측치와 변수를 제거  
`axis=`옵션에 따라 `axis=0`이면 관측치를 제거하거 `axis=1`이면 변수를 제거  

`columns=`이라는 옵션을 명시해서 변수를 제거하는 것이 가장 명확하고 실수를 줄일 수 있음

In [None]:
# drop()을 활용한 관측치/변수 제거
df_own.drop('FOURTH', axis=1)
    # axis = 0 : 관측치
    # axis = 1 : 변수

In [None]:
# drop()을 활용한 관측치/변수 제거(columns 활용)
df_own.drop(columns=['FOURTH'])
  

In [None]:
# drop( ) 실행 후 원본 데이터는 변함이 없음
df_own

In [None]:
# 원본 데이터의 업데이트
df_own = df_own.drop(columns=['FOURTH'])
df_own

In [None]:
# 리스트를 활용한 복수 인덱스 제거
df_own = df_own.drop([0,3], axis=0)
df_own

In [None]:
df_own.drop('FOURTH', axis=0)

<br>

### 1.3. 변수 이름 변경

변수이름을 바꾸고 싶을 때는 **DataFrame**의 메서드 *rename()*을 활용  
이때 `columns=` 옵션을 활용하고 딕셔너리 형식으로 기존변수이름과 새변수이름을 콜론으로 연결

In [None]:
# rename() 활용 변수 이름 바꾸기 
df_own.rename(columns = {'FIRST':'var1', 'SECOND':'var2'})

<br>

#### [실습] df_sp를 활용

1. 'math score', 'reading score', 'writing score'를 합한 변수 'sum'을 **df_sp**에 추가
2. 'math score', 'reading score', 'writing score' 중 한과목이라도 40보다 작은지 확인하고 변수 'fail_yn' 추가
3. 2.의 'fail_yn'을 활용해서 세 점수 중 하나라도 40점 미만인 학생 선택
4. 변수 'sum'의 이름을 'total'로 변경
5. 변수 'fail_yn'을 **df_sp**에서 제거하고 원본 데이터 업데이트 

In [None]:
df_sp = pd.read_csv('data/StudentsPerformance.csv')
df_sp.head()

In [None]:
df_sp['sum'] = df_sp['math score'] + df_sp['reading score'] + df_sp['writing score']
df_sp

In [None]:
cond_fail = (df_sp['math score']<40) | (df_sp['reading score']<40) | (df_sp['writing score']<40)
cond_fail

In [None]:
df_sp['fail_yn'] = cond_fail
df_sp

In [None]:
df_sp[cond_fail]['fail_yn']

In [None]:
df_sp = df_sp.rename(columns={'sum':'total'})

In [None]:
df_sp = df_sp.drop('fail_yn', axis=1)
df_sp

In [None]:
df_sp['fail_yn'].isin(['True']) 

#### 참고
한번에 비교 연산을 하거나 DataFrame의 sum()을 활용 가능

In [None]:
df_sp.select_dtypes('number') <= 40

In [None]:
# 하나라도 True인 것 찾기
(df_sp.select_dtypes('number') <= 40).any(axis=1)

In [None]:
# 변수별로 40점 미만 학생수 계산하기
(df_sp.select_dtypes('number') <= 40).sum(axis=0)

In [None]:
# 관측치별로 40점 미만 과목수 계산하기
(df_sp.select_dtypes('number') <= 40).sum(axis=1)

In [None]:
(df_sp.select_dtypes('number') <= 40).sum(axis=1).value_counts()

<br>
<hr>
<br>

## 2. 변수 형식 변환 및 파생변수 생성

분석과정에서 변수의 형식을 바꾸거나 기존 변수를 활용한 파생변수 생성 가능  



### 2.1. 변수 형식의 확인/변환
**DataFrame**에서는 아래와 같은 형식의 Seires를 활용  


+ float: 실수(소수점을 포함한 숫자)
+ int: 정수(integer)
+ datetime: 날짜시간
+ bool: 불/불린(True 혹은 False)
+ category: 범주형
+ object: 문자형(string) 혹은 그 외

*.dtypes*를 활용하여 변수 형식을 확인  
*.astype()*을 활용해서 변수 형식을 변환 



In [None]:
# 데이터 불러오기
df_ins = pd.read_csv('data/insurance.csv')
df_ins.head()

In [None]:
# 변수 형식 확인
df_ins.dtypes

In [None]:
# children을 float으로 변환
df_ins['children'].astype('float')

In [None]:
# 기존 변수의 형식 업데이트
df_ins['children'] = df_ins['children'].astype('float')
df_ins.head()

In [None]:
# 복수 변수의 형식 일괄 업데이트
category_vars = ['sex', 'smoker', 'region']
df_ins[category_vars] = df_ins[category_vars].astype('category')
df_ins.dtypes

In [None]:
# select_dtypes()의 활용
df_ins.select_dtypes('category')

<br>

#### [실습] df_pr의 활용

1. Pulse2(뛴 후)와 Pulse1(뛰기 전)의 차이를 계산하고 'Diff'로 변수 추가하기
2. .dtypes로 형식 확인하고 .nunique()로 중복값 제거한 값 개수 확인하기
3. 범주형 형식이 적당한 변수 목록 만들기
4. 3.의 변수들을 astype()으로 category 형식으로 변환하고 업데이트 하기
5. Ran, Smokes, Alcohol별 1.의 Diff의 평균 계산하기

In [None]:
df_pr = pd.read_csv('data/PulseRates.csv')
df_pr.head()

In [None]:
df_pr['Diff'] = df_pr['Pulse2'] - df_pr['Pulse1']
df_pr

In [None]:
df_pr.nunique()

In [None]:
category_vars = ['Gender', 'Smokes', 'Alcohol', 'Exercise','Ran']
df_pr[category_vars] = df_pr[category_vars].astype('category')
df_pr.dtypes

In [None]:
df_pr.groupby(['Ran', 'Smokes', 'Alcohol'], as_index=False)['Diff'].mean()

<br>

### 2.2. 수치형 변수의 구간화

수치형 변수는 *cut()* 이나 *qcut()* 으로 구간화 가능  


+ *cut()*: 등간격 혹은 주어진 구간 경계로 구간화
+ *qcut()*: 등비율로 구간화

<br>

*cut()*을 활용해서 등간격으로 구간화할 수 있고, `bins=` 옵션에 적절한 구간값을 직접 넣을 수도 있습니다. 

In [None]:
# 등간격으로 구간화하기
pd.cut(df_ins['charges'], bins=10)

In [None]:
charges_breaks = [0, 5000, 10000, 20000, 99999999999999]

In [None]:
pd.cut(df_ins['charges'], bins=charges_breaks, right=False, labels=['4','3','2','1'])

In [None]:
# cut()을 활용한 10등급화
df_ins['charges_grp'] = pd.cut(df_ins['charges'], bins=10, labels=range(10))
df_ins

In [None]:
# 등구간의 관측치 불균형 문제
df_ins['charges_grp'].value_counts()

In [None]:
# qcut()을 활용한 등비율 구간화
df_ins['charges_grp2'] = pd.qcut(df_ins['charges'], q=10, labels=range(1,11))
df_ins

In [None]:
df_ins['charges_grp2'].value_counts()

In [None]:
pd.qcut(df_ins['charges'], q=10)

<br>

#### [실습] 데이터 df_sp 활용

1. cut()으로 'reading score'를 20점 단위로 5개 그룹 변수 추가 
2. cut()으로 'reading score'를 등간격(구간 길이 동일)으로 5개 그룹 변수 추가
3. qcut()으로 'readiong score'를 등비율로 5 등급화
4. crosstab()을 활용해서 'parental level of education'과 3.의 그룹 변수로 교차표 생성/열지도 시각화

In [None]:
df_sp.head()

In [None]:
pd.cut(df_sp['reading score'], bins=[0,20,40,60,80,100])

In [None]:
pd.cut(df_sp['reading score'], bins=5)

In [None]:
df_sp['r_grp'] = pd.qcut(df_sp['reading score'], q=5, labels=range(5))
df_sp

In [None]:
tab = pd.crosstab(df_sp['parental level of education'], df_sp['r_grp'] , normalize='index')
tab

In [None]:
import seaborn as sns

sns.heatmap(tab, cmap='YlGnBu', annot=True)

In [None]:
sns.boxplot(data=df_sp, x='parental level of education', y='reading score')

### 2.3. 날짜시간 변수 활용

날짜시간 변수에서 요소를 추출할 수 있고, 날짜시간별로 집계된 데이터로 시각화 가능

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

plt.rc('font', family='Malgun Gothic')
plt.rc('axes', unicode_minus=False)

In [None]:
df_subway = pd.read_csv('data/서울교통공사_역별일별승하차인원정보_20220731.csv')
df_subway

In [None]:
# to_datetime()을 활용한 형식 변환
df_subway['호선'] = df_subway['호선'].astype('category')
df_subway['날짜'] = pd.to_datetime(df_subway['날짜'])
df_subway.dtypes

In [None]:
# 요일 변수 생성
df_subway['요일'] = df_subway['날짜'].dt.weekday
df_subway

In [None]:
# 월 변수 생성
df_subway['월'] = df_subway['날짜'].dt.month
df_subway

In [None]:
# 날짜별 집계값의 생성
agg = df_subway.groupby(['날짜','호선'], as_index=False)['이용객수'].sum()
agg

In [None]:
agg['요일'] = agg['날짜'].dt.weekday
agg

In [None]:
# 시계열 데이터의 시각화 
sns.lineplot(data=agg, 
             x='날짜',
             y='이용객수',
             hue='호선')

In [120]:
agg['요일'] = agg['요일'].replace({5: '토', 6: '일'})
agg

Unnamed: 0,날짜,호선,이용객수,요일
0,2022-01-01,1,173736,토
1,2022-01-01,2,975559,토
2,2022-01-01,3,356262,토
3,2022-01-01,4,386622,토
4,2022-01-01,5,461184,토
...,...,...,...,...
1691,2022-07-31,4,492378,일
1692,2022-07-31,5,554841,일
1693,2022-07-31,6,327457,일
1694,2022-07-31,7,496649,일


#### [실습] df_accident를 활용하여 7, 8월 새벽 1~5시 사고 건수 계산

In [None]:
df_accident = pd.read_csv('data/도로교통공단_사망 교통사고 정보_20211231_utf8.csv')
df_accident

In [None]:
df_accident['발생년월일시'] = pd.to_datetime(df_accident['발생년월일시'] )
df_accident['월'] = df_accident['발생년월일시'].dt.month
df_accident['시'] = df_accident['발생년월일시'].dt.hour
df_accident

In [None]:
cond = df_accident['월'].between(7,8)  & df_accident['시'].between(1,5)
df_accident[cond].shape[0]

In [None]:
tab = df_accident.pivot_table(index='월', columns='시', values='사망자수', aggfunc='sum')
tab

In [None]:
tab.loc[7:8, 1:5].sum().sum()

In [None]:
sns.heatmap(tab, cmap="YlGnBu", annot=True)

In [None]:
df_accident.columns

In [None]:
for col in ['사망자수', '부상자수', '중상자수', '경상자수']:
    print(col)
    tab = df_accident.pivot_table(index='발생지시도', columns='시', values=col, aggfunc='sum')
    sns.heatmap(tab, cmap="YlGnBu", annot=True)
    plt.show()

In [None]:
df_accident.sort_values('부상자수').tail()

In [None]:
df_accident.loc[636]

#### End of script