# 변수 형식 처리 및 파생변수 생성

### 주요 내용

1. 변수 수정, 추가 및 제거
2. 형식 변환
3. 결측값 처리 및 파생변수 생성

<br>

### 목표 
1. 분석 목적에 맞게 변수를 수정하고 파생 변수를 추가할 수 있다.
2. 날짜 등 변수 형식을 활용할 수 있다.
3. 결측값을 적절한 값으로 대체하는 방법을 확인한다.


<br>
<hr>
<br>

<br>

## 1. 변수(열)의 수정, 추가, 제거

**pandas**의 기본 기능과 메서드를 활용하여 변수를 추가 하거나 수정, 업데이트하거나 제거할 수 있습니다.  
변수를 선택하듯 **=**을 활용해서 변수를 추가하거나 업데이트 할 수 있습니다. 

### 1.1. 변수 수정 및 추가

In [None]:
# 라이브러리 불러오기
import pandas as pd


# 예제 만들기 : 딕셔너리를 활용한 DataFrame 생성
df_own = pd.DataFrame({'FIRST' : ['A', 'B', 'C', 'D'],
                       'SECOND': [7,6,5,8], 
                       'THIRD' : pd.date_range('2023-01-01', periods=4, freq='W-SAT')})
df_own

In [None]:
# 변수이름을 활용한 변수선택
df_own['SECOND']

In [None]:
# =을 활용한 추가
df_own['FOURTH'] = 0
df_own

In [None]:
# =을 활용한 업데이트
df_own['FOURTH'] = df_own['SECOND'] + 1
df_own

<br>

### 1.2. 객체 메서드와 Series 메서드의 비교

특히 날짜시간 변수의 경우 월, 일, 요일, 시간 등 다양한 요소를 추출해서 변수로 추가할 수 있는데, 객체 자체의 메서드를 활용하거나 **pandas**의 함수를 활용할 수 있습니다.  

Python은 개발언어로 객체의 형식에 매우 엄격합니다. 개별 날짜에 적용할 수 있는 메서드는 **pandas**의 **Series**에는 적용할 수 없기 때문에 *apply()*등을 활용해야 합니다.

In [None]:
# []와 for를 활용한 파생변수 생성
df_own.loc[0, 'THIRD'].weekday()
    ## 하나의 값에 대해서는 메서드 활용가능

In [None]:
# Series에 대해서는 Series의 메서드만 활용 가능
# df_own['THIRD'].weekday()

In [None]:
df_own['THIRD'].apply(lambda x: x.weekday())
df_own

<br>

pandas의 *dt.weekday*를 활용하면 훨씬 손쉽게 파생변수를 만들수 있습니다.
 * 참고: [dt.weekday](https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.weekday.html)

In [None]:
# pandas의 dt.weekday 활용
df_own['THIRD'].dt.weekday

In [None]:
df_own['WEEKDAY'] = df_own['THIRD'].dt.weekday

<br>

### 1.3. 조건을 활용한 값 생성 및 변수 제거

조건을 활용해 일부 관측치를 선택하듯이, 조건을 설정하고 변수를 추가하거나 업데이트 하는 것도 가능합니다.

In [None]:
# 일부 관측치만 값 생성
df_own.loc[df_own['FIRST'].isin(['A','B']), 'OPTIONAL'] = 1
df_own
    ## NaN := 결측값(missing)

<br>

*drop()*은 관측치와 변수를 제거할 수 있는데 **index**와 **columns**를 활용합니다. `axis=`옵션에 따라 `axis=0`이면 관측치를 제거하거 `axis=1`이면 변수를 제거합니다.  

`columns=`이라는 옵션을 명시해서 변수를 제거하는 것이 가장 명확하고 실수를 줄일 수 있습니다. 

In [None]:
# drop()을 활용한 관측치/변수 제거
df_own.drop('FOURTH', axis=1)
    # axis = 0 : 관측치
    # axis = 1 : 변수

In [None]:
# drop()을 활용한 관측치/변수 제거(columns 활용)
df_own.drop(columns=['FOURTH'])
  

In [None]:
# drop( ) 실행 후 원본 데이터는 변함이 없음
df_own

In [None]:
# 원본 데이터의 업데이트
df_own = df_own.drop(columns=['FOURTH'])
df_own

In [None]:
# 리스트를 활용한 복수 인덱스 제거
df_own = df_own.drop([0,3], axis=0)
df_own

<br>

### 1.4. 결측값 대체 예제

**DataFrame**에서 결측값은 *NaN*으로 표시됩니다. 특정한 변수를 기준으로 각 관측치의 결측여부를 따지는 함수는 *isnull()*이고 기존의 방법을 조합해서 아래처럼 간단하게 결측값을 적절하게 대체할 수 있습니다.  
결측값 대체는 아래에서 다시 한번 더 다루겠습니다.

In [None]:
df_own.loc[df_own['OPTIONAL'].isnull()]

In [None]:
df_own.loc[df_own['OPTIONAL'].isnull(), 'OPTIONAL']  = 0.0
df_own

<br>

### 1.5. 변수 이름 변경

변수이름을 바꾸고 싶을 때는 **DataFrame**의 메서드 *rename()*을 활용할 수 있습니다.  
이때 `columns=` 옵션을 활용하고 딕셔너리 형식으로 기존변수이름과 새변수이름을 콜론으로 연결하면 됩니다. 

In [None]:
# rename() 활용 변수 이름 바꾸기 
df_own.rename(columns = {'FIRST':'var1', 'SECOND':'var2'})

<br>

#### [실습] df_sp를 활용

1. 'math score', 'reading score', 'writing score'를 합한 변수 'total' 추가
2. 1의 'total'이 270이상인 학생들만 'EX'라는 값을 갖는 'grade' 변수 추가
3. 'math score'가 40보다 작은지 비교 연산하고 True/False 값을 갖는 결과 Series를 변수 'math grp'로 추가하기
4. 'reading score'가 40보다 작은지 비교 연산하고 결과를 'reading grp'로 추가하기
5. 'writing score'가 40보다 작은지 비교 연산하고 결과를 'writing grp'로 추가하기
6. 3., 4., 5.를 활용해서 세 점수 중 하나라도 40점 미만은 학생은 'grade'를 'FAIL'로 수정하기
7. 3., 4., 5.의 세 변수를 제거하기
8. 'grade'의 이름을 'class'로 바꾸기


In [None]:
df_sp = pd.read_csv('data/StudentsPerformance.csv')
df_sp.head()

#### [참고] DataFrame의 sum(), any()등 활용 가능

<br>
<hr>
<br>

## 2. 결측값 처리

결측값은 다양한 이유로 생길 수 있습니다.  
- 애초에 값이 없는 경우
- 값이 있으나 사람 실수로 누락한 경우
- 센서, 통신망 등의 오류로 값이 들어오지 않은 경우

먼저 결측값 존재 여부 확인하고, 대체를 할 지 그대로 둘 지를 결정해야 합니다. 대체를 한다면 어떤 값으로 채울지도 고민해야합니다.

In [None]:
# 예제 데이터 불러오기
df_na = pd.read_csv('./data/data_dupna.csv')
df_na
    # NaN : 결측

<br>
아래의 명령어를 활용하면 전체 데이터에서 결측값이 있는 관측치나 변수를 확인할 수 있습니다. 


In [None]:
# 하나라도 결측값이 있는 변수 확인
df_na.isnull().any(axis=0)

In [None]:
# 하나라도 결측값이 있는 관측치 확인
df_na[df_na.isnull().any(axis=1)]

<br>

#### [참고]
집계 함수의 경우 결측값이 있는 경우 결측값을 제외하고 계산하도록 기본값이 설정되어 있습니다. 

In [None]:
df_na['amount'].mean(), df_na['amount'].mean(skipna=False)

<br>

### 2.1. 결측값 포함 관측치 제거

결측값이 있는 관측치에 대응하는 가장 간단한 방법은 결측치를 포함한 변수나 관측치를 제거하는 방법입니다. 

In [None]:
# 하나라도 결측값이 있는 관측치 제거
df_na.dropna()

In [None]:
# 특정 변수 기준 결측값이 있는 관측치 제거
df_na.dropna(subset=['info1'])

<br>

### 2.2. 결측값 대체

다음으로 결측값을 적절한 값으로 대체할 수 있습니다.

In [None]:
# 모든 결측값을 일괄 대체
df_na.fillna(value=0)

In [None]:
# 변수별 결측값 대체 지정
df_na.fillna(value={'info1':0, 'info2':'NA'})

In [None]:
# 가장 앞쪽의 결측이 아닌 값으로 대체
    ## 센서 등의 값 누락에 활용
df_na.fillna(method='ffill')

In [None]:
# 이후 값중 결측이 아닌 값으로 대체
    ## groupby()를 활용하여 id 등 범위 내 대체
df_na.groupby('id').fillna(method='bfill')

In [None]:
# 특정한 변수만 결측값 대체
    ## groupby()와 fillna()를 활용할 경우 그룹변수가 사라짐
    ## 특정 변수만 선택해서 결측값 대체하고 업데이트
df_na['info2'] = df_na.groupby('id')['info2'].fillna(method='ffill')    
df_na

<br>
<hr>
<br>

## 3. 변수 형식 변환 및 파생변수 생성

대부분의 분석 과정에서 변수 형식은 크게 고려하지 않아도 됩니다. *read_csv()* 로 데이터를 불러오면 적당한 형식으로 지정되는데, 가끔 형식을 직접 바꿔야할 때가 있습니다.  

파생 변수 역시 비슷합니다. 데이터에 포함된 변수만으로 데이터 활용이나 분석이 가능한 경우가 많지만, 때에 따라 기존 변수를 활용해서 새로운 변수를 추가해서 분석에 활용해야하는 경우가 있습니다. 날짜에서 요일 등을 추출하는 것이 대표적인 예제입니다.  


### 3.1. 변수 형식의 확인/변환
**DataFrame**에서 주로 활용하는 변수 형식은 다음과 같습니다.

+ float: 실수(소수점을 포함한 숫자)
+ int: 정수(integer)
+ datetime: 날짜시간
+ bool: 불/불린(True 혹은 False)
+ category: 범주형
+ object: 문자형(string) 혹은 그 외

*.dtypes* 를 활용하면 변수 형식을 확인할 수 있습니다. 그리고 *.astype()* 을 활용해서 변수 형식을 변환할 수 있습니다. 



In [None]:
# 데이터 불러오기
df_ins = pd.read_csv('data/insurance.csv')
df_ins.head()

In [None]:
# 변수 형식 확인
df_ins.dtypes

In [None]:
# children을 float으로 변환
df_ins['children'].astype('float')

In [None]:
# children을 object로 변환
df_ins['children'].astype('object')

In [None]:
# 기존 변수의 형식 업데이트
df_ins['children'] = df_ins['children'].astype('float')
df_ins.head()

In [None]:
# 복수 변수의 형식 일괄 업데이트
category_vars = ['sex', 'smoker', 'region']
df_ins[category_vars] = df_ins[category_vars].astype('category')
df_ins.dtypes

In [None]:
# select_dtypes()의 활용
df_ins.select_dtypes('category')

<br>

#### [실습] df_pr의 활용

1. Pulse2(뛴 후)와 Pulse1(뛰기 전)의 차이를 계산하고 'Diff'로 변수 추가하기
2. .dtypes로 형식 확인하고 .nunique()로 중복값 제거한 값 개수 확인하기
3. 범주형 형식이 적당한 변수 목록 만들기
4. 3.의 변수들을 astype()으로 category 형식으로 변환하고 업데이트 하기
5. Ran, Smokes, Alcohol별 1.의 Diff의 평균 계산하기

In [None]:
df_pr = pd.read_csv('data/PulseRates.csv')
df_pr.head()

<br>

### 3.2. 수치형 변수의 구간화

수치형 변수는 그대로 활용하기 보다는 구간화하는 경우가 많습니다. 상황에 따라 적절한 방법을 선택하면 되는데, *cut()* 이나 *qcut()* 함수를 주로 활용합니다.  

+ *cut()*: 등간격 혹은 주어진 구간 경계로 구간화
+ *qcut()*: 등비율로 구간화

In [None]:
# 연령대 변수 생성
    ## //: 몫 계산
    ## %: 나머지 계산
df_ins['age_grp'] = (df_ins['age'] // 10).astype('category')
df_ins

In [None]:
df_ins['age_grp'] = (df_ins['age'] // 10).apply(lambda x: str(x)+'0대')
df_ins

<br>

*cut()*을 활용해서 등간격으로 구간화할 수 있고, `bins=` 옵션에 적절한 구간값을 직접 넣을 수도 있습니다. 

In [None]:
# 등간격으로 구간화하기
pd.cut(df_ins['charges'], bins=10)

In [None]:
charges_breaks = [0, 5000, 10000, 20000, 100000000]

In [None]:
pd.cut(df_ins['charges'], bins=charges_breaks, right=False, labels=['1','2','3','4'])

In [None]:
# cut()을 활용한 10등급화
df_ins['charges_grp'] = pd.cut(df_ins['charges'], bins=10, labels=range(10))
df_ins

In [None]:
# 등구간의 관측치 불균형 문제
df_ins['charges_grp'].value_counts()

In [None]:
# qcut()을 활용한 등비율 구간화
df_ins['charges_grp2'] = pd.qcut(df_ins['charges'], q=10, labels=range(1, 11))
df_ins

In [None]:
df_ins['charges_grp2'].value_counts()

<br>

#### [실습] 데이터 df_sp 활용

1. cut()으로 'reading score'를 20점 단위로 5개 그룹 변수 추가 
2. cut()으로 'reading score'를 등간격(구간 길이가 동일)으로 5개 그룹 변수 추가
3. qcut()으로 'readiong score'를 등비율로 5 등급화
4. pivot_table()을 활용해서 'parental level of education'과 3.의 그룹 변수로 'math score'의 평균 계산

In [None]:
df_sp.head()

### 3.3. 그룹 내 순위, 이동, 누적 변수 생성

데이터 분석 과정에서 그룹별로 순위를 매기거나, 직전 값과 비교를 통해서 변화량 등을 확인하기도 합니다. 뿐만 아니라 이동 평균이나 누적 최댓값 등을 계산하기도 합니다.

In [None]:
# 데이터 불러오기
df_dup = pd.read_csv('data/data_dupna.csv')
df_dup

In [None]:
# 순위 생성(동점일 경우 평균 등수)
df_dup['amount'].rank(ascending=False)

In [None]:
# 순위 생성(동점일 경우 index 순)
df_dup['date'].rank(ascending=True, method='first')

In [None]:
# 사용자별 순위 파생변수 추가
df_dup['seq'] = df_dup.groupby('id')['date'].rank(method='min',ascending=False)
df_dup

In [None]:
# rank 활용 최종건 선택
df_dup[df_dup['seq']==1]

In [None]:
# 데이터 정렬 및 날짜 형식 변환
df_dup = df_dup.sort_values(['id','date']).reset_index(drop=True)
df_dup['date'] = df_dup['date'].astype('datetime64')
df_dup

In [None]:
# 그룹별 이동 값 변수 추가
df_dup['date_prev'] = df_dup.groupby('id')['date'].shift()
df_dup

In [None]:
# 시차의 계산
df_dup['date_diff'] = df_dup['date'] - df_dup['date_prev']
df_dup

In [None]:
# 그룹별 누적합 계산
df_dup['cum_amount'] = df_dup.groupby('id')['amount'].cumsum()
df_dup

In [None]:
# rolling() 활용 그룹별 이동 평균 계산
df_dup['ma_amount'] = df_dup.groupby('id').rolling(2)['amount'].mean().reset_index(drop=True)
df_dup

## 4. 날짜시간 변수 활용

날짜시간 변수에서 요소를 추출할 수 있고, 날짜시간별로 집계된 데이터로 시각화할 수 있습니다. 

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# 한글 폰트 설정 (Windows)
from matplotlib import font_manager, rc
f_path = "c:/Windows/Fonts/malgun.ttf"
font_name = font_manager.FontProperties(fname=f_path).get_name()
rc('font', family=font_name)
plt.rcParams['axes.unicode_minus'] = False  

In [None]:
df_subway = pd.read_csv('data/서울교통공사_역별일별승하차인원정보_20220731.csv')
df_subway

In [None]:
# to_datetime()을 활용한 형식 변환
df_subway['호선'] = df_subway['호선'].astype('category')
df_subway['날짜'] = pd.to_datetime(df_subway['날짜'])
df_subway

In [None]:
# 요일 변수 생성
df_subway['요일'] = df_subway['날짜'].dt.weekday
df_subway

In [None]:
# 월 변수 생성
df_subway['월'] = df_subway['날짜'].dt.month
df_subway

In [None]:
# 날짜별 집계값의 생성
agg = df_subway.groupby(['날짜','호선'], as_index=False)['이용객수'].sum()
agg

In [None]:
# 시계열 데이터의 시각화 
sns.lineplot(data=agg, 
             x='날짜',
             y='이용객수',
             hue='호선')

#### [실습] df_accident를 활용하여 7, 8월 새벽 1~5시 사고 건수 계산

In [None]:
df_accident = pd.read_csv('data/도로교통공단_사망 교통사고 정보_20211231_utf8.csv')
df_accident

#### End of script