<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/title.png' width=500/></center>

# 8.데이터프레임 변경 (4)

- 정확한 데이터 분석을 위해서는 정확한 데이터가 준비되어야 합니다.

In [None]:
# 라이브러리 불러오기
import pandas as pd

## 8.1.Rolling

- rolling() 메서드를 사용해 일정 기간에 대한 집계를 수행할 수 있습니다.
- 예를 들어 최근 3일간 또는 일주일간의 평균이나 합을 집계할 수 있습니다.

In [None]:
# 데이터 읽어오기
path = 'https://raw.githubusercontent.com/Jangrae/csv/master/airquality.csv'
air = pd.read_csv(path)

# 결측치 처리
air.interpolate(method='linear', inplace=True)

# 자릿수 지정
air['Solar.R'] = round(air['Solar.R'], 1)

# 확인
air.head()

### 8.1.1.일상적인 집계

- 일상적으로는 다음과 같은 집계를 수행합니다.

In [None]:
# Ozone 열 평균
air['Ozone'].mean()

In [None]:
# Temp 열 합
air['Temp'].mean()

- 이런 집계 결과를 새로운 열로 추가해 분석에 활용할 수 있습니다.
- 예를 들어 당일 Ozone 열 값을 전체 평균과 비교할 수 있습니다.

In [None]:
# 새로운 열 추가
air['OZ_mean'] = round(air['Ozone'].mean(), 1)

# 확인
air.head()

### 8.1.2.Rolling 집계

- 시계열의 경우 최근 일정 기간에 대한 집계가 필요합니다.
- 이때 rolling() 메서드를 사용합니다.
- rolling() 메서드는 특정 창(window)을 기준으로 이동 평균, 이동 합계 등과 같은 집계 작업을 수행합니다.
- window 매개변수에 대상 행 수를 지정합니다.(매개변수 이름 생략 가능)
- min_periods 매개변수에 몇 개의 행 만 있어도 집계를 수행할 지 지정합니다.

In [None]:
# 최근 3일간 Ozone 열 평균
air['Ozone'].rolling(window=3, min_periods=1).mean()

In [None]:
# 최근 7일간 Ozone 열 평균
air['Ozone'].rolling(window=7, min_periods=1).mean()

- 이런 집계 결과를 새로운 열로 추가해 분석에 활용할 수 있습니다.
- 예를 들어 당일 Ozone 열 값을 최근 3일 또는 7일간의 평균과 비교할 수 있습니다.

In [None]:
# 새로운 열 추가
air['OZ_mean_3'] = round(air['Ozone'].rolling(window=3, min_periods=1).mean(), 1)
air['OZ_mean_7'] = round(air['Ozone'].rolling(window=7, min_periods=1).mean(), 1)

# 확인
air.head()

## 8.2.Shift

- 데이터를 행 방향 또는 열 방향으로 이동시킬 때 shift() 메서드를 사용합니다.
- shift() 메서드는 데이터를 특정 행이나 열 방향으로 이동시켜, 시계열 데이터에서 이전 값과 비교하는 데 사용합니다.

In [None]:
# 새로운 열 추가
air['OZ_lag_1'] = air['Ozone'].shift(1)
air['OZ_lag_2'] = air['Ozone'].shift(2)
air['OZ_lag_3'] = air['Ozone'].shift(3)

# 확인
air.head()

## 8.3.Rolling & Shift

- rolling(), shift() 메서드를 같이 사용할 수 있습니다.
- 일반적으로 당일을 제외한 기간에 대한 rolling을 수행할 때 사용합니다.
- 다음 구문은 당일을 제외한 최근 3일간의 Ozone 값 평균을 갖는 열을 추가합니다.

In [None]:
# 새로운 열 추가
air['OZ_mean_3_lag_1'] = round(air['Ozone'].rolling(3, min_periods=1).mean().shift(1), 2)

# 확인
air.head()

## 8.4.참고

- 내일의 Ozone 값을 예측하는 머신러닝 모델을 만들 때는 1일 후 값을 각 행에 추가해야 합니다.
- 즉, 당일 Ozone, Temp, Solar.R, Wind 정보와 최근 Ozone 값과 Ozone 값 평균 등을 활용해 다음날 Ozone 값을 예측합니다.

In [None]:
# 새로운 열 추가: 다음날 Ozone 값 (예측 대상)
air['OZ_lead_1'] = air['Ozone'].shift(-1)

# 불필요한 열 제거
air.drop(['Month', 'Day'], axis=1, inplace=True)

# 확인
air.head()

## 8.5.Pivot

- pivot() 메서드를 사용해 피벗 형태로 변경할 수 있습니다.
- 우선 데이터를 읽어와 필요한 형태로 준비합니다.

In [None]:
# 데이터 읽어오기
bike = pd.read_csv('https://bit.ly/BikeFile')
bike['DateTime'] = pd.to_datetime(bike['DateTime'])

# Year, Month, Day, Hour 분리
bike['Year'] = bike['DateTime'].dt.year
bike['Month'] = bike['DateTime'].dt.month
bike['Day'] = bike['DateTime'].dt.day
bike['Hour'] = bike['DateTime'].dt.hour

# 데이터 선택
bike = bike.loc[:, ['Year', 'Month','Day', 'Hour', 'Count']]

# 확인
bike.head()

- 일반적으로 다음과 같은 방법으로 집계합니다.

In [None]:
# 년월일별 수요량 집계
day_count = bike.groupby(by=['Year', 'Month', 'Day'], as_index=False)[['Count']].sum()

# 확인
day_count.head()

- 이제 pivot() 메서드를 사용해 위 결과 형태를 피벗 형태로 변환합니다.
- 매개변수 의미는 다음과 같습니다.
    - index: 움직이지 않을 열(=기준 열)
    - columns: 새로운 열로 올라갈 현재 열
    - values: 새로운 열의 값이 될 현재 열
- 열 대표이름 제거, 인덱스 초기화는 필수는 아니지만, 아름다운(?) 형태를 위해 수행합니다.

In [None]:
# 피벗 형태로 변환
day_count_w = day_count.pivot(index=['Year', 'Month'], columns='Day', values='Count')

# 열 대표이름 제거
day_count_w.columns.name = None

# 인덱스 초기화
day_count_w.reset_index(drop=False, inplace=True)

# 확인
day_count_w

## 8.6.Melt

- pd.melt() 함수를 사용해 다시 언피벗 형태로 변경할 수 있습니다.
- 시각화 분석을 위해서는 이전의 형태로 돌려야 하는 경우가 많습니다.
- 매개변수 의미는 다음과 같습니다.
    - id_vars: 움직이지 않을 열(=기준 열)
    - value_vars: 값이 되어 아래로 내려올 현재 열(생략하면 id_vars에 지정한 열 이외의 모든 열)
    - var_name: value_vars에 지정한 열이 값이 될 때 부여할 열 이름(생략하면 variable)
    - value_name: 새로운 열이 되는 기존 값에 부여할 열 이름(생략하면 value)
- 정렬, 결측치 제거, 인덱스 초기화 등 필요한 처리를 통해 마무리합니다.

In [None]:
# 언피벗
day_count_n = pd.melt(day_count_w, 
                      id_vars=['Year', 'Month'],
                      # value_vars=range(1, 32),
                      var_name='Day',
                      value_name='Count')

# 정렬
day_count_n.sort_values(by=['Year', 'Month', 'Day'], ascending=True, inplace=True)

# 결측치 제거(31일이 꽉 차지 않는 월에 결측치 존재)
day_count_n.dropna(inplace=True)

# 인덱스 초기화
day_count_n.reset_index(drop=True, inplace=True)

# 데이터 형식 변경
day_count_n['Count'] = day_count_n['Count'].astype(int)

# 확인
day_count_n