# 데이터 전처리 예제 1

* **데이터 설명**
  * 본 데이터는 A대학 도서관에서 제공하는 온라인 DB에 대한 사용자별 이용기록(Transaction)입니다.
  * user_id : 사용자ID
  * region : 지역코드
  * college : 단과대학코드
  * major : 전공코드
  * social_position : 직급코드
  * month : 이용월
  * weekday : 이용요일(1:일요일, 2:월요일, 3:화요일, 4:수요일, 5:목요일, 6:금요일, 7:토요일)
  * hour : 이용시각(24H)
  * DB : 이용 온라인 DB

### 0.0. 필요한 패키지를 로딩하세요

In [17]:
import numpy as np
import pandas as pd

## 1. 데이터 로딩 및 문제 파악하기

### 1.1. 데이터를 로딩하고 처음 5개의 레코드를 출력하세요.

In [18]:
data_01 = pd.read_csv('DATA_01.csv')
data_01.head()

Unnamed: 0,user_id,region,college,major,social_position,month,weekday,hour,DB
0,U0002,R01,C0002,M09,S005,3.0,3,21,DB048
1,U0003,R01,C0003,M01,S001,3.0,2,12,DB048
2,U0003,R01,C0003,M01,S001,3.0,2,13,DB048
3,U0006,R01,C0001,M11,S005,3.0,2,14,DB055
4,U0005,R01,C0001,M08,S005,3.0,2,14,DB044


### 1.2. 변수별 데이터 타입을 알아볼 수는 코드를 제시하고 문제점이 있을 경우 서술하세요.

In [19]:
data_01.info()
# 총 레코드 수는 76806개임에 반해, major, month, DB는 각각 75610, 75772, 76805개로 NA값이 존재함.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76806 entries, 0 to 76805
Data columns (total 9 columns):
user_id            76806 non-null object
region             76806 non-null object
college            76806 non-null object
major              75610 non-null object
social_position    76806 non-null object
month              75772 non-null float64
weekday            76806 non-null int64
hour               76806 non-null int64
DB                 76805 non-null object
dtypes: float64(1), int64(2), object(6)
memory usage: 5.3+ MB


### 1.3. 수치형 변수의 요약 통계량을 제시하세요.

In [20]:
data_01.describe()

Unnamed: 0,month,weekday,hour
count,75772.0,76806.0,76806.0
mean,6.592831,3.846614,13.719748
std,3.339591,1.863474,6.742292
min,1.0,1.0,0.0
25%,4.0,2.0,10.0
50%,6.0,4.0,14.0
75%,10.0,5.0,19.0
max,12.0,7.0,30.0


### 1.4. 범주형 변수의 요약 통계량을 제시하세요.

In [21]:
data_01.describe(include=[object])

Unnamed: 0,user_id,region,college,major,social_position,DB
count,76806,76806,76806,75610,76806,76805
unique,5067,3,72,11,8,73
top,U0061,R01,C0001,M04,S005,DB048
freq,1988,72874,34545,18243,26800,15379


In [22]:
data = data_01.copy()

## 2. 데이터의 문제 수정하기

### 2.1. NULL값이 존재하는 변수 중 범주형 변수의 NULL값을 'UNKNOWN'으로 대체하고 처리 결과를 제시하세요.

In [26]:
# major의 nan 데이터 확인
data[data.major.isnull()==True]

Unnamed: 0,user_id,region,college,major,social_position,month,weekday,hour,DB
31,U0024,R01,C0008,,S007,3.0,7,0,DB016
45,U0030,R01,C0001,,S005,3.0,7,9,DB065
66,U0009,R01,C0001,,S005,3.0,7,19,DB058
86,U0053,R01,C0001,,S006,3.0,4,14,DB051
221,U0127,R02,C0021,,S001,3.0,1,22,DB031
...,...,...,...,...,...,...,...,...,...
76494,U1749,R01,C0008,,S004,6.0,3,22,DB018
76554,U2057,R01,C0015,,S004,6.0,4,14,DB065
76630,U0705,R01,C0001,,S005,6.0,5,13,DB003
76647,U3839,R01,C0001,,S001,6.0,5,17,DB031


In [30]:
data.major.fillna('UNKNOWN', inplace = True)

0

In [34]:
# nan데이터 후처리 확인
data.major.isnull().sum()

0

In [66]:
# DB의 nan 데이터 확인
data[data.DB.isnull()==True]

Unnamed: 0,user_id,region,college,major,social_position,month,weekday,hour,DB
76805,U2546,R01,C0001,M09,S005,6.0,7,16,


In [67]:
data.DB.fillna('UNKNOWN', inplace = True)

In [68]:
# nan데이터 후처리 확인
data.DB.isnull().sum()

0

### 2.2. NULL값이 존재하는 변수 중 수치형 변수의 NULL값은 제거하고 처리 뒤 데이터의 행과 열을 제시하세요.

In [31]:
# month의 nan 데이터 확인
data[data.month.isnull()==True]

Unnamed: 0,user_id,region,college,major,social_position,month,weekday,hour,DB
33,U0024,R01,C0008,M09,S007,,7,0,DB048
97,U0056,R01,C0006,M11,S008,,4,16,DB044
284,U0003,R01,C0003,M01,S001,,3,0,DB031
402,U0197,R01,C0015,M03,S004,,3,22,DB065
433,U0207,R02,C0001,M04,S007,,4,0,DB031
...,...,...,...,...,...,...,...,...,...
76371,U0061,R01,C0001,M06,S006,,3,8,DB003
76402,U1592,R01,C0001,M01,S005,,3,14,DB048
76505,U0975,R01,C0004,M08,S004,,3,23,DB060
76663,U1790,R01,C0001,M03,S005,,5,21,DB048


In [70]:
# month라는 데이터는 다른 변수를 통해 값을 유추하기 어려우니, 모두 삭제하겠음.
data.dropna(axis=0, inplace = True) # data_01.dropna(subset=['month'])도 가능

In [73]:
# nan데이터 후처리 확인
data.month.isnull().sum()

0

## 3. 데이터 파악하기

### 3.1. 전공 중 가장 많은 전공 코드를 제시하세요.

In [89]:
data.major.value_counts() # M04가 18243으로 가장 많음

M04        18000
M11        10571
M09         8050
M05         7930
M08         7745
M01         6935
M06         5129
M03         4635
M02         2108
M10         1826
M07         1668
UNKNOWN     1175
Name: major, dtype: int64

### 3.2. 지역이 R02이면서 전공이 M01 이고 오전9시부터 10시까지 사용한 사람은 몇 명인지 제시하세요.

In [75]:
qs = "region == 'R02' and major == 'M01' and 9 <= hour < 10"
Q = data.query(qs)
Q

Unnamed: 0,user_id,region,college,major,social_position,month,weekday,hour,DB
7014,U1120,R02,C0053,M01,S004,4.0,1,9,DB018
18400,U2703,R02,C0034,M01,S005,6.0,4,9,DB077
18401,U2703,R02,C0034,M01,S005,6.0,4,9,DB009
18402,U2703,R02,C0034,M01,S005,6.0,4,9,DB058
18403,U2703,R02,C0034,M01,S005,6.0,4,9,DB058
18404,U2703,R02,C0034,M01,S005,6.0,4,9,DB058
18406,U2703,R02,C0034,M01,S005,6.0,4,9,DB023
18407,U2703,R02,C0034,M01,S005,6.0,4,9,DB023
18410,U2703,R02,C0034,M01,S005,6.0,4,9,DB060
18411,U2703,R02,C0034,M01,S005,6.0,4,9,DB007


In [84]:
print(Q.user_id.count(), '명 입니다.', sep="")

13명 입니다.


### 3.2 에서 구한 내용에서 컬럼명이 user_id, region, major, hour의 리스트를 보여주세요

In [78]:
Q[['user_id', 'region', 'major', 'hour']]

Unnamed: 0,user_id,region,major,hour
7014,U1120,R02,M01,9
18400,U2703,R02,M01,9
18401,U2703,R02,M01,9
18402,U2703,R02,M01,9
18403,U2703,R02,M01,9
18404,U2703,R02,M01,9
18406,U2703,R02,M01,9
18407,U2703,R02,M01,9
18410,U2703,R02,M01,9
18411,U2703,R02,M01,9


### 3.2 에서 구한 내용에서 컬럼수를 처음부터 6개만 보여주세요. 

In [82]:
Q.iloc[:, :6]

Unnamed: 0,user_id,region,college,major,social_position,month
7014,U1120,R02,C0053,M01,S004,4.0
18400,U2703,R02,C0034,M01,S005,6.0
18401,U2703,R02,C0034,M01,S005,6.0
18402,U2703,R02,C0034,M01,S005,6.0
18403,U2703,R02,C0034,M01,S005,6.0
18404,U2703,R02,C0034,M01,S005,6.0
18406,U2703,R02,C0034,M01,S005,6.0
18407,U2703,R02,C0034,M01,S005,6.0
18410,U2703,R02,C0034,M01,S005,6.0
18411,U2703,R02,C0034,M01,S005,6.0


### 3.3. 월요일(2)에 가장 빠른 시간에 이용한 기록을 5개 제시하세요.

In [80]:
qs2 = "weekday == 2"
Q2 = data.query(qs2)
Q2.sort_values(by=['hour'], ascending=True).head()

Unnamed: 0,user_id,region,college,major,social_position,month,weekday,hour,DB
63308,U1127,R01,C0001,M09,S005,2.0,2,0,DB018
50679,U3110,R01,C0018,M07,S004,11.0,2,0,DB039
50678,U1528,R01,C0013,M08,S008,11.0,2,0,DB050
50677,U2255,R01,C0001,M05,S005,11.0,2,0,DB051
50676,U4590,R01,C0014,M04,S005,11.0,2,0,DB031
