# 데이터 전처리 예제 1

* **데이터 설명**
  * 본 데이터는 A대학 도서관에서 제공하는 온라인 DB에 대한 사용자별 이용기록(Transaction)입니다.
  * user_id : 사용자ID
  * region : 지역코드
  * college : 단과대학코드
  * major : 전공코드
  * social_position : 직급코드
  * month : 이용월
  * weekday : 이용요일(1:일요일, 2:월요일, 3:화요일, 4:수요일, 5:목요일, 6:금요일, 7:토요일)
  * hour : 이용시각(24H)
  * DB : 이용 온라인 DB

### 0.0. 필요한 패키지를 로딩하세요

In [1]:
# 넘파이
# 판다스
import pandas as pd
import numpy as np

## 1. 데이터 로딩 및 문제 파악하기

### 1.1. 데이터를 로딩하고 처음 5개의 레코드를 출력하세요.

data_01 = pd.read_csv('DATA_01.csv')

In [5]:
data = pd.read_csv('../mentor_class/DATA_01/DATA_01.csv')
data.head()

Unnamed: 0,user_id,region,college,major,social_position,month,weekday,hour,DB
0,U0002,R01,C0002,M09,S005,3.0,3,21,DB048
1,U0003,R01,C0003,M01,S001,3.0,2,12,DB048
2,U0003,R01,C0003,M01,S001,3.0,2,13,DB048
3,U0006,R01,C0001,M11,S005,3.0,2,14,DB055
4,U0005,R01,C0001,M08,S005,3.0,2,14,DB044


### 1.2. 변수별 데이터 타입을 알아볼 수는 코드를 제시하고 문제점이 있을 경우 서술하세요.

In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76806 entries, 0 to 76805
Data columns (total 9 columns):
user_id            76806 non-null object
region             76806 non-null object
college            76806 non-null object
major              75610 non-null object
social_position    76806 non-null object
month              75772 non-null float64
weekday            76806 non-null int64
hour               76806 non-null int64
DB                 76805 non-null object
dtypes: float64(1), int64(2), object(6)
memory usage: 5.3+ MB


### 1.3. 수치형 변수의 요약 통계량을 제시하세요.

In [8]:
# describe() 활용
data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
month,75772.0,6.592831,3.339591,1.0,4.0,6.0,10.0,12.0
weekday,76806.0,3.846614,1.863474,1.0,2.0,4.0,5.0,7.0
hour,76806.0,13.719748,6.742292,0.0,10.0,14.0,19.0,30.0


### 1.4. 범주형 변수의 요약 통계량을 제시하세요.

In [9]:
data.describe(include=[object, pd.Categorical]).T

Unnamed: 0,count,unique,top,freq
user_id,76806,5067,U0061,1988
region,76806,3,R01,72874
college,76806,72,C0001,34545
major,75610,11,M04,18243
social_position,76806,8,S005,26800
DB,76805,73,DB048,15379


## 2. 데이터의 문제 수정하기

### 2.1. NULL값이 존재하는 변수 중 범주형 변수의 NULL값을 'UNKNOWN'으로 대체하고 처리 결과를 제시하세요.

In [12]:
data['major'].fillna('unknown', inplace=True)
data['DB'].fillna('unknown', inplace=True)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76806 entries, 0 to 76805
Data columns (total 9 columns):
user_id            76806 non-null object
region             76806 non-null object
college            76806 non-null object
major              76806 non-null object
social_position    76806 non-null object
month              75772 non-null float64
weekday            76806 non-null int64
hour               76806 non-null int64
DB                 76806 non-null object
dtypes: float64(1), int64(2), object(6)
memory usage: 5.3+ MB


### 2.2. NULL값이 존재하는 변수 중 수치형 변수의 NULL값은 제거하고 처리 뒤 데이터의 행과 열을 제시하세요.

In [13]:
data = data.dropna(subset=['month'])
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 75772 entries, 0 to 76805
Data columns (total 9 columns):
user_id            75772 non-null object
region             75772 non-null object
college            75772 non-null object
major              75772 non-null object
social_position    75772 non-null object
month              75772 non-null float64
weekday            75772 non-null int64
hour               75772 non-null int64
DB                 75772 non-null object
dtypes: float64(1), int64(2), object(6)
memory usage: 5.8+ MB


## 3. 데이터 파악하기

### 3.1. 전공 중 가장 많은 전공 코드를 제시하세요.

In [19]:
major = pd.DataFrame(data.groupby('major').count())
major = pd.DataFrame(data.groupby('major')['region'].count().sort_values(ascending=False))
major

Unnamed: 0_level_0,region
major,Unnamed: 1_level_1
M04,18000
M11,10571
M09,8050
M05,7930
M08,7745
M01,6935
M06,5129
M03,4635
M02,2108
M10,1826


In [45]:
data.major.value_counts()

M04        18000
M11        10571
M09         8050
M05         7930
M08         7745
M01         6935
M06         5129
M03         4635
M02         2108
M10         1826
M07         1668
unknown     1175
Name: major, dtype: int64

### 3.2. 지역이 R02이면서 전공이 M01 이고 오전9시부터 10시까지 사용한 사람은 몇 명인지 제시하세요.

In [41]:
region02 = pd.DataFrame(data.groupby(['region','major','hour'])['DB'].count().sort_values(ascending=False))
region02

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,DB
region,major,hour,Unnamed: 3_level_1
R01,M04,16,1299
R01,M04,15,1120
R01,M04,14,1099
R01,M04,23,1073
R01,M04,0,1058
R01,M04,22,1045
R01,M04,17,1021
R01,M04,11,999
R01,M04,13,981
R01,M04,21,912


In [52]:
R02 = data.region =='R02'
M01 = data.major == 'M01'
H = (data.hour >= 9) & (data.hour <= 10)
d = R02&M01&H
data[d].shape
data[d]

Unnamed: 0,user_id,region,college,major,social_position,month,weekday,hour,DB
7014,U1120,R02,C0053,M01,S004,4.0,1,9,DB018
15109,U1899,R02,C0055,M01,S006,5.0,4,10,DB031
15110,U1899,R02,C0055,M01,S006,5.0,4,10,DB031
15111,U1899,R02,C0055,M01,S006,5.0,4,10,DB048
15325,U1899,R02,C0055,M01,S006,5.0,5,10,DB044
15326,U1899,R02,C0055,M01,S006,5.0,5,10,DB020
15327,U1899,R02,C0055,M01,S006,5.0,5,10,DB020
15328,U1899,R02,C0055,M01,S006,5.0,5,10,DB020
15335,U1899,R02,C0055,M01,S006,5.0,5,10,DB022
18400,U2703,R02,C0034,M01,S005,6.0,4,9,DB077


### 3.2 에서 구한 내용에서 컬럼명이 user_id, region, major, hour의 리스트를 보여주세요

In [58]:
col = ['user_id', 'region', 'major', 'hour']
data.loc[d,col]

Unnamed: 0,user_id,region,major,hour
7014,U1120,R02,M01,9
15109,U1899,R02,M01,10
15110,U1899,R02,M01,10
15111,U1899,R02,M01,10
15325,U1899,R02,M01,10
15326,U1899,R02,M01,10
15327,U1899,R02,M01,10
15328,U1899,R02,M01,10
15335,U1899,R02,M01,10
18400,U2703,R02,M01,9


### 3.2 에서 구한 내용에서 컬럼수를 처음부터 6개만 보여주세요. 

In [59]:
data.iloc[:, 0:6]

Unnamed: 0,user_id,region,college,major,social_position,month
0,U0002,R01,C0002,M09,S005,3.0
1,U0003,R01,C0003,M01,S001,3.0
2,U0003,R01,C0003,M01,S001,3.0
3,U0006,R01,C0001,M11,S005,3.0
4,U0005,R01,C0001,M08,S005,3.0
5,U0007,R01,C0001,M08,S005,3.0
6,U0009,R01,C0001,M06,S005,3.0
7,U0007,R01,C0001,M08,S005,3.0
8,U0008,R01,C0001,M04,S005,3.0
9,U0010,R01,C0002,M06,S001,3.0


### 3.3. 월요일(2)에 가장 빠른 시간에 이용한 기록을 5개 제시하세요.

In [65]:
mon = data.weekday == 2
data[mon][['hour']].min()


hour    0
dtype: int64

In [66]:
h0 = data.hour == 0
res = h0&mon
data[res].head()

Unnamed: 0,user_id,region,college,major,social_position,month,weekday,hour,DB
235,U0129,R01,C0030,M10,S002,3.0,2,0,DB077
236,U0003,R01,C0003,M01,S001,3.0,2,0,DB048
237,U0003,R01,C0003,M01,S001,3.0,2,0,DB048
238,U0129,R01,C0030,M10,S002,3.0,2,0,DB077
239,U0131,R02,C0031,M07,S004,3.0,2,0,DB031
