# 데이터 전처리 과제

* **데이터 설명**
  * 본 데이터는 A대학 도서관에서 제공하는 온라인 DB에 대한 사용자별 이용기록(Transaction)입니다.
  * user_id : 사용자ID
  * region : 지역코드
  * college : 단과대학코드
  * major : 전공코드
  * social_position : 직급코드
  * month : 이용월
  * weekday : 이용요일(1:일요일, 2:월요일, 3:화요일, 4:수요일, 5:목요일, 6:금요일, 7:토요일)
  * hour : 이용시각(24H)
  * DB : 이용 온라인 DB

### 0.0. 필요한 패키지를 로딩하세요

In [1]:
# 넘파이
# 판다스
import pandas as pd
import numpy as np

## 1. 데이터 로딩 및 문제 파악하기

### 1.1. 데이터를 로딩하고 처음 5개의 레코드를 출력하세요.

In [3]:
data_01 = pd.read_csv('DATA_01/DATA_01.csv')
data_01.head()

Unnamed: 0,user_id,region,college,major,social_position,month,weekday,hour,DB
0,20200401,R01,104,M01,23078.0,1,2.0,12H,Oracle
1,20200402,R02,101,M01,,2,3.0,10H,MySQL
2,20200403,R03,109,M03,23076.0,4,,5H,
3,20200404,R01,128,M04,23100.0,2,2.0,7H,Maria DB
4,20200405,R02,124,M01,23101.0,7,1.0,9H,DB2


### 1.2. 변수별 데이터 타입을 알아볼 수는 코드를 제시하고 문제점이 있을 경우 서술하세요.

In [59]:
data_01.dtypes

user_id             object
region              object
college             object
major               object
social_position     object
month              float64
weekday              int64
hour                 int64
DB                  object
dtype: object

In [60]:
data_01.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76806 entries, 0 to 76805
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   user_id          76806 non-null  object 
 1   region           76806 non-null  object 
 2   college          76806 non-null  object 
 3   major            75610 non-null  object 
 4   social_position  76806 non-null  object 
 5   month            75772 non-null  float64
 6   weekday          76806 non-null  int64  
 7   hour             76806 non-null  int64  
 8   DB               76805 non-null  object 
dtypes: float64(1), int64(2), object(6)
memory usage: 5.3+ MB


- 문제점 : 수치형 변수 month에서 000000 개 만큼 null 값이 존재한다.

### 1.3. 수치형 변수의 요약 통계량을 제시하세요.

In [63]:
data_01.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
month,75772.0,6.592831,3.339591,1.0,4.0,6.0,10.0,12.0
weekday,76806.0,3.846614,1.863474,1.0,2.0,4.0,5.0,7.0
hour,76806.0,13.719748,6.742292,0.0,10.0,14.0,19.0,30.0


### 1.4. 범주형 변수의 요약 통계량을 제시하세요.

In [64]:
data_01.describe(include=[object, pd.Categorical]).T

Unnamed: 0,count,unique,top,freq
user_id,76806,5067,U0061,1988
region,76806,3,R01,72874
college,76806,72,C0001,34545
major,75610,11,M04,18243
social_position,76806,8,S005,26800
DB,76805,73,DB048,15379


## 2. 데이터의 문제 수정하기

### 2.1. NULL값이 존재하는 변수 중 범주형 변수의 NULL값을 'UNKNOWN'으로 대체하고 처리 결과를 제시하세요.

In [65]:
data_01['major'] = data_01['major'].fillna('UNKNOWN')
data_01.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76806 entries, 0 to 76805
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   user_id          76806 non-null  object 
 1   region           76806 non-null  object 
 2   college          76806 non-null  object 
 3   major            76806 non-null  object 
 4   social_position  76806 non-null  object 
 5   month            75772 non-null  float64
 6   weekday          76806 non-null  int64  
 7   hour             76806 non-null  int64  
 8   DB               76805 non-null  object 
dtypes: float64(1), int64(2), object(6)
memory usage: 5.3+ MB


In [66]:
data_01['DB'] = data_01['DB'].fillna('UNKNOWN')
data_01.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76806 entries, 0 to 76805
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   user_id          76806 non-null  object 
 1   region           76806 non-null  object 
 2   college          76806 non-null  object 
 3   major            76806 non-null  object 
 4   social_position  76806 non-null  object 
 5   month            75772 non-null  float64
 6   weekday          76806 non-null  int64  
 7   hour             76806 non-null  int64  
 8   DB               76806 non-null  object 
dtypes: float64(1), int64(2), object(6)
memory usage: 5.3+ MB


### 2.2. NULL값이 존재하는 변수 중 수치형 변수의 NULL값은 제거하고 처리 뒤 데이터의 행과 열을 제시하세요.

In [67]:
data_01 = data_01.dropna(subset=['month'])
data_01.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 75772 entries, 0 to 76805
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   user_id          75772 non-null  object 
 1   region           75772 non-null  object 
 2   college          75772 non-null  object 
 3   major            75772 non-null  object 
 4   social_position  75772 non-null  object 
 5   month            75772 non-null  float64
 6   weekday          75772 non-null  int64  
 7   hour             75772 non-null  int64  
 8   DB               75772 non-null  object 
dtypes: float64(1), int64(2), object(6)
memory usage: 5.8+ MB


In [68]:
data_01.isnull().sum().sum()

0

In [69]:
data_01.to_csv('output_data_01.csv', index=False)

## 3. 데이터 파악하기

### 3.1. 전공 중 가장 많은 전공 코드를 제시하세요.

In [70]:
data_01.major.value_counts()

M04        18000
M11        10571
M09         8050
M05         7930
M08         7745
M01         6935
M06         5129
M03         4635
M02         2108
M10         1826
M07         1668
UNKNOWN     1175
Name: major, dtype: int64

In [71]:
data_01.major.value_counts().max()

18000

### 3.2. 지역이 R02이면서 전공이 M01 이고 오전9시부터 10시까지 사용한 사람은 몇 명인지 제시하세요.

In [73]:
data_01.head(2)

Unnamed: 0,user_id,region,college,major,social_position,month,weekday,hour,DB
0,U0002,R01,C0002,M09,S005,3.0,3,21,DB048
1,U0003,R01,C0003,M01,S001,3.0,2,12,DB048


In [75]:
d1 = data_01.region == 'R02'
d2 = data_01.major == 'M01'
d3 = (data_01.hour >= 9) & (data_01.hour <= 10)
d = d1&d2&d3
data_01[d].shape

(33, 9)

In [76]:
data_01[d].head()

Unnamed: 0,user_id,region,college,major,social_position,month,weekday,hour,DB
7014,U1120,R02,C0053,M01,S004,4.0,1,9,DB018
15109,U1899,R02,C0055,M01,S006,5.0,4,10,DB031
15110,U1899,R02,C0055,M01,S006,5.0,4,10,DB031
15111,U1899,R02,C0055,M01,S006,5.0,4,10,DB048
15325,U1899,R02,C0055,M01,S006,5.0,5,10,DB044


In [78]:
data_01[d]['user_id'].nunique()

5

### 3.2. 에서 구한 내용에서 컬럼명이 user_id, region, major, hour의 리스트를 보여 주세요.

In [81]:
cols = ['user_id', 'region', 'major', 'hour']
data_01.loc[d, cols].head()

Unnamed: 0,user_id,region,major,hour
7014,U1120,R02,M01,9
15109,U1899,R02,M01,10
15110,U1899,R02,M01,10
15111,U1899,R02,M01,10
15325,U1899,R02,M01,10


## 3.2에서 구한 내용에서 컬럼수를 처음부터 6개만 보여주세요.

In [82]:
data_01.iloc[d.values, range(6)].head()

Unnamed: 0,user_id,region,college,major,social_position,month
7014,U1120,R02,C0053,M01,S004,4.0
15109,U1899,R02,C0055,M01,S006,5.0
15110,U1899,R02,C0055,M01,S006,5.0
15111,U1899,R02,C0055,M01,S006,5.0
15325,U1899,R02,C0055,M01,S006,5.0


### 3.3. 월요일(2)에 가장 빠른 시간에 이용한 기록을 5개 제시하세요.

In [83]:
dw = data_01.weekday == 2
data_01[dw].sort_values(by='hour', ascending=True).head()

Unnamed: 0,user_id,region,college,major,social_position,month,weekday,hour,DB
63308,U1127,R01,C0001,M09,S005,2.0,2,0,DB018
50679,U3110,R01,C0018,M07,S004,11.0,2,0,DB039
50678,U1528,R01,C0013,M08,S008,11.0,2,0,DB050
50677,U2255,R01,C0001,M05,S005,11.0,2,0,DB051
50676,U4590,R01,C0014,M04,S005,11.0,2,0,DB031


In [84]:
data_01[dw].nsmallest(5, 'hour')

Unnamed: 0,user_id,region,college,major,social_position,month,weekday,hour,DB
235,U0129,R01,C0030,M10,S002,3.0,2,0,DB077
236,U0003,R01,C0003,M01,S001,3.0,2,0,DB048
237,U0003,R01,C0003,M01,S001,3.0,2,0,DB048
238,U0129,R01,C0030,M10,S002,3.0,2,0,DB077
239,U0131,R02,C0031,M07,S004,3.0,2,0,DB031
