# 빅데이터분석기사 코드 정리

### 기본 라이브러리

In [1]:
import pandas as pd
import numpy as np

### 외워야하는 라이브러리

In [2]:
# train_test 분할
from sklearn.model_selection import train_test_split

# scaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler

# remove na
from sklearn.impute import SimpleImputer

### 1. 데이터 삽입

In [3]:
x_test_path = '/Users/minki/prepare_dataq_test/dataset/X_test.csv'
x_train_path = '/Users/minki/prepare_dataq_test/dataset/X_train.csv'
y_train_path = '/Users/minki/prepare_dataq_test/dataset/y_train.csv'

x_train = pd.read_csv(x_train_path, encoding='cp949')
x_test = pd.read_csv(x_test_path, encoding='cp949')
y_train = pd.read_csv(y_train_path, encoding='cp949')

### 2. 데이터 구조 파악

#### 2-1. 데이터 개수 및 null 개수 파악

In [4]:
x_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3500 entries, 0 to 3499
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   cust_id  3500 non-null   int64  
 1   총구매액     3500 non-null   int64  
 2   최대구매액    3500 non-null   int64  
 3   환불금액     1205 non-null   float64
 4   주구매상품    3500 non-null   object 
 5   주구매지점    3500 non-null   object 
 6   내점일수     3500 non-null   int64  
 7   내점당구매건수  3500 non-null   float64
 8   주말방문비율   3500 non-null   float64
 9   구매주기     3500 non-null   int64  
dtypes: float64(3), int64(5), object(2)
memory usage: 273.6+ KB


#### 2-2 데이터 구조 변경

In [5]:
# 위에서 cust_id는 int64로 표기되어 있지만 사실은 object형
x_train['cust_id'] = x_train['cust_id'].astype('object')
# .astype('object')
# .astype('float')
# .astype('str')
# .astype('int')

#### 2-3. 기초통계량 파악

In [6]:
# describe에서는 object형은 출력되지 않는다.(숫자가 아니여서 계산 불가)
x_train.describe()

Unnamed: 0,총구매액,최대구매액,환불금액,내점일수,내점당구매건수,주말방문비율,구매주기
count,3500.0,3500.0,1205.0,3500.0,3500.0,3500.0,3500.0
mean,91919250.0,19664240.0,24078220.0,19.253714,2.834963,0.307246,20.958286
std,163506500.0,31992350.0,47464530.0,27.174942,1.912368,0.289752,24.748682
min,-52421520.0,-2992000.0,5600.0,1.0,1.0,0.0,0.0
25%,4747050.0,2875000.0,2259000.0,2.0,1.666667,0.027291,4.0
50%,28222700.0,9837000.0,7392000.0,8.0,2.333333,0.25641,13.0
75%,106507900.0,22962500.0,24120000.0,25.0,3.375,0.44898,28.0
max,2323180000.0,706629000.0,563753000.0,285.0,22.083333,1.0,166.0


#### 2-4. object형의 value 개수 세기(value는 자동적으로 내림차순)

In [7]:
x_train['주구매상품'].value_counts()
x_train.loc[:, '주구매상품'].value_counts().head() # 내림차순
x_train.loc[:, '주구매상품'].value_counts().sort_values(ascending = True).head() # 오름차순

악기        2
남성 트랜디    2
소형가전      2
통신/컴퓨터    3
보석        3
Name: 주구매상품, dtype: int64

In [8]:
# value_counts와 len을 이용하면 전체 비율을 구할 수 있다.
res = x_train['주구매상품'].value_counts()/len(x_train)
res.head()

기타      0.170000
가공식품    0.156000
농산물     0.096857
화장품     0.075429
시티웨어    0.060857
Name: 주구매상품, dtype: float64

#### 2-5. 상관관계 조사. 마찬가지로 object형은 나오지 않는다.

In [9]:
x_train.corr()
# x_train['총구매액'].corr(x_train['최대구매액']) 1:1 관계로 상관계수 출력

Unnamed: 0,총구매액,최대구매액,환불금액,내점일수,내점당구매건수,주말방문비율,구매주기
총구매액,1.0,0.70008,0.419734,0.659084,0.090022,0.014396,-0.212944
최대구매액,0.70008,1.0,0.410562,0.374147,0.01898,0.022277,-0.115837
환불금액,0.419734,0.410562,1.0,0.27029,-0.063114,-0.062397,-0.211125
내점일수,0.659084,0.374147,0.27029,1.0,0.225264,-0.010325,-0.2932
내점당구매건수,0.090022,0.01898,-0.063114,0.225264,1.0,0.007659,-0.091151
주말방문비율,0.014396,0.022277,-0.062397,-0.010325,0.007659,1.0,0.003372
구매주기,-0.212944,-0.115837,-0.211125,-0.2932,-0.091151,0.003372,1.0


#### 2-6. 데이터 Slicing

#### 기본적으로 데이터 Slicing에는 iloc와 loc가 사용됨. iloc는 기본적으로 index가 기준이 되는 slicing이며 loc는 label이 기준이되는 slicing임

In [10]:
x_train.iloc[0] # 첫 번째 행만
x_train.iloc[-1] # 마지막 행만

x_train.iloc[:, 0] # 첫 번째 열만
x_train.iloc[:, -1] # 마지막 열만

x_train.iloc[[0, 1, 3], [2, 4]] # 2, 4번째 열에서 0, 1, 3번째 행만

Unnamed: 0,최대구매액,주구매상품
0,11264000,기타
1,2136000,스포츠
3,4935000,기타


In [11]:
# x_train.loc['행이름']
# x_train.loc[['행이름1', '행이름2'], ['열이름1', '열이름2']]

### 3. 조건문, 반복문

In [12]:
#Q. 주구매상품에서 기타의 상품 수는?
len(x_train[x_train['주구매상품'] == '기타']) 

# 만약 for문을 사용한다면

count = 0
for i in x_train['주구매상품'] :
    if(i == '기타'):
        count += 1

print(count)

595


In [13]:
#Q. 최대구매액의 평균을 구하고 평균보다 큰 값의 개수를 구해라

# 최대 : x_train['최대구매액'].max()
# 최소 : x_train['최대구매액'].min()
# 중간 : x_train['최대구매액'].median()
# 평균 : x_train['최대구매액'].mean()
# 2분위수 : x_train['최대구매액'].describe()['25%']
len(x_train[x_train['최대구매액'] > x_train['최대구매액'].mean()])

1011

In [14]:
#Q. 최대구매액 컬럼을 Min-Max Scale로 변환한 후 0.5보다 큰 값을 가지는 레코드 수

def min_max(data):
    data_min = data.min()
    data_max = data.max()
    
    scaled_data = data.apply(lambda x: (x - data_min) / (data_max - data_min))
    
    return scaled_data

minmax_data = min_max(x_train['최대구매액'])
len(minmax_data[minmax_data > 0.5])

# 이 문제를 sklearn의 scaler를 사용해 해결해보자
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler

# 정규화
standardScaler = StandardScaler()
# 여기서 scaler에 들어가는 데이터는 리스트처럼 1차원이 아니라 데이터프레임처럼 2차원이여야 한다.
standardScaler.fit(pd.DataFrame(x_train['최대구매액']))
standardScaler.transform(pd.DataFrame(x_train['최대구매액']))

# Minmax

minMaxScaler = MinMaxScaler()
minMaxScaler.fit(pd.DataFrame(x_train['최대구매액']))
res = minMaxScaler.transform(pd.DataFrame(x_train['최대구매액']))
len(res[res > 0.5])

3

### 4. 데이터 전처리

#### 4-1 데이터 split

In [15]:
#Q1. x_train data를 8:2로 나눠보자

def train_test_split(data, ratio):
    train_len = int(len(data)*ratio)
    
    train_data = data.loc[:train_len-1, :] #여기서 -1해주는게 중요
    test_data = data.loc[train_len : len(data), :]
    
    return train_data, test_data

#Q2. split에 무작위성을 추가해보자.

def train_test_split_random(data, ratio):
    shuffled_idx = np.random.permutation(len(data))
    test_size = int(len(data)*ratio)
    
    test_idx = shuffled_idx[:test_size]
    train_idx = shuffled_idx[test_size:]
    
    test_data = data.iloc[test_idx]
    train_data = data.iloc[train_idx]
    
    return test_data, train_data

x1, x2 = train_test_split(x_train, 0.8)
x1, x2 = train_test_split_random(x_train, 0.8)

#위의 과정을 sklearn을 통해 할 수 있음
from sklearn.model_selection import train_test_split
x1, x2 = train_test_split(x_train, test_size = 0.2, random_state = 42)

#### 4-2 결측치 제거

In [16]:
# 환불금액에는 보다시피 NaN 결측치 존재 이를 제거해야함.
x_train['환불금액'].head()

0    6860000.0
1     300000.0
2          NaN
3          NaN
4          NaN
Name: 환불금액, dtype: float64

In [17]:
# 결측치 제거용 복사 데이터를 만듦
x_train_copied = x_train.copy()

# fillna를 통해 결측치 중간값, 평균으로 대체
refund_median = x_train_copied['환불금액'].median()
x_train_copied['환불금액'].fillna(refund_median, inplace = True)

x_train_copied = x_train.copy()
refund_mean = x_train_copied['환불금액'].mean()
x_train_copied['환불금액'].fillna(refund_mean, inplace = True)

In [18]:
# sklearn을 사용하여 결측치 제거
from sklearn.impute import SimpleImputer
x_train_copied = x_train.copy()

imputer = SimpleImputer(strategy = 'median')
imputer.fit(pd.DataFrame(x_train_copied['환불금액']))
x_train_copied['환불금액'] = imputer.transform(pd.DataFrame(x_train_copied['환불금액']))

x_train_copied = x_train.copy()
imputer = SimpleImputer(strategy = 'mean')
imputer.fit(pd.DataFrame(x_train_copied['환불금액']))
x_train_copied['환불금액'] = imputer.transform(pd.DataFrame(x_train_copied['환불금액']))

### 5. 실전 문제 - 분류

##### Q. 남자일 확률을 custid - gender 형식으로 csv 파일로 만들어 제출

In [60]:
import pandas as pd

# 전처리 라이브러리
from sklearn.preprocessing import LabelEncoder
from sklearn.impute import SimpleImputer

# XGboost 라이브러리
import xgboost as xgb

In [19]:
# x_train과 y_train을 사용하여 모델을 만든 후 x_test를 input으로 하고 y_test를
# output으로 해서 이를 csv로 저장한 뒤 답안 제출하면됨.

x_train = pd.read_csv(x_train_path, encoding='cp949')
y_train = pd.read_csv(y_train_path, encoding='cp949')
x_test = pd.read_csv(x_test_path, encoding='cp949')

In [21]:
# cust_id 삭제

x_train_custid = x_train['cust_id']
y_train_custid = y_train['cust_id']

x_train = x_train.iloc[:, 1:]
y_train = y_train.iloc[:, 1:]

x_test_custid = x_test['cust_id']

x_test = x_test.iloc[:, 1:]

In [22]:
# 주구매상품과 주구매지점은 String이므로 이를 LabelEncoder 한다.
# 문제로 주어지는 데이터는 데이터셋 크기가 크지 않으므로 
# one-hot-encoder를 통해 차원을 늘리는 것보다는 LabelEncoder를 사용하는게 좋을듯 하다.

x_train.loc[:, ['주구매상품', '주구매지점']] = x_train.loc[:, ['주구매상품', '주구매지점']].apply(LabelEncoder().fit_transform)
x_test.loc[:, ['주구매상품', '주구매지점']] = x_test.loc[:, ['주구매상품', '주구매지점']].apply(LabelEncoder().fit_transform)

In [23]:
# 여기서 상품의 차원이 너무 많기 때문에 상품의 차원을 줄여보자
# 주구매상품, 주구매지점, 내점일수는 서로 지역적 연관성이 있을 수 있으므로 이 세개를 이용하여 클러스터링 할 계획

from sklearn.cluster import KMeans

x_train_cluster = x_train.loc[:, ['주구매상품', '주구매지점', '내점일수']]
x_test_cluster = x_test.loc[:, ['주구매상품', '주구매지점', '내점일수']]

kmeans_train = KMeans(n_clusters = 3)
kmeans_train.fit(x_train_cluster)

x_train_cluster['cluster'] = kmeans_train.labels_

kmeans_test = KMeans(n_clusters = 3)
kmeans_test.fit(x_test_cluster)

x_test_cluster['cluster'] = kmeans_test.labels_

In [24]:
# 환불 금액이 NaN이라는 것은 환불을 하지 않았다는 것. 따라서 NaN에 0값을 채워넣어줌.

x_train.loc[:, '환불금액'] = x_train.loc[:, '환불금액'].fillna(0)
x_test.loc[:, '환불금액'] = x_test.loc[:, '환불금액'].fillna(0)

In [25]:
# 현재 주말방문비율은 0-1사이의 값을 가지고 있지만 나머지는 값이 너무 큼.
# 따라서 나머지 데이터들에 minmaxScaler를 사용해서 정규화를 해줌.

minMaxScaler = MinMaxScaler()
minMaxScaler.fit(x_train.iloc[:, [0, 1, 2, 6, 8]])
x_train.iloc[:, [0, 1, 2, 6, 8]] = minMaxScaler.transform(x_train.iloc[:, [0, 1, 2, 6, 8]])

minMaxScaler.fit(x_test.iloc[:, [0, 1, 2, 6, 8]])
x_test.iloc[:, [0, 1, 2, 6, 8]] = minMaxScaler.transform(x_test.iloc[:, [0, 1, 2, 6, 8]])

In [26]:
# MinMax처리를 한 데이터에 cluster를 추가해주고 주구매상품, 주구매지점, 내점일수 열 삭제
x_train_copy = x_train.copy()
x_test_copy = x_test.copy()

x_train_copy = x_train_copy.drop(['주구매상품', '주구매지점', '내점일수'], axis = 1)
x_test_copy = x_test_copy.drop(['주구매상품', '주구매지점', '내점일수'], axis = 1)

x_train_copy['cluster'] = x_train_cluster['cluster']
x_test_copy['cluster'] = x_test_cluster['cluster']

In [57]:
import xgboost as xgb

xgb_model = xgb.XGBClassifier(n_esimator = 400, 
                              learning_rate = 0.1, 
                              max_depth = 5)
xgb_model.fit(x_train_copy, y_train)

# 모델 성능 roc_auc 점수 도출
predict_train = pd.DataFrame(xgb_model.predict_proba(x_train_copy))
model_roc_score = roc_auc_score(y_train, predict_train.iloc[:,1])
print(f'model_roc_score : {model_roc_score}')

# 예측
pred = xgb_model.predict(x_test_copy)
res = pd.DataFrame(xgb_model.predict_proba(x_test_copy))
res = pd.concat([x_test_custid, predict.iloc[:, 1]], axis = 1)

# 정답 제출
# 저장. path에 수험번호로 저장할 것.
res.to_csv('/Users/minki/prepare_dataq_test/res/100000.csv', index = False)

  return f(*args, **kwargs)


Parameters: { "n_esimator" } might not be used.

  This may not be accurate due to some parameters are only used in language bindings but
  passed down to XGBoost core.  Or some parameters are not used but slip through this
  verification. Please open an issue if you find above cases.


model_roc_score : 0.8510960132825635


### 6. 실전 문제 - 예측

#### Q. 부동산 가격을 예측해보자

In [69]:
# 데이터셋은 그냥 아무거나 가져옴
from sklearn.datasets import load_boston
boston = load_boston()
data = pd.DataFrame(boston.data)
data.columns = boston.feature_names
data['PRICE'] = boston.target

In [80]:
# 데이터셋을 8:2로 train과 test 데이터셋으로 구분하기
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(data.iloc[:, :-1], 
                                                    data.iloc[:, -1], 
                                                    test_size = 0.2, 
                                                    random_state = 123)

# pandas dataframe으로 바꿔줌
y_train = pd.DataFrame(y_train)
y_test = pd.DataFrame(y_test)

In [92]:
# x_train데이터와 x_test데이터를 minmaxscaler를 사용해서 scale 맞춰주기

from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler

minMaxScaler_train = MinMaxScaler()
minMaxScaler_train.fit(x_train)
x_train_scaled = minMaxScaler_train.transform(x_train)
x_train_scaled = pd.DataFrame(x_train_scaled)
x_train_scaled.columns = x_train.columns

minMaxScaler_test = MinMaxScaler()
minMaxScaler_test.fit(x_test)
x_test_scaled = minMaxScaler_test.transform(x_test)
x_test_scaled = pd.DataFrame(x_test_scaled)
x_test_scaled.columns = x_test.columns

In [111]:
xgb_reg = xgb.XGBRegressor(objective ='reg:linear', 
                          colsample_bytree = 0.3, 
                          learning_rate = 0.1, 
                          max_depth = 5, alpha = 10, n_estimators = 10)

xgb_reg.fit(x_train_scaled,y_train)
res = xgb_reg.predict(x_test_scaled)
res = pd.DataFrame(res)

res.to_csv('/Users/minki/prepare_dataq_test/res/100000.csv', index = False)

