# 빅데이터분석기사 코드 정리

### 기본 라이브러리

In [2]:
import pandas as pd
import numpy as np

### 외워야하는 라이브러리

In [56]:
# train_test 분할
from sklearn.model_selection import train_test_split

# scaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler


### 1. 데이터 삽입

In [8]:
x_test_path = '/Users/minki/prepare_dataq_test/dataset/X_test.csv'
x_train_path = '/Users/minki/prepare_dataq_test/dataset/X_train.csv'
y_train_path = '/Users/minki/prepare_dataq_test/dataset/y_train.csv'

x_train = pd.read_csv(x_train_path, encoding='cp949')
x_test = pd.read_csv(x_test_path, encoding='cp949')
y_train = pd.read_csv(y_train_path, encoding='cp949')

### 2. 데이터 구조 파악

#### 2-1. 데이터 개수 및 null 개수 파악

In [23]:
x_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3500 entries, 0 to 3499
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   cust_id  3500 non-null   object 
 1   총구매액     3500 non-null   int64  
 2   최대구매액    3500 non-null   int64  
 3   환불금액     1205 non-null   float64
 4   주구매상품    3500 non-null   object 
 5   주구매지점    3500 non-null   object 
 6   내점일수     3500 non-null   int64  
 7   내점당구매건수  3500 non-null   float64
 8   주말방문비율   3500 non-null   float64
 9   구매주기     3500 non-null   int64  
dtypes: float64(3), int64(4), object(3)
memory usage: 273.6+ KB


#### 2-2 데이터 구조 변경

In [68]:
# 위에서 cust_id는 int64로 표기되어 있지만 사실은 object형
x_train['cust_id'] = x_train['cust_id'].astype('object')
# .astype('object')
# .astype('float')
# .astype('str')
# .astype('int')

#### 2-3. 기초통계량 파악

In [69]:
# describe에서는 object형은 출력되지 않는다.(숫자가 아니여서 계산 불가)
x_train.describe()

Unnamed: 0,총구매액,최대구매액,환불금액,내점일수,내점당구매건수,주말방문비율,구매주기
count,3500.0,3500.0,1205.0,3500.0,3500.0,3500.0,3500.0
mean,91919250.0,19664240.0,24078220.0,19.253714,2.834963,0.307246,20.958286
std,163506500.0,31992350.0,47464530.0,27.174942,1.912368,0.289752,24.748682
min,-52421520.0,-2992000.0,5600.0,1.0,1.0,0.0,0.0
25%,4747050.0,2875000.0,2259000.0,2.0,1.666667,0.027291,4.0
50%,28222700.0,9837000.0,7392000.0,8.0,2.333333,0.25641,13.0
75%,106507900.0,22962500.0,24120000.0,25.0,3.375,0.44898,28.0
max,2323180000.0,706629000.0,563753000.0,285.0,22.083333,1.0,166.0


#### 2-4. object형의 value 개수 세기(value는 자동적으로 내림차순)

In [70]:
x_train['주구매상품'].value_counts()
x_train.loc[:, '주구매상품'].value_counts().head() # 내림차순
x_train.loc[:, '주구매상품'].value_counts().sort_values(ascending = True).head() # 오름차순

악기        2
소형가전      2
남성 트랜디    2
보석        3
통신/컴퓨터    3
Name: 주구매상품, dtype: int64

In [38]:
# value_counts와 len을 이용하면 전체 비율을 구할 수 있다.
res = x_train['주구매상품'].value_counts()/len(x_train)
res.head()

기타      0.170000
가공식품    0.156000
농산물     0.096857
화장품     0.075429
시티웨어    0.060857
Name: 주구매상품, dtype: float64

#### 2-5. 상관관계 조사. 마찬가지로 object형은 나오지 않는다.

In [71]:
x_train.corr()
# x_train['총구매액'].corr(x_train['최대구매액']) 1:1 관계로 상관계수 출력

Unnamed: 0,총구매액,최대구매액,환불금액,내점일수,내점당구매건수,주말방문비율,구매주기
총구매액,1.0,0.70008,0.419734,0.659084,0.090022,0.014396,-0.212944
최대구매액,0.70008,1.0,0.410562,0.374147,0.01898,0.022277,-0.115837
환불금액,0.419734,0.410562,1.0,0.27029,-0.063114,-0.062397,-0.211125
내점일수,0.659084,0.374147,0.27029,1.0,0.225264,-0.010325,-0.2932
내점당구매건수,0.090022,0.01898,-0.063114,0.225264,1.0,0.007659,-0.091151
주말방문비율,0.014396,0.022277,-0.062397,-0.010325,0.007659,1.0,0.003372
구매주기,-0.212944,-0.115837,-0.211125,-0.2932,-0.091151,0.003372,1.0


#### 2-6. 데이터 Slicing

#### 기본적으로 데이터 Slicing에는 iloc와 loc가 사용됨. iloc는 기본적으로 index가 기준이 되는 slicing이며 loc는 label이 기준이되는 slicing임

In [73]:
x_train.iloc[0] # 첫 번째 행만
x_train.iloc[-1] # 마지막 행만

x_train.iloc[:, 0] # 첫 번째 열만
x_train.iloc[:, -1] # 마지막 열만

x_train.iloc[[0, 1, 3], [2, 4]] # 2, 4, 6번째 열에서 0, 1, 3, 5번째 행만

Unnamed: 0,최대구매액,주구매상품
0,11264000,기타
1,2136000,스포츠
3,4935000,기타


In [78]:
# x_train.loc['행이름']
# x_train.loc[['행이름1', '행이름2'], ['열이름1', '열이름2']]

### 3. 조건문, 반복문

In [115]:
#Q. 주구매상품에서 기타의 상품 수는?
len(x_train[x_train['주구매상품'] == '기타']) 

# 만약 for문을 사용한다면

count = 0
for i in x_train['주구매상품'] :
    if(i == '기타'):
        count += 1

print(count)

595


In [87]:
#Q. 최대구매액의 평균을 구하고 평균보다 큰 값의 개수를 구해라

# 최대 : x_train['최대구매액'].max()
# 최소 : x_train['최대구매액'].min()
# 중간 : x_train['최대구매액'].median()
# 평균 : x_train['최대구매액'].mean()
# 2분위수 : x_train['최대구매액'].describe()['25%']
len(x_train[x_train['최대구매액'] > x_train['최대구매액'].mean()])

1011

In [147]:
#Q. 최대구매액 컬럼을 Min-Max Scale로 변환한 후 0.5보다 큰 값을 가지는 레코드 수

def min_max(data):
    data_min = data.min()
    data_max = data.max()
    
    scaled_data = data.apply(lambda x: (x - data_min) / (data_max - data_min))
    
    return scaled_data

minmax_data = min_max(x_train['최대구매액'])
len(minmax_data[minmax_data > 0.5])

# 이 문제를 sklearn의 scaler를 사용해 해결해보자
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler

# 정규화
standardScaler = StandardScaler()
# 여기서 scaler에 들어가는 데이터는 리스트처럼 1차원이 아니라 데이터프레임처럼 2차원이여야 한다.
standardScaler.fit(pd.DataFrame(x_train['최대구매액']))
standardScaler.transform(pd.DataFrame(x_train['최대구매액']))

# Minmax

minMaxScaler = MinMaxScaler()
minMaxScaler.fit(pd.DataFrame(x_train['최대구매액']))
res = minMaxScaler.transform(pd.DataFrame(x_train['최대구매액']))
len(res[res > 0.5])

### 4. 데이터 전처리

#### 4-1 데이터 split

In [59]:
#Q1. x_train data를 8:2로 나눠보자

def train_test_split(data, ratio):
    train_len = int(len(data)*ratio)
    
    train_data = data.loc[:train_len-1, :] #여기서 -1해주는게 중요
    test_data = data.loc[train_len : len(data), :]
    
    return train_data, test_data

#Q2. split에 무작위성을 추가해보자.

def train_test_split_random(data, ratio):
    shuffled_idx = np.random.permutation(len(data))
    test_size = int(len(data)*ratio)
    
    test_idx = shuffled_idx[:test_size]
    train_idx = shuffled_idx[test_size:]
    
    test_data = data.iloc[test_idx]
    train_data = data.iloc[train_idx]
    
    return test_data, train_data

x1, x2 = train_test_split(x_train, 0.8)
x1, x2 = train_test_split_random(x_train, 0.8)

#위의 과정을 sklearn을 통해 할 수 있음
from sklearn.model_selection import train_test_split
x1, x2 = train_test_split(x_train, test_size = 0.2, random_state = 42)

#### 4-2 결측치 제거

In [57]:
# 환불금액에는 보다시피 NaN 결측치 존재 이를 제거해야함.
x_train['환불금액'].head()

0    6860000.0
1     300000.0
2          NaN
3          NaN
4          NaN
Name: 환불금액, dtype: float64

In [67]:
x_train.iloc[:, 0]

0          0.0
1          1.0
2          2.0
3          3.0
4          4.0
         ...  
3495    3495.0
3496    3496.0
3497    3497.0
3498    3498.0
3499    3499.0
Name: cust_id, Length: 3500, dtype: object