In [6]:
%run import_modules.py  
%matplotlib inline

# 보여지는 행/열 확대
pd.set_option('display.max_rows', 300)
pd.set_option('display.max_columns', 100)

# Setting

In [None]:
# matplotlib 한글깨짐 지원
# 캐글에서는 legend가 한글이 안나옴
import platform

if platform.system() == 'Darwin':
    rc('font', family='AppleGothic', size=16)
elif platform.system() == 'Windows':
    path = "c:/Windows/Fonts/malgun.ttf"
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name, size=16)
# 캐글은 linux
elif platform.system() == 'Linux':
    path = "../input/font-library/AppleGothic.ttf"
    mpl.rcParams['axes.unicode_minus'] = False
    font_prop = font_manager.FontProperties(fname=path, size=16)
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name, size=16)
else:
    print('Unknown system...')

# '.query ()`메소드를 사용하여 행 필터링 / 선택

In [7]:
df = pd.DataFrame(np.random.randint(0,10,size=(10, 3)), columns=list('ABC'))
df

Unnamed: 0,A,B,C
0,2,1,2
1,3,1,4
2,7,8,5
3,4,1,3
4,8,3,8
5,0,4,5
6,7,9,6
7,6,3,2
8,6,9,5
9,0,8,6


In [8]:
df.query('A > 2 and B < 5')

Unnamed: 0,A,B,C
1,3,1,4
3,4,1,3
4,8,3,8
7,6,3,2


In [9]:
B_filter = [1,7]
df.query('B == @B_filter')

Unnamed: 0,A,B,C
0,2,1,2
1,3,1,4
3,4,1,3


In [10]:
df.query('@B_filter in B')

Unnamed: 0,A,B,C
0,2,1,2
1,3,1,4
3,4,1,3


# set 함수


- set(집합)
- 수학에서 이야기하는 집합과 유사함
- 순서 없고, 집합안에서는 unique한 값만 존재
- mutable 객체(변경가능)
- REPL(Read Evaluate Print Loop), 결과값 바로 반환
- 중괄호를 사용하는 것은 dictionary와 비슷하지만, key 없이 값만 존재합

In [14]:
s, t = {}, set([1, 5, 1, 1, 1, 3, 7])
type(s), type(t), t

(dict, set, {1, 3, 5, 7})

In [16]:
2 in t, 3 in t, 3 not in t

(False, True, False)

In [18]:
t.add(50)
t

{1, 3, 5, 7, 50}

- dictionary의 update는 여러값을 수정 또는 추가할때 사용
- set은 중복은 자동으로 제거되고 수정이라는 개념보다, 여러데이터를 한번에 추가할 때 사용

In [21]:
t.update([3, 4, 5])
t

{1, 3, 4, 5, 7, 50}

## 메소드

- remove(item) : item에 해당하는 원소를 제거하고, 없으면 KeyError 발생
- discard(item) : item에 해당하는 원소를 제거하고, 없어도 에러발생하지 않음
- copy() : 얕은 복사에 해당, dictionary 처럼 생성자로 복사 가능(t = set(s))
- issubset : 부분집합 여부 확인
- issuperset : issubset과 반대 superset인지 확인
- isdisjoint : 교집합이 없으면 True, 있으면 False

## 연산자

- '|' : 합집합 연산자
- '&' : 교집합 연산자
- '-' : 차집합 연산자
- '^' : 대칭차집합 연산자(합집합 - 교집합)
- |=, &=, -=, ^= : = 과 조합함으로써 연산과 동시에 할당 (id 변경 없음)


##  연산메소드

- union : 합집합
- intersection : 교집합
- difference : 차집합
- symmetric_difference : 대칭차집합 연산자(합집합 - 교집합)

# 카테고리 변수 처리

In [None]:
cc | temp
US | 37.0
CA | 12.0
US | 35.0
AU | 20.0

In [37]:
cc = ['US', 'CA', 'US', 'AU']
tmp = [ 37, 12, 35, 20]
# df = dict(zip(cc, tmp))
df = pd.DataFrame([], columns = ['cc', 'temp'])
df.cc = cc
df.temp = tmp
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 2 columns):
cc      4 non-null object
temp    4 non-null int64
dtypes: int64(1), object(1)
memory usage: 144.0+ bytes


## 열 유형 변환 : categorical

In [39]:
df.cc = pd.Categorical(df.cc)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 2 columns):
cc      4 non-null category
temp    4 non-null int64
dtypes: category(1), int64(1)
memory usage: 220.0 bytes


In [40]:
df['code'] = df.cc.cat.codes
df

Unnamed: 0,cc,temp,code
0,US,37,2
1,CA,12,1
2,US,35,2
3,AU,20,0


In [41]:
# 값만 가져오기
df.cc.astype('category').cat.codes

0    2
1    1
2    2
3    0
dtype: int8

In [43]:
# 범주형 인덱스
df2 = pd.DataFrame(df.temp)
df2.index = pd.CategoricalIndex(df.cc)
df2

Unnamed: 0_level_0,temp
cc,Unnamed: 1_level_1
US,37
CA,12
US,35
AU,20


## 정수 식별자로 활용

In [44]:
df['code'] = pd.factorize(df['cc'])[0] + 1
df

Unnamed: 0,cc,temp,code
0,US,37,1
1,CA,12,2
2,US,35,1
3,AU,20,3


In [45]:
# 사전순 정렬
df['code'] = pd.factorize(df['cc'], sort=True)[0] + 1 
df

Unnamed: 0,cc,temp,code
0,US,37,3
1,CA,12,2
2,US,35,3
3,AU,20,1


In [None]:
# 카테고리 바꾸는 것.
#obj = ['category','author']
#print(df['category'].astype('category').cat.categories)
#print(df['author'].astype('category').cat.categories)

#df[obj] = df[obj].apply(lambda x: x.astype('category').cat.codes)

#imputer_cat = SimpleImputer(strategy="most_frequent")
#df[cat] = imputer_cat.fit_transform(df[cat])

# 범주/수치형 변수

In [None]:
# 범주형 변수와 수치형 변수를 분리
cat_features = list(X.select_dtypes(include=['object']).columns)
num_features = [c for c in X.columns.tolist() if c not in cat_features]

# 범주형 변수에 One-Hot-Encoding 후 수치형 변수와 병합
if len(cat_features) > 0:
    X_cat = pd.get_dummies(X[cat_features])  # One-Hot-Encoding
    X = pd.concat([X[num_features], X_cat], axis=1)
else:
    X = X[num_features] #object가 없는 경우에 대한 else문 필요

# 결측값 처리

In [47]:
X[num_features] = X[num_features].fillna(0)
X[cat_features] = X[cat_features].fillna('None')

# 데이터 형태 변환 메소드

In [None]:
train['date'] = pd.to_datetime(train['date'], format='%Y%m%d')

In [None]:
def downcast_dtypes(df):
    float_cols = [c for c in df if df[c].dtype == "float64"]
    int_cols =   [c for c in df if df[c].dtype in ["int64"]]

    df[float_cols] = df[float_cols].astype(np.float32)
    df[int_cols]   = df[int_cols].astype(np.int32)

    return df

train = downcast_dtypes(train)

In [None]:
to_numpy()
to_string()
to_numeric()
to_timedelta()
to_frame() # 파라미터로 컬럼명 지정

# train/test data leakage 발생시 처리

In [None]:
test_item_ids = test['item_id'].unique()
lk_train = train[train['item_id'].isin(test_item_ids)]
print('Data set size before leaking:', train.shape[0])
print('Data set size after leaking:', lk_train.shape[0])

# 컬럼별 PCA 후 merge

In [None]:
from sklearn.decomposition import PCA

def dummy_to_pca(tr, column_name:str, features) :
    max_seq = 300
    max_d = 50
    col_count = tr.groupby(column_name)[column_name].count()
    if len(col_count) > max_seq:
        tops = col_count.sort_values(ascending=False)[0:max_seq].index
        f =tr.loc[tr[column_name].isin(tops)][['item_id', column_name]]
    else:
        tops = col_count.index
        f =tr[['item_id', column_name]]
    f = pd.get_dummies(f, columns=[column_name])  # This method performs One-hot-encoding
    f = f.groupby('item_id').mean()
    if len(tops) < max_d:
        max_d = len(tops)
    pca = PCA(n_components=max_d)
    pca.fit(f)
    cumsum = np.cumsum(pca.explained_variance_ratio_) #분산의 설명량을 누적합
    num_d = np.argmax(cumsum >= 0.99) + 1 # 분산의 설명량이 99%이상 되는 차원의 수
    if num_d == 1:
        num_d = max_d
    pca = PCA(n_components=num_d)    
    result = pca.fit_transform(f)

    result = pd.DataFrame(result)
    result.columns = [column_name + '_' + str(column) for column in result.columns]
    result.index = f.index
    return result

In [None]:
X = df
catgory_pca = dummy_to_pca(df, 'category', X)
author_pca = dummy_to_pca(df, 'author', X)
publisher_pca = dummy_to_pca(df, 'publisher', X)
title_pca = dummy_to_pca(df, 'title', X)

In [None]:
catgory_pca.reset_index(inplace=True)
author_pca.reset_index(inplace=True)
publisher_pca.reset_index(inplace=True)
title_pca.reset_index(inplace=True)

In [None]:
catgory_pca = catgory_pca.merge(author_pca, on='item_id', how='left').fillna(0)
catgory_pca = catgory_pca.merge(publisher_pca, on='item_id', how='left').fillna(0)
catgory_pca = catgory_pca.merge(title_pca, on='item_id', how='left').fillna(0)

In [None]:
new_features.drop(['category', 'author', 'publisher', 'title_clean'], axis=1, inplace=True)
new_features = new_features.fillna(0)