# 1. Kaggle EDA

In [1]:
# 기본 제공 코드
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

In [1]:
# 시각화
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

# library 버전 확인
print(sns.__version__)
# seaborn library 0.11.1 version install code : !pip install seaborn == 0.11.1
# seaborn library upgrade code : !pip install --upgrade seaborn

In [1]:
# 에러메세지가 안나오게 하는 라이브러리
import warnings
warnings.filterwarnings(action='ignore')

In [1]:
# data 불러오기
train = pd.read_csv('/kaggle/input/kakr-4th-competition/train.csv')
test = pd.read_csv('/kaggle/input/kakr-4th-competition/test.csv')

In [1]:
train.head() # or tail()

In [1]:
test.sample(5)

In [1]:
print(train.columns)

In [1]:
train.info() #check null, dtype

In [1]:
# missing value 시각화
import missingno as msno
msno.matrix(train)

columns = 'id', 'age', 'workclass', 'fnlwgt', 'education', 'education_num',
       'marital_status', 'occupation', 'relationship', 'race', 'sex',
       'capital_gain', 'capital_loss', 'hours_per_week', 'native_country',
       'income'

In [1]:
# 빈도표 확인
train['workclass'].value_counts()

In [1]:
# 빈도표 시각화
fig, ax = plt.subplots(1, 1, figsize=(12,5)) # plot1개, 12X5 inch로 생성
sns.countplot(data=train, x='workclass', ax=ax, hue='sex') # train의 workclass 그래프를 ax공간에 sex 색상별로 삽입
plt.show() # 그래프 출력

In [1]:
# 기술통계량 출력
train.describe()

In [1]:
# 히스토그램 그리기
fig, ax = plt.subplots(1, 1, figsize=(12,5))
ax.hist(train['age'], width=5, edgecolor='black') # 막대그래프 너비 5로 테두리 검정색
ax.set_title("Age distribution", fontweight='bold') #제목은 Age distribution으로 굵게
plt.show()

In [1]:
# seaborn kdeplot으로 선그래프 분포도 그리기
sns.kdeplot(data=train, x='age')

In [1]:
# income 변수 범주형 값 확인
train['income']

In [1]:
# imcome 값을 1, 0으로 변환
train['income'] = (train['income'] == '>50K').astype(int)
train['income'].value_counts()
#train.income = train.income.map(lambda x: int(x=='>50K')) 로도 가능, map함수 내부 조건을 만족할 때 1로 변형

In [1]:
# race, sex 별로 평균 값 구하기
train.groupby(['race','sex']).mean()

In [1]:
# race, sex 별로 imcome 평균 값 구하기
train.groupby(['race','sex'])[['income']].mean().style.background_gradient(cmap='Purples') # 값이 높을수록 purples에 가깝게 배경색 칠하기

In [1]:
pd.pivot_table(train, 
               columns='sex', 
               index='race', 
               values='income', 
               aggfunc='sum')

In [1]:
# 데이터 분포 확인
sns.boxplot(data=train, x='race', y='age', hue='sex')
#swarmplot(data=train, x='race', y='age')

In [1]:
sns.violinplot(data=train, x='race', y='age')

In [1]:
# pearson correlation
corr = train.corr()

In [1]:
# corr 시각화(heatmap)
train.corr().style.background_gradient(cmap='coolwarm')

In [1]:
# corr 시각화(heatmap)
sns.heatmap(corr, square=True, linecolor='white', linewidth=0.1, cmap='coolwarm', vmax=1.0, vmin=-1.0) #pearson 상관계수 값을 정사각형 heatmap으로 테두리 0.1 흰색, 최대값 1, 최소값 -1, 크면 빨간색, 작으면 파란색으로 그래프 그리기

# 2. Feature Engineering

## Pandas
#### Pandas 라이브러리에서 많이 쓰이는 것들 위주로 설명
- loc : [] 안에 "row","column"형식으로 설정, row자리에 데이터.변수의 조건에 만족하는 것만 출력 가능, : 로 전체 설정가능
- iloc : loc처럼 이름을 그대로 쓰지 않고 인덱스 값으로 설정
- info : 데이터의 개수, null 여부, 데이터 형태 출력
- describe : 평균, 표준편차, 중앙값, Q1, Q3 등 기술통계랑 출력
- value_counts : 빈도표 출력
- head, tail, sample : 데이터의 일부만 추출하여 출력
- map : 변수 값의 자료를 변형(위에 있음)
- apply : 행이나 열을 기준으로 데이터를 변형해서 결과로 보고 싶을 때 사용 
- groupby : 설정한 변수의 그룹별로 분석

Shift + Tab을 누르면 함수에 대한 설명이 나옴

[KaKr]#### 시작하기 전에 데이터에 대해 이해해보는 시간
- Q. 디스크의 csv파일 용량보다 메모리에서 읽는 용량이 몇배나 큰 이유는?
    - 우리가 보는 숫자나 문자로 입력되는 것이 아니라 고유 자리수(int64, float64 등)를 가지고 들어오기 때문에 

In [1]:
# 기본 제공 코드
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

In [1]:
# 시각화
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

# library 버전 확인
print(sns.__version__)
# seaborn library 0.11.1 version install code : !pip install seaborn == 0.11.1
# seaborn library upgrade code : !pip install --upgrade seaborn

In [1]:
# 에러메세지가 안나오게 하는 라이브러리
import warnings
warnings.filterwarnings(action='ignore')

In [1]:
# data 불러오기
train = pd.read_csv('/kaggle/input/kakr-4th-competition/train.csv')
test = pd.read_csv('/kaggle/input/kakr-4th-competition/test.csv')

In [1]:
train.sample(10)

sample 데이터를 보면서 분포가 어떤지, 값은 어떻게 입력되었는지 한 번씩 판단해보는 습관을 길러두는 것이 좋다.

In [1]:
# 데이터와 변수의 type 
print(type(train))
print(type(train.native_country)) # 아래와 동일하게 출력
print(type(train['native_country'])) # 함수와 변수 이름이 같은 경우가 생기기 때문에 사용, Tab을 누르면 함수 안나옴

함수를 쓰기 전에 어떤 형태의 type인지 확인을 하고 써야함

In [1]:
train.loc[train.native_country=='?', 'age']

In [1]:
train.iloc[:, 1:4]

In [1]:
train.apply(lambda x: x['age'] + x['hours_per_week'], axis=1) # 0이면 행, 1이면 열

In [1]:
# 간단한 그래프 그리기
train.age.plot(kind='box')

## Data Preproessing (전처리)
- Handle Missing values
    - 의미가 missing일 때도 있음
    - 삭제
        - Feature로서 의미가 없을 때(80%이상 못쓸 때)
        - 데이터 수가 충분해서 변수가 없어도 될 때
    - 대치
        - 다른 sample의 분포로 어느정도 예측 가능할 때
        - 의미적으로 추론 가능할 때
- Handle Outliers
    - 삭제 : 정상 분포에서 극단적으로 벗어난 값
    - 대치 : 의미적으로 다른 값으로 변경(max,min)
    - 로그변환 : 작은 값에 몰려있을 때 주로 활용
- Select Dependent & Independent value
- Split train & test set
- Scaling
    - 값의 크기, 단위에 따라 영향을 미치는 정도가 달라짐, 해보고 좋은 것 선택
    - Min-max Scaler (최소 최대 변환/ 정규화)
        - 음수X, range 0-1이어야 하는 경우 사용, outlier에 민감함
        - X_new = \frac {x-x_min} {x_max-x_min}
    - Standard Scaler(표준화)
        - outlier 상관없음, PCA에 좋음
        - x_new = \frac {x-\mu} {\sigma}
    - 데이터 누수
        - train 기준으로 적용
        - train으로 한 것을 test에 적용(동일 조건이라 가정)
        - train, test로 분석한 결과에 대한 영향력을 보고 판단해야 함

 ## 결측치 처리
 - 현재 데이터에는 없음, ?값으로 사용
#### Null check 관련 팁
- 데이터를 다 확인하지 않고 결측치가 있는지 확인하는 법
#### Null이 있는 데이터의 특징
- 수치형은 float로 나타난다
- Na가 아닌 다른 형태로 저장했을 수도 있다(?, No 등)

In [1]:
train[train.apply(lambda x:"?" in list(x), axis=1)]

In [1]:
train.workclass.value_counts()

In [1]:
train.occupation.value_counts()

In [1]:
train[(train['workclass']!='?')&(train['occupation']=='?')]

occupation에서 ?로 나타난다? workclass가 ?가 아닐 때를 확인
- workclass가 Never-worked로 나옴
(test에서도 그럴지 생각을 해봐야함), 다른 특성도 살펴본다. overfitting을 감안해서 결정
- income도 0

- 변경사항은 인지하고 있어야 함
 

In [1]:
train.native_country.value_counts()

native_country에서 ?가 어떤 것을 뜻하는지 알 수 없음
- 제거 : 샘플을 지우는 것도 한가지 방법
- 대치 : 새로운 카테고리로 생성(map, loc)

In [1]:
train.loc[(train.age>=30)&(train.workclass=='?'), 'workclass'] = 'No'

In [1]:
train.workclass.value_counts()

library는 최소한으로 사용하고 직접 구하는 것을 추천

In [1]:
train.info()

## 이상치
- 수치형 데이터에 이상한 값이 없는지 확인
    - max 값이 이상한 것
    - feature의 특성을 보고 판단

In [1]:
train.describe()

In [1]:
train.loc[train["capital_gain"]==99999, 'income'].value_counts()

In [1]:
train.loc[train.capital_gain < 99999].sort_values('capital_gain',ascending = False)

##### 코드의 도움말이 필요하다면(?가 두 개면 코드 예시)
pd.Series.sort_values?

In [1]:
#log 표현
train['log_capital_gain'] = train.capital_gain.map(lambda x: np.log(x, where=(x!=0)))
train['log_capital_gain']

In [1]:
train[['capital_gain','log_capital_gain']].describe()

## Scaling
- Min-max Scaler
    - 범위가 정해진 값이 필요할 때
    - 아웃라이어에 민감함
- Standard Scaler
    - 평균을 0, 표준편차를 1로 맞추어 정규분포의 특성을 가지도록 함
    - 아웃라이어에 영향을 덜 받음

In [1]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler
mm_scaler = MinMaxScaler()
st_scaler = StandardScaler()

In [1]:
train['fnlwgt'].values #numpy.ndarray로 출력

In [1]:
# 되도록 feature 하나씩 하기
train['MM_fnlwgt'] = mm_scaler.fit_transform(train['fnlwgt'].values.reshape(-1,1))
test['MM_fnlwgt'] = mm_scaler.fit_transform(test['fnlwgt'].values.reshape(-1,1))

train['MM_age'] = mm_scaler.fit_transform(train['age'].values.reshape(-1,1))
test['MM_age'] = mm_scaler.fit_transform(test['age'].values.reshape(-1,1))

train['ST_fnlwgt'] = st_scaler.fit_transform(train['fnlwgt'].values.reshape(-1,1))
test['ST_fnlwgt'] = st_scaler.fit_transform(test['fnlwgt'].values.reshape(-1,1))

train['ST_age'] = st_scaler.fit_transform(train['age'].values.reshape(-1,1))
test['ST_age'] = st_scaler.fit_transform(test['age'].values.reshape(-1,1))

In [1]:
train.describe()[['MM_fnlwgt','MM_age']].round(6)

In [1]:
train.describe()[['ST_fnlwgt','ST_age']].round(6)

## Encoding, Feature Selection & Extraction
- Feature : 모델 예측에 사용되고 데이터를 표현할 수 있는 모든 독립 변수, 개체, 특성
- Feature Engineering : 더 나은 모델 알고리즘 성능을 위해 Raw Data로 부터 Feature를 만들거나 재구성하는 과정
- train을 기준으로 쭉 갈 것인지, 미래에 바뀔 데이터를 기준으로 할 것인지를 정해야 함

#### Encoding
- 모델이 이해하기 힘든 형태, 애매한 형태, 잘못 학습될 가능성이 있는 Feature에 대해 의미적인 관점에서 변환
- 종류
    - One-hot Encoding : 범주형 변수에 대해 각 클래스 별 독립적인 Feature 생성(값은 1,0)
    - Label Encoding : 순서가 있는 변수에 대해서 단순 숫자로 넘버링
    - Mean Encoding : 해당 Feature의 각 클래스 별 Target 분포를 바탕으로 Feature 값을 맵핑, overfitting 위험이 높음(Kaggle에서 자주쓰임)
- 불편한 점이 많아서 직접 Feature를 생성하는게 나을 수 있음

Onehot encoder

In [1]:
from sklearn.preprocessing import OneHotEncoder, LabelEncoder

oe = OneHotEncoder()
oe.result = oe.fit_transform(train['workclass'].values.reshape(-1,1))
oe.result

In [1]:
print(oe.result.toarray())
print(oe.result.toarray().shape)

In [1]:
#onehotencoding에서 만들어진 이름
print(oe.get_feature_names(['workclass']))

In [1]:
sub = pd.DataFrame(data=oe.result.toarray(), columns=oe.get_feature_names(['workclass']))
sub

In [1]:
pd.concat([train, sub], axis=1)

##### OneHotEncoding 일괄적으로 하는 법
- train 데이터만 재생성하고 올 것

In [1]:
dummied = pd.get_dummies(train) #모든 object를 Feature를 만들어줌
dummied

#### Label encoder
- 순서를 정할 수는 없음
- 속도가 느림

In [1]:
le = LabelEncoder()
le.fit_transform(train['workclass'].values.reshape(-1, 1))

In [1]:
train['workclass'].unique()

Label에 순서를 직접 정하는 방법

In [1]:
workclass_to_unm = dict(zip(train['workclass'].unique(), [0,1,2,3,4,5,6,7,8,9]))
workclass_to_unm

##### (Target)Mean Encoding

In [1]:
male_positive = train.loc[train['sex']=='Male', 'income']
female_positive = train.loc[train['sex']=='Female', 'income']
print(male_positive)
print(female_positive)

In [1]:
print(male_positive.value_counts()/male_positive.shape[0])
print(female_positive.value_counts()/female_positive.shape[0])

#### Feature Selection
- 차원의 저주 : Feature 수에 비해 target을 설명할 수 있는 충분한 데이터 수가 없는 경우
- 여러 Feature들 가운데 일부를 선택
- Greedy 알고리즘
- 모델 복잡도 감서, Overfitting 회피

#### Feature Extraction
- 주어진 Feature를 바탕으로 새로운 Feature 재구성
- PCA, LDA
- 모델 복잡도 감서, Overfitting 회피

- PCA 설명
    - 분산이 크다 = 주어진 정보가 많다
    - 주어진 데이터의 분산을 표현할 수 있느 벡터(고유벡터)를 찾을 수 있다면 선별하여 원본데이터를 투영
    - 원본데이터의 차원이 d일 때, k 차원의 새로운 데이터 셋으로 재구성(k<d)

##### PCA

In [1]:
from sklearn.decomposition import PCA
pca = PCA(n_components=60, svd_solver='full')

In [1]:
#dummied = dummied.drop(columns=['id','income_<=50K','income_>50K'])

In [1]:
X_train_std = st_scaler.fit_transform(dummied)
X_train_std.shape

In [1]:
X_train_pca = pca.fit_transform(X_train_std)
print(X_train_pca)
print(X_train_pca.shape)

In [1]:
pca.explained_variance_

In [1]:
pca.components_.shape

In [1]:
X_train_2 = X_train_std - X_train_std.mean(axis=0)

res = np.dot(X_train_2, pca.components_.T)
res

In [1]:
np.allclose(X_train_pca, res) #두 데이터가 같은지 확인

## Before Modeling
- 그냥 LGBM, XGBoost 쓰면 안되나요?
    - tree 기반 model이나 boosting모델은 scaling이 필요가 없음
    - 제일 하고 싶은 것 : Deep-Learning
    - 실제로 제일 많이 쓰이는 것 : Data Visualization, Logistic Regression
- 가르쳐 준 것 다 적용하면 되나요?
    - 사용법을 알아두고 적재적소에 사용!

# 3. 모델과 검증 & 앙상블
- 4차 산업혁명 시대 가장 중요한 것은 데이터
    - 과거 : 경험과 직관으로 결정
    - 현재 : 데이터 분석으로 패턴을 확인하여 결정(general function, minimize loss)
- 머신러닝을 공부하려면 Data와 사람이 많은 곳으로 가라!

## 데이터 확인, 결측치 처리, Log변환
#### 데이터 전처리

In [1]:
# 기본 제공 코드
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

In [1]:
# 시각화
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

# library 버전 확인
print(sns.__version__)
# seaborn library 0.11.1 version install code : !pip install seaborn == 0.11.1
# seaborn library upgrade code : !pip install --upgrade seaborn

In [1]:
# 에러메세지가 안나오게 하는 라이브러리
import warnings
warnings.filterwarnings(action='ignore')

In [1]:
# data 불러오기
train = pd.read_csv('/kaggle/input/kakr-4th-competition/train.csv')
test = pd.read_csv('/kaggle/input/kakr-4th-competition/test.csv')

In [1]:
# income을 target으로 생각, 따로 나누기
label = train['income']

del train['income']
del train['id']
del test['id']

In [1]:
train.tail()

In [1]:
label = label.map(lambda x : 1 if x=='>50K' else 0)
label.head()

In [1]:
# data 복사해서 쓰기, 원본 유지용
tmp_train = train.copy()
tmp_test = test.copy()

In [1]:
tmp_train.info() #결측치가 ?라서 null 없음으로 표시

In [1]:
tmp_train.head() #결측치가 ?

In [1]:
tmp_train.describe() # 평균과 중앙값 파악, 최대 최소값이 너무 멀은가, 중앙에서 얼마나 떨어졌나 + 분포 시각화

#### 결측치 처리
- ?로 되어있어서 따로 찾아서 처리
- 수치형 : 평균, 중앙값, r에선 mice 다른 변수로 회귀분석하여 예측, python에선 interate..?어쩌구
- 범주형 : NA가 적으면 가장 많은 것으로 대체, 많으면 변수를 제거 or 다른 변수로 유추(예시 군집분석), 도메인 지식이 매우 중요

In [1]:
has_no_columns = ['workclass','occupation','native_country']

In [1]:
# 다른 방법
(tmp_train[has_no_columns] == '?').sum()

In [1]:
for c in has_no_columns :
    tmp_train.loc[train[c] =='?',c] = train[c].mode()[0]
    tmp_test.loc[train[c] =='?',c] = test[c].mode()[0] # index없이 값만 출력

#### Log 변환
- capital_gain 변수와 capital_loss 변수의 분포가 한쪽으로 치우친 형태이므로 Log변환을 통해 분포의 형태를 조정

In [1]:
tmp_train['capital_gain'].plot.hist()

In [1]:
tmp_train['capital_loss'].plot.hist()

In [1]:
tmp_train['log_capital_gain'] = train['capital_gain'].map(lambda x : np.log(x) if x!=0 else 0)
tmp_test['log_capital_gain'] = test['capital_gain'].map(lambda x : np.log(x) if x!=0 else 0)

tmp_train['log_capital_loss'] = train['capital_loss'].map(lambda x : np.log(x) if x!=0 else 0)
tmp_test['log_capital_loss'] = test['capital_loss'].map(lambda x : np.log(x) if x!=0 else 0)

In [1]:
tmp_train['log_capital_gain'].plot.hist()

In [1]:
tmp_train['log_capital_loss'].plot.hist()

In [1]:
tmp_train = tmp_train.drop(columns=['capital_loss','capital_gain'])
tmp_test = tmp_test.drop(columns=['capital_loss','capital_gain'])