#EDA Process
EDA : Exploratory Data Analysis 탐색적 데이터 분석


------------------------------------------------------------------------------

1. 시각화를 통한 패턴 발견
  - histogram, pie-chart, boxplot, qqplot(분포) 등

2. Summary Statistics : 데이터 분포 및 특이성 확인
  -  mean, sd, skewness, kurtosis, outliers, frequency 등

3. 독립변수 선정
  - 데이터 해석 상의 배경지식 반영
  - 상관성 높은 변수 제거 
  - 차원 축소 (설명력 높은 수준의 PCA)

4. Data Filtering
  - Data type 확인(수치형 <> 범주형)
  - 결측치 제거 및 중위값 대체
  - outlier 처리
  - 범주형 : one-hot encoding

5. Scaling
  - z-normalize, MinMax

6. Target variabla가 정규분포를 따르는지


------------------------------------------------------------------------------



1. 시각화를 통한 패턴 발견
  - histogram, pie-chart, boxplot, qqplot(분포) 등


2. Summary Statistics : 데이터 분포 및 특이성 확인
  -  mean, sd, skewness, kurtosis, outliers, frequency 등

In [None]:
df.head(n) # DataFrame 형태로 데이터 상위 n개 확인

df.info() # class, Column별 데이터 갯수 및 type 확인


3. 독립변수 선정
  - 데이터 해석 상의 배경지식 반영
  - 상관성 높은 변수 제거 
  - 차원 축소 (설명력 높은 수준의 PCA)

In [None]:
## PCA
# 각 변수들간의 상관관계 파악, 시각화
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

plt.figure(figsize=(12, 8))
sns.heatmap(df.corr(), annot=True, cmap='viridis')  # 변수간 상관관계 corr()

# PCA
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# 0.9 이상의 강한 상관관계가 있는 변수들(A~Z)을 선형변환을 통해 차원 축소
col_PCA = ['A,B...,Z']
x = df[col_PCA]

scaler = StandardScaler()
scaler.fit(x)
scaled_X_train = scaler.transform(x)

pca = PCA(n_components=2) #PCA 객체 생성 (주성분 갯수 2개 생성)
pca.fit(scaled_X_train)
principalComponents = pca.transform(scaled_X_train)
principalDf = pd.DataFrame(data = principalComponents, columns = ['PCA_1', 'PCA_2'])
principalDf

pca.explained_variance_ratio_  # PCA1,PCA2 2개의 성분으로 cover하고 있는 설명력 확인

# 두 PCA1,PCA2 변수를 추가하고 사용한 변수는 제거한다.
df.insert(0,"PCA_2",principalDf.PCA_2,True) 
df.insert(0,"PCA_1",principalDf.PCA_1,True)
df = df.drop(col_PCA,axis=1)
df.info()

4. Data Filtering
  - Data type 확인(수치형 <> 범주형)
  - 중복 데이터 확인
  - 결측치 제거 및 중위값 대체
  - outlier 처리
  - 범주형 : one-hot encoding

In [None]:
# 1. null값들의 존재 유무 및 그 비율 확인
for column in df.columns:
  if df[column].isna().sum()!=0:
    missing = df[column].isna().sum()
    portion = (missing/df.shape[0])*100
    print(f"'{column}':number of missing value '{missing}' ==> '{portion:.3f}%'")
print('==========================================')

# 2. column마다의 null 갯수
data.isnull().sum()



In [None]:
# 중복되는 데이터가 존재하는 확인
print(f"Data shape:{df.shape}")
df.drop_duplicates(inplace=True)
print(f"Data shape:{df.shape}")
print('==========================================')

5. Scaling
  - z-normalize, MinMax

6. Target variabla가 정규분포를 따르는지