# 데이터 분석 파헤치기

데이터 분석은 데이터 수집부터 전처리, 모델링까지 여러 과정으로 이루어져있다. 각 단계에서 주로 어떤 것을 하고 자주 사용되는 함수는 어떤 것이 있을지 정리해보고자 한다.

## 1. 데이터 수집

> 데이터 분석의 첫 번째 단계는 데이터 수집이다. 데이터를 분석하기에 앞서 다양한 소스에서 나오는 데이터를 수집하고 저장하는 작업이 필요하다.

자주 사용되는 함수 및 라이브러리는 'pandas'의 __read_csv()__ 와 'requests'의 __requests.get()__ 등이 있다. 그외 다양한 라이브러리와 함수가 있지만, 우선 수업에서 배운 내용을 기반으로 작성하려고 한다.

In [None]:
import pandas as pd
import requests

# 데이터 수집 예시1: CSV 파일 읽기
data = pd.read_csv('data.csv')

# 데이터 수집 예시2: 웹에서 데이터 수집하기
url = 'https://example.com'
temp_res = requests.get(url, ...)

read_csv()는 불러오는 데이터에 따라 encoding = ' '을 설정해줘야 할 때도 있다. 텍스트 데이터 파일의 인코딩이 주로 UTF-8이 아닌 다른 형식으로 저장되어 있는 경우 사용된다. 이를 정확히 지정해주지 않으면 문자가 깨지거나 오류가 발생할 수 있다.

## 2. 데이터 전처리
> 수집한 데이터가 깔끔한 데이터라면 좋겠지만 현실에서 다룰 데이터는 불완전하거나 깔끔하지 않은 경우가 대부분이다. 모델링 작업에서 좋은 성능을 내기 위해 데이터를 정제하고 품질을 향상시키는 전처리는 중요한 작업이다.  

### 2.1 결측치

데이터가 누락되거나 비어있는 값을 __결측치__ 라고 한다. 결측치는 데이터 분석 및 모델 학습에 방해가 될 수 있으므로 적절한 처리가 필요하다.

결측치는 다양한 방법으로 확인할 수 있는데, 대표적으로 __isnull(), isna()__ 함수를 이용하여 확인할 수 있다. 또는, __info()__ 를 사용하여 데이터 결측치 및 타입의 정보까지 확인할 수 있다.

In [None]:
# 결측치 확인 예시1: isnull()
data.isnull().sum()

# 결측치 확인 예시2: isna()
data.isnua().sum()

결측치를 처리하는 방법은 크게 두 가지로, __제거__ 를 하는 방법과, __대체__ 하는 방법으로 나뉜다.

In [None]:
# 결측치 제거
data.dropna(axis = 0, inplace = True) # 행 제거
data.dropna(axis = 1, inplace = True) # 열 제거

# 결측치 대체 - 특정 값 사용(평균, 최빈값 등)
data['col1'].fillna(data['col1'].mean(), inplace = True) # 평균값 사용

# 결측치 대체 - 선형보간법 사용
data['col2'] = data['col2'].interpolate(method='linear')

### 2.2 이상치

데이터 집합에서 다른 데이터와 동떨어진 값을 가진 관측치를 __이상치__ 라고 한다. 이상치는 모델 학습에 방해가 될 수 있으므로 이상치를 식별하고 처리하여 모델의 안전성을 향상시켜야 한다.

이상치는 통계적 기법 또는 시각화를 사용하여 식별할 수 있다. 대표적으로, __z-score__ 를 사용하여 확인을 하거나 사분위 범위수 __IQR__ 을 사용하여 확인하는 방법이 있다.

In [None]:
# 이상치 탐지 예시1: z-score 직접 계산
z = 1.5
data[abs(data['col3'] - np.mean(data['col3']))/np.std(data['col3'])>z].index

# 이상치 탐지 예시2: z-score 메서드 사용
from scipy import stats
z_scores = stats.zscore(data['col3'])

# 이상치 탐지 예시3: IQR 사용
Q3, Q1 = np.percentile(data, [75 ,25])
IQR = Q3 - Q1
IQR

# 이상치 탐지 예시4: boxplot 사용
import matplotlib.pyplot as plt
fig, ax = plt.subplots()
ax.boxplot(data)
plt.show()

### 2.3 데이터 변환 및 정규화

데이터를 모델에 적합한 형태로 변환하고, 컬럼 간 범위가 크게 다를 경우 다른 컬럼들과 스케일을 일치시키는 작업을 의미한다.

데이터 정규화를 하는 방법은 __Standardization, Min-Max Scailing__ 등이 있다.

In [None]:
# 정규화 예시1: Standardization 사용
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
data['scaled_feature'] = scaler.fit_transform(data[['original_feature']])

# 정규화 예시2: Min-Max Scailing 사용
from sklearn.preprocessing import MinMaxScaler
minmax_scaler = MinMaxScaler()
data['scaled_feature'] = minmax_scaler.fit_transform(data[['original_feature']])

모델링을 하기에 앞서, 사용할 모델에서 범주형 데이터를 지원하지 않는 경우 해당 범주형 변수를 수치형으로 변환해주어야 한다. 대표적으로, __one-hot encoding__ 이 있다.

In [None]:
# 데이터 변환 예시: get_dummies() 사용
dummies_feature = pd.get_dummies(data['categorical_feature'])

## 3. 모델링
> 데이터 전처리 작업을 마치고 데이터를 기반으로 모델을 생성, 학습, 예측하는 단계이다. 모델 성능을 평가하고 결과에 따라 전처리, 모델링 과정을 반복 수행함으로써 최종 모델을 선택한다.

자주 사용되는 함수 및 라이브러리는 __'scikit-learn'__ 이다. 'skcikit-learn'은 다양한 머신러닝 모델을 제공하며, 학습 평가 및 예측을 위한 도구를 제공한다.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

### 3.1 train/test 데이터 분리

독립변수와 종속변수를 각각 X, y에 설정하고 8:2 또는 7:3 비율로 학습데이터와 테스트 데이터로 나눈다.

In [None]:
X = data.drop('target', axis=1)
y = data['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### 3.2 모델 선택 및 학습

모델은 회귀, 분류 등의 작업에 따라 선형 회귀, 랜덤 포레스트 등의 모델을 선택한다.  
사용할 모델을 불러오고 fit()을 사용해 데이터를 모델에 학습시킨다.

In [None]:
# 모델 생성
model = RandomForestClassifier()

# 학습
model.fit(X_train, y_train)

### 3.3 예측 및 평가

위에서 학습한 모델의 예측 결과를 보고 성능을 평가하여 모델이 얼마나 잘 동작하는지 확인한다.

In [None]:
# 예측
y_pred = model.predict(X_test)

정확도, 정밀도, 재현율, f1-score, roc 곡선 등의 지표를 선택하고 선택한 지표를 사용하여 모델의 예측 성능을 측정할 수 있다.

In [None]:
# 성능 평가 예시1: 특정 지표 선택_정확도
accuracy = accuracy_score(y_test, y_pred)

# 성능 평가 예시2: classification_report() 사용
report = classification_report(y_test, y_pred)

### 3.4 하이퍼파라미터 튜닝

모델의 하이퍼파라미터를 튜닝하여 최적의 조합을 찾는다. Grid Search, Random Search를 사용하여 찾을 수 있다.

In [None]:
from sklearn.model_selection import GridSearchCV

# 하이퍼파라미터 그리드 설정
param_grid = {...}

# 그리드 서치 객체 생성 및 모델 튜닝
grid_search = GridSearchCV(RandomForestClassifier(), param_grid, cv=5)
grid_search.fit(X_train, y_train)

# 최적의 하이퍼파라미터
best_params = grid_search.best_params_

### 3.5 결과 시각화

실제값과 예측값을 그래프에 표현하여 해석하기 편하게 해준다. 또한, 여러 모델을 돌리고 각 모델 별 성능을 확인하기 위해 시각화를 진행할 수도 있다.