## 직장인을 위한 파이썬 데이터 분석 초격차 패키지


## **문제해결 프로세스 정의**
---
> **문제정의**

```
▶ 신용카드 대금 채무 불이행으로 인한 손실
```  

> **기대효과**

```
▶ 채무 불이행으로 인한 손실 감소
```

> **해결방안**

```
▶ 채무 불이행 고객 예측 및 블랙리스트 관리(신용한도 조정)
▶ Session 1 🥉
 - 고객 프로필 정보 확인 및 파생변수 생성 및 검증
▶ Session 2 🥈
 - 고객 프로필 정보, 이용한도에 따른 채무 불이행률 탐색
▶ Session 3 🥇
 - ML알고리즘 활용 채무 불이행 고객 예측
```

> **성과측정**  

```
▶ 블랙리스트 관리 후 채무 불이행 손실 감소률(%)
```

> **현업적용**  

```
▶ 매 월 Model에 Input하기 위한 Data mart 생성
▶ Data mart 예측 Model에 Input후 채무불이행 예측 고객군 추출
▶ 추출한 고객 대상으로 신용한도 조정 및 블랙리스트 관리를 통한 손실 방어
```

> **주요 코드 미리 살펴보기**  

```
▶ session 1 → np.where(), sns.catplot(), replace()
▶ session 2 → value_counts(), d.pivot_table(), reset_index(), sort_values()
▶ session 3 → RandomForestClassifier, roc_auc_score()
```

In [None]:
# 프로젝트를 설명할 때 Flow를 잘 정리해야 한다.
# 위처럼 문제정의, 해결방안, 기대효과, 성과측정, 현업적용 순으로 설명해야 한다.

#### [Part2 - CH03] Folium

In [None]:
# 추가적으로 옵션을 조사해야 한다.
# ----- 지도 -----
# folium.Figure(width, height)
# folium.Map(location=[위도,경도], zoom_start, tiles)
# folium.choropleth(geo_data = seoul_json, fill_color)
# ----- 마커 -----
# 마커
'''
folium.Marker([37.50327278745055, 127.04160945554442],
               popup = '패스트 캠퍼스',     # 마커 이름 입력
               icon = folium.Icon(color='blue')).add_to(map)
'''
# 원형 마커
'''
folium.CircleMarker([37.50327278745055, 127.04160945554442],
                     radius = 100,    # 범위
                     color = 'skyblue',
                     fill_color = 'skyblue',
                     popup = '패스트 캠퍼스',     # 마커 이름 입력
                     icon = folium.Icon(color='blue')).add_to(map)
'''

#### [Part2 - CH04 - 09] HyperParameter Tunning
설정 가능한 Hyper Parameter를 조정하며 모델 성능을 최적화하는 과정이다.<br>
$\bullet$ GridSearchCV
- 지정한 HyperParameter와 값들을 격자 형식으로 조합해 모두 탐색한 뒤 최고 성능인 조합을 반환한다.
- 많은 수의 HyperParameter와 값들을 탐색할 때 오래 걸린다.
```python
from sklearn.model_selection import GridSearchCV
grid_search =  GridSearchCV(모델, 하이퍼파라미터DICT, cv=FOLD수, scoring=평가지표)
grid_search.fit(X_train, y_train)
# 최고 성능 파라미터
grid_search.best_params_
```

$\bullet$ RandomizedSearchCV
- 지정한 HyperParameter와 값들을 격자 형식으로 조합한 뒤 지정한 횟수만큼 무작위 탐색해 최고 성능인 조합을 반환한다.

```python
from sklearn.model_selection import RandomizedSearchCV
random_search = RandomizedSearchCV(모델, 하이퍼파라미터DICT, n_iter=탐색수, cv=FOLD수, scoring=평가지표)
random_search.fit(X_train, y_train)
# 최고 성능 파라미터
random_search.best_params_
```

In [None]:
# BaysianOptimization 설명을 추가해야 한다.

In [None]:
# 모델 정의
lgbm_model = LGBMRegressor()

# 하이퍼파라미터DICT 정의
# lgbm_model.get_params()
# 학습률(틀린 값에 대한 가중치), 나뭇잎 수, 나무를 만드는데 사용할 최소 데이터수, 부스팅 횟수(나무수)
param = {'learning_rate ': [0.05, 0.1],
         'num_leaves' : [31, 50],
         'min_child_samples' : [50],
         'n_estimators': [100, 300]}

In [None]:
# GridSearch 수행
grid_search = GridSearchCV(lgbm_model, param, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train, Y_train)

# 최적 파라미터 확인
grid_search.best_params_

In [None]:
# RandomSearch 수행
random_search = RandomizedSearchCV(lgbm_model, param, n_iter=10, cv=5, scoring='neg_mean_squared_error')
random_search.fit(X_train, Y_train)

# 최적 파라미터 확인
random_search.best_params_

#### [Part2 - CH04 - 10] Clustering
$\bullet$ Kmeans
- 유클리디안 거리를 기반으로 가까운 데이터끼리 묶는다.
- `Inertia지수`가 급격히 떨어지는 지점을 보통 적정 군집수로 한다.(Elbow Method)
- Inertia지수는 각 클러스터의 중심에서 클러스터에 할당된 데이터 포인트간 거리를 합산한 것이다. 지수의 값이 작을수록 응집된 정도가 높다고 평가한다.

$\bullet$ DBSCAN
- 밀집성이 높은 부분끼리 군집을 나눈다.
- 특정 데이터의 `epilon반경` 내 최소 포인트(minPts) 이상 데이터가 있으면 같은 군집으로 간주하고 미만이면 군집 경계선으로 삼는다.<br>
  두 조건에 부합하지 않는 데이터는 Noise Point로 한다.
- 군집 수를 지정할 필요가 없으며 비선형, 불균일 데이터에 유용하다.
```python
from sklearn.cluster import DBSCAN
dbscan = DBSCAN(eps=EPILON반경, min_samples=MINPTS, metric=거리지표)
dbscan.fit(TRAIN)
# 군집화 결과 확인
dbscan.labels_
```

In [None]:
# LDA 설명을 추가해야 한다.
# 실루엣 계수의 설명을 추가해야 한다.
# DBSCAN 작동 원리를 추가적으로 조사해야 한다.

# 3D 시각화
from mpl_toolkits.mplot3d import Axes3D

In [None]:
# 단위를 맞춰주는 스케일링 예시를 들어야 한다.
# 정규화(Normalization, MinMaxScaler)란 일정 구간에 있도록 변환(압축)하는 작업을 의미한다. 
# 자릿수가 늘어나지 않아 연산 오버플로우를 방지할 수 있다.
# 표준화는 feature간 단위 차이가 극심하게 나는 상황에서 더 유리하다. 또 비지도 학습(데이터 범위에 무지한 상황)일 때도 선호된다.