# [ 라이브러리 & 함수 정리 ]

In [None]:
# 일단 얘부터 입력 후 시작

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 경고 메세지 숨기기
import warnings
warnings.filterwarnings("ignore")

---

# < 파일 불러오기 (csv, txt) >

In [None]:
# Data Load
import pandas as pd

# csv
df = pd.read_csv("경로", encoding="옵션")

# txt 


# < EDA & 시각화 >

In [None]:
df.info()
df.describe()
df.isnull().sum()            # 칼럼별 결측치 확인
df.shape                     # 데이터 행,열 확인

df.value_counts()            # 전체 데이터프레임의 각 열의 고유값들의 개수
df["칼럼"].value_counts()    # 칼럼 내 데이터 값 개수

In [None]:
## 연속형 칼럼만 선택


## 범주형 칼럼만 선택
categorical_vars = df.select_dtypes(include=['object']).columns

## subplot & 크기 조절

In [None]:
fig, ax = plt.subplot(1, 2, figsize=(12,4))

## 연속형(수치형) 변수 - 히스토그램

In [None]:
df.hist(bins=15, color='darkblue', figsize=(18,14), grid=False)
plt.show()

- 이진 데이터 중 한 쪽 분포만 많은 컬럼, 즉 쏠린 분포의 데이터는 제거/처리

## 범주형 변수 - barplot

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# 데이터 프레임에서 범주형 변수 선택
categorical_vars = df.select_dtypes(include=['object']).columns

# 범주형 변수에 대한 barplot 그리기
fig, axes = plt.subplots(1, len(categorical_vars), figsize=(12, 3))

for i, var in enumerate(categorical_vars):
    ax = axes[i]
    df[var].value_counts().plot(kind='bar', ax=ax)
    ax.set_title(var)
    ax.set_xlabel(var)
    ax.set_ylabel('Count')
    ax.set_xticklabels(ax.get_xticklabels(), rotation=45)  # 라벨들의 각도 조절

plt.tight_layout()
plt.show()

## 이상치 파악 - boxplot

## 상관관계 시각화 (1) 히트맵

In [None]:
# 상관관계 시각화 : 히트맵
plt.figure(figsize=(5, 5))

# corr matrix 생성
corr_matrix = df.drop(['종속변수'], axis=1).corr().abs() # .abs() 붙으면 절댓값 기준

# 상삼각행렬 반환
up_mask = np.triu(np.ones(corr_matrix.shape), k=1).astype(np.bool_)

# 상삼각행렬을 마스킹하여 하삼각행렬만 시각화
# fmt=.0%는 퍼센트, 2f는 소수점 둘째자리까지로 표시될 값의 형식을 지정, cmap은 색상 조정
sns.heatmap(corr_matrix, 
            mask=up_mask, 
            annot=True,      # 각 셀에 상관계수 표시
            fmt='.2f', 
            square=True, 
            cmap='RdBu_r')

## 상관관계 시각화 (2)

In [None]:
# EDA
import numpy as np
from scipy.stats import skew, kurtosis  # 왜도, 첨도
import math


# 시각화
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns

# subplot & 크기 조절
fig, ax = plt.subplot(1, 2, figsize=(12,4))


'''
# 일시적으로 그래프 크기 설정
plt.rc('font', size=)          

plt.rc('axes', titlesize=)  or  ax.set_title('title', fontsize=12)
plt.rc('axes', labelsize=)  or  ax.set_xlabel('xlabel', fontsize=12)  or  ax.set_ylabel('ylabel', color='b', fontsize=10)

plt.rc('xtick', labelsize=)  or  ax.tick_params(axis='x', labelcolor='b')
plt.rc('ytick', labelsize=)  or  ax.tick_params(axis='y', labelcolor='b')

plt.rc('legend', fontsize=)    
plt.rc('figure', titlesize=)
----------------------------------------------------------------------------
# 폰트 라이브러리 임포트 
import matplotlib.font_manager as fm

# 그래프 기본 글꼴을 한글글꼴로 변경
plt.rcParams['font.family'] = '한글글꼴명'
plt.rcParams['font.family'] = 'batang'
plt.rcParams['font.family'] = 'Malgun Gothic'

# 그래프에서 마이너스 폰트 깨지는 문제에 대한 대처
matplotlib.rcParams['axes.unicode_minus'] = False
-----------------------------------------------------------------------------
# 그래프 "기본" 크기 설정
plt.rcParams['font.size'] = 11.0
plt.rcParams['figure.figsize'] = [12, 7]
plt.rcParams['xtick.labelsize'] = 15
plt.rcParams['ytick.labelsize'] = 15
plt.rcParams['axes.titlesize'] = 30
plt.rcParams['axes.labelsize'] = 20
'''

## 데이터 전처리

In [None]:
# 전처리
## 스케일링
from sklearn.preprocessing import StandardScaler, RobustScaler

## 차원축소
from sklearn.decomposition import PCA

## pip install imbalanced-learn (sampling)
from imblearn.over_sampling import RandomOverSampler
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import RandomUnderSampler

## 데이터 분할
from sklearn.model_selection import train_test_split



# 모델링
## 분류
from sklearn.linear_model import LogisticRegression                     # 로지스틱 회귀 - 분류
import sklearn.svm as svm                                               # 서포트 벡터 머신 - 분류
from sklearn.naive_bayes import GaussianNB, BernoulliNB, MultinomialNB  # 나이브 베이즈 - 분류
from sklearn.ensemble import RandomForestClassifier                     # 랜덤포레스트 - 분류
from xgboost import XGBClassifier                                       # Xgboost - 분류
from lightgbm import LGBMClassifier                                     # LGBM - 분류

## 군집
from sklearn.cluster import KMeans
from yellowbrick.cluster import SilhouetteVisualizer   # 군집분석 K갯수 정하는 시각화 - 실루엣 계수 시각화

## 이상탐지
from sklearn.ensemble import IsolationForest

## 회귀분석
from sklearn.linear_model import LogisticRegression ,Ridge, Lasso, ElasticNet, HuberRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.kernel_ridge import KernelRidge
from sklearn.neural_network import MLPRegressor
from sklearn.svm import SVR


# 모델 평가
from sklearn.metrics import accuracy_score, confusion_matrix, precision_score, recall_score, f1_score, classification_report, r2_score
from sklearn.metrics import auc, roc_auc_score          # AUC 값 계산법 2가지
from sklearn.metrics import roc_curve, RocCurveDisplay  # ROC-AUC 그래프 그리는 방법 2가지

## 시계열

In [None]:
## 시계열
from scipy import interpolate  # 결측치 - 보간법
import statsmodels.api as sm                               # AR, MA, ARMA, ARIMA, SARIMA 여기서 나옴
from statsmodels.tsa.arima.model import ARIMA              # ARIMA
from statsmodels.tsa.statespace.sarimax import SARIMAX     # SARIMA
from statsmodels.tsa.stattools import acf, pacf
import pmdarima as pm
from pmdarima.arima import auto_arima                      # Auto ARIMA

### 시계열 시각화
from statsmodels.graphics.tsaplots import acf, plot_acf, plot_pacf    #(시각화) 자기상관 구하기(acf), 자기상관 그래프(plot_acf) => 정상성 판단 그래프
from statsmodels.tsa.stattools import adfuller                        #(수치) 자기상관 검정 => 정상성 판단 검정
from statsmodels.tsa.stattools import kpss                            # 정상성 판단 검정
import itertools

---

# 통계검정

In [None]:
# 통계 검정
from scipy import stats

# 회귀
import statsmodels.formula.api as smf     # formula 이용
import statsmodels.api as sm     # y, X 형태 이용

---

## 코드 공간 넓게

In [None]:
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:80% !important; }</style>"))