## 1. 데이터 특징 확인하기

- pandas
    - `value_counts()`
    - `info()`
    - `agg()`
    - `isnull()`
- seaborn
    - `sns.pairplot(data=df.data, hue=df.target)`

## 2. 데이터 전처리

- pandas
    - `fillna()`
    - `dropna()`
    - `get_dummies(df or df.cols)`: onehot encoding
- sklearn
    - `from sklearn.preprocessing import ~`
        - `LabelEncoder`: 데이터를 숫자로 변경
            - `LabelEncoder().fit_transform(df.col)`
            - `pd.get_dummies()`를 사용한다면 필요 없음
        - scaler
            - 코드 작성 방법
                - `scaler(df.col1.values.reshape(-1, 1))`
            - 종류
                - `StandardScaler` 
                - `MinMaxScaler`
                - `QuantileScaler`
                - `PolynomialFeatures`
- 전처리 데이터 합치기
    - `pd.concat([df1, df2], axis=1)`
- 기타 
    - columns의 차집합 
        - `list(set(all_columns) - set(subset_columns))`

## 3. 모델을 이용하여 학습 시키기

- 대표적 모델 불러오기
    - `from sklearn.linear_model import LinearRegression, LogisticRegression`
    - `from sklearn.neighbors import KNeighborsClassifier`
    - `from sklearn.naive_bayes import GaussianNB`
    - `from sklearn.svm import SVC, NuSVC, LinearSVC`
    - `from sklearn.tree import DecisionTreeClassifier`
    - `from sklearn.ensemble import RandomForestClassifier`
- GridSearchCV
    - 선언 및 파라미터 세팅 코드 예시(LogisticRegression)
        - `from sklearn.model_selection import GridSearchCV`
        - `from sklearn.metrics import precision_score, recall_score, make_scorer`
        - `C = [i*0.4 for i in range(4, 11)]`
        - `class_weight = [{'Iris-setosa':1, 'Iris-versicolor':1, 'Iris-virginica':1}]`
        - `model = GricSearchCV(`
            - `estimator=LogisticRegression(),`
            - `param_grid={'class_weight':class_weight, 'C':C}`
            - `cv=10,`
            - `scoring={'precision':make_scorer(precision_score), 'recall_score':make_scorer(recall_score)},`
            - `refit='precision')`
        - 코드 주의 사항
            - param_grid
                - 목록을 확인하기 위해 `??LogisticRegression` 를 사용 할 수 있음
                - class_weight는 target의 비율을 확인하여 결정함
            - scoring과 refit를 시도하는 경우 메모리 문제가 생기기도 함
    - 선언된 model 사용 코드 예시
        - `result = model.fit(X, y)`
        - `pd.DataFrame(model.cv_result_)`
        - `best_model = model.best_estimator`
        - `best_result = best_model.predict(X)`

## 4. 계산된 결과값 정리

- pandas
    - `df.rename(columns={old_col1: new_col1, old_col2: new_col2}, index={old_idx3: new_idx3, old_idx4: new_idx4})`
    - `df.rename_axis('column_title', axis='columns').rename_axis('index_title', axis='index')`
    - `df.set_index(df.columns[1])`

## Help

- `.get_params()`
    - `from sklearn.linear_model import LogisticRegression`
    - `LogisticRegression().get_params()`
    
- `??`
    - `??LogisticRegression`
- `info()`
    - `df.info()`