In [1]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

sns.set()



sns.set()

#-------------------- 차트 관련 속성 (한글처리, 그리드) -----------
plt.rcParams['font.family']= 'Malgun Gothic'
plt.rcParams['axes.unicode_minus'] = False

#-------------------- 주피터 , 출력결과 넓이 늘리기 ---------------
# from IPython.core.display import display, HTML
from IPython.display import display, HTML

display(HTML("<style>.container{width:100% !important;}</style>"))
pd.set_option('display.max_rows', 100)
pd.set_option('display.max_columns', 100)
pd.set_option('max_colwidth', None)

import warnings
warnings.filterwarnings(action='ignore')

In [2]:
# ! pip install scikit-Learn

# ML 에 자주 쓰이는 빈출 문법

<img src="https://scikit-learn.org/stable/_static/ml_map.png">

 * sklearn으로 주로 쓰이는 방법 

# 분석 프로세스 절차

<pre><font size = 3><b>

------------------------------------------------------------------------
1. Data Load
------------------------------------------------------------------------
2. EDA (Exploratory Data Analysis) 탐색적 데이터 분석
    -통계적 데이터 분포 확인
    - 차트 시각화
------------------------------------------------------------------------    
3. Feature Engineering ---> 전처리 : preprocessing / 가공 : Engineering
    - 
    - 타입변환(날짜, 카테고리변환(ABC->123)
    - 결측처리(버리기 dropna(), 채우기 fillna(), 모델로 채우기)
    - 바이닝(범주화 : cut, qcut)
    - 인코딩(라벨인코딩, 원핫인코딩, pd.get_dummies())
    - 정규화(스케일링 : MinMaxScaler, StandatdScaler, RobustScaler, Log)
    - 이상치(outlier)
------------------------------------------------------------------------    
4. 모델 선정(Model Selection : pycaret)
    - 회귀 Regression
    - 분류 Classification
    - 군집 Clustering, PCA
------------------------------------------------------------------------
5. 모델 학습 및 예측(train_test_split & fit & Predict)
------------------------------------------------------------------------
6. 모델 검증 및 평가 (Validation & Evaluation metrics)
------------------------------------------------------------------------
7. 하이퍼파미터 튜닝(Hyper-parameter(모델의 속성값) optimization)
------------------------------------------------------------------------
8. 모델 저장 및 배포(Model Save & Deployment)
------------------------------------------------------------------------



# 결측
    - None,np.nan
    - 삭제 : dropna()
    - 보간(대체해서 채우기) : 채우기 fillna(), 모델로 채우기

In [29]:
df = pd.DataFrame({"name":[None,np.nan,"NaN(글자)","allen","king"],"score": ["A",np.nan,np.nan,"D","C"]})
df.head()

Unnamed: 0,name,score
0,,A
1,,
2,NaN(글자),
3,allen,D
4,king,C


## 결측 체크

In [31]:
print(df.isna().sum()[df.isna().sum()>0].index.values)

#none인 애들 인덱스의 컬럼 뽑기

['name' 'score']


<pre>
df.isna() df.notna()
df.isnull() df.notnull()

## 결측이 있는 컬럼만 가져오기

In [32]:
# df[df['score'].isna() == False]

df[df['score'].notna()]

Unnamed: 0,name,score
0,,A
3,allen,D
4,king,C


## 결측 삭제

<pre>
<b>DataFrame.dropna(*, axis=0, how=_NoDefault.no_default, inplace=False</b> ,thresh=_NoDefault.no_default, subset=None)

    - axis{0 or ‘index’, 1 or ‘columns’}, default 0
    - how{‘any’, ‘all’}, default ‘any’
      <b>  - any : 컬럼 중에 하나라도 결측이면 삭제
        - all : 전부 Nan이면 삭제</b>

In [6]:
df

Unnamed: 0,name,score
0,,A
1,,
2,,
3,allen,D
4,king,C


### 열만 지우기

In [7]:
df.drop('name', axis =1)

#컬럼만 지워라

Unnamed: 0,score
0,A
1,
2,
3,D
4,C


### 행만 지우기

In [8]:
df.drop(1, axis =0)

Unnamed: 0,name,score
0,,A
2,,
3,allen,D
4,king,C


### how = 'all'   ---> 전부 Nan일 때만 지우기

In [9]:
df.dropna(how='all')

#NAN이 전부인 애들 지우기
#2행의 NaN 중 하나는 글자라서 안지워짐

Unnamed: 0,name,score
0,,A
2,,
3,allen,D
4,king,C


### how = 'any'   ---> 하나라도 Nan일 때 지우기

In [10]:
df.dropna(how='any')

#Nan이 하나라도 있으면 지우기

Unnamed: 0,name,score
3,allen,D
4,king,C


## 결측 보간(대체해서 채우기)
    - fillna()

<pre>

<b>DataFrame.fillna(value=None, *, method=None, axis=None</b>, inplace=False, limit=None, downcast=None)

    - value : scalar, dict, Series, or DataFrame
    - <b>method : {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None</b>
    - axis : {0 or ‘index’, 1 or ‘columns’}

In [11]:
df

Unnamed: 0,name,score
0,,A
1,,
2,,
3,allen,D
4,king,C


### 결측 채우기

In [12]:
df2 = df.fillna('999')
df2

Unnamed: 0,name,score
0,999,A
1,999,999
2,,999
3,allen,D
4,king,C


### 특정 컬럼 대상 채우기

In [13]:
df['score'].fillna('F')
df

Unnamed: 0,name,score
0,,A
1,,
2,,
3,allen,D
4,king,C


### 앞/뒤 값을 이용해서 채우기

<pre>

method : {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None

    <b>- ffill : 앞의 값으로 채우기
    - bfill : 뒤의 값으로 채우기</b>

In [14]:
df

Unnamed: 0,name,score
0,,A
1,,
2,,
3,allen,D
4,king,C


In [15]:
df['score'].fillna(method='bfill')

#뒤의 값으로 채우기 : D

0    A
1    D
2    D
3    D
4    C
Name: score, dtype: object

In [16]:
df['score'].fillna(method='ffill')

#앞의 값으로 채우기 : A

0    A
1    A
2    A
3    D
4    C
Name: score, dtype: object

## 결측 대체
    * 사용자 지정 값
    * 통계적 수치
    - 평균 mean()
    - 최빈도 mode()
    - 중앙 median()
    
    * 모델 예측 값

In [17]:
df = pd.DataFrame({"name":["smith",np.nan,"jones","allen","king"],
                   "score": ["A","B",'B',"A","A"],
                   "sal": [1000,1000,3000,np.nan,4000]})

In [18]:
df

Unnamed: 0,name,score,sal
0,smith,A,1000.0
1,,B,1000.0
2,jones,B,3000.0
3,allen,A,
4,king,A,4000.0


<pre>
name : AAA
score : F
sal : 999


### 컬럼마다 사용자 지정 값으로 채우기

In [19]:
dic = {'name' : 'AAA',
       'score' : 'F',
       'sal' : 999}

df.fillna(dic)

#각각 지정한 값으로 채우기

Unnamed: 0,name,score,sal
0,smith,A,1000.0
1,AAA,B,1000.0
2,jones,B,3000.0
3,allen,A,999.0
4,king,A,4000.0


### 통계적 수치 채우기



* 통계적 수치
* 평균 : 결측 제외 합 / 결측 제외 갯수 <font size = 4><b> mean()</b> </font>
* 중앙값 : 크기 순으로 나열 후, 순서상 딱 가운데 값 <font size = 4> <b>median()</b> </font><b>★outlier의 영향을 받지 않는다★</b>
    * 짝수 : _ _ (?) _ _ 앞, 뒤 두 수의 평균 값
    * 홀수 : _ _ (?) _ _ 정 중앙 값
* 빈도 : 가장 많이 출현한 값  <font size = 4><b> mode().values[0]</b> </font>

In [20]:
# 평균 : 1000 + 1000 + 3000 + 4000 / 4
# 중앙값 : 1000 1000 3000 4000  --> 짝수라 가운데 값이 비어있다. 그러므로 1000과 3000의 중간값(2000) 반환.
                                   #5개(홀수)면 가운데 값(3) 반환

    

df['sal'].mean(), df['sal'].median() #-------- scalar 리턴(단일 값)

df['sal'].mode().values[0] #-------- Series 리턴 -------> df.mode().values[0] 으로 값을 빼줘야 한다.




print('평균값 :', df['sal'].mean(),  " 중앙값 :", df['sal'].median(), ' 최빈도값:', df['sal'].mode().values[0])

평균값 : 2250.0  중앙값 : 2000.0  최빈도값: 1000.0


**중앙값은 outlier의 영향을 받지 않는다.**

In [21]:
np.mean([10,10,30,40,50]), np.median([10,10,30,40,50])

(28.0, 30.0)

In [22]:
np.mean([10,10,30,40]), np.median([10,10,30,40])

(22.5, 20.0)

In [23]:
np.mean([10,10,30,100]), np.median([10,10,30,100])

(37.5, 20.0)

### 실습
    - sal의 결측을 평균값으로 채우기

In [24]:
df

Unnamed: 0,name,score,sal
0,smith,A,1000.0
1,,B,1000.0
2,jones,B,3000.0
3,allen,A,
4,king,A,4000.0


In [25]:
df['sal'].fillna(df['sal'].mean())

0    1000.0
1    1000.0
2    3000.0
3    2250.0
4    4000.0
Name: sal, dtype: float64

### transform 사용하기

* sal 의 결측을 score의 그룹바이한 평균값으로 채워라  
    * fillna()  
    * lambda

In [26]:
# df.groupby('score')['sal'].mean() : score의 그룹바이한 평균값

a = df.groupby('score')['sal'].transform('mean')
a

0    2500.0
1    2000.0
2    2000.0
3    2500.0
4    2500.0
Name: sal, dtype: float64

In [27]:
#위의 값을 결측에 채워넣기

df['sal'] = df['sal'].fillna(a)

In [28]:
df

Unnamed: 0,name,score,sal
0,smith,A,1000.0
1,,B,1000.0
2,jones,B,3000.0
3,allen,A,2500.0
4,king,A,4000.0


### 모델 예측 값으로 채워넣기

# 타입

# 인코딩

# 바이닝

# 정규화(정규분포)