# 엔트로피(Entropy)
-  정보이론(Information theory)에서 정보의 가치는 놀람의 정도(degree of surprise)에 따라 결정
-  정보 엔트로피는 불확실성의 측정
-  섀넌 엔트로피(밑이 2인 로그로 계산)는 모든 사건 정보량의 기대값

-  ## 정보이득
    -  $전체엔트로피 - ((설명변수1의 총갯수 / 총관측값의수) * 엔트로피(설명변수1)) - ((설명변수2의 총갯수 / 총관측값의수) * 엔트로피(설명변수2))$
    -  모든 변수에 관한 정보이득값을 계산하고 가장 높은 정보이득값을 가진 변수를 선택
        ```python
        import pandas as pd
        from pandas import DataFrame, Series
        import numpy as np

        tree = pd.read_csv("C:/Users/stu/git/DA_Academy/tree.csv")

        ## 습도와 테니스유무
        ```
        ```
          테니스유무	아니요	예
        습도		
        높음	4	3
        보통	1	6
        ```
        ```python
        # 교차표
        pd.crosstab(tree.습도,tree.테니스유무)

        # entropy 전체
        tot = round( -(9/14) * np.log2(9/14) - (5/14) * np.log2(5/14),2 )
        # entropy 설명변수1
        high = round( -(3/7) * np.log2(3/7) - (4/7) * np.log2(4/7),2 )
        # entropy 설명변수2
        normal = round( -(6/7) * np.log2(6/7) - (1/7) * np.log2(1/7),2 )

        # 정보이득값
        inf_humid = tot - (7/14)*(high + normal)
        inf_humid
        ```
        ```
        0.1499999999999999
        ```
        ```python
        ## 바람과 테니스유무
        # 교차표
        wind_cross = pd.crosstab(tree.습도,tree.테니스유무, margins = True)
        wind_cross
        ```
        ```
                테니스유무	아니요	예	All
        습도			
        높음	4	3	7
        보통	1	6	7
        All	5	9	14
        ```
        ```python
        tot = round( -(5/14) * np.log2(5/14) - (9/14) * np.log2(9/14), 2)
        strong = round( -(3/6) * np.log2(3/6) - (3/6) * np.log2(3/6), 2)
        weak = round( -(2/8) * np.log2(2/8) - (6/8) * np.log2(6/8), 2)
        inf_wind = tot -(7/14)*(strong + weak)
        inf_wind 
        ```
        ```
        0.03499999999999992
        ```
        
# 지니지수
-  모든 변수에 대해 지니 기대값을 계산하고 최소 기대값을 가진 변수를 최적변수로 선택
    ```
    지니지수 
    : $1 - Σp²$

    지니기대값 
    : $(설명변수1의 총개수/총 관측값의 수) * 지니지수(설명변수1) + (설명변수1의 총개수/총 관측값의 수) * 지니지수(설명변수2)$
    ```

- 예시
    -  습도와 테니스유무 지니기대값
        ```python
        high = 1 - pow(3/7,2) - pow(4/7,2) #0.49
        low = 1-pow(6/7,2) - pow(1/7,2) #0.24
        ex_humid = (7/14) * 0.49 + (7/14) * 0.24 #0.37
        ```
    -  바람과 테니스유무 지니기대값
        ```python
        strong = 1 - pow(3/6,2) - pow(3/6,2)) #0.5
        weak = 1-pow(2/8,2) - pow(6/8,2) #0.38
        ex_humid(7/14) * 0.49 + (7/14) * 0.24 #0.44
        ```
    -  붓꽃 품좀 분류
        -  붓꽃의 품종은 150종류 이상이있고 크게 3가지(setosa, versicolor, virginica)로 분류
        -  꽃잎(peteal), 꽃받침(sepal)의 폭, 길이를 측정하여 품종을 분류해보자
            ```python
            iris = pd.read_csv("c:/data/iris.csv")
            x = iris.drop('Name',axis = 1)
            y = iris['Name']
            print(y)
            x

            from sklearn.model_selection import train_test_split as tts
            from sklearn.tree import DecisionTreeClassifier as DTC

            # train, test 로 분리
            x_train,x_test,y_train,y_test = train_test_split(x,y,test_size = 0.2) # 20%는 test 80%는 train 로 분리

            # 분류 학습모델
            classifier = DTC()
            classifier.fit(x_train,y_train) 

            # 예측
            y_predict = classifier.predict(x_test)
            y_predict

            # 예측비교
            from sklearn.metrics import classification_report as report

            print(report(y_test,y_predict))
            # recall : 문제가 있는 부분

            classifier.score(x_train,y_train) # 학습용 데이터셋 정확도
            classifier.score(x_test,y_test) # 검증용 데이터셋 정확도 

            # 임의 test
            x1 = [[6.3,2.7,4.9,1.8]]; y1="Iris-virginica"
            y1_predict = classifier.predict(x1)
            y1_predict

            ## 비교!!! ★

            # 다르게 분류한 행 찾기
            label = classifier.predict(iris.ix[:,:4])
            iris[iris.ix[:,4] != se(label)]

            # 다르게 어떻게 분류했는가
            label[iris.ix[:,4] != se(label)]
            ```