# 오픈소스 머신러닝 라이브러리
머신러닝(Machine Learning) 모델을 구현시키고, 훈련시키고, 훈련된 모델을 통해 예측해볼 수 있음
Ex) TensorFlow, PyTorch, Scikit-Learn, ...

# 아나콘다 환경 활성화 - 터미널에서 진행
- conda info --envs #아나콘다 가상환경 리스트 확인
- conda activate 가상환경이름 #아나콘다 가상환경 활성화
- conda install sklearn #사이킷런 설치

# 사이킷런 라이브러리 불러오기
- 아나콘다 환경 설정 후, 아나콘다에 sklearn 설치 후 임포트 가능
- conda install sklearn # 아나콘다에서 사이킷런 설치 명령어
- [sklearn 모델 종류 보러가기] (https://scikit-learn.org/stable/)

# DecisionTree(의사결정나무)란?
- 개념 : 의사결정 규칙, 즉 특정 질문에 따라 그 결과들을 트리 구조로 도식화한 의사 결정 지원 도구의 일종
- 원리 : 각 데이터의 행들은 컬럼을 가지고 있는데, 해당 컬럼을 기준으로 특정한 값을 정하면, 이를 기준으로 모든 행을 두개의 노드(node)로 분류(Binary decision rule, 이진분할) 할 수 있음. 그렇게 되면, 2개의 노드가 파생되는데 앞의 과정을 반복해 또 다시 새로운 피쳐의 특정 값을 정하고 분류를 진행함. 이 과정을 반복하면 점차 피쳐의 값에 따라 데이터들이 분류됨
- 원칙 : 한쪽 방향으로 쏠리도록 해주는 특정 값을 찾고, 이를 불순도를 기반으로 찾아냄 -> Leaf Node가 가장 섞이지 않은 상태로 완전히 분류되는 것, 즉 복잡성(entropy)이 낮도록 만드는 것
- 불순도 (Impurity)
    - 복잡성을 의미하고, 해당 범주 안에 서로 다른 데이터가 얼마나 섞여 있는지를 뜻함.
    - 따라서, 다양한 데이터가 섞여 있을수록 불순도 ⬆
- ex) CART 의사결정 나무(Classification And Regression Tree) : CART는 가장 널리 사용되는 의사결정나무 알고리즘으로, 이름에서도 알 수 있듯이 분류와 회귀 나무에서 모두 사용할 수 있음. 불순도를 측정할 때 목표 변수(y)가 범주형인 경우 지니 지수를 사용하고, 연속형인 경우 분산을 사용하여 이진 분할을 함. 

# 모델훈련(의사결정나무)
1. 라이브러리 불러오기
- 
    ```import pandas as pd # 머신러닝에 데이터를 적용하기위해 필요한 라이브러리
    import sklearn #sklearn 라이브러리 가져오기
    from sklearn.tree import DecisionTreeRegressor # sklearn의 의사결정나무 모델 가져오기 
    ``` 

2. 데이터 불러오기
- csv 파일을 데이터프레임 객체로 불러오기
    ```
    train = pd.read_csv('data/train.csv') 
    test = pd.read_csv('data/test.csv') 
    ```

3. 데이터 전처리 - 결측치 제거 & 확인하기
    ``` 
    test = test.dropna() # 결측치 보유 행 제거하기
    train = train.dropna()
    print(train.isnull().sum()) # 결측치 개수 확인하기
    ```

4. 데이터 전처리 - 예측 데이터(X_train), 레이블 데이터(Y_train) 분리하기
- train 데이터중 예측해야할 count 피쳐를 drop()함수를 사용하고, axis=1 옵션을 사용해 해당 열을 제외한 데이터들을 X_train 이라는 이름의 DataFrame 객체로 만들고
count 피쳐만을 데이터로 갖는 Y_train 이라는 이름의 DataFrame 객체로 만들기
    ```
    X_train = train.drop(['제외할컬럼명'], axis=1)
    Y_train = train['예측할컬럼명']
    ```

5. 모델 훈련시키기 : model.fit(이용피처데이터, 예측라벨데이터)
- model 변수명으로 모델을 선언하고, fit() 함수를 사용해서, X_train 을 input 으로 삼고, Y_train 을 output 으로 삼아 모델을 훈련시킴
    ```
    model = DecisionTreeRegressor() #모델 선언
    model.fit(X_train, Y_train) # fit() : 모델 훈련
    ```
- Ex)
    ```
    X_train = train.drop(['count'], axis=1) #count 변수의 행 모두 지우고, 데이터프레임 객체로 만들기
    Y_train = train['count'] #count 변수만 남기고, 데이터프레임 객체로 만들기
    ```

6. 훈련된 모델을 사용해 테스트 파일 예측하기 : model.predict(예측하고싶은데이터)
- 훈련된 모델에서 predict() 메소드를 통해 예측하고자하는 데이터를 인자로 넣어주면, 해당 데이터에 관한 예측 결과가 array 형태로 리턴됨
    ```
    [할당할 array] = model.predict(예측하고싶은데이터)
    ``` 
- Ex)
    ```
    pred = model.predict(test)
    pred[:5] #리스트에서 상위 다섯개 요소 확인하기
    >>> array([117., 164.,  88.,  49.,  64.])
    ```
- 참고 : 상위 다섯개 확인하기 (데이터프레임 & 넘파이 배열)
    - 데이터프레임 : `데이터프레임.head()`
    - 넘파이 배열 : `넘파이배열[:5]` #파이썬 슬라이싱

7. Dacon 제출 파일 생성 - to_csv() : csv 파일로 변환하기
- to_csv() : 데이터프레임 객체에 저장된 내용을 csv파일로 내보내기
    ```
    submission = pd.read_csv('data/submission.csv') # submission.csv 파일 df 파일로 불러오기 : 제출하고자 하는 파일을 위해 생성한 빈 csv 파일을 데이터프레임 객체로 불러오기
    submission['count'] = pred # submission df 파일의 count 피쳐에 예측결과 할당하기 : 해당 데이터프레임에 정답 파일을 csv 파일로 내보낸 후,
    submission.to_csv('sub.csv',index=False) # 제출파일 생성하기 : 드라이브에 저장된 csv 파일을 다운받아서 제출하기
    ```



In [4]:
# sklearn의 의사결정나무 모델 가져오기 
import sklearn 
from sklearn.tree import DecisionTreeRegressor