### 붓꽃 예제

In [7]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

iris_dataset = load_iris()
X_train, X_test, y_train, y_test = train_test_split(
        iris_dataset['data'], iris_dataset['target'], random_state=0) # 훈련 데이터와 테스트 데이터 분리


knn = KNeighborsClassifier(n_neighbors=1) # 알고리즘 선택
knn.fit(X_train, y_train) # 훈련..


print("붓꽃 예제 테스트 세트 정확도: {:.2f}".format(knn.score(X_test, y_test))) # 평가..

붓꽃 예제 테스트 세트 정확도: 0.97


### 타이타닉 toy

In [14]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
import pandas as pd

# 1. csv에서 train, test set 가져오기
train = pd.read_csv('/Users/tuyy/Desktop/all/train.csv')
test = pd.read_csv('/Users/tuyy/Desktop/all/test.csv')
y_test = pd.read_csv('/Users/tuyy/Desktop/all/gender_submission.csv')

# 2. 데이터 전처리
def setting_titanic(df, has_Survived=True):
    df['Ticket'] = df['Ticket'].apply(len)
    df['Cabin'] = df['Cabin'].apply(lambda x: 0 if type(x) == float else 1)
    df['Embarked'] = df['Embarked'].apply(lambda x: 0 if x == 'C' else (1 if x == 'Q' else 2))
    df['Sex'] = df['Sex'].apply(lambda x: 0 if x == 'male' else 1)
    #df['Name'] = df['Name'].apply(len) # nan 처리해야함
    #df['Fare'] = df['Fare'].apply(int) # nan 처리해야함
    #df['Age'] = df['Age'].astype(int) # nan 처리해야함
    if has_Survived:
        y_df = df['Survived'].values
        df.drop(['Survived', 'PassengerId', 'Name', 'Age', 'Fare'], axis=1,inplace=True)
        return df, y_df
    else:
        df.drop(['PassengerId', 'Name', 'Age', 'Fare'], axis=1,inplace=True)
        return df
    
X_train, y_train = setting_titanic(train, has_Survived=True)

X_test = setting_titanic(test, has_Survived=False)
y_test = y_test['Survived'].values

train.dtypes

Pclass      int64
Sex         int64
SibSp       int64
Parch       int64
Ticket      int64
Cabin       int64
Embarked    int64
dtype: object

In [13]:
# 3. 모델 적용
for model in [('KNN', KNeighborsClassifier(n_neighbors=2)),
              ('로지스틱회귀', LogisticRegression(C=1)),
              ('서포트벡터머신',LinearSVC()),
              ('결정트리', DecisionTreeClassifier(max_depth=4, random_state=0)),
              ('랜덤포레스트', RandomForestClassifier(random_state=2018))]:
    
    algo = model[1].fit(X_train, y_train)

    # 4. 결과 확인
    print('Model명: ' + model[0])
    print("train 세트 정확도: {:.2f}".format(algo.score(X_train, y_train))) # 평가..
    print("test 세트 정확도: {:.2f}".format(algo.score(X_test, y_test))) # 평가..
    print('==========================')
    
    # 5. 그래프??

Model명: KNN
train 세트 정확도: 0.81
test 세트 정확도: 0.76
Model명: 로지스틱회귀
train 세트 정확도: 0.80
test 세트 정확도: 0.94
Model명: 서포트벡터머신
train 세트 정확도: 0.80
test 세트 정확도: 0.97
Model명: 결정트리
train 세트 정확도: 0.82
test 세트 정확도: 0.85
Model명: 랜덤포레스트
train 세트 정확도: 0.87
test 세트 정확도: 0.83


### 타이타닉 toy 프로젝트 진행하면서..
* 전처리에 대한 고민이 매우 많이 필요할듯..
    * Null 데이터(Name, Fare, Age)
    * 텍스트 feature -> 원핫인코딩 등등
    * 유의미한 특성을 어떻게 뽑아낼까?
        * feature 별 중요도 시각화로 유의미한 feature를 넣고 빼고..
* 오히려 어떤 model을 쓸지와 model 튜닝작업은 마지막에 해도 될것같음..