In [None]:
# -*- coding: utf-8 -*-

### 기본 라이브러리 불러오기
import pandas as pd
import numpy as np
'''

[Step 1] 데이터 준비/ 기본 설정

'''
# Breast Cancer 데이터셋 가져오기 (출처: UCI ML Repository)
uci_path = 'https://archive.ics.uci.edu/ml/machine-learning-databases/\
breast-cancer-wisconsin/breast-cancer-wisconsin.data'

df = pd.read_csv(uci_path, header=None)

# 열 이름 지정 
# 컬럼 설명 : 유방 종양의 크기와 거칠기 등에 대한 전자수치 정보 / label은 class
df.columns = [
    'id', 'clump', 'cell_size', 'cell_shape', 'adhesion', 'epithlial',
    'bare_nuclei', 'chromatin', 'normal_nucleoli', 'mitoses', 'class'
]

#  IPython 디스플레이 설정 - 출력할 열의 개수 한도 늘리기
pd.set_option('display.max_columns', 15)
'''

[Step 2] 데이터 탐색

'''

# 데이터 살펴보기
print(df.head())
print('\n')

# 데이터 자료형 확인
print(df.info())
print('\n')

# 데이터 통계 요약정보 확인
print(df.describe())
print('\n')

# bare_nuclei 열만 문자열
# bare_nuclei 열의 자료형 변경 (문자열 ->숫자)
print(df['bare_nuclei'].unique())  # bare_nuclei 열의 고유값 확인
print('\n')

df['bare_nuclei'].replace('?', np.nan, inplace=True)  # '?'을 np.nan으로 변경
df.dropna(subset=['bare_nuclei'], axis=0, inplace=True)  # 누락데이터 행을 삭제
df['bare_nuclei'] = df['bare_nuclei'].astype('int')  # 문자열을 정수형으로 변환
print(df.describe())  # 데이터 자료형 확인
print('\n')
'''

[Step 3] 데이터셋 구분 - 훈련용(train data)/ 검증용(test data)

'''
# id 컬럼은 불필요 제외. 
# 속성(변수) 선택
X = df[[
    'clump', 'cell_size', 'cell_shape', 'adhesion', 'epithlial', 'bare_nuclei',
    'chromatin', 'normal_nucleoli', 'mitoses'
]]  #설명 변수 X
y = df['class']  #예측 변수 Y

# 설명 변수 데이터를 정규화
from sklearn import preprocessing
X = preprocessing.StandardScaler().fit(X).transform(X)

# train data 와 test data로 구분(7:3 비율)
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.3,
                                                    random_state=10)

print('train data 개수: ', X_train.shape)
print('test data 개수: ', X_test.shape)
print('\n')
'''

[Step 4] Decision Tree 분류 모형 - sklearn 사용

'''

# sklearn 라이브러리에서 Decision Tree 분류 모형 가져오기
from sklearn import tree

# 모형 객체 생성 (criterion='entropy' 적용)
tree_model = tree.DecisionTreeClassifier(criterion='entropy', max_depth=5)

# train data를 가지고 모형 학습
tree_model.fit(X_train, y_train)

# test data를 가지고 y_hat을 예측 (분류)
y_hat = tree_model.predict(X_test)  # 2: benign(양성), 4: malignant(악성)
print(y_hat[0:10])
print(y_test.values[0:10])
print('\n')

# 모형 성능 평가 - Confusion Matrix 계산
from sklearn import metrics
tree_matrix = metrics.confusion_matrix(y_test, y_hat)
print(tree_matrix)
print('\n')

# 모형 성능 평가 - 평가지표 계산
tree_report = metrics.classification_report(y_test, y_hat)
print(tree_report)

In [32]:
# -*- coding: utf-8 -*-

### 기본 라이브러리 불러오기
import pandas as pd
import numpy as np
'''

[Step 1] 데이터 준비/ 기본 설정

'''
# Breast Cancer 데이터셋 가져오기 (출처: UCI ML Repository)
uci_path = 'https://archive.ics.uci.edu/ml/machine-learning-databases/\
breast-cancer-wisconsin/breast-cancer-wisconsin.data'

df = pd.read_csv(uci_path, header=None)

# 열 이름 지정 
# 컬럼 설명 : 유방 종양의 크기와 거칠기 등에 대한 전자수치 정보
df.columns = [
    'id', 'clump', 'cell_size', 'cell_shape', 'adhesion', 'epithlial',
    'bare_nuclei', 'chromatin', 'normal_nucleoli', 'mitoses', 'class'
]

#  IPython 디스플레이 설정 - 출력할 열의 개수 한도 늘리기
pd.set_option('display.max_columns', 15)

'''

[Step 2] 데이터 탐색

'''

# 데이터 살펴보기
print(df.head())
print('\n')

# 데이터 자료형 확인
print(df.info())
print('\n')

# 데이터 통계 요약정보 확인
print(df.describe())
print('\n')

# bare_nuclei 열만 문자열
# bare_nuclei 열의 자료형 변경 (문자열 ->숫자)
print(df['bare_nuclei'].unique())  # bare_nuclei 열의 고유값 확인
print('\n')

df['bare_nuclei'].replace('?', np.nan, inplace=True)  # '?'을 np.nan으로 변경
df.dropna(subset=['bare_nuclei'], axis=0, inplace=True)  # 누락데이터 행을 삭제
df['bare_nuclei'] = df['bare_nuclei'].astype('int')  # 문자열을 정수형으로 변환
print(df.info())  # 데이터 자료형 확인
print('\n')
'''

[Step 3] 데이터셋 구분 - 훈련용(train data)/ 검증용(test data)

'''
# id 컬럼은 불필요 제외. 
# 속성(변수) 선택
X = df[[
    'clump', 'cell_size', 'cell_shape', 'adhesion', 'epithlial', 'bare_nuclei',
    'chromatin', 'normal_nucleoli', 'mitoses'
]]  #설명 변수 X
y = df['class']  #예측 변수 Y

# 설명 변수 데이터를 정규화
from sklearn import preprocessing
X = preprocessing.StandardScaler().fit(X).transform(X)

print(pd.DataFrame(X).describe())
print('\n')


# train data 와 test data로 구분(7:3 비율)
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.3,
                                                    random_state=10)

print('train data 개수: ', X_train.shape)
print('test data 개수: ', X_test.shape)
print('\n')

'''

[Step 4] Decision Tree 분류 모형 - sklearn 사용

'''

# sklearn 라이브러리에서 Decision Tree 분류 모형 가져오기
from sklearn import tree

# 모형 객체 생성 (criterion='entropy' 적용)
tree_model = tree.DecisionTreeClassifier(criterion='entropy', max_depth=4)
# 설명 : 분류정도를 평가하는 기준으로 '엔트로피' 값 사용
# 트리레벨을 5로 지정해서 가지를 최대 5단계까지 확장
# 레벨이 많아 질수록 모형학습에 사용하는 훈련데이터에 대한 예측이 정확해진다.
# 과적합 문제가 발생할 수 있다. (훈련데이터에 대해서만 지나치게 최적화되어 실제 데이터의 예측 능력 떨어짐)
# 머신러닝 데이터 분석시 적절한 max_depth를 찾는게 데이터 분석가의 역할


# train data를 가지고 모형 학습
tree_model.fit(X_train, y_train)

# test data를 가지고 y_hat을 예측 (분류)
y_hat = tree_model.predict(X_test)  # 2: benign(양성), 4: malignant(악성)
print(y_hat[0:10])
print(y_test.values[0:10])
print('\n')

# 모형 성능 평가 - Confusion Matrix 계산
from sklearn import metrics
tree_matrix = metrics.confusion_matrix(y_test, y_hat)
print(tree_matrix)
print('\n')

# 모형 성능 평가 - 평가지표 계산
tree_report = metrics.classification_report(y_test, y_hat)
print(tree_report)

        id  clump  cell_size  cell_shape  adhesion  epithlial bare_nuclei  \
0  1000025      5          1           1         1          2           1   
1  1002945      5          4           4         5          7          10   
2  1015425      3          1           1         1          2           2   
3  1016277      6          8           8         1          3           4   
4  1017023      4          1           1         3          2           1   

   chromatin  normal_nucleoli  mitoses  class  
0          3                1        1      2  
1          3                2        1      2  
2          3                1        1      2  
3          3                7        1      2  
4          3                1        1      2  


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 699 entries, 0 to 698
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id               699 non-null    int64 
 1   cl

In [14]:
df['class'].value_counts()

2    444
4    239
Name: class, dtype: int64

In [None]:
# -*- coding: utf-8 -*-

### 기본 라이브러리 불러오기
import pandas as pd
import seaborn as sns
import numpy as np
'''

[Step 1] 데이터 준비/ 기본 설정

'''
df = sns.load_dataset('titanic')

#  IPython 디스플레이 설정 - 출력할 열의 개수 한도 늘리기
pd.set_option('display.max_columns', 15)
'''

[Step 2] 데이터 탐색

'''

# 데이터 살펴보기
print(df.head())
print('\n')

# 데이터 자료형 확인
print(df.info())
print('\n')

# 데이터 통계 요약정보 확인
print(df.describe())
print('\n')

# bare_nuclei 열만 문자열
# bare_nuclei 열의 자료형 변경 (문자열 ->숫자)
print(df['bare_nuclei'].unique())  # bare_nuclei 열의 고유값 확인
print('\n')

df['bare_nuclei'].replace('?', np.nan, inplace=True)  # '?'을 np.nan으로 변경
df.dropna(subset=['bare_nuclei'], axis=0, inplace=True)  # 누락데이터 행을 삭제
df['bare_nuclei'] = df['bare_nuclei'].astype('int')  # 문자열을 정수형으로 변환
print(df.describe())  # 데이터 자료형 확인
print('\n')
'''

[Step 3] 데이터셋 구분 - 훈련용(train data)/ 검증용(test data)

'''
# id 컬럼은 불필요 제외. 
# 속성(변수) 선택
X = df[[
    'clump', 'cell_size', 'cell_shape', 'adhesion', 'epithlial', 'bare_nuclei',
    'chromatin', 'normal_nucleoli', 'mitoses'
]]  #설명 변수 X
y = df['class']  #예측 변수 Y

# 설명 변수 데이터를 정규화
from sklearn import preprocessing
X = preprocessing.StandardScaler().fit(X).transform(X)

# train data 와 test data로 구분(7:3 비율)
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.3,
                                                    random_state=10)

print('train data 개수: ', X_train.shape)
print('test data 개수: ', X_test.shape)
print('\n')
'''

[Step 4] Decision Tree 분류 모형 - sklearn 사용

'''

# sklearn 라이브러리에서 Decision Tree 분류 모형 가져오기
from sklearn import tree

# 모형 객체 생성 (criterion='entropy' 적용)
tree_model = tree.DecisionTreeClassifier(criterion='entropy', max_depth=5)

# train data를 가지고 모형 학습
tree_model.fit(X_train, y_train)

# test data를 가지고 y_hat을 예측 (분류)
y_hat = tree_model.predict(X_test)  # 2: benign(양성), 4: malignant(악성)
print(y_hat[0:10])
print(y_test.values[0:10])
print('\n')

# 모형 성능 평가 - Confusion Matrix 계산
from sklearn import metrics
tree_matrix = metrics.confusion_matrix(y_test, y_hat)
print(tree_matrix)
print('\n')

# 모형 성능 평가 - 평가지표 계산
tree_report = metrics.classification_report(y_test, y_hat)
print(tree_report)

In [40]:
# -*- coding: utf-8 -*-

### 기본 라이브러리 불러오기
import pandas as pd
import seaborn as sns
import numpy as np
'''

[Step 1] 데이터 준비/ 기본 설정

'''
df = sns.load_dataset('titanic')

#  IPython 디스플레이 설정 - 출력할 열의 개수 한도 늘리기
pd.set_option('display.max_columns', 15)
'''

[Step 2] 데이터 탐색

'''

# 데이터 살펴보기
print(df.head())
print('\n')

# 데이터 자료형 확인
print(df.info())
print('\n')

# 데이터 통계 요약정보 확인
print(df.describe())
print('\n')

print(df.isna().sum())
print('\n')

print(df.isna().sum())
print('\n')

df.who.value_counts()

   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-

man      537
woman    271
child     83
Name: who, dtype: int64

In [87]:
# -*- coding: utf-8 -*-

### 기본 라이브러리 불러오기

import pandas as pd

import numpy as np

import seaborn as sns
'''

[Step 1] 데이터 준비/ 기본 설정

'''

# 시본 타이타닉 데이터셋 가져오기

df = sns.load_dataset('titanic')

# 열 이름 지정

ndf = df[['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'embarked']]

ndf.head()

#  IPython 디스플레이 설정 - 출력할 열의 개수 한도 늘리기

pd.set_option('display.max_columns', 15)
'''

[Step 2] 데이터 탐색

'''

# 데이터 살펴보기

print(df.head())

print('\n')

# 데이터 자료형 확인

print(df.info())

print('\n')

# 데이터 통계 요약정보 확인

print(df.describe())

print('\n')

#  범주형 데이터를 수치형 데이터로 변환

gender = pd.get_dummies(ndf['sex'])

ndf = pd.concat([ndf, gender], axis=1)

ndf.head()

onehot_embarked = pd.get_dummies(ndf['embarked'], prefix='town')

onehot_embarked

ndf = pd.concat([ndf, onehot_embarked], axis=1)

ndf.head()

# 3.3 범주형 컬럼을 drop 한다.
most_freq = ndf['age'].value_counts(dropna=True).idxmax()

ndf.age.fillna(most_freq, inplace=True)

ndf.drop(['sex', 'embarked'], axis=1, inplace=True)

ndf.head()


'''

[Step 3] 데이터셋 구분 - 훈련용(train data)/ 검증용(test data)

'''
# id 컬럼은 불필요 제외. 
# 속성(변수) 선택
# ]]  #설명 변수 X
X = ndf[ndf.columns.difference(['survived'])]
y = ndf['survived']  #예측 변수 Y

# 설명 변수 데이터를 정규화
from sklearn import preprocessing
X = preprocessing.StandardScaler().fit(X).transform(X)

print(pd.DataFrame(X).describe())
print('\n')


# train data 와 test data로 구분(7:3 비율)
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.3,
                                                    random_state=10)

print('train data 개수: ', X_train.shape)
print('test data 개수: ', X_test.shape)
print('\n')

'''

[Step 4] Decision Tree 분류 모형 - sklearn 사용

'''

# sklearn 라이브러리에서 Decision Tree 분류 모형 가져오기
from sklearn import tree

# 모형 객체 생성 (criterion='entropy' 적용)
tree_model = tree.DecisionTreeClassifier(criterion='entropy', max_depth=5)
# 설명 : 분류정도를 평가하는 기준으로 '엔트로피' 값 사용
# 트리레벨을 5로 지정해서 가지를 최대 5단계까지 확장
# 레벨이 많아 질수록 모형학습에 사용하는 훈련데이터에 대한 예측이 정확해진다.
# 과적합 문제가 발생할 수 있다. (훈련데이터에 대해서만 지나치게 최적화되어 실제 데이터의 예측 능력 떨어짐)
# 머신러닝 데이터 분석시 적절한 max_depth를 찾는게 데이터 분석가의 역할

# train data를 가지고 모형 학습
tree_model.fit(X_train, y_train)

# test data를 가지고 y_hat을 예측 (분류)
y_hat = tree_model.predict(X_test)  # 2: benign(양성), 4: malignant(악성)
# print(y_hat[0:10])
# print(y_test.values[0:10])
# print('\n')

# 모형 성능 평가 - Confusion Matrix 계산
from sklearn import metrics
tree_matrix = metrics.confusion_matrix(y_test, y_hat)
print(tree_matrix)
print('\n')

# 모형 성능 평가 - 평가지표 계산
tree_report = metrics.classification_report(y_test, y_hat)
print(tree_report)

(tree_matrix[0][0]+tree_matrix[1][1])/tree_matrix.sum()

   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-

0.835820895522388

In [94]:
k = 0
for i in range(1, 101):
    
    # train data 와 test data로 구분(7:3 비율)
    from sklearn.model_selection import train_test_split
    X_train, X_test, y_train, y_test = train_test_split(X,
                                                        y,
                                                        test_size=0.3,
                                                        random_state=i)

#     print('train data 개수: ', X_train.shape)
#     print('test data 개수: ', X_test.shape)
#     print('\n')

    '''

    [Step 4] Decision Tree 분류 모형 - sklearn 사용

    '''
    for j in range(1, 101): 
        #print(i,j)
        # sklearn 라이브러리에서 Decision Tree 분류 모형 가져오기
        from sklearn import tree

        # 모형 객체 생성 (criterion='entropy' 적용)
        tree_model = tree.DecisionTreeClassifier(criterion='entropy', max_depth=j)
        # 설명 : 분류정도를 평가하는 기준으로 '엔트로피' 값 사용
        # 트리레벨을 5로 지정해서 가지를 최대 5단계까지 확장
        # 레벨이 많아 질수록 모형학습에 사용하는 훈련데이터에 대한 예측이 정확해진다.
        # 과적합 문제가 발생할 수 있다. (훈련데이터에 대해서만 지나치게 최적화되어 실제 데이터의 예측 능력 떨어짐)
        # 머신러닝 데이터 분석시 적절한 max_depth를 찾는게 데이터 분석가의 역할

        # train data를 가지고 모형 학습
        tree_model.fit(X_train, y_train)

        # test data를 가지고 y_hat을 예측 (분류)
        y_hat = tree_model.predict(X_test)  # 2: benign(양성), 4: malignant(악성)
        # print(y_hat[0:10])
        # print(y_test.values[0:10])
        # print('\n')

        # 모형 성능 평가 - Confusion Matrix 계산
        from sklearn import metrics
        tree_matrix = metrics.confusion_matrix(y_test, y_hat)
        # print(tree_matrix)
        # print('\n')

        # 모형 성능 평가 - 평가지표 계산
        tree_report = metrics.classification_report(y_test, y_hat)
        #print(tree_report)
        
        if (tree_matrix[0][0]+tree_matrix[1][1])/tree_matrix.sum()>k:
            k = (tree_matrix[0][0]+tree_matrix[1][1])/tree_matrix.sum()
            k_i = i
            k_j = j
            
print(k_i,k_j,k)

78 6 0.8656716417910447


In [None]:

# train data를 가지고 모형 학습
tree_model.fit(X_train, y_train)

# test data를 가지고 y_hat을 예측 (분류)
y_hat = tree_model.predict(X_test)  # 2: benign(양성), 4: malignant(악성)
print(y_hat[0:10])
print(y_test.values[0:10])
print('\n')

# 모형 성능 평가 - Confusion Matrix 계산
from sklearn import metrics
tree_matrix = metrics.confusion_matrix(y_test, y_hat)
print(tree_matrix)
print('\n')

# 모형 성능 평가 - 평가지표 계산
tree_report = metrics.classification_report(y_test, y_hat)
print(tree_report)

In [97]:
from sklearn.model_selection import train_test_split

from sklearn import tree

from sklearn import metrics

from sklearn.metrics import accuracy_score

b = []

c = []

for i in range(1, 50):

    X_train, X_test, y_train, y_test = train_test_split(X,
                                                        y,
                                                        test_size=0.3,
                                                        random_state=i)

    # sklearn 라이브러리에서 나이브베이즈 분류 모형 가져오기

    # 모형 객체 생성 (criterion='entropy' 적용)

    for k in range(1, 50):

        b.append((i, k))

        tree_model = tree.DecisionTreeClassifier(criterion='entropy',
                                                 max_depth=k)

        tree_model.fit(X_train, y_train)

        # 7단계 테스트 데이터로 예측을 한다.

        y_hat = tree_model.predict(X_test)

        # 8단계 모형의 예측능력을 평가한다.

        randomforest_matrix = metrics.confusion_matrix(y_test, y_hat)

        accuracy = accuracy_score(y_test, y_hat)

        c.append(accuracy)

max(c)


0.8582089552238806

In [99]:
c.index(max(c))
b[c.index(0.8582089552238806)]

(33, 5)

In [101]:
from sklearn import metrics

import numpy as np

# 1단계 csv ---> 데이터 프레임으로 변환

import pandas as pd

import seaborn as sns

df = sns.load_dataset('titanic')

# 컬럼이 모두다 출력될 수 있도록 출력할 열의 개수 한도를 늘리기

pd.set_option('display.max_columns', 15)

# 2단계 결측치 확인하고 제거하거나 치환한다.

# 2.1 타이타닉 데이터 프레임의 자료형을 확인한다.

mask4 = (df.age < 10) | (df.sex == 'female')

df['child_women'] = mask4.astype(int)

# 2.2 결측치(NaN) 을 확인한다.

# 2.3 deck 컬럼과 embark_town 컬럼을 삭제한다.

# 설명 : deck 결측치가 많아서 컬럼을 삭제해야함.

#        embark 와 embark_town 이 같은 데이터여서 embark 컬럼을 삭제해야함

rdf = df.drop(['deck', 'embark_town'], axis=1)

# 2.4 age(나이) 열에 나이가 없는 모든행을 삭제한다.

# 데이터가 한개라도 없으면 drop 해라 (how = 'any')

# 모든 데이터가 없으면 drop 해라 (how = 'all')

rdf = rdf.dropna(subset=['age'], how='any', axis=0)

# 2.5 embark 열의 NaN 값을 승선도시중 가장 많이 출현한 값으로 치환하기

most_freq = rdf['embarked'].value_counts().idxmax()

rdf['embarked'].fillna(most_freq, inplace=True)

# 3단계 범주형 데이터를 숫자형으로 변환하기

# 3.1 feature selection (분석에 필요한 속성을 선택)

ndf = rdf[[
    'survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'embarked',
    'child_women'
]]

# 선택된 컬럼중 2개(sex, embarked) 가 범주형이다.

#3.2 범주형 데이터를 숫자로 변환하기(원핫 인코딩)

# 파이썬의 의사결정트리 모델을 사용하려면 데이터가 모두 숫자형이어야 한다.

# 랜덤포레스트 : 의사결정트리 + 배깅(bagging)

gender = pd.get_dummies(ndf['sex'])

ndf = pd.concat([ndf, gender], axis=1)

onehot_embarked = pd.get_dummies(ndf['embarked'])

ndf = pd.concat([ndf, onehot_embarked], axis=1)

ndf.drop(['sex', 'embarked'], axis=1, inplace=True)

# 4단계 정규화

# 4.1 독립변수와 종속변수(라벨) 을 지정한다.

# survived  pclass   age  sibsp  parch  female  male  C  Q  S

#   라벨                       데이터

# 종속변수                     독립변수

x = ndf[[
    'pclass', 'age', 'sibsp', 'parch', 'female', 'male', 'C', 'Q', 'S',
    'child_women'
]]

y = ndf['survived']  # 종속변수

# 4.2 독립변수들을 정규화 한다.

from sklearn import preprocessing

X = preprocessing.StandardScaler().fit(x).transform(x)

# 5단계 훈련 데이터를 훈련 데이터 / 테스트 데이터로 나눈다

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(x,
                                                    y,
                                                    test_size=0.3,
                                                    random_state=33)

# sklearn 라이브러리에서 나이브베이즈 분류 모형 가져오기

from sklearn.ensemble import RandomForestClassifier

tree_model = RandomForestClassifier(n_estimators=100,
                                    oob_score=False,
                                    random_state=9)

# 설명 : (n_estimators = 100 : 생성할 tree의 갯수를 100개 하겠다. 약한 학습자를 100개 만들겠다.)
#       (oob_score : out of bag기능을 사용하겠다. out of bag이란 100개의 tree가 훈련 데이터를 사용할 때
#                    63%만 사용하고 나머지 37%의 oob_sample로 평가하겠다. 앙상블 평가를 oob 평가들을
#                    평균하여 얻음.
#        (oob_score : True 이면 훈련이 끝난 후에 자동으로 oob평가를 수행. 평가를 보고싶으면 2아래줄 print)


tree_model.fit(X_train, y_train)

print(tree_model.oob_score_)

# 7단계 테스트 데이터로 예측을 한다.

y_hat = tree_model.predict(X_test)

# 8단계 모형의 예측능력을 평가한다.

from sklearn import metrics

randomforest_matrix = metrics.confusion_matrix(y_test, y_hat)

print(randomforest_matrix)

tn, fp, fn, tp = metrics.confusion_matrix(y_test, y_hat).ravel()

f1_report = metrics.classification_report(y_test, y_hat)

print(f1_report)

#print(np.array([[tp,fp],[fn,tn]]))

from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, y_hat)

print(accuracy)

0.7454909819639278
[[102  24]
 [ 18  71]]
              precision    recall  f1-score   support

           0       0.85      0.81      0.83       126
           1       0.75      0.80      0.77        89

    accuracy                           0.80       215
   macro avg       0.80      0.80      0.80       215
weighted avg       0.81      0.80      0.81       215

0.8046511627906977


In [103]:
from sklearn import metrics

import numpy as np

# 1단계 csv ---> 데이터 프레임으로 변환

import pandas as pd

import seaborn as sns

df = sns.load_dataset('titanic')

# 컬럼이 모두다 출력될 수 있도록 출력할 열의 개수 한도를 늘리기

pd.set_option('display.max_columns', 15)

# 2단계 결측치 확인하고 제거하거나 치환한다.

# 2.1 타이타닉 데이터 프레임의 자료형을 확인한다.

mask4 = (df.age < 10) | (df.sex == 'female')

df['child_women'] = mask4.astype(int)

# 2.2 결측치(NaN) 을 확인한다.

# 2.3 deck 컬럼과 embark_town 컬럼을 삭제한다.

# 설명 : deck 결측치가 많아서 컬럼을 삭제해야함.

#        embark 와 embark_town 이 같은 데이터여서 embark 컬럼을 삭제해야함

rdf = df.drop(['deck', 'embark_town'], axis=1)

# 2.4 age(나이) 열에 나이가 없는 모든행을 삭제한다.

# 데이터가 한개라도 없으면 drop 해라 (how = 'any')

# 모든 데이터가 없으면 drop 해라 (how = 'all')

rdf = rdf.dropna(subset=['age'], how='any', axis=0)

# 2.5 embark 열의 NaN 값을 승선도시중 가장 많이 출현한 값으로 치환하기

most_freq = rdf['embarked'].value_counts().idxmax()

rdf['embarked'].fillna(most_freq, inplace=True)

# 3단계 범주형 데이터를 숫자형으로 변환하기

# 3.1 feature selection (분석에 필요한 속성을 선택)

ndf = rdf[[
    'survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'embarked',
    'child_women'
]]

# 선택된 컬럼중 2개(sex, embarked) 가 범주형이다.

#3.2 범주형 데이터를 숫자로 변환하기(원핫 인코딩)

# 파이썬의 의사결정트리 모델을 사용하려면 데이터가 모두 숫자형이어야 한다.

# 랜덤포레스트 : 의사결정트리 + 배깅(bagging)

gender = pd.get_dummies(ndf['sex'])

ndf = pd.concat([ndf, gender], axis=1)

onehot_embarked = pd.get_dummies(ndf['embarked'])

ndf = pd.concat([ndf, onehot_embarked], axis=1)

ndf.drop(['sex', 'embarked'], axis=1, inplace=True)

# 4단계 정규화

# 4.1 독립변수와 종속변수(라벨) 을 지정한다.

# survived  pclass   age  sibsp  parch  female  male  C  Q  S

#   라벨                       데이터

# 종속변수                     독립변수

x = ndf[[
    'pclass', 'age', 'sibsp', 'parch', 'female', 'male', 'C', 'Q', 'S',
    'child_women'
]]

y = ndf['survived']  # 종속변수

# 4.2 독립변수들을 정규화 한다.

from sklearn import preprocessing

X = preprocessing.StandardScaler().fit(x).transform(x)

# 5단계 훈련 데이터를 훈련 데이터 / 테스트 데이터로 나눈다
rs_1,rs_2 = 0,0
ra = 0
for i in range(1,51):

    from sklearn.model_selection import train_test_split

    X_train, X_test, y_train, y_test = train_test_split(x,
                                                        y,
                                                        test_size=0.3,
                                                        random_state=47)

    # sklearn 라이브러리에서 나이브베이즈 분류 모형 가져오기
    for j in range(1,51):

        from sklearn.ensemble import RandomForestClassifier

        tree_model = RandomForestClassifier(n_estimators=100,
                                            oob_score=False,
                                            random_state=26)

        # 설명 : (n_estimators = 100 : 생성할 tree의 갯수를 100개 하겠다. 약한 학습자를 100개 만들겠다.)
        #       (oob_score : out of bag기능을 사용하겠다. out of bag이란 100개의 tree가 훈련 데이터를 사용할 때
        #                    63%만 사용하고 나머지 37%의 oob_sample로 평가하겠다. 앙상블 평가를 oob 평가들을
        #                    평균하여 얻음.
        #        (oob_score : True 이면 훈련이 끝난 후에 자동으로 oob평가를 수행. 평가를 보고싶으면 2아래줄 print)


        tree_model.fit(X_train, y_train)

        #print(tree_model.oob_score_)

        # 7단계 테스트 데이터로 예측을 한다.

        y_hat = tree_model.predict(X_test)

        # 8단계 모형의 예측능력을 평가한다.

        from sklearn import metrics

        randomforest_matrix = metrics.confusion_matrix(y_test, y_hat)

        #print(randomforest_matrix)

        tn, fp, fn, tp = metrics.confusion_matrix(y_test, y_hat).ravel()

        f1_report = metrics.classification_report(y_test, y_hat)

        #print(f1_report)

        #print(np.array([[tp,fp],[fn,tn]]))

        from sklearn.metrics import accuracy_score

        accuracy = accuracy_score(y_test, y_hat)
        
        if accuracy > ra :
            ra = accuracy
            rs_1,rs_2 = i,j
        #print(accuracy)
print(rs_1,rs_2,ra)

47 26 0.8372093023255814


In [144]:
from sklearn import metrics
import numpy as np
import pandas as pd
import seaborn as sns

df = sns.load_dataset('titanic')


pd.set_option('display.max_columns', 15)


#이상치 제거
local_std = df.fare.std()*5
df = df[df.fare<local_std]
df

mask4 = (df.age < 10) | (df.sex == 'female')
df['child_women'] = mask4.astype(int)


rdf = df.drop(['deck', 'embark_town'], axis=1)

most_freq = rdf['age'].value_counts(dropna=True).idxmax()
rdf.age.fillna(most_freq, inplace=True)

most_freq = rdf['embarked'].value_counts().idxmax()
rdf['embarked'].fillna(most_freq, inplace=True)

ndf = rdf[[
    'survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'embarked','fare',
    'child_women'
]]

gender = pd.get_dummies(ndf['sex'])
ndf = pd.concat([ndf, gender], axis=1)
onehot_embarked = pd.get_dummies(ndf['embarked'])
ndf = pd.concat([ndf, onehot_embarked], axis=1)
ndf.drop(['sex', 'embarked'], axis=1, inplace=True)

# x = ndf[[
#     'pclass', 'age', 'sibsp', 'parch', 'female', 'male', 'C', 'Q', 'S',
#     'child_women'
# ]]


x = ndf[ndf.columns.difference(['survived'])]
y = ndf['survived']  # 종속변수

from sklearn import preprocessing
X = preprocessing.StandardScaler().fit(x).transform(x)

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(x,
                                                    y,
                                                    test_size=0.3,
                                                    random_state=47)

from sklearn.ensemble import RandomForestClassifier
tree_model = RandomForestClassifier(n_estimators=100,
                                    oob_score=False,
                                    random_state=26)

tree_model.fit(X_train, y_train)

y_hat = tree_model.predict(X_test)

from sklearn import metrics
randomforest_matrix = metrics.confusion_matrix(y_test, y_hat)
print(randomforest_matrix)

tn, fp, fn, tp = metrics.confusion_matrix(y_test, y_hat).ravel()
f1_report = metrics.classification_report(y_test, y_hat)
print(f1_report)

from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_hat)
print(accuracy)

[[149  17]
 [ 31  68]]
              precision    recall  f1-score   support

           0       0.83      0.90      0.86       166
           1       0.80      0.69      0.74        99

    accuracy                           0.82       265
   macro avg       0.81      0.79      0.80       265
weighted avg       0.82      0.82      0.82       265

0.8188679245283019


In [150]:
df = sns.load_dataset('titanic')

local_std = df.fare.std()*5
result = df['fare'][df.fare<local_std]
df = df[df.fare>local_std]

df#.fare/(df.sibsp+df.parch+1)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
27,0,1,male,19.0,3,2,263.0,S,First,man,True,C,Southampton,no,False
88,1,1,female,23.0,3,2,263.0,S,First,woman,False,C,Southampton,yes,False
258,1,1,female,35.0,0,0,512.3292,C,First,woman,False,,Cherbourg,yes,True
311,1,1,female,18.0,2,2,262.375,C,First,woman,False,B,Cherbourg,yes,False
341,1,1,female,24.0,3,2,263.0,S,First,woman,False,C,Southampton,yes,False
438,0,1,male,64.0,1,4,263.0,S,First,man,True,C,Southampton,no,False
679,1,1,male,36.0,0,1,512.3292,C,First,man,True,B,Cherbourg,yes,False
737,1,1,male,35.0,0,0,512.3292,C,First,man,True,B,Cherbourg,yes,True
742,1,1,female,21.0,2,2,262.375,C,First,woman,False,B,Cherbourg,yes,False
