In [9]:
import seaborn as sns # 파이썬 데이터 시각화 라이브러리 데이터

titanic = sns.load_dataset('titanic') # 데이터 이름 = 데이터 불러오기('타이타닉' < 지정)

print(titanic.head(5)) # head 함수 통해서 5행까지 출력
print(titanic.describe()) # 데이터에 있는 표의 행열을 출력

   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  
         survived      pclass         age       sibsp       parch        fare
count  891.000000  891.000000  714.000000  891.000000  891.000000  891.000000
mean     0.383838    2.308642   29.699118    0.523008    0.3815

### count 는 rows(행)의 columns(열)에 있는 항의 총계를 나타냅니다.
### mean 은 전체적인 데이터의 평균 값을 말합니다.
### std 는 데이터의 값에서 평균을 뺀 값을 말합니다.
### min 은 rows(행)의 columns(열)에 있는 데이터의 제일 작은 값을 나타냅니다.
### 25% 는 데이터의 25%만 출력을 합니다.
### 50% 은 중간 값으로써 50%의 데이터 값을 출력합니다.
### max 는 rows(행)의 columns(열)에 있는 데이터의 가장 큰 값을 나타냅니다.

In [16]:
print(titanic.isnull().sum())

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64


In [17]:
titanic['age'].fillna(titanic['age'].median(), inplace=True) # 타이타닉 데이터에 있는 나이값을 fillna로 결측치를 중앙 값으로 설정
titanic['embarked'].fillna(titanic['embarked'].mode()[0], inplace=True) # 타이타닉 데이터에 있는 승선 항구를 결측치를 최빈값으로 설정

print(titanic['age'].isnull().sum()) 
print(titanic['embarked'].isnull().sum())

0
0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  titanic['age'].fillna(titanic['age'].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  titanic['embarked'].fillna(titanic['embarked'].mode()[0], inplace=True)


In [18]:
titanic['sex'] = titanic['sex'].map({'male': 0, 'female': 1})
titanic['alive'] = titanic['alive'].map({'yes': 1, 'no': 0})
titanic['embarked'] = titanic['embarked'].map({'C': 0, 'Q': 1, 'S': 2,})

print(titanic['sex'].head())
print(titanic['alive'].head())
print(titanic['embarked'].head())

0    0
1    1
2    1
3    1
4    0
Name: sex, dtype: int64
0    0
1    1
2    1
3    1
4    0
Name: alive, dtype: int64
0    2
1    0
2    2
3    2
4    2
Name: embarked, dtype: int64


In [23]:
titanic['family_size'] = titanic['sibsp'] + titanic['parch'] + 1 # 가족 크기 생성

print(titanic['family_size'].head(10)) # Head 함수로 10번째 까지 확인

0    2
1    2
2    1
3    2
4    1
5    1
6    1
7    5
8    3
9    2
Name: family_size, dtype: int64


In [26]:
from sklearn.preprocessing import StandardScaler # 전처리 스케일 
from sklearn.tree import DecisionTreeClassifier # 결정 나무 트리
from sklearn.model_selection import train_test_split # 데이터 분할
from sklearn.metrics import accuracy_score # 성능평가 지표
from sklearn.metrics import classification_report # 정답지와 예측값

titanic = titanic[['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked', 'family_size']]
X = titanic.drop('survived', axis=1) # feature
y = titanic['survived'] # target

# 데이터 분할(X라벨, Y라벨 설정)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 데이터 스케일링
scaler = StandardScaler() # 평균 = 0, 표준편차 = 1로 조정해서 모든 특성이 같은 크기를 갖게함
X_train = scaler.fit_transform(X_train) # train data에 scaler를 fit 하고
X_test = scaler.transform(X_test) # X_test에서 transform만 수행

# 모델 생성 및 학습
model = DecisionTreeClassifier(random_state=42) # 데이터 분할 시 셔플의 시드값 = 42
model.fit(X_train, y_train)

# 예측값을 예측
y_pred = model.predict(X_test)

# 정답지와 예측값
print(f"Accuracy: {accuracy_score(y_test, y_pred)}") 
print(f"Classification Report:\n{classification_report(y_test, y_pred)}")

Accuracy: 0.770949720670391
Classification Report:
              precision    recall  f1-score   support

           0       0.83      0.76      0.80       105
           1       0.70      0.78      0.74        74

    accuracy                           0.77       179
   macro avg       0.77      0.77      0.77       179
weighted avg       0.78      0.77      0.77       179

