# 데이터 가져오기 및 전처리 하기

```
각 열의 정보
Survived : 0 = 사망, 1 = 생존
Pclass : 1 = 1등석, 2 = 2등석, 3 = 3등석
Name : 이름
Sex : male = 남성, female = 여성
Age : 나이
SibSp : 타이타닉 호에 동승한 자매 / 배우자의 수
Parch : 타이타닉 호에 동승한 부모 / 자식의 수
Ticket : 티켓 번호
Fare : 승객 요금
Cabin : 방 호수
Embarked : 탑승지, C = 셰르부르, Q = 퀸즈타운, S = 사우샘프턴
```

In [None]:
import pandas as pd

titanic = pd.read_csv("https://raw.githubusercontent.com/ygcho-git/basic_AI/main/dataset/titanic.csv")

In [None]:
# 처음 5개 보기
titanic.head()

In [None]:
# 정보 살펴보기
titanic.info()

In [None]:
# 결측치 정보 살펴보기
titanic.isnull().sum()

## 불필요해 보이는 열(특성) 제거

In [None]:
# ['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']
# 제거 : 'PassengerId'(필요없어 보임), 'Name'(문자), 'Ticket'(문자), 'Cabin'(결측치가 많음)
# 사용 : 'Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked'


titanic = titanic[['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']]

In [None]:
# 필요한 열만 선택이 잘 되었는지 데이터 확인해 보기
titanic.head()

In [None]:
titanic.info()

## 결측치 처리
> Age : 평균으로 채우기
> Embarked : 결측치가 있는 행 제거

In [None]:
# 나이를 전체 인원의 평균으로 채우기
# df.fillna() 판다스 데이터 프레임의 fillna() 메소드 사용

titanic['Age'] = titanic['Age'].fillna(titanic['Age'].mean())

In [None]:
# 나이 결측치가 몇개인지 확인
titanic.info()

In [None]:
# Embarked 결측치 제거(Embarked 결측치가 2개 있고, 나머지 열은 결측치 없음)
# df = df.dropna(axis=?)  판다스 데이터 프레임의 dropna() 메소드 사용

titanic = titanic.dropna(axis=0)   # 결측치가 있는 행을 제거

In [None]:
titanic.info()

## 문자 데이터 --> 숫자 데이터
> Sex : male -> 0,   female -> 1
> Embarked : C -> 0,   Q -> 1,   S -> 2

In [None]:
# Sex : male->0, female->1

titanic.iloc[ titanic['Sex']=="male", 2] = 0
titanic.iloc[ titanic['Sex']=="female", 2] = 1

In [None]:
titanic.head()

In [None]:
# Embarked : C:0, Q:1, S:2
titanic.iloc[ titanic['Embarked']=="C", 7] = 0
titanic.iloc[ titanic['Embarked']=="Q", 7] = 1
titanic.iloc[ titanic['Embarked']=="S", 7] = 2

In [None]:
titanic.head()

In [None]:
titanic.info()

## 숫자로 형변환
> Sex : object --> int
> Embarked : object --> int

In [None]:
# Sex을 int형으로
titanic['Sex'] = titanic['Sex'].astype('int')

# Embarked를 int형으로
titanic['Embarked'] = titanic['Embarked'].astype('int')

In [None]:
titanic.info()

In [None]:
titanic.head()

## 독립변수, 종속변수 나누기

In [None]:
titanic.columns

In [None]:
# ['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']

X = titanic[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']]
Y = titanic['Survived']

In [None]:
# 독립변수 데이터 프레임 확인
X.head()

In [None]:
# 종속변수 데이터 프레임 확인
Y.head()

# 모델 만들기

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# 모델 설계하기
model = Sequential()
model.add(Dense(10, input_dim=7, activation='?????'))
model.add(Dense(32, activation='?????'))
model.add(Dense(16, activation='?????'))
model.add(Dense(1, activation='?????'))

model.compile(optimizer='????', loss='????????', metrics=['accuracy'])

# 모델 학습 시키기
model.fit(X, Y, epochs=1000)

# 모델 예측해 보기

In [None]:
model.predict(X[:10])

In [None]:
Y[:10]