## 나의 첫 모델 만들기

## 학습 내용
 * 1-1 데이터 불러오기
 * 1-2 데이터 탐색하기
 * 1-3 모델 만들고 제출해 보기

## 1-1 데이터 불러오기

* 구글 Coloaboratory에 데이터를 올리고 불러온다.
<img src="img/dataupload.png">

## Data Fields

구분 | 설명 | 값 |
-----|-----|-----|
**Survival** | 생존 여부  | Survival. 0 = No, 1 = Yes
**Pclass** | 티켓의 클래스 |Ticket class. 1 = 1st, 2 = 2nd, 3 = 3rd
**Sex** | 성별(Sex) | 남(male)/여(female)
**Age** | 나이(Age in years.) | 
**SibSp** | 함께 탑승한 형제와 배우자의 수 /siblings,  spouses aboard the Titanic.  | 
**Parch** | 함께 탑승한 부모, 아이의 수  | # of parents / children aboard the Titanic.
**Ticket** | 티켓 번호(Ticket number) | (ex) CA 31352, A/5. 2151
**Fare** | 탑승료(Passenger fare) | 
**Cabin** | 객실 번호(Cabin number) | 
**Embarked** | 탑승 항구(Port of Embarkation) |  C = Cherbourg, Q = Queenstown, S = Southampton

* siblings : 형제, 자매, 형제, 의붓 형제
* spouses  : 남편, 아내 (정부와 약혼자는 무시)
* Parch : Parent(mother, father), child(daughter, son, stepdaughter, stepson)

In [11]:
import pandas as pd

In [12]:
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

## 1-2 데이터 탐색하기
 * 데이터의 행과 열( shape )
 * 컬럼명 확인
 * 각 컬럼의 자료형
 * 컬럼 결측치의 확인

In [4]:
print(train.shape)
print(test.shape)

(891, 12)
(418, 11)


In [7]:
print(train.columns)
print(test.columns)

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')
Index(['PassengerId', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch',
       'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')


* train에 Survived가 있고, test에는 없다.

In [14]:
train.dtypes   # int, object, float 형태의 자료형이 있다.

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

In [15]:
test.dtypes

PassengerId      int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

In [16]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB


* Age와 Cabin에 결측치가 있다.

In [17]:
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
PassengerId    418 non-null int64
Pclass         418 non-null int64
Name           418 non-null object
Sex            418 non-null object
Age            332 non-null float64
SibSp          418 non-null int64
Parch          418 non-null int64
Ticket         418 non-null object
Fare           417 non-null float64
Cabin          91 non-null object
Embarked       418 non-null object
dtypes: float64(2), int64(4), object(5)
memory usage: 36.0+ KB


* Age와 Cabin에 결측치가 있다.

In [57]:
train.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [58]:
test.isnull().sum()

PassengerId      0
Pclass           0
Name             0
Sex              0
Age             86
SibSp            0
Parch            0
Ticket           0
Fare             1
Cabin          327
Embarked         0
dtype: int64

## 1-3 모델 만들고 제출해 보기
 * 모듈을 import(불러오기)을 이용하여 sklearn(Scikit-Learn)
 * 모델(로지스틱 회귀)을 생성 후, 학습(fit)
 * 그리고 예측(predict)을 수행 후, 제출한다.

In [13]:
from sklearn.linear_model import LogisticRegression

In [14]:
train.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [15]:
train['Age'] = train['Age'].astype('int64')
train['Age'] = train['Age'].astype('int64')

ValueError: Cannot convert non-finite values (NA or inf) to integer

In [17]:
# 데이터 준비 - 빠른 모델 생성을 위해 처리 없이 가능한 변수만 선택
# 'Survived'를 제외 , 
# 'Embarked', 'Sex'',Name', 'Ticket' =>문자포함
#  'Age',
sel = ['PassengerId', 'Pclass', 'SibSp', 'Parch' ]

# 학습에 사용될 데이터 준비 X_train, y_train
X_train = train[sel]
y_train = train['Survived']
X_test = test[sel]

In [62]:
model = LogisticRegression()

In [63]:
# 학습
model.fit(X_train, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

### 예측하기

In [67]:
predictions = model.predict(X_test)
predictions[:15]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1], dtype=int64)

In [68]:
test_passengerId = test['PassengerId']
pred = predictions.astype(int)
df_pred = pd.DataFrame({'PassengerID':test_passengerId, 'Survived':pred})
df_pred.to_csv("logistic_first_model.csv", index=False)

In [None]:
### 제출 절차
 * 

<img src='img/kaggle4.png'>