## 개인 수입 예측 basline만들기
1. 데이터로드
2. 수치형 컬럼 선택
3. X(문제), y(답) 나누기
4. 모델 선택 및 학습하기
5. 예측 결과 업로드

In [40]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### 1. 데이터 로드

In [78]:
train = pd.read_csv("train.csv") # 훈련용데이터(문제, 답) 
test = pd.read_csv("test.csv") # 평가용데이터(사람의 특징만 들어있음)
submission = pd.read_csv("sample_submission.csv") # 업로드 양식

In [44]:
train.shape, test.shape # 약 2만9천명의 수입이 5만달러 이상인지 이하인지가 들어있는 데이터

((29305, 16), (19537, 15))

### 2. 수치형 컬럼 선택
- 숫자로 되어있는 컬럼 선택

In [47]:
train.info() 
# 전체 데이터 정보 간략하게 확인
# 숫자형 데이터 : no, age, fnlwgt, education-num, capital-gain, capital-loss, hours-per-week // income(은 정답 데이터)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29305 entries, 0 to 29304
Data columns (total 16 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   no              29305 non-null  int64 
 1   age             29305 non-null  int64 
 2   workclass       29305 non-null  object
 3   fnlwgt          29305 non-null  int64 
 4   education       29305 non-null  object
 5   education-num   29305 non-null  int64 
 6   marital-status  29305 non-null  object
 7   occupation      29305 non-null  object
 8   relationship    29305 non-null  object
 9   race            29305 non-null  object
 10  sex             29305 non-null  object
 11  capital-gain    29305 non-null  int64 
 12  capital-loss    29305 non-null  int64 
 13  hours-per-week  29305 non-null  int64 
 14  native-country  29305 non-null  object
 15  income          29305 non-null  int64 
dtypes: int64(8), object(8)
memory usage: 3.6+ MB


In [49]:
train.columns

Index(['no', 'age', 'workclass', 'fnlwgt', 'education', 'education-num',
       'marital-status', 'occupation', 'relationship', 'race', 'sex',
       'capital-gain', 'capital-loss', 'hours-per-week', 'native-country',
       'income'],
      dtype='object')

In [51]:
# 수치형 데이터에 해당되는 컬럼들만 골라 담아 준다
feature_names = ['no', 'age', 'fnlwgt', 'education-num', 'capital-gain', 'capital-loss', 'hours-per-week', 'income']

### X(문제), y(답) 나누기

In [52]:
# 색인할때 보통 tarin['age'] 이런식으로 하는데
# 동시에 여러개의 컬럼 색인하려면
# train[['age', 'no']] 이런식으로 하면 된다

In [54]:
# 정답인 income을 제외한 수치형 데이터 들만 추출
feature_names[:-1]

['no',
 'age',
 'fnlwgt',
 'education-num',
 'capital-gain',
 'capital-loss',
 'hours-per-week']

In [60]:
X_train = train[feature_names[:-1]]
y_train = train['income']

### 4. 모델 선택 및 학습하기

In [61]:
# 이번 케글 문제 봤을때 수입이 넘냐 안넘냐 두가지 이기 때문에, 이진 분류 모델이 좋다는 걸 알 수 있다

In [62]:
from sklearn.linear_model import LogisticRegression # 분류 선형모델

In [63]:
logi_model = LogisticRegression()

In [64]:
logi_model.fit(X_train, y_train)

LogisticRegression()

In [67]:
logi_model.score(X_train, y_train)

0.7954956492066201

### 5. 예측 결과 업로드

In [69]:
X_test = test[feature_names[:-1]] # 평가용 데이터셋 구축

In [72]:
logi_pre = logi_model.predict(X_test)
logi_pre

array([0, 0, 0, ..., 0, 0, 0])

In [79]:
submission # 원래 양식

Unnamed: 0,no,income
0,29306,0
1,29307,0
2,29308,0
3,29309,0
4,29310,0
...,...,...
19532,48838,1
19533,48839,0
19534,48840,1
19535,48841,0


In [80]:
submission['income'] = logi_pre # 원래 양식의 income자리에 내가 예상한 값인 logi_pre를 대입해준다

In [81]:
submission

Unnamed: 0,no,income
0,29306,0
1,29307,0
2,29308,0
3,29309,0
4,29310,0
...,...,...
19532,48838,0
19533,48839,0
19534,48840,0
19535,48841,0


In [82]:
submission.to_csv('myFirstSubmission.csv', index = False) 
# index = False를 해줘야 앞에 0~19536이라는 인덱스가 사라져서 제출 양식에 맞게 된다.
# 붙어 있으면 제출 양식에 맞지 않다.

In [83]:
### 파라미터 튜닝도 해보고, 모델도 바꿔보고, 데이터 전처리도 해보고 하면서 점수 올리기