# Tabular models

Tabular Data는 row(행)로 구성된 데이터로, 각 row는 특정 무언가에 대한 데이터를 담고 있다. 각 row는 (비었을 수도 있고) 같은 수의 셀들을 갖고 있다.

In [None]:
from fastai.tabular import *

Tabular data should be in a Pandas `DataFrame`.

In [2]:
path = untar_data(URLs.ADULT_SAMPLE)
df = pd.read_csv(path/'adult.csv')

Downloading http://files.fast.ai/data/examples/adult_sample


Pandas DataFrame은 tabular data의 표준형식이다. pd.red_csv을 통해 data frame으로 읽었다(df).

In [None]:
dep_var = 'salary'
cat_names = ['workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race']
cont_names = ['age', 'fnlwgt', 'education-num']
procs = [FillMissing, Categorify, Normalize]

In [None]:
test = TabularList.from_df(df.iloc[800:1000].copy(), path=path, cat_names=cat_names, cont_names=cont_names)

In [None]:
data = (TabularList.from_df(df, path=path, cat_names=cat_names, cont_names=cont_names, procs=procs)
                           .split_by_idx(list(range(800,1000)))
                           .label_from_df(cols=dep_var)
                           .add_test(test)
                           .databunch())

위의 셀로 만든 변수들을 data block API의 인자로 넘겨주었다. 

우리가 만들 list는 tabular list이고, data frame(df)으로부터 만들것이다.
참고로, cat이란 categoricla variables이고 cont는 continuous variables이다. 

즉, cat의 경우 위의 항목에 education이 있는데 이것은 고등학교 졸업, 대학교 졸업 등의 속성을 가질 것이다.

그리고 cont의 경우, 위의 항목에 age가 있는데 이건 education처럼 카테고리로 딱 떨어지는 속성이 아닌 연속되는 수들 중의 어떤 값을 가질 것이다.

In [6]:
data.show_batch(rows=10)

workclass,education,marital-status,occupation,relationship,race,education-num_na,age,fnlwgt,education-num,target
Local-gov,HS-grad,Married-civ-spouse,Adm-clerical,Wife,White,False,1.8627,0.1234,-0.4224,<50k
Private,Some-college,Married-civ-spouse,Craft-repair,Husband,White,False,-0.6294,-1.0012,-0.0312,<50k
Private,HS-grad,Married-civ-spouse,Transport-moving,Husband,White,False,0.4701,-0.8509,-0.4224,<50k
?,Some-college,Never-married,?,Unmarried,Amer-Indian-Eskimo,False,-1.1425,-0.8563,-0.0312,<50k
Private,HS-grad,Married-civ-spouse,Other-service,Husband,White,False,-0.1896,1.7077,-0.4224,<50k
State-gov,Some-college,Married-civ-spouse,Exec-managerial,Husband,White,False,-0.3362,-1.323,-0.0312,<50k
Private,Some-college,Never-married,Exec-managerial,Own-child,White,False,-1.4357,-1.4029,-0.0312,<50k
Private,HS-grad,Never-married,Craft-repair,Own-child,White,False,-0.776,0.5392,-0.4224,<50k
?,1st-4th,Married-civ-spouse,?,Husband,White,False,2.5224,-0.9468,-3.1604,<50k
State-gov,Bachelors,Married-civ-spouse,Prof-specialty,Husband,White,False,0.5434,1.9449,1.1422,<50k


실제로 data를 show_batch로 간단히 10 row만 확인해보면 cat과 cont의 차이를 쉽게 이해할 수 있다.

In [None]:
learn = tabular_learner(data, layers=[200,100], metrics=accuracy)

learner를 만든다(tabular learner이다).

**여기서 궁금한게 있는데, 우리가 보통 image를 다룰 때는 ResNet을 활용해서 learner를 만들곤 했다. 그런데 여기는 [200, 100]이라는 layers를 주었다. 내가 이전 수업들을 이해한 것이 맞다면, 우리가 image를 다뤄온 경우 leaner로 ResNet위에 우리가 목표로 하는 data에 맞게 몇 layers를 더 추가해주는 일을 했었는데(맞나요?) 이경우에는 layers=[200,100]이 무슨일을 하는지 궁금하다.**

*layers=[200, 100] 부분은 layers 중에 100번 부터 200까지 뽑는 것임*

*documentation 보니 : The sizes of the blocks are given in layers 라고 함.*

*tabular model은 자동으로 model을 해 주는 것임*

In [8]:
learn.fit(1, 1e-2)

epoch,train_loss,valid_loss,accuracy,time
0,0.371848,0.385399,0.815,00:06


fitting을 해준다.

## Inference

In [None]:
row = df.iloc[0]

In [10]:
learn.predict(row)

(Category >=50k, tensor(1), tensor([0.3808, 0.6192]))