# Tabular Learner para Regresión Logística

Es este notebook vamos a realizar un pequeño ejercicio para ver como se pueden usar redes neuronales para realizar tareas de regresión logística.

Empezamos importando el módulo 'tabular' de la librería 'fastai' para poder trabajar con tablas.

In [1]:
from fastai.tabular import *

En 'path' creamos el acceso al dataset con la función 'untar_data'. Con la función 'pd.read_csv' de la librería [pandas](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html?highlight=read_csv#pandas.read_csv) creamos el *dataframe* leyendo el archivo 'adult.csv'.

In [3]:
path = untar_data(URLs.ADULT_SAMPLE)
df = pd.read_csv(path/'adult.csv')

Downloading http://files.fast.ai/data/examples/adult_sample


En 'dep_var' definimos que columna será nuestro target, en este caso salary. En 'cat_names' definimos que columnas cotienen variables categóricas, y en 'cont_names' las columnas con variables continuas.

En 'procs' definimos las lista de preprocesamientos que queremos realizar a los datos. Con 'FillMissing' ponemos un '0' en los datos que aparecen como 'NAN' en las 'cont_names'. 

In [4]:
dep_var = 'salary'
cat_names = ['workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race']
cont_names = ['age', 'fnlwgt', 'education-num']
procs = [FillMissing, Categorify, Normalize]

En 'test' creamos el 'test set' con las 200 ultimas entradas del *dataframe*. 

In [5]:
test = TabularList.from_df(df.iloc[800:1000].copy(), path=path, cat_names=cat_names, cont_names=cont_names)

En 'data' creamos el *databunch* desde el *dataframe*.

In [6]:
data = (TabularList.from_df(df, path=path, cat_names=cat_names, cont_names=cont_names, procs=procs)
                           .split_by_idx(list(range(800,1000)))
                           .label_from_df(cols=dep_var)
                           .add_test(test)
                           .databunch())

Mostramos las 10 primeras filas.

In [7]:
data.show_batch(rows=10)

workclass,education,marital-status,occupation,relationship,race,education-num_na,age,fnlwgt,education-num,target
?,5th-6th,Married-civ-spouse,?,Husband,White,False,2.3025,1.3869,-2.7692,<50k
Private,Prof-school,Married-civ-spouse,Prof-specialty,Husband,White,False,0.3235,-0.0865,1.9245,>=50k
Private,Bachelors,Never-married,Prof-specialty,Not-in-family,White,False,-1.2158,1.1833,1.1422,<50k
Private,HS-grad,Never-married,Craft-repair,Own-child,White,False,-0.9226,-0.2402,-0.4224,<50k
Private,HS-grad,Widowed,Other-service,Not-in-family,White,False,1.203,0.0532,-0.4224,<50k
Private,10th,Divorced,Handlers-cleaners,Not-in-family,White,False,-0.776,-0.6369,-1.5958,<50k
Private,HS-grad,Married-civ-spouse,Exec-managerial,Husband,White,False,-0.4095,0.0555,-0.4224,<50k
Private,11th,Widowed,Sales,Other-relative,White,False,1.936,-0.9723,-1.2046,<50k
Federal-gov,HS-grad,Separated,Other-service,Other-relative,Black,False,0.2502,-0.4576,-0.4224,<50k
Private,Assoc-voc,Divorced,Prof-specialty,Unmarried,White,False,-0.2629,0.7833,0.3599,<50k


Creamos el modelo.

In [8]:
learn = tabular_learner(data, layers=[200,100], metrics=accuracy)

Entrenamos en una época con un 'lr' de 0.01.

In [9]:
learn.fit(1, 1e-2)

epoch,train_loss,valid_loss,accuracy,time
0,0.371634,0.377784,0.83,00:07


En 'row' escogemos la primera fila del *dataframe*.

In [10]:
row = df.iloc[0]

Hacemos una predicción sobre 'row'. Nos predice un salario igual o superior a 50.000$. Acierta.

In [11]:
learn.predict(row)

(Category >=50k, tensor(1), tensor([0.3219, 0.6781]))