Nosso projeto consiste em avaliar o processo de visto americano para trabalho, o H1B, e se dependendo de certos fatores uma pessa receberia o visto ou não. Para tirar este visto é necessário passar informações como, o nome do lugar de trabalho, com o que a pessoa trabalhará, se é um trabalho de tempo integral, o salário, e a cidade onde será o trabalho (traduzido para latitude e longitude), todos dados contidos no nosso dataset. Porém havia um problema nosso dataset, obtido no Kaggle havia 3 milhões de linhas, um arquivo muito grande, fazendo com que fique difícil e demorado para se trabalhar. Por esse motivo cortamos o dataset, no qual o processo esta em um outro notebook chamado Shuffle dataset.

In [1]:
import pandas as pd
import numpy as np
import sklearn
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import statsmodels.discrete.discrete_model as sm

In [2]:
df = pd.read_csv('Dataframe.csv')
df.head()

Unnamed: 0.2,Unnamed: 0,Unnamed: 0.1,CASE_STATUS,EMPLOYER_NAME,SOC_NAME,JOB_TITLE,FULL_TIME_POSITION,PREVAILING_WAGE,YEAR,WORKSITE,lon,lat
0,0,2350905,1,ASPIRE SYSTEMS INC.,Computer Systems Analysts,BUSINESS ANALYST,Y,61963.0,2012.0,"SAN JOSE, CALIFORNIA",-121.886329,37.338208
1,1,1335289,1,AYUDA GROUP LLC,"Software Developers, Applications",ORACLE OBIEE DEVELOPER,Y,71240.0,2014.0,"NEWARK, NEW JERSEY",-74.172367,40.735657
2,2,2335957,1,"THE SAMUEL ROBERTS NOBLE FOUNDATION, INC.",Soil and Plant Scientists,POSTDOCTORAL FELLOW,Y,25667.0,2012.0,"ARDMORE, OKLAHOMA",-97.143625,34.174261
3,3,454209,1,"EXPERIS US, INC.","COMPUTER OCCUPATIONS, ALL OTHER",PROJECT MANAGER,Y,71094.4,2016.0,"RALEIGH, NORTH CAROLINA",-78.638179,35.77959
4,5,1202539,1,INTEL CORPORATION,SALES ENGINEERS,TECHNICAL MARKETING ENGINEER,Y,106267.0,2015.0,"AUSTIN, TEXAS",-97.743061,30.267153


Na célula abaixo, o tratamento dos dados é feito. Em primeiro lugar as colunas Unnamed: 0 e Unnamed: 0.1, são retiradas, essas correspondem ao index atual e ao index antes do embaralhamento feito no outro notebook. O local de trabalho, WORKSITE, também é retirado uma vez que esse já está no dataset em forma de Latitude e Longitude, variáves quantitavas. Essas então são transformadas para valores de 0 a 1 para facilitar a forma de se trabalhar, bem como a variável de trabalho em tempo intergral, FULL_TIME_POSITION, também é transformada, de N ou Y, para 0 ou 1. JOB_TITLE é retirado pois a variável SOC_NAME, do Inglês Standard Occupational Classification (SOC), já corresponde ao trabalho ocupado porém em uma forma de classificação padrão e essa então é transormada para uma váriavel quantitativa através do metodo de One-hot Encoding. Por fim o ano é retirado uma vez que queremos prever o visto de anos futuros então não se pode levar em conta os anos passados.  

In [3]:
def dummify(data, column_name):
    df = data.copy()
    df2 = pd.concat([df.drop(column_name, axis=1), pd.get_dummies(data[column_name], prefix=column_name)], axis=1)
    return df2

def mapp (value, start1, stop1, start2, stop2):
    return start2 + (stop2 - start2) * ((value - start1) / (stop1 - start1))


df = df.drop(["WORKSITE","YEAR","JOB_TITLE","Unnamed: 0","Unnamed: 0.1"], axis=1)
df["SOC_NAME"] = df["SOC_NAME"].apply(lambda x: x.upper())

df = df.drop(["EMPLOYER_NAME"], axis=1)

df["FULL_TIME_POSITION"] = df["FULL_TIME_POSITION"].apply(lambda x: 0 if x=="N" else 1)



latmin = -90
latmax = 90
lonmin = -180
lonmax = 180

df["lat"] = df["lat"].apply(lambda x: mapp(x, latmin, latmax, 0, 1))
df["lon"] = df["lon"].apply(lambda x: mapp(x, lonmin, lonmax, 0, 1))

df = dummify(df, "SOC_NAME")

In [4]:
df.head()

Unnamed: 0,CASE_STATUS,FULL_TIME_POSITION,PREVAILING_WAGE,lon,lat,SOC_NAME_17-2051,SOC_NAME_ACCOUNTANTS,SOC_NAME_ACCOUNTANTS AND AUDITORS,SOC_NAME_ACTUARIES,SOC_NAME_ADMINISTRATIVE SERVICES MANAGERS,...,SOC_NAME_VETERINARIANS,SOC_NAME_VETERINARY ASSISTANTS AND LABORATORY ANIMAL CARETA,SOC_NAME_VETERINARY TECHNOLOGISTS AND TECHNICIANS,SOC_NAME_VOCATIONAL EDUCATION TEACHERS POSTSECONDARY,"SOC_NAME_VOCATIONAL EDUCATION TEACHERS, POSTSECONDARY",SOC_NAME_WEB ADMINISTRATORS,SOC_NAME_WEB DEVELOPERS,"SOC_NAME_WHOLESALE AND RETAIL BUYERS, EXCEPT FARM PRODUCTS",SOC_NAME_WRITERS AND AUTHORS,SOC_NAME_ZOOLOGISTS AND WILDLIFE BIOLOGISTS
0,1,1,61963.0,0.161427,0.707434,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,1,1,71240.0,0.293966,0.726309,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1,1,25667.0,0.230157,0.689857,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,1,1,71094.4,0.281561,0.698775,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,1,1,106267.0,0.228491,0.668151,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


O X e y do modelo, baseando-se no CASE_STATUS(se foi aprovado ou não) são separados em base para treinamentos e base para teste, sendo a divisão feita de 80 e 20 por cento. Em seguida é aplicado o modelo, neste caso de regressão logística, uma vez que esse método consegue fazer a predição de para valores a partir das nossas variáves que foram transformadas em quantitativas.

In [13]:
X = df.drop(["CASE_STATUS"], axis=1).values
y = df["CASE_STATUS"].values

index = round(df.index.size*0.8)

X_train, X_test = X[:index], X[index:]
y_train, y_test = y[:index], y[index:]

In [16]:
model = LogisticRegression(solver="lbfgs")
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("Acurácia: {}".format(100*accuracy_score(y_test, y_pred)))

Acurácia: 3.1967555316991714


In [7]:
df.head()

Unnamed: 0,CASE_STATUS,FULL_TIME_POSITION,PREVAILING_WAGE,lon,lat,SOC_NAME_17-2051,SOC_NAME_ACCOUNTANTS,SOC_NAME_ACCOUNTANTS AND AUDITORS,SOC_NAME_ACTUARIES,SOC_NAME_ADMINISTRATIVE SERVICES MANAGERS,...,SOC_NAME_VETERINARIANS,SOC_NAME_VETERINARY ASSISTANTS AND LABORATORY ANIMAL CARETA,SOC_NAME_VETERINARY TECHNOLOGISTS AND TECHNICIANS,SOC_NAME_VOCATIONAL EDUCATION TEACHERS POSTSECONDARY,"SOC_NAME_VOCATIONAL EDUCATION TEACHERS, POSTSECONDARY",SOC_NAME_WEB ADMINISTRATORS,SOC_NAME_WEB DEVELOPERS,"SOC_NAME_WHOLESALE AND RETAIL BUYERS, EXCEPT FARM PRODUCTS",SOC_NAME_WRITERS AND AUTHORS,SOC_NAME_ZOOLOGISTS AND WILDLIFE BIOLOGISTS
0,1,1,61963.0,0.161427,0.707434,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,1,1,71240.0,0.293966,0.726309,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1,1,25667.0,0.230157,0.689857,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,1,1,71094.4,0.281561,0.698775,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,1,1,106267.0,0.228491,0.668151,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [15]:
# model2 = sm.Logit(y_train, X_train)
# model2.fit()