# Introdução

Nosso projeto consiste em avaliar o processo de visto americano para trabalho, o H1B, e se dependendo de certos fatores uma pessoa receberia o visto ou não. Para tirar este visto é necessário passar informações como, se é um trabalho de tempo integral, o salário, com o que a pessoa trabalhará, e a cidade onde será o trabalho (traduzido para latitude e longitude), todos dados contidos no nosso dataset. Porém havia um problema nosso dataset, obtido no Kaggle, haviam 3 milhões de linhas, um arquivo muito grande, fazendo com que fique difícil e demorado para se trabalhar. Por esse motivo embaralhamos e cortamos o dataset, no qual o processo está em um outro notebook chamado Shuffle Dataset.

In [1]:
import pandas as pd
import numpy as np
from sklearn.metrics import accuracy_score , confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

In [2]:
df = pd.read_csv('Dataframe.csv')
df.head()

Unnamed: 0.2,Unnamed: 0,Unnamed: 0.1,CASE_STATUS,EMPLOYER_NAME,SOC_NAME,JOB_TITLE,FULL_TIME_POSITION,PREVAILING_WAGE,YEAR,WORKSITE,lon,lat
0,0,2297770,0,"FLOWCON AMERICAS, LLC","Managers, All Other",SUPPLY CHAIN MANAGER,Y,63128.0,2012.0,"CHARLOTTE, NORTH CAROLINA",-80.843127,35.227087
1,1,2447581,1,"FMC TECHNOLOGIES, INC.",Mechanical Engineers,SYSTEMS ENGINEER,Y,92120.0,2012.0,"HOUSTON, TEXAS",-95.369803,29.760427
2,2,1668413,1,EVANTAGE SOLUTIONS INC.,"Software Developers, Applications",SENIOR JAVA DEVELOPER,Y,87422.0,2014.0,"WASHINGTON, DISTRICT OF COLUMBIA",-77.036871,38.907192
3,3,2595250,1,"BIRMINGHAM BUILDERS, INC.","Property, Real Estate, and Community Associati...",PROPERTY MANAGER,Y,26499.0,2012.0,"SAN FRANCISCO, CALIFORNIA",-122.419415,37.774929
4,4,1794371,1,SAPIENT CORPORATION,Management Analysts,"DIRECTOR, PROGRAM MANAGEMENT",Y,97552.0,2013.0,"MT LAUREL, NEW JERSEY",-74.890999,39.934002


Após importar o Dataframe na célula acima, o tratamento dos dados é feito na células abaixo. Em primeiro lugar as colunas Unnamed: 0 e Unnamed: 0.1, são retiradas, essas correspondem ao index atual e ao index antes do embaralhamento feito no outro notebook. O local de trabalho, WORKSITE, também é retirado uma vez que esse já está no dataset em forma de Latitude e Longitude, variáves quantitavas. Essas então são transformadas para valores entre  0 a 1, com a função criada chamada "mapp" para facilitar a forma de se trabalhar. A variável de trabalho em tempo intergral, FULL_TIME_POSITION, é transformada, de N ou Y, para 0 ou 1. Em seguida JOB_TITLE é retirado, a variável SOC_NAME, do Inglês Standard Occupational Classification (SOC), já corresponde ao trabalho que será ocupado pela pessoa, porém em uma forma de classificação padrão. Essa então é transormada para uma váriavel quantitativa através do metodo de One-hot Encoding, na função dummify. Por fim o ano é retirado uma vez que queremos prever o visto de anos futuros então não se pode levar em conta os anos passados.  

In [3]:
def dummify(data, column_name):
    df = data.copy()
    df2 = pd.concat([df.drop(column_name, axis=1), pd.get_dummies(data[column_name], prefix=column_name)], axis=1)
    return df2

def mapp (value, start1, stop1, start2, stop2):
    return start2 + (stop2 - start2) * ((value - start1) / (stop1 - start1))


df = df.drop(["WORKSITE","YEAR","JOB_TITLE","Unnamed: 0","Unnamed: 0.1"], axis=1)
df["SOC_NAME"] = df["SOC_NAME"].apply(lambda x: x.upper())

df = df.drop(["EMPLOYER_NAME"], axis=1)

df["FULL_TIME_POSITION"] = df["FULL_TIME_POSITION"].apply(lambda x: 0 if x=="N" else 1)



latmin = df["lat"].min()
latmax = df["lat"].max()
lonmin = df["lon"].min()
lonmax = df["lon"].max()

df["lat"] = df["lat"].apply(lambda x: mapp(x, latmin, latmax, 0, 1))
df["lon"] = df["lon"].apply(lambda x: mapp(x, lonmin, lonmax, 0, 1))

df = dummify(df, "SOC_NAME")

In [4]:
df.head()

Unnamed: 0,CASE_STATUS,FULL_TIME_POSITION,PREVAILING_WAGE,lon,lat,"SOC_NAME_15-1199.08, BUSINESS INTELLIGENCE ANALYSTS",SOC_NAME_<FONT><FONT>CARPINTEROS</FONT></FONT>,SOC_NAME_ABLE SEAMEN,SOC_NAME_ACCOUNTANTS,SOC_NAME_ACCOUNTANTS AND AUDITORS,...,"SOC_NAME_VOCATIONAL EDUCATION TEACHERS, SECONDARY SCHOOL",SOC_NAME_WATCH REPAIRERS,SOC_NAME_WEB ADMINISTRATORS,SOC_NAME_WEB DEVELOPERS,"SOC_NAME_WEIGHERS, MEASURERS, CHECKERS, AND SAMPLERS,","SOC_NAME_WELDERS, CUTTERS, SOLDERERS, AND BRAZERS","SOC_NAME_WHOLESALE AND RETAIL BUYERS, EXCEPT FARM PRODUCTS","SOC_NAME_WOODWORKERS, ALL OTHER",SOC_NAME_WRITERS AND AUTHORS,SOC_NAME_ZOOLOGISTS AND WILDLIFE BIOLOGISTS
0,0,1,63128.0,0.253683,0.423923,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,1,1,92120.0,0.205833,0.317569,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1,1,87422.0,0.266221,0.49552,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,1,1,26499.0,0.116734,0.473491,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,1,1,97552.0,0.273289,0.515496,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


O X e y do modelo, baseando-se no CASE_STATUS (se foi aprovado ou não) são separados em base para treinamentos e base para teste, sendo a divisão feita de 67 e 33 por cento.

In [5]:
X = df.drop(["CASE_STATUS"], axis=1).values
y = df["CASE_STATUS"].values

RANDOM_SEED = 42
np.random.seed(RANDOM_SEED)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33,random_state=RANDOM_SEED)
X_train.shape, y_train.shape, X_test.shape, y_test.shape

((67000, 822), (67000,), (33000, 822), (33000,))

Na celula abaixo, faz-se a implementação do classificador RandomForest. Este modelo foi escolhido por nós pois, ao se analisar o "Flow Chart" do Sklearn, o recomendado para o nosso caso seria utilizar um classificador. Como temos 100k de amostras tentamos usar o Linear SVC, porém a precisão do modelo deu muito próxima de 50% (como é possível ver na primeira célula de código abaixo), algo não desejável. Seguindo o Flow Chart decidimos testar a categoria "Ensemble Classifier", e usar o classificador RandomForest contido nela. 

Após implementarmos o RandomForest no modelo, chegamos na precisão de aproximadamente 65%, que apesar de não parecer um valor muito alto, está razoavel para este tipo de classificador. 


Abaixo, o 'caminho' que percorremos no flow chart até chegarmos no RandomForest

![title](img/FlowChartNosso.png)

In [6]:
from sklearn.svm import LinearSVC

model = LinearSVC()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("Precisão: {}%".format(100*accuracy_score(y_test, y_pred)))

Precisão: 49.918181818181814%




In [7]:
model = RandomForestClassifier()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("Precisão: {}%".format(100*accuracy_score(y_test, y_pred)))



Precisão: 66.11515151515151%


In [8]:
df.head()

Unnamed: 0,CASE_STATUS,FULL_TIME_POSITION,PREVAILING_WAGE,lon,lat,"SOC_NAME_15-1199.08, BUSINESS INTELLIGENCE ANALYSTS",SOC_NAME_<FONT><FONT>CARPINTEROS</FONT></FONT>,SOC_NAME_ABLE SEAMEN,SOC_NAME_ACCOUNTANTS,SOC_NAME_ACCOUNTANTS AND AUDITORS,...,"SOC_NAME_VOCATIONAL EDUCATION TEACHERS, SECONDARY SCHOOL",SOC_NAME_WATCH REPAIRERS,SOC_NAME_WEB ADMINISTRATORS,SOC_NAME_WEB DEVELOPERS,"SOC_NAME_WEIGHERS, MEASURERS, CHECKERS, AND SAMPLERS,","SOC_NAME_WELDERS, CUTTERS, SOLDERERS, AND BRAZERS","SOC_NAME_WHOLESALE AND RETAIL BUYERS, EXCEPT FARM PRODUCTS","SOC_NAME_WOODWORKERS, ALL OTHER",SOC_NAME_WRITERS AND AUTHORS,SOC_NAME_ZOOLOGISTS AND WILDLIFE BIOLOGISTS
0,0,1,63128.0,0.253683,0.423923,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,1,1,92120.0,0.205833,0.317569,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1,1,87422.0,0.266221,0.49552,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,1,1,26499.0,0.116734,0.473491,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,1,1,97552.0,0.273289,0.515496,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


Na célula abaixo, com intuito de melhorar a análise da eficiência do modelo, adicionamos a matriz de confusão que compara os valores reais com os previstos pelo modelo. Como podemos ver, na coluna 1 linha 1 (10510) temos o Postivo Verdadeiro e na linha 0 coluna 0 (11308) o Negativo Verdadeiro. Esses são os casos que o modelo acertou, juntos correspondem a perto de 65% da base de dados de teste, a mesma precisão do modelo. Já na linha 1 coluna 0 (6016) há o Falso Negativo, o que o modelo marcou como negativo mas era positivo. Este é o pior caso pois significa que o modelo está descartando dados reais, ou seja ele descartou pessoas que teriam sidos aprovadas. E por fim na linha 0 coluna 1 (5165) tem o Falso Positivo, o modelo marcou como positivo quando na verdade eram negativos.

In [9]:
pd.crosstab(y_test, model.predict(X_test),rownames=['Real'],colnames =['Previsto'],margins=True)

Previsto,0,1,All
Real,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,11308,5165,16473
1,6017,10510,16527
All,17325,15675,33000


Nas células abaixo ó modelo é aplicado a uma situação hipotética, respondendo se nesse caso haveria a aprovação ou reprovação para tirar o visto. Para isso é perguntando todas as informações necessárias e, a partir delas, o modelo classifica se ela teria ou não seu visto concedido. Vale ressaltar que o classificador acerta em 65% dos casos, ou seja, a resposta dada por ele tem 35% de chance de estar errada. 
(Para fazer o teste, basta apenas rodar a segunda célula abaixo)

In [10]:
import ipywidgets as widgets

trabalhos = df.columns.values
trabalhos = trabalhos[5:]
temp = []
for i in trabalhos:
    temp.append(i[9:])
    
def perguntas():
    try:
        print("Olá, responda essas perguntas para saber se uma pessoa teria o visto americano de trbalho H1B.")
        f = int(input("A pessoa tem trabalho integral?(0-Não/1-Sim) "))
        w = float(input("Qual o salário da pessoa? USD$/Ano "))
        lo = float(input("Qual a longitude da cidade(apenas do EUA)? "))
        la = float(input("Qual a latitude da cidade(apenas do EUA)? "))
    except:
        print("Erro em algum valor passado. ")
        
    return f, w, lo, la

In [11]:
fulltime, wage, longi, lati = perguntas()

longi = mapp(longi, lonmin, lonmax, 0, 1)
lati = mapp(lati, latmin, latmax, 0, 1)
w = widgets.Dropdown(
    options=temp,
    description="Trabalho:",
    disabled=False
)
b = widgets.Button(
    description="OK",
    disabled=False
)
display(w, b)
j = ""
def click(a):
    global j
    b.layout.display = "none"
    w.disabled = True
    j = w.value
    
    job = "SOC_NAME_" + j
    
    d = {"FULL_TIME_POSITION":fulltime, "PREVAILING_WAGE":wage, "lon":longi, "lat":lati, job:1}
    l=[]

    for i in df.columns:
        if i != "CASE_STATUS":
            if i in d:
                l.append(d[i])
            else:
                l.append(0)

    # print(l)
    resultado = model.predict([l])
    # print(resultado)

    if resultado == [1]:
        print("Essa pessoa teria sido aprovada")
    else:
        print("Essa pessoa teria sido reprovada")

b.on_click(click)


Olá, responda essas perguntas para saber se uma pessoa teria o visto americano de trbalho H1B.
A pessoa tem trabalho integral?(0-Não/1-Sim) 1
Qual o salário da pessoa? USD$/Ano 92000
Qual a longitude da cidade(apenas do EUA)? -95
Qual a latitude da cidade(apenas do EUA)? 30


Dropdown(description='Trabalho:', options=('15-1199.08, BUSINESS INTELLIGENCE ANALYSTS', '<FONT><FONT>CARPINTE…

Button(description='OK', style=ButtonStyle())

Essa pessoa teria sido aprovada


## Conclusão

A partir dos resultados obtidos, percebe-se que o modelo tem uma precisão próxima 65%. Desta forma, conclui-se que o modelo não é tão preciso, porém aceitavel para este tipo de classificador. Portanto, se uma pessoa deseja saber se terá seu visto para os EUA concedido, basta que ela use o modelo com suas informações. A resposta obtida terá 65% de probabilidade de condizer com a verdadeira.

Um problema grande que encontramos no projeto foi encontrar um modelo que fosse bom para nosso problema. Isso porquê a maioria dos modelos davam uma precisão abaixo de 60%. Desta forma, o modelo RandomForest foi o melhor que encontramos, visto que sua precisão foi de 65%.


## Futuras Iterações

Para uma possível futura iteração, consideraríamos testar algum outro modelo, que retornaria uma precisão maior. Como classificadores não são extremamente precisos talvez utilizar um machine learning mais avançado, como o tenserflow por exemplo. Além disso, algo que torna o 'qusetionário' um pouco 'chato' é que muitas vezes o usuário não sabe a longitude e latitude de onde mora. Assim, seria interessante, futuramente adicionar algum recurso que descobre a latitude e longitude de uma cidade a partir de seu nome, que seria digitado pelo usuário. 

# Separação do Trabalho

Shuffle Dataset - Freddy 

Importação e limpeza do dataset - Michel

Separação treinamento/teste e aplicação do Modelo - Freddy/Michel

Matriz de Confusão - Michel

Análise Exploratória inicial - Freddy

Análise Exploratória - Michel

Teste para um usuário - Freddy

