1. Importando o pandas para ler o arquivo csv de treino

In [1]:
import pandas as pd

data = pd.read_csv("./datasets/train_dataset.csv")
data = data[['company_name_encoded','experience', 'location', 'salary']]

2. Limpando o dataframe do dataset de treino importado

In [2]:
# separando o campo de "experience" em duas novas colunas, "min" e "max"
experience = list(data.experience)

min_ex = []
max_ex = []

for i in range(len(experience)):
   experience[i] = experience[i].replace("yrs","").strip()

   min_ex.append(int(experience[i].split("-")[0].strip()))
   max_ex.append(int(experience[i].split("-")[1].strip()))

# anexando as novas colunas de "min" e "max" experience ao dataset
data["min_exp"] = min_ex
data["max_exp"] = max_ex

# criando um encoding do campo de "location" e "salary"
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()

data['location'] = label_encoder.fit_transform(data['location'])
data['salary'] = label_encoder.fit_transform(data['salary'])

# removendo a coluna original de experiência e reordenando as colunas
data.drop(['experience'], inplace = True, axis = 1)

data = data[['company_name_encoded', 'location','min_exp', 'max_exp', 'salary']]

3. Escalando todos os recursos numéricos no conjunto de dados

In [3]:
from sklearn.preprocessing import StandardScaler

standard_scaler = StandardScaler()

data[['company_name_encoded', 'location', 'min_exp', 'max_exp']] = standard_scaler.fit_transform(data[['company_name_encoded', 'location', 'min_exp', 'max_exp']])

4. Criando os sets de treino e validação

In [4]:
# separando o dataset em treino e teste
from sklearn.model_selection import train_test_split

training_set, validation_set = train_test_split(data, test_size = 0.2, random_state = 21)

# classificando os predictores e variáveis-alvo como X e Y
X_train = training_set.iloc[:,0:-1].values
Y_train = training_set.iloc[:,-1].values

X_val = validation_set.iloc[:,0:-1].values
y_val = validation_set.iloc[:,-1].values

# o código acima gera predictores e alvos que podemos treinar e validar nosso modelo.

5. Medindo as predições usando MLPClassifier & MLPRegressor

In [5]:
# importando o MLPClassifier & MLPRegressor
from sklearn.neural_network import MLPClassifier, MLPRegressor

In [6]:
# inicializando o MLPClassifier
classifier = MLPClassifier(hidden_layer_sizes=(150,100,50),max_iter=500,activation='relu',solver='adam',random_state=1)

# ajustando os dados de treinamento ao modelo
classifier.fit(X_train, Y_train)

# predictando os valores de y para os dados de teste
y_classifier_pred = classifier.predict(X_val)

print('[Classificador] Predicção Média: {:.2f}'.format(y_classifier_pred.mean()))
print('[Classificador] Predicção Máxima: {:.2f}'.format(y_classifier_pred.max()))
print('[Classificador] Predicção Mínima: {:.2f}'.format(y_classifier_pred.min()))

[Classificador] Predicção Média: 1.90
[Classificador] Predicção Máxima: 5.00
[Classificador] Predicção Mínima: 0.00


In [7]:
# inicializando o MLPRegressor
regressor = MLPRegressor(hidden_layer_sizes=(150,100,50),max_iter=500,activation='relu',solver='adam',random_state=1)

# ajustando os dados de treinamento ao modelo
regressor.fit(X_train, Y_train)

# predictando os valores de y para os dados de teste
y_regressor_pred = regressor.predict(X_val)

print('[Regressor] Predicção Média: {:.2f}'.format(y_regressor_pred.mean()))
print('[Regressor] Predicção Máxima: {:.2f}'.format(y_regressor_pred.max()))
print('[Regressor] Predicção Mínima: {:.2f}'.format(y_regressor_pred.min()))

[Regressor] Predicção Média: 2.41
[Regressor] Predicção Máxima: 4.69
[Regressor] Predicção Mínima: -0.55
