In [55]:
import pandas as pd

import tensorflow as tf
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeRegressor
from sklearn import metrics

print(pd.__version__)
print(tf.__version__)

1.1.4
2.3.1


In [56]:
df = pd.read_csv('data/2020_june_mini.csv')

In [57]:
senior_dataset = df[df['Должность'] == 'Senior Software Engineer']
middle_dataset = df[df['Должность'] == 'Software Engineer']
junior_dataset = df[df['Должность'] == 'Junior Software Engineer']

dataset = pd.DataFrame()
dataset = dataset.append(senior_dataset)
dataset = dataset.append(middle_dataset)
dataset = dataset.append(junior_dataset)

dataset.head()

Unnamed: 0,N,Город,Зарплата.в.месяц,Изменение.зарплаты.за.12.месяцев,Должность,exp,current_job_exp,Язык.программирования,Специализация,Возраст,Пол,Образование,Университет,Еще.студент,Уровень.английского,Размер.компании,Тип.компании,Предметная.область
1,3,Харьков,18000,80,Senior Software Engineer,8.0,8.0,Other,,29,женский,Высшее,ХНУРЭ,False,выше среднего,свыше 1000 человек,Аутсорсинговая,"Internet of Things, Media, Mobile"
4,6,Киев,14000,1000,Senior Software Engineer,7.0,1.0,Python,,25,мужской,Незаконченное высшее,НАУ,False,продвинутый,до 10 человек,Стартап,"Big Data, Blockchain, Fintech"
7,9,Киев,12000,3000,Senior Software Engineer,10.0,0.0,Kotlin,,36,мужской,Высшее,НТУУ «КПИ»,False,выше среднего,до 50 человек,Стартап,Mobile
11,13,Киев,10300,0,Senior Software Engineer,9.0,3.0,PHP,,29,мужской,Высшее,КНУ им. Шевченко,False,выше среднего,до 10 человек,Продуктовая,E-commerce
26,28,Киев,8600,1100,Senior Software Engineer,10.0,2.0,C#/.NET,,33,мужской,Высшее,НТУУ «КПИ»,False,продвинутый,до 10 человек,Продуктовая,Cloud Computing


In [58]:
# Должность one hot encoding
position_one_hot = pd.get_dummies(dataset['Должность'], prefix='Должность', dtype='float')
dataset = dataset.drop('Должность', axis=1)
dataset = dataset.join(position_one_hot)
dataset.head()

Unnamed: 0,N,Город,Зарплата.в.месяц,Изменение.зарплаты.за.12.месяцев,exp,current_job_exp,Язык.программирования,Специализация,Возраст,Пол,Образование,Университет,Еще.студент,Уровень.английского,Размер.компании,Тип.компании,Предметная.область,Должность_Junior Software Engineer,Должность_Senior Software Engineer,Должность_Software Engineer
1,3,Харьков,18000,80,8.0,8.0,Other,,29,женский,Высшее,ХНУРЭ,False,выше среднего,свыше 1000 человек,Аутсорсинговая,"Internet of Things, Media, Mobile",0.0,1.0,0.0
4,6,Киев,14000,1000,7.0,1.0,Python,,25,мужской,Незаконченное высшее,НАУ,False,продвинутый,до 10 человек,Стартап,"Big Data, Blockchain, Fintech",0.0,1.0,0.0
7,9,Киев,12000,3000,10.0,0.0,Kotlin,,36,мужской,Высшее,НТУУ «КПИ»,False,выше среднего,до 50 человек,Стартап,Mobile,0.0,1.0,0.0
11,13,Киев,10300,0,9.0,3.0,PHP,,29,мужской,Высшее,КНУ им. Шевченко,False,выше среднего,до 10 человек,Продуктовая,E-commerce,0.0,1.0,0.0
26,28,Киев,8600,1100,10.0,2.0,C#/.NET,,33,мужской,Высшее,НТУУ «КПИ»,False,продвинутый,до 10 человек,Продуктовая,Cloud Computing,0.0,1.0,0.0


In [59]:
dataset['Язык.программирования'] = dataset['Язык.программирования'].fillna('Не_Указан')
dataset['Язык.программирования'] = dataset['Язык.программирования'].replace(['Other'], 'Другой')
dataset['Язык.программирования'] = dataset['Язык.программирования'].replace(['Інше'], 'Другой')
pl_one_hot = pd.get_dummies(dataset['Язык.программирования'], drop_first=True, prefix='Язык_программирования')
dataset = dataset.drop('Язык.программирования', axis=1)
dataset = dataset.join(pl_one_hot)

In [60]:
city_one_hot = pd.get_dummies(dataset['Город'], prefix='Город', dtype='float')
dataset = dataset.drop('Город', axis=1)
dataset = dataset.join(city_one_hot)
dataset.head()

Unnamed: 0,N,Зарплата.в.месяц,Изменение.зарплаты.за.12.месяцев,exp,current_job_exp,Специализация,Возраст,Пол,Образование,Университет,...,Город_Ровно,Город_Сумы,Город_Тернополь,Город_Ужгород,Город_Харьков,Город_Херсон,Город_Хмельницкий,Город_Черкассы,Город_Чернигов,Город_Черновцы
1,3,18000,80,8.0,8.0,,29,женский,Высшее,ХНУРЭ,...,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
4,6,14000,1000,7.0,1.0,,25,мужской,Незаконченное высшее,НАУ,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
7,9,12000,3000,10.0,0.0,,36,мужской,Высшее,НТУУ «КПИ»,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
11,13,10300,0,9.0,3.0,,29,мужской,Высшее,КНУ им. Шевченко,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
26,28,8600,1100,10.0,2.0,,33,мужской,Высшее,НТУУ «КПИ»,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [61]:
ct_one_hot = pd.get_dummies(dataset['Тип.компании'], prefix='Тип.компании', dtype='float')
dataset = dataset.drop('Тип.компании', axis=1)
dataset = dataset.join(ct_one_hot)
dataset.head()

Unnamed: 0,N,Зарплата.в.месяц,Изменение.зарплаты.за.12.месяцев,exp,current_job_exp,Специализация,Возраст,Пол,Образование,Университет,...,Город_Херсон,Город_Хмельницкий,Город_Черкассы,Город_Чернигов,Город_Черновцы,Тип.компании_Аутсорсинговая,Тип.компании_Аутстаффинговая,Тип.компании_Другая,Тип.компании_Продуктовая,Тип.компании_Стартап
1,3,18000,80,8.0,8.0,,29,женский,Высшее,ХНУРЭ,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
4,6,14000,1000,7.0,1.0,,25,мужской,Незаконченное высшее,НАУ,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
7,9,12000,3000,10.0,0.0,,36,мужской,Высшее,НТУУ «КПИ»,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
11,13,10300,0,9.0,3.0,,29,мужской,Высшее,КНУ им. Шевченко,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
26,28,8600,1100,10.0,2.0,,33,мужской,Высшее,НТУУ «КПИ»,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0


In [62]:
cs_one_hot = pd.get_dummies(dataset['Размер.компании'], prefix='Размер.компании', dtype='float')
dataset = dataset.drop('Размер.компании', axis=1)
dataset = dataset.join(cs_one_hot)
dataset.head()

Unnamed: 0,N,Зарплата.в.месяц,Изменение.зарплаты.за.12.месяцев,exp,current_job_exp,Специализация,Возраст,Пол,Образование,Университет,...,Тип.компании_Аутсорсинговая,Тип.компании_Аутстаффинговая,Тип.компании_Другая,Тип.компании_Продуктовая,Тип.компании_Стартап,Размер.компании_до 10 человек,Размер.компании_до 1000 человек,Размер.компании_до 200 человек,Размер.компании_до 50 человек,Размер.компании_свыше 1000 человек
1,3,18000,80,8.0,8.0,,29,женский,Высшее,ХНУРЭ,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
4,6,14000,1000,7.0,1.0,,25,мужской,Незаконченное высшее,НАУ,...,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0
7,9,12000,3000,10.0,0.0,,36,мужской,Высшее,НТУУ «КПИ»,...,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0
11,13,10300,0,9.0,3.0,,29,мужской,Высшее,КНУ им. Шевченко,...,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0
26,28,8600,1100,10.0,2.0,,33,мужской,Высшее,НТУУ «КПИ»,...,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0


In [63]:
education_one_hot = pd.get_dummies(dataset['Образование'], drop_first=True, prefix='Образование')
dataset = dataset.drop('Образование', axis=1)
dataset = dataset.join(education_one_hot)

In [64]:
dataset['Университет'] = dataset['Университет'].fillna('Не_Указан')
dataset['Университет'] = dataset['Университет'].replace(['Другой вуз'], 'Другой')
university_one_hot = pd.get_dummies(dataset['Университет'], drop_first=True, prefix='Университет')
dataset = dataset.drop('Университет', axis=1)
dataset = dataset.join(university_one_hot)

In [65]:
english_level = pd.get_dummies(dataset['Уровень.английского'], drop_first=True, prefix='Уровень.английского')
dataset = dataset.drop('Уровень.английского', axis=1)
dataset = dataset.join(english_level)

In [66]:
dataset['Пол'] = dataset['Пол'].replace(['мужской'], 0)
dataset['Пол'] = dataset['Пол'].replace(['женский'], 1)

In [67]:
dataset.pop('N')
dataset.pop('Изменение.зарплаты.за.12.месяцев')
dataset.pop('Специализация')
dataset.pop('Еще.студент')
dataset.pop('Предметная.область')

dataset['Зарплата.в.месяц'] = dataset['Зарплата.в.месяц'].astype(float)

dataset.head()

Unnamed: 0,Зарплата.в.месяц,exp,current_job_exp,Возраст,Пол,Должность_Junior Software Engineer,Должность_Senior Software Engineer,Должность_Software Engineer,Язык_программирования_ABAP,Язык_программирования_APL,...,Университет_ХНУ им. Каразина,Университет_ХНУРЭ,Университет_ХНЭУ,Университет_ЧГУ им. Петра Могилы,Университет_ЧНТУ,Университет_ЧНУ им. Федьковича,Уровень.английского_ниже среднего,Уровень.английского_продвинутый,Уровень.английского_средний,Уровень.английского_элементарный
1,18000.0,8.0,8.0,29,1,0.0,1.0,0.0,0,0,...,0,1,0,0,0,0,0,0,0,0
4,14000.0,7.0,1.0,25,0,0.0,1.0,0.0,0,0,...,0,0,0,0,0,0,0,1,0,0
7,12000.0,10.0,0.0,36,0,0.0,1.0,0.0,0,0,...,0,0,0,0,0,0,0,0,0,0
11,10300.0,9.0,3.0,29,0,0.0,1.0,0.0,0,0,...,0,0,0,0,0,0,0,0,0,0
26,8600.0,10.0,2.0,33,0,0.0,1.0,0.0,0,0,...,0,0,0,0,0,0,0,1,0,0


In [68]:
train_dataset = dataset.sample(frac=0.8,random_state=45)
test_dataset = dataset.drop(train_dataset.index)

train_labels = train_dataset.pop('Зарплата.в.месяц')
test_labels = test_dataset.pop('Зарплата.в.месяц')

train_dataset.head()

Unnamed: 0,exp,current_job_exp,Возраст,Пол,Должность_Junior Software Engineer,Должность_Senior Software Engineer,Должность_Software Engineer,Язык_программирования_ABAP,Язык_программирования_APL,Язык_программирования_Assembler,...,Университет_ХНУ им. Каразина,Университет_ХНУРЭ,Университет_ХНЭУ,Университет_ЧГУ им. Петра Могилы,Университет_ЧНТУ,Университет_ЧНУ им. Федьковича,Уровень.английского_ниже среднего,Уровень.английского_продвинутый,Уровень.английского_средний,Уровень.английского_элементарный
1767,4.0,2.0,23,0,0.0,0.0,1.0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
7057,2.0,0.5,21,0,1.0,0.0,0.0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3801,10.0,10.0,48,0,0.0,0.0,1.0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
8553,3.0,0.0,26,0,0.0,0.0,1.0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
2168,0.0,2.0,21,0,0.0,1.0,0.0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


In [69]:
dtr = DecisionTreeRegressor(random_state=1, min_samples_split=2, max_depth=12, splitter='best')
dtr.fit(train_dataset, train_labels)

DecisionTreeRegressor(max_depth=12, random_state=1)

In [70]:
print('r2 train = ', dtr.score(train_dataset, train_labels))
print('r2 test = ', dtr.score(test_dataset, test_labels))
print('mse train = ', metrics.mean_squared_error(train_labels, dtr.predict(train_dataset), squared=False))
print('mse test = ', metrics.mean_squared_error(test_labels, dtr.predict(test_dataset), squared=False))
print('mae train = ', metrics.mean_absolute_error(train_labels, dtr.predict(train_dataset)))
print('mae test = ', metrics.mean_absolute_error(test_labels, dtr.predict(test_dataset)))

r2 train =  0.8667903766260705
r2 test =  0.39938087214657414
mse train =  505.6149166777691
mse test =  1018.1825264792011
mae train =  329.25247215753575
mae test =  594.3771414392571
