In [40]:
import pandas as pd
import numpy as np
import joblib

In [41]:
data = joblib.load('dataset.pkl')
ds = pd.DataFrame(data, columns=['id', 'employment', 'employer', 'billing_type', 'spec_id', 'premium', 'schedule', 'msg', 'city', 'exp', 'target_from', 'target_to'])

In [42]:
ds.head()

Unnamed: 0,id,employment,employer,billing_type,spec_id,premium,schedule,msg,city,exp,target_from,target_to
0,4027565,Полная занятость,Сирота ЛБ,Бесплатная,3,False,Полный день,True,,От 1 года до 3 лет,31000.0,
1,27565,Полная занятость,Атмосфера,Бесплатная,17,False,Полный день,True,,От 1 года до 3 лет,5000.0,
2,5917565,Полная занятость,Динамика,Бесплатная,3,False,Полный день,True,Бердск,Нет опыта,20000.0,35000.0
3,1917565,Полная занятость,Экостандарт,Стандарт,17,False,Полный день,True,Москва,От 1 года до 3 лет,50000.0,
4,917565,Полная занятость,Rendez-vous,Стандарт,17,False,Сменный график,True,,Нет опыта,52000.0,


In [43]:
ds.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696698 entries, 0 to 696697
Data columns (total 12 columns):
 #   Column        Non-Null Count   Dtype  
---  ------        --------------   -----  
 0   id            696698 non-null  object 
 1   employment    696698 non-null  object 
 2   employer      696698 non-null  object 
 3   billing_type  696698 non-null  object 
 4   spec_id       696698 non-null  object 
 5   premium       696698 non-null  bool   
 6   schedule      696698 non-null  object 
 7   msg           696698 non-null  bool   
 8   city          208779 non-null  object 
 9   exp           696698 non-null  object 
 10  target_from   646085 non-null  float64
 11  target_to     390960 non-null  float64
dtypes: bool(2), float64(2), object(8)
memory usage: 54.5+ MB


In [44]:
ds['id'] = ds['id'].astype('str').astype('int')
ds['spec_id'] = ds['spec_id'].astype('str').astype('int')

In [45]:
ds.describe()

Unnamed: 0,id,spec_id,target_from,target_to
count,696698.0,696698.0,646085.0,390960.0
mean,5003515.0,14.193877,235841.9,294686.9
std,2885332.0,7.753458,1229709.0,2879861.0
min,7.0,1.0,1.0,1.0
25%,2503688.0,6.0,20000.0,30000.0
50%,5007286.0,17.0,30000.0,45000.0
75%,7501121.0,19.0,49500.0,80000.0
max,9999996.0,29.0,150000000.0,1000000000.0


In [46]:
def transform_exp(col):
    exp_new = []
    for x in col:
        if x == 'Нет опыта':
            exp_new.append(0)
        elif x[3] == '1':
            exp_new.append(1)
        elif x[3] == '3':
            exp_new.append(3)
        else:
            exp_new.append(6)
    return exp_new

In [47]:
ds['exp'] = transform_exp(ds['exp'])

In [48]:
ds.head()

Unnamed: 0,id,employment,employer,billing_type,spec_id,premium,schedule,msg,city,exp,target_from,target_to
0,4027565,Полная занятость,Сирота ЛБ,Бесплатная,3,False,Полный день,True,,1,31000.0,
1,27565,Полная занятость,Атмосфера,Бесплатная,17,False,Полный день,True,,1,5000.0,
2,5917565,Полная занятость,Динамика,Бесплатная,3,False,Полный день,True,Бердск,0,20000.0,35000.0
3,1917565,Полная занятость,Экостандарт,Стандарт,17,False,Полный день,True,Москва,1,50000.0,
4,917565,Полная занятость,Rendez-vous,Стандарт,17,False,Сменный график,True,,0,52000.0,


In [49]:
def fill_nans(data):
    for col in data.select_dtypes(include=['object']):
        data[col].fillna(data[col].mode()[0], inplace=True)
        print(f'NaNs filled in {col}')

In [50]:
fill_nans(ds)

NaNs filled in employment
NaNs filled in employer
NaNs filled in billing_type
NaNs filled in schedule
NaNs filled in city


In [51]:
ds.head()

Unnamed: 0,id,employment,employer,billing_type,spec_id,premium,schedule,msg,city,exp,target_from,target_to
0,4027565,Полная занятость,Сирота ЛБ,Бесплатная,3,False,Полный день,True,Москва,1,31000.0,
1,27565,Полная занятость,Атмосфера,Бесплатная,17,False,Полный день,True,Москва,1,5000.0,
2,5917565,Полная занятость,Динамика,Бесплатная,3,False,Полный день,True,Бердск,0,20000.0,35000.0
3,1917565,Полная занятость,Экостандарт,Стандарт,17,False,Полный день,True,Москва,1,50000.0,
4,917565,Полная занятость,Rendez-vous,Стандарт,17,False,Сменный график,True,Москва,0,52000.0,


In [52]:
def count_nans(data):
    return data.isnull().sum(axis = 0)

In [53]:
count_nans(ds)

id                   0
employment           0
employer             0
billing_type         0
spec_id              0
premium              0
schedule             0
msg                  0
city                 0
exp                  0
target_from      50613
target_to       305738
dtype: int64

In [54]:
ds.drop('employer', axis=1, inplace=True)

In [55]:
ds.head()

Unnamed: 0,id,employment,billing_type,spec_id,premium,schedule,msg,city,exp,target_from,target_to
0,4027565,Полная занятость,Бесплатная,3,False,Полный день,True,Москва,1,31000.0,
1,27565,Полная занятость,Бесплатная,17,False,Полный день,True,Москва,1,5000.0,
2,5917565,Полная занятость,Бесплатная,3,False,Полный день,True,Бердск,0,20000.0,35000.0
3,1917565,Полная занятость,Стандарт,17,False,Полный день,True,Москва,1,50000.0,
4,917565,Полная занятость,Стандарт,17,False,Сменный график,True,Москва,0,52000.0,


In [57]:
ds['employment'].unique()

array(['Полная занятость', 'Частичная занятость', 'Проектная работа',
       'Стажировка', 'Волонтерство'], dtype=object)

In [58]:
ds = pd.concat([ds.drop('employment', axis=1), pd.get_dummies(ds['employment'])], axis=1)

In [59]:
ds = pd.concat([ds.drop('billing_type', axis=1), pd.get_dummies(ds['billing_type'])], axis=1)

In [60]:
ds = pd.concat([ds.drop('premium', axis=1), pd.get_dummies(ds['premium'])], axis=1)

In [61]:
ds = pd.concat([ds.drop('schedule', axis=1), pd.get_dummies(ds['schedule'])], axis=1)

In [62]:
ds = pd.concat([ds.drop('msg', axis=1), pd.get_dummies(ds['msg'])], axis=1)

In [64]:
ds.drop('id', axis=1, inplace=True)

In [65]:
ds.head()

Unnamed: 0,spec_id,city,exp,target_from,target_to,Волонтерство,Полная занятость,Проектная работа,Стажировка,Частичная занятость,...,Стандарт+,False,True,Вахтовый метод,Гибкий график,Полный день,Сменный график,Удаленная работа,False.1,True.1
0,3,Москва,1,31000.0,,0,1,0,0,0,...,0,1,0,0,0,1,0,0,0,1
1,17,Москва,1,5000.0,,0,1,0,0,0,...,0,1,0,0,0,1,0,0,0,1
2,3,Бердск,0,20000.0,35000.0,0,1,0,0,0,...,0,1,0,0,0,1,0,0,0,1
3,17,Москва,1,50000.0,,0,1,0,0,0,...,0,1,0,0,0,1,0,0,0,1
4,17,Москва,0,52000.0,,0,1,0,0,0,...,0,1,0,0,0,0,1,0,0,1


KeyError: 'employment'