# Практическая работа №4

## Импорт библиотек

In [4]:
import json
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings("ignore")

## Подготовка датасета

В видео к практической работе был представлен более сложный и времязатратный способ формирования датафрейма. Я не стал множить сущности и воспользовался вариантом ниже, т.к. формировать датафреймы вручную и писать циклы умею. Если Вы сочтете, что я "читер", то могу обработать json циклами и сформировать таблицу также как это было показано в видео :)

In [None]:
# Открываем json
with open('parsed.json', 'r', encoding='utf8') as file:
    data = json.load(file)

In [None]:
# Превращаем его в DataFrame
df = pd.DataFrame(data['data'])
df

In [None]:
# Подкорректируем названия колонок
df.columns = ['title', 'work_experience', 'salary', 'region']

In [None]:
# Запишем датасет в csv-таблицу
df.to_csv('parsed_hh.csv', index=False)

## Исследовательский анализ, подготовка и предобработка данных

In [5]:
# Откроем наш датасет из уже записанного csv-файла
df = pd.read_csv('parsed_hh.csv')
df

Unnamed: 0,title,work_experience,salary,region
0,Python Разработчик,1–3 года,от 200 000 до 1 500 000 KZT на руки,Астана
1,Full-stack Python Developer,3–6 лет,от 4 500 до 5 000 EUR до вычета налогов,Астана
2,Junior разработчик/программист в Python,не требуется,от 150 000 до 200 000 KZT до вычета налогов,Нур-Султан (Астана)
3,Python Developer (Middle/Senior),3–6 лет,от 2 000 до 4 000 USD на руки,Алматы
4,Backend разработчик,1–3 года,з/п не указана,Астана
...,...,...,...,...
4279,Специалист службы поддержки с техническими зна...,не требуется,от 15 000 до 40 000 руб. на руки,Ижевск
4280,Web-разработчик junior,не требуется,до 70 000 руб. на руки,Санкт-Петербург
4281,Web-разработчик,не требуется,з/п не указана,Нижний Новгород
4282,Младший аналитик (IT),не требуется,от 100 000 до 130 000 руб. на руки,Москва


In [6]:
# Выведем общую информацию о датасете
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4284 entries, 0 to 4283
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   title            4283 non-null   object
 1   work_experience  4284 non-null   object
 2   salary           4284 non-null   object
 3   region           4284 non-null   object
dtypes: object(4)
memory usage: 67.0+ KB


Имеем 4 столбца и 4284 строки. Пропуски в датасете отсутствуют.  
Сделам проверку на полные дубликаты данных:

In [7]:
df.duplicated().sum()

0

Дубликаты отсутствуют.

Далее значения из столбцов `salary` и `work_experience` переведем в числовой формат.  
Так как многие зарплаты и опыт указаны в виде диапазона, то добавим дополнительные стобцы в датасет (пока с пустыми ячейками), в которые в дальнейшем запишем минимальное значение из диапазона и максимальное значение.

In [8]:
# Добавляем новые столбцы
df['salary_min'] = np.nan
df['salary_max'] = np.nan
df['exp_min'] = np.nan
df['exp_max'] = np.nan

In [92]:
df.insert(3, 'currency', 0)

Для того, чтобы выделить числовые значения из текста напишем две функции для одной строки, которые позже применим к датасету методом `apply()`. 

- `salary_to_num` - переведет данные о зарплате в числа;
- `exp_to_num` - переведет данные о требуемом опыте в числа.

In [109]:
df[df['currency']=='']

Unnamed: 0,title,vacancy_type,work_experience,salary,currency,region,salary_min,salary_max,exp_min,exp_max,salary_mean,exp_mean,country
1463,Разработчик C# алгоритмыз/п не указана,SE,1–3 года,ООО Гудфокаст,,Калужская,0,0,1,3,0,2,Россия
1867,Team lead / Tech lead / Технический лидерз/п н...,other,3–6 лет,Convergent,,Москва,0,0,3,6,0,5,Россия
2035,Инженер-программистз/п не указана,SE,1–3 года,МУП Водоканал,,Динамо,0,0,1,3,0,2,Россия
2190,IOS developerот 150 000 руб. на руки,SE,1–3 года,ООО Волкрафт,,Пенза,0,0,1,3,0,2,Россия
2280,Технический директор / Head of Techз/п не указана,other,3–6 лет,Convergent,,Москва,0,0,3,6,0,5,Россия
2417,Lead Product Manager / Product Owner (Payments...,other,3–6 лет,LIFE PAY,,Добрынинская,0,0,3,6,0,5,Россия
2724,Инженер сопровождения разработки (DevOps)з/п н...,SE,3–6 лет,Синимекс,,Новокузнецкая,0,0,3,6,0,5,Россия
3528,Junior Backend-разработчикз/п не указана,SE,1–3 года,ООО НЕОСОФТ,,Москва,0,0,1,3,0,2,Россия
3596,Инженер-аналитик (СУИБ)з/п не указана,DA,1–3 года,ООО ГАЗИНФОРМСЕРВИС,,Санкт-Петербург,0,0,1,3,0,2,Россия
3715,Ведущий инженер-аналитикз/п не указана,DA,1–3 года,ООО ГАЗИНФОРМСЕРВИС,,Санкт-Петербург,0,0,1,3,0,2,Россия


In [106]:
def salary_to_num(row):
    number_1 = []
    number_2 = []
    last_symbol = 'start'
    m = ''
    val = row['salary']
    salary = str(row['salary']).replace(' ', '')
    salary = list(''.join(salary))
    salary_min = row['salary_min']
    salary_max = row['salary_max']
    currency = ''
    
    for i in salary:
        if m.isnumeric() == True and i.isnumeric() == False:
            last_symbol = 'next'
        if last_symbol == 'start':
            if i.isnumeric() == True:
                number_1.append(i)
        elif last_symbol == 'next':
            if i.isnumeric() == True:
                number_2.append(i)
        m = i

    if 'EUR' in str(val):
        currency = 'EUR'
    if 'USD' in str(val):
        currency = 'USD'
    if 'KGS' in str(val): 
        currency = 'KGS'
    if 'KZT' in str(val): 
        currency = 'KZT'
    if ' сум ' in str(val): 
        currency = 'UZS'
    if 'руб.' in str(val): 
        currency = 'RUB'
    if 'бел. руб.' in str(val): 
        currency = 'BYN'
    if 'з/п не указана' in str(val):
        currency = 'undefinite'
    
    try:
        number_1 = int(''.join(number_1))
    except:
        number_1 = 0
    try:
        number_2 = int(''.join(number_2))
    except:
        number_2 = 0
    
    if number_1 != 0 and number_2 != 0:
        row.loc['salary_min'] = number_1
        row.loc['salary_max'] = number_2
    elif number_1 != 0 and number_2 == 0:
        row.loc['salary_min'] = 0
        row.loc['salary_max'] = number_1
    else:
        row.loc['salary_min'] = 0
        row.loc['salary_max'] = 0
        
    row.loc['currency'] = currency
    row.loc['salary'] = val
    
    return row


In [10]:
def exp_to_num(row):
    number_1 = []
    number_2 = []
    last_symbol = 'start'
    m = ''
    val = row['work_experience']
    exp = str(row['work_experience']).replace(' ', '')
    exp = list(''.join(exp))
    exp_min = row['exp_min']
    exp_max = row['exp_max']
    
    for i in exp:
        if m.isnumeric() == True and i.isnumeric() == False:
            last_symbol = 'next'
        if last_symbol == 'start':
            if i.isnumeric() == True:
                number_1.append(i)
        elif last_symbol == 'next':
            if i.isnumeric() == True:
                number_2.append(i)
        m = i
    
    try:
        number_1 = int(''.join(number_1))
    except:
        number_1 = 0
    try:
        number_2 = int(''.join(number_2))
    except:
        number_2 = 0
    
    if number_1 != 0 and number_2 != 0:
        row.loc['exp_min'] = number_1
        row.loc['exp_max'] = number_2
    elif number_1 != 0 and number_2 == 0:
        row.loc['exp_min'] = number_1
        row.loc['exp_max'] = number_1
    else:
        row.loc['exp_min'] = 0
        row.loc['exp_max'] = 0
        
    row.loc['work_experience'] = val
    
    return row

In [11]:
# Применим функции к датасету
df = df.apply(salary_to_num, axis=1)
df = df.apply(exp_to_num, axis=1)

In [12]:
df

Unnamed: 0,title,work_experience,salary,region,salary_min,salary_max,exp_min,exp_max
0,Python Разработчик,1–3 года,от 200 000 до 1 500 000 KZT на руки,Астана,200000,1500000,1,3
1,Full-stack Python Developer,3–6 лет,от 4 500 до 5 000 EUR до вычета налогов,Астана,4500,5000,3,6
2,Junior разработчик/программист в Python,не требуется,от 150 000 до 200 000 KZT до вычета налогов,Нур-Султан (Астана),150000,200000,0,0
3,Python Developer (Middle/Senior),3–6 лет,от 2 000 до 4 000 USD на руки,Алматы,2000,4000,3,6
4,Backend разработчик,1–3 года,з/п не указана,Астана,0,0,1,3
...,...,...,...,...,...,...,...,...
4279,Специалист службы поддержки с техническими зна...,не требуется,от 15 000 до 40 000 руб. на руки,Ижевск,15000,40000,0,0
4280,Web-разработчик junior,не требуется,до 70 000 руб. на руки,Санкт-Петербург,0,70000,0,0
4281,Web-разработчик,не требуется,з/п не указана,Нижний Новгород,0,0,0,0
4282,Младший аналитик (IT),не требуется,от 100 000 до 130 000 руб. на руки,Москва,100000,130000,0,0


In [110]:
df['currency'].value_counts()

undefinite    3036
RUB            972
USD            128
EUR             88
KZT             35
                11
UZS              3
BYN              2
KGS              1
Name: currency, dtype: int64

In [111]:
df[df['currency']=='']

Unnamed: 0,title,vacancy_type,work_experience,salary,currency,region,salary_min,salary_max,exp_min,exp_max,salary_mean,exp_mean,country
1463,Разработчик C# алгоритмыз/п не указана,SE,1–3 года,ООО Гудфокаст,,Калужская,0,0,1,3,0,2,Россия
1867,Team lead / Tech lead / Технический лидерз/п н...,other,3–6 лет,Convergent,,Москва,0,0,3,6,0,5,Россия
2035,Инженер-программистз/п не указана,SE,1–3 года,МУП Водоканал,,Динамо,0,0,1,3,0,2,Россия
2190,IOS developerот 150 000 руб. на руки,SE,1–3 года,ООО Волкрафт,,Пенза,0,0,1,3,0,2,Россия
2280,Технический директор / Head of Techз/п не указана,other,3–6 лет,Convergent,,Москва,0,0,3,6,0,5,Россия
2417,Lead Product Manager / Product Owner (Payments...,other,3–6 лет,LIFE PAY,,Добрынинская,0,0,3,6,0,5,Россия
2724,Инженер сопровождения разработки (DevOps)з/п н...,SE,3–6 лет,Синимекс,,Новокузнецкая,0,0,3,6,0,5,Россия
3528,Junior Backend-разработчикз/п не указана,SE,1–3 года,ООО НЕОСОФТ,,Москва,0,0,1,3,0,2,Россия
3596,Инженер-аналитик (СУИБ)з/п не указана,DA,1–3 года,ООО ГАЗИНФОРМСЕРВИС,,Санкт-Петербург,0,0,1,3,0,2,Россия
3715,Ведущий инженер-аналитикз/п не указана,DA,1–3 года,ООО ГАЗИНФОРМСЕРВИС,,Санкт-Петербург,0,0,1,3,0,2,Россия


In [117]:

df.drop(index=df[df['currency']==''].index, inplace=True, axis=1)

In [118]:
df['currency'].value_counts()

undefinite    3036
RUB            972
USD            128
EUR             88
KZT             35
UZS              3
BYN              2
KGS              1
Name: currency, dtype: int64

Проверим датасет на пропуски

In [13]:
df.isna().sum()

title              1
work_experience    0
salary             0
region             0
salary_min         0
salary_max         0
exp_min            0
exp_max            0
dtype: int64

Есть один пропуск. Выведем строку с ним на экран

In [14]:
df[df['title'].isna()]

Unnamed: 0,title,work_experience,salary,region,salary_min,salary_max,exp_min,exp_max
47,,undefinite,undefinite,undefinite,0,0,0,0


Данные с пропуском не имеют ценности, поэтому удалим их.

In [15]:
df.dropna(inplace=True)

In [16]:
df.isna().sum()

title              0
work_experience    0
salary             0
region             0
salary_min         0
salary_max         0
exp_min            0
exp_max            0
dtype: int64

Проверим строки, в которых может встречаться значение 'undefinite'.

In [17]:
columns_list = df.columns
wrong_list = []
for column in columns_list:
    if len(df[df[column]=='undefinite']) > 0:
        for i in df[df[column]=='undefinite'].index:
            if i not in wrong_list:
                wrong_list.append(i)
wrong_list

[235, 742, 1333, 1694, 3285, 3294, 3525]

Таких строк 7. Выведем их на экран.

In [18]:
df.loc[wrong_list]

Unnamed: 0,title,work_experience,salary,region,salary_min,salary_max,exp_min,exp_max
235,undefinite,undefinite,RocketData,Минск,0,0,0,0
742,undefinite,undefinite,Ventra,Москва,0,0,0,0
1333,undefinite,undefinite,Leads,Москва,0,0,0,0
1694,undefinite,undefinite,ООО Защищенные Телекоммуникации,Тула,0,0,0,0
3285,undefinite,undefinite,ООО Лаборатория Наносемантика,Москва,0,0,0,0
3294,undefinite,undefinite,КОНТРОЛ лизинг,Москва,0,0,0,0
3525,undefinite,undefinite,Группа компаний «БПЦ»,Москва,0,0,0,0


Данные были собраны неверно. Удалим их, т.к. восстановить информацию возможности нет, данных мало и от них не будет пользы.

In [19]:
df.drop(index=wrong_list, axis=1, inplace=True)

In [20]:
df.shape[0]

4276

Строки успешно удалены.

В датасете есть много данных о зарплате указанных в следующем виде: 'до 70 000 руб. на руки'.
При таком указании заработной платы нам известно только максимальное вознаграждение, а на месте минимального установлен 0, что является некорректным.
Попробуем сгладить эти неточности и восполнить нули.
Ноль можно было бы заменить на значение МРОТ, но у нас в регионах присутствуют города из разных государств, поэтому такой вариант не подходит.
Восполним нули в 2 шага.

**ШАГ 1:**
  - Отфильтровываем датасет по региону и записываем в переменную `filtered_region`;
  - В полученной таблице находим строки, в которых указана минимальная и максимальная зарплата и записываем их в переменную `filtered_salary`;
  - Также в датасете `filtered_region` ищем строки, в которых указаны только максимальная зарплата, а минимальная равна нулю;
  - Берем строку, где есть данные о максимальной зарплате, а минимальная нулевая. Далее фильтруем датасет по значению найд енной максимальной з/п. Полученный на выходе датасет используем для расчета медианной минимальной зарплаты.
  - Ноль заменяем на полученное значение медианы. Таким образом заполняем все возможные нули, а там где это не возможно возвращаем в ячейку прежнее значение. Проделываем эту операцию в цикле.

**ШАГ 2:**
  - К этому шагу переходим для восполнения оставшихся нулей. Так как у нас сильный невосполнимый дефицит данных, то есть два пути: либо мы удаляем эти строки (если процент таких данных от общего количества данных будет 1-3% и не более), либо мы можем воспользоваться методом Ферми и, например, заменить нули половиной суммы максимально указанной работодателем зарплаты. В любом случае искажения данных неизбежны, но эти действия помогут сделать их не столь существенными.
  


In [21]:
# Оценим количество строк, где нет минимальной з/п, но есть максимальная
wrong_row = df[(df['salary_min']==0)&(df['salary_max']!=0)].shape[0]
print(f'Количество строк = {wrong_row}, что составляет {wrong_row*100/len(df):.2f}% от объема данных всего датасета.')

Количество строк = 567, что составляет 13.26% от объема данных всего датасета.


В датасете имеются города, записанные с дополнительным словом 'город'. Пример ниже. Это может помешать фильтрации данных по региону.

In [22]:
df[df['region']=='город Лимасол'].head(3)

Unnamed: 0,title,work_experience,salary,region,salary_min,salary_max,exp_min,exp_max
12,Python Developer (Crypto),3–6 лет,от 5 000 EUR на руки,город Лимасол,0,5000,3,6
92,"Senior Full-stack Developer (to Cyprus, Armenia)",3–6 лет,от 5 000 EUR на руки,город Лимасол,0,5000,3,6
132,"Senior QA Engineer (Automation, Python) to Cyp...",3–6 лет,от 4 500 EUR на руки,город Лимасол,0,4500,3,6


In [23]:
# Перестрахуемся и уберем приставку 'город' там, где это возможно
def city_remove(row):
    region = row['region']
    if 'город' in region:
        region = region.replace('город ', '')
        return region
    else:
        return region
        
df['region'] = df.apply(city_remove, axis=1)

Теперь можно перейти к шагу 1 в восполнении данных с нулями.

In [24]:
# Шаг 1
region_list = df['region'].unique()
for region in region_list:
    # отфильтровываем датасет по региону
    filtered_region = df[df['region'] == region]
    index_f_r = filtered_region.index
    # Из датасета, отфильтрованного по региону, отфильтровываем строки с мин. з/п != 0 и макс. з/п != 0
    filtered_salary = filtered_region[(filtered_region['salary_min'] != 0) &
                                    (filtered_region['salary_max'] != 0)]
    
    for i in index_f_r:
        similar = filtered_salary[filtered_salary['salary_max'] == filtered_region['salary_max'][i]]
        if (filtered_region['salary_min'][i] == 0 and filtered_region['salary_max'][i] != 0 
            and len(filtered_salary) != 1 and len(filtered_salary) != 0):
            if len(similar) > 1:
                s_median = similar['salary_min'].median()
                df['salary_min'][i] = s_median
            else:
                df['salary_min'][i] = df.loc[i, 'salary_min']
        elif (filtered_region['salary_min'][i] == 0 and filtered_region['salary_max'][i] != 0) and (len(filtered_salary) == 1 or len(filtered_salary) == 0):
            df['salary_min'][i] = df.loc[i, 'salary_min']

df['salary_min'] = df['salary_min'].astype('int')

In [25]:
# Оценим количество строк, где нет минимальной з/п, но есть максимальная
wrong_row = df[(df['salary_min']==0)&(df['salary_max']!=0)].shape[0]
print(f'Количество строк = {wrong_row}, что составляет {wrong_row*100/len(df):.2f}% от объема данных всего датасета.')

Количество строк = 334, что составляет 7.81% от объема данных всего датасета.


Удалось восполнить 231 строку. Переходим к шагу 2.

In [26]:
def del_zero(row):
    s_min = row['salary_min']
    s_max = row['salary_max']
    if s_min == 0 and s_max != 0:
        fixed_salary = int(s_max / 2)
        return fixed_salary
    else:
        return s_min
    

In [27]:
df['salary_min'] = df.apply(del_zero, axis=1)

In [28]:
df

Unnamed: 0,title,work_experience,salary,region,salary_min,salary_max,exp_min,exp_max
0,Python Разработчик,1–3 года,от 200 000 до 1 500 000 KZT на руки,Астана,200000,1500000,1,3
1,Full-stack Python Developer,3–6 лет,от 4 500 до 5 000 EUR до вычета налогов,Астана,4500,5000,3,6
2,Junior разработчик/программист в Python,не требуется,от 150 000 до 200 000 KZT до вычета налогов,Нур-Султан (Астана),150000,200000,0,0
3,Python Developer (Middle/Senior),3–6 лет,от 2 000 до 4 000 USD на руки,Алматы,2000,4000,3,6
4,Backend разработчик,1–3 года,з/п не указана,Астана,0,0,1,3
...,...,...,...,...,...,...,...,...
4279,Специалист службы поддержки с техническими зна...,не требуется,от 15 000 до 40 000 руб. на руки,Ижевск,15000,40000,0,0
4280,Web-разработчик junior,не требуется,до 70 000 руб. на руки,Санкт-Петербург,35000,70000,0,0
4281,Web-разработчик,не требуется,з/п не указана,Нижний Новгород,0,0,0,0
4282,Младший аналитик (IT),не требуется,от 100 000 до 130 000 руб. на руки,Москва,100000,130000,0,0


In [29]:
# Снова оценим количество строк, где нет минимальной з/п, но есть максимальная
wrong_row = df[(df['salary_min']==0)&(df['salary_max']!=0)].shape[0]
print(f'Количество строк = {wrong_row}, что составляет {wrong_row*100/len(df):.2f}% от объема данных всего датасета.')

Количество строк = 0, что составляет 0.00% от объема данных всего датасета.


Все возможные нули заменены. Дополнительно сбросим индексацию датасета.

In [30]:
df.reset_index(inplace=True, drop=True)

Так как почти все зарплаты и опыт работы указаны в виде диапазонов, то для более менее корректной оценки введем два дополнительных столбца со средним значением из этих диапазонов. 

In [31]:
df['salary_mean'] = (df['salary_min'] + df['salary_max']) / 2
df['exp_mean'] = (df['exp_min'] + df['exp_max']) / 2
df['salary_mean'] = df['salary_mean'].apply(lambda x: int(x + 0.5))
df['exp_mean'] = df['exp_mean'].apply(lambda x: int(x + 0.5))

In [32]:
df

Unnamed: 0,title,work_experience,salary,region,salary_min,salary_max,exp_min,exp_max,salary_mean,exp_mean
0,Python Разработчик,1–3 года,от 200 000 до 1 500 000 KZT на руки,Астана,200000,1500000,1,3,850000,2
1,Full-stack Python Developer,3–6 лет,от 4 500 до 5 000 EUR до вычета налогов,Астана,4500,5000,3,6,4750,5
2,Junior разработчик/программист в Python,не требуется,от 150 000 до 200 000 KZT до вычета налогов,Нур-Султан (Астана),150000,200000,0,0,175000,0
3,Python Developer (Middle/Senior),3–6 лет,от 2 000 до 4 000 USD на руки,Алматы,2000,4000,3,6,3000,5
4,Backend разработчик,1–3 года,з/п не указана,Астана,0,0,1,3,0,2
...,...,...,...,...,...,...,...,...,...,...
4271,Специалист службы поддержки с техническими зна...,не требуется,от 15 000 до 40 000 руб. на руки,Ижевск,15000,40000,0,0,27500,0
4272,Web-разработчик junior,не требуется,до 70 000 руб. на руки,Санкт-Петербург,35000,70000,0,0,52500,0
4273,Web-разработчик,не требуется,з/п не указана,Нижний Новгород,0,0,0,0,0,0
4274,Младший аналитик (IT),не требуется,от 100 000 до 130 000 руб. на руки,Москва,100000,130000,0,0,115000,0


## Группировка по типам вакансий

Добавим столбец `vacancy_type`, в который позже запишем типы вакансий.  
Группировку вакансий будем делать по этим типам.  
Разделение по тимам будет приблизительным, так как среди наименований вакансий есть те, которые могут относиться сразу к нескольким категориям и типам. Также названия вакансий составлены из русских и английских слов, поэтому провести лемматизацию слов автоматизировано затруднительно.

In [33]:
# Добавляем столбец
df.insert(1, 'vacancy_type', 0)

Разделим вакансии на следующие группы:

№ п/п | Направление | Код
---|---|---
1 | Data Science | DS
2 | Искусственный интеллект | AI
3 | Инженер данных | DE
4 | Большие данные | BD
5 | Глубокое обучение | DL
6 | Анализ данных | DA
7 | Машинное обучение | ML
8 | Software Engenering | SE
9 | Web-разработка | WB
9 | Прочее | other




Составим списки ключевых слов для поиска вакансий.

In [34]:
keywords_dict = {
    'ds_list': ['data science', 'data-science', 'data scientist', 'data-scientist'],

    'ai_list': [' ии',' ии ', 'ai ', ' ai ', 
                'искусственный интеллект', 'искусственного интеллекта', 'artificial intelligence'],

    'de_list': ['data engeener', 'data engeenering', 'инженер данных', 'инженер больших данных', 
                'дата-инженер', 'data-engeener'],

    'bd_list': ['big data', 'big-data', 'большие данные', 'больших данных'],

    'dl_list': [' dl', ' dl ', 'dl ', 'dl-', 
                'deep learning', 'deep-learning', 'глубокое обучение', 'глубокому обучению', 
                'computer vision'],

    'da_list': ['data analysis', 'data-analysis', 'data analytics', 
                'data-analytics', 'data analyst', 'data-analyst', 
                'аналитик данных', 'data аналитик', 'data аналитики', 
                'data аналитика', 'data-аналитик', 'data-аналитики', 
                'data-аналитика', 'анализ данных', 'анализу данных', 
                'аналитики данных', 'аналитика данных', 'data анализ', 
                'data анализа', 'data анализу', 'data-анализ', 
                'data-анализа', 'data-анализу', 'аналитик', 
                'аналитики', 'аналитику'],

    'ml_list': ['machine learning', 'machine-learning', 'машинное обучение', 'машинного обучения'],

    'se_list': ['software engeener', 'software engeenering', 'software-engeener',
                'software-engeenering', 'software developer', 'software developing',
                'software develop', 'software-developer', 'software-developing',
                'software-develop', 'разработчик', 'разработчика', 
                'разработка', 'программного обеспечения', 'программное обеспечение', 
                'software инженер', 'software-инженер', 'инженер', 
                'developer'],
    
    'wb_list': ['web', ' web', 'web ', ' web ',
                'web-разработчик', 'web разработчик', 'web-разработка', 'web разработка',
                'web-разработки', 'web разработки','web-разработку', 'web разработку',
                'верстка', 'верстальщик', 'php', 'php-разработчик', 
                'javascript', 'javascript-разработчик', 'javascript разработчик', 'лендинг', 
                'сайт', 'сайтов', 'laravel', 'django', 
                'веб-разработчик', 'веб разработчик', 'pyramid', 'web2py', 
                'веб-разработка', 'веб разработка', 'веб-разработку', 'веб разработку',
                'веб-разработки', 'веб разработки', 'flask', 'bottle',  
                'tornado', 'cherrypy', 'codeigniter']}

In [35]:
# Посчитаем количество уникальных вакансий
title_unique = df['title'].unique()
title_unique.shape

(2920,)

In [36]:
def typing(typing_dict, column, code_column, data):
    for key in typing_dict:
        category = key.replace('_list', '').upper()
        for v in typing_dict[key]:
            for i in range(len(data)):
                if (v in str(column[i]).lower()) and (code_column[i] == 0):
                    code_column[i] = category
    for n in range(len(data)):
        if code_column[n] == 0:
            code_column[n] = 'other'

In [37]:
typing(keywords_dict, df['title'], df['vacancy_type'], df)

In [38]:
df[df['vacancy_type'] == "AI"].head(61)

Unnamed: 0,title,vacancy_type,work_experience,salary,region,salary_min,salary_max,exp_min,exp_max,salary_mean,exp_mean
1211,Middle Python backend developer (ML Space AI C...,AI,1–3 года,з/п не указана,Москва,0,0,1,3,0,2
1338,UnrealEngine AI Developer,AI,3–6 лет,з/п не указана,Москва,0,0,3,6,0,5
1555,ML Developer в команду прикладных исследований ИИ,AI,3–6 лет,з/п не указана,Москва,0,0,3,6,0,5
2730,QA AI Driving Data,AI,3–6 лет,з/п не указана,Москва,0,0,3,6,0,5
3226,Senior Python backend developer (ML Space AI C...,AI,3–6 лет,з/п не указана,Москва,0,0,3,6,0,5
4122,Архитектор продуктов (Solution Architect AI Cl...,AI,более 6 лет,з/п не указана,Москва,0,0,6,6,0,6
4163,Архитектор продуктов (Solution Architect AI Cl...,AI,более 6 лет,з/п не указана,Москва,0,0,6,6,0,6


In [39]:
df['vacancy_type'].value_counts()

SE       2378
other    1475
DA        249
DS         61
WB         51
BD         29
ML         12
DL          9
AI          7
DE          5
Name: vacancy_type, dtype: int64

Категоризация вакансий проведена успешно.

## Дополнительные расчеты и анализ данных

### Средняя и медианная зарплата

#### Расчет по группам вакансий

In [40]:
group_tvacancy_salary_mean = (df[df['salary_mean']!=0]
                         .groupby('vacancy_type')[['salary_min', 'salary_max', 'salary_mean']]
                         .mean().round(2).sort_values('salary_mean', ascending=True))
group_tvacancy_salary_mean

Unnamed: 0_level_0,salary_min,salary_max,salary_mean
vacancy_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
DL,22500.0,43000.0,32750.0
BD,25000.0,50000.0,37500.0
DE,80000.0,110000.0,95000.0
DA,80763.51,123297.3,102030.41
WB,119767.24,163706.9,141737.07
DS,124224.27,215678.82,169951.55
SE,130759.65,230318.79,180539.22
other,142017.91,256023.56,199020.74


In [44]:
group_tvacancy_salary_median = (df[df['salary_mean']!=0]
                         .groupby('vacancy_type')[['salary_min', 'salary_max', 'salary_mean']]
                         .mean().round(2).sort_values('salary_mean', ascending=True))
group_tvacancy_salary_median

Unnamed: 0_level_0,salary_min,salary_max,salary_mean
vacancy_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
DL,22500.0,43000.0,32750.0
BD,25000.0,50000.0,37500.0
DE,80000.0,110000.0,95000.0
DA,80763.51,123297.3,102030.41
WB,119767.24,163706.9,141737.07
DS,124224.27,215678.82,169951.55
SE,130759.65,230318.79,180539.22
other,142017.91,256023.56,199020.74


#### Расчет по регионам

##### Категоризация по странам

In [None]:
from geopy.geocoders import Nominatim
#pip install googletrans==3.1.0a0
import googletrans
from googletrans import Translator

In [None]:
geolocator = Nominatim(user_agent = "geoapiExercises")
translator = Translator() 

In [45]:
def city_to_country(row):
    city = row['region']
    location = geolocator.geocode(str(city))
    location = str(location).split()[-1]
    result = translator.translate(location, dest='ru')

    return result.text

In [46]:
g = ['City of Limassol', 'Аксай (Казахстан)', 'Ljubljana', 'Минский район', 'повят Варшава', 'ОАЭ', 'округ Белград', 'Вьетнам', 'Германия', 'Финляндия',  'Подгорица', 'Абхазия', 'Армения', 'Латвия', 'Сербия', 'Турция', 'Финляндия', 'Черногория', 'Литва', 'ОАЭ', 'Венгрия', 'Румыния', 'Болгария', 'округ Белград', 'Германия', 'Канада', 'Бангладеш', 'Акташ (Узбекистан)', 'эмират Дубай', 'деревня Румянцево', 'Новоусманский район', 'Киров (Кировская область)', 'City of Limassol', 'Петропавловка (Республика Бурятия)', 'Иваново (Ивановская область)', 'Moscow', 'Подольск (Московская область)', 'посёлок Коммунарка', 'г. Санкт-Петербург', 'посёлок Шушары', 'Волжский (Волгоградская область)', 'Penza', 'г. Москва', 'Санкт-Петербург  м.пл.Ленина   Кондратьевский д 13', 'г.Москва', 'Рощино (Ленинградская область)', 'г. Ставрополь ул. Апанасенковская 4', 'деревня Покровское', 'городской округ Клин', 'посёлок городского типа Малаховка', 'Московская', 'Автово', 'село Красное']

In [47]:
list(df['region'].unique())

['Астана',
 'Нур-Султан (Астана)',
 'Алматы',
 'Семей',
 'Лимасол',
 'Атырау',
 'Костанай',
 'Уральск',
 'Аксай (Казахстан)',
 'Караганда',
 'Щучинск',
 'Лимассол',
 'Ljubljana',
 'Павлодар',
 'Баку',
 'Гянджа',
 'Минск',
 'Могилев',
 'Гродно',
 'Витебск',
 'Минский район',
 'повят Варшава',
 'Гомель',
 'Брест',
 'Тбилиси',
 'Батуми',
 'Каспи',
 'Боржоми',
 'Кутаиси',
 'Абхазия',
 'Ростов-на-Дону',
 'София',
 'Армения',
 'Латвия',
 'Сербия',
 'Кишинёв',
 'Турция',
 'Сиэтл',
 'Кипр',
 'Финляндия',
 'Черногория',
 'Москва',
 'Ереван',
 'Литва',
 'ОАЭ',
 'Венгрия',
 'Румыния',
 'Болгария',
 'округ Белград',
 'Германия',
 'Белград',
 'Польша',
 'Вьетнам',
 'Берлин',
 'Канада',
 'Бангладеш',
 'Бишкек',
 'Ташкент',
 'Фергана',
 'Навои',
 'Акташ (Узбекистан)',
 'Екатеринбург',
 'эмират Дубай',
 'Новосибирск',
 'Тюмень',
 'Санкт-Петербург',
 'Калининград',
 'Казань',
 'Тула',
 'Иркутск',
 'Симферополь',
 'Самара',
 'Владимир',
 'Новокузнецк',
 'Томск',
 'Севастополь',
 'Магнитогорск',
 'Омск',

In [48]:
df.loc[df['region'] == 'City of Limassol', 'region'] = 'Лимасол'
df.loc[df['region'] == 'Аксай (Казахстан)', 'region'] = 'Аксай'
df.loc[df['region'] == 'Ljubljana', 'region'] = 'Любляна'
df.loc[df['region'] == 'Минский район', 'region'] = 'Минск'
df.loc[df['region'] == 'повят Варшава', 'region'] = 'Варшава'
df.loc[df['region'] == 'ОАЭ', 'region'] = 'Дубай'
df.loc[df['region'] == 'округ Белград', 'region'] = 'Белград'
df.loc[df['region'] == 'Вьетнам', 'region'] = 'Ханой'
df.loc[df['region'] == 'Германия', 'region'] = 'Берлин'
df.loc[df['region'] == 'Финляндия', 'region'] = 'Хельсинки'
df.loc[df['region'] == 'Абхазия', 'region'] = 'Сухум'
df.loc[df['region'] == 'Армения', 'region'] = 'Ереван'
df.loc[df['region'] == 'Латвия', 'region'] = 'Рига'
df.loc[df['region'] == 'Сербия', 'region'] = 'Белград'
df.loc[df['region'] == 'Турция', 'region'] = 'Анкара'
df.loc[df['region'] == 'Черногория', 'region'] = 'Подгорица'
df.loc[df['region'] == 'Литва', 'region'] = 'Вильнюс'
df.loc[df['region'] == 'Венгрия', 'region'] = 'Будапешт'
df.loc[df['region'] == 'Румыния', 'region'] = 'Бухарест'
df.loc[df['region'] == 'Болгария', 'region'] = 'София'
df.loc[df['region'] == 'Канада', 'region'] = 'Оттава'
df.loc[df['region'] == 'Бангладеш', 'region'] = 'Дакка'
df.loc[df['region'] == 'Акташ (Узбекистан)', 'region'] = 'Акташ'
df.loc[df['region'] == 'эмират Дубай', 'region'] = 'Дубай'
df.loc[df['region'] == 'деревня Румянцево', 'region'] = 'Румянцево'
df.loc[df['region'] == 'Новоусманский район', 'region'] = 'Новая Усмань'
df.loc[df['region'] == 'Киров (Кировская область)', 'region'] = 'Киров'
df.loc[df['region'] == 'Петропавловка (Республика Бурятия)', 'region'] = 'Петропавловка'
df.loc[df['region'] == 'Иваново (Ивановская область)', 'region'] = 'Иваново'
df.loc[df['region'] == 'Moscow', 'region'] = 'Москва'
df.loc[df['region'] == 'Подольск (Московская область)', 'region'] = 'Подольск'
df.loc[df['region'] == 'посёлок Коммунарка', 'region'] = 'Коммунарка'
df.loc[df['region'] == 'г. Санкт-Петербург', 'region'] = 'Санкт-Петербург'
df.loc[df['region'] == 'посёлок Шушары', 'region'] = 'Шушары'
df.loc[df['region'] == 'Волжский (Волгоградская область)', 'region'] = 'Волжский'
df.loc[df['region'] == 'Penza', 'region'] = 'Пенза'
df.loc[df['region'] == 'г. Москва', 'region'] = 'Москва'
df.loc[df['region'] == 'Санкт-Петербург  м.пл.Ленина   Кондратьевский д 13', 'region'] = 'Санкт-Петербург'
df.loc[df['region'] == 'г.Москва', 'region'] = 'Москва'
df.loc[df['region'] == 'Рощино (Ленинградская область)', 'region'] = 'Рощино'
df.loc[df['region'] == 'г. Ставрополь ул. Апанасенковская 4', 'region'] = 'Ставрополь'
df.loc[df['region'] == 'деревня Покровское', 'region'] = 'Покровское'
df.loc[df['region'] == 'городской округ Клин', 'region'] = 'Клин'
df.loc[df['region'] == 'посёлок городского типа Малаховка', 'region'] = 'Малаховка'
df.loc[df['region'] == 'Московская', 'region'] = 'Москва'
df.loc[df['region'] == 'Автово', 'region'] = 'Санкт-Петербург'
df.loc[df['region'] == 'село Красное', 'region'] = 'Санкт-Петербург'

In [49]:
df['country'] = df.apply(city_to_country, axis=1)

In [50]:
df['country'].value_counts()

Россия         3672
Казахстан       212
Беларусь         98
Грузия           74
Узбекистан       49
Кипр             47
Армения:         35
Сербия           15
Азербайджан      12
Кыргызстан        9
Украина           9
Болгария          9
Польша            5
Юнайтед           5
Молдавия          4
Турция            3
Словения          2
состояния         2
Гора              2
Литва             2
Германия          2
Канада            1
Бангладеш         1
Латвия            1
мужчина           1
Румыния           1
Финляндия         1
Море              1
Венгрия           1
Name: country, dtype: int64

In [51]:
df.loc[df['country']=='Армения:', 'country'] = 'Армения'
df.loc[df['country']=='Юнайтед', 'country'] = 'Объединенные Арабские Эмираты'
df.loc[df['country']=='состояния', 'country'] = 'Соединенные Штаты Америки'
df.loc[df['country']=='Гора', 'country'] = 'Черногория'
df.loc[df['country']=='мужчина', 'country'] = 'Вьетнам'
df.loc[df['country']=='Море', 'country'] = 'Грузия'
df.loc[df['region']=='Севастополь', 'country'] = 'Россия'

In [78]:

df['country'].value_counts()

Россия                           3680
Казахстан                         212
Беларусь                           98
Грузия                             75
Узбекистан                         49
Кипр                               47
Армения                            35
Сербия                             15
Азербайджан                        12
Кыргызстан                          9
Болгария                            9
Польша                              5
Объединенные Арабские Эмираты       5
Молдавия                            4
Турция                              3
Литва                               2
Германия                            2
Соединенные Штаты Америки           2
Черногория                          2
Словения                            2
Венгрия                             1
Румыния                             1
Финляндия                           1
Вьетнам                             1
Канада                              1
Бангладеш                           1
Латвия      

In [91]:
#list(df[df['country']=='Беларусь']['salary'])
df[df['country']=='Казахстан']

Unnamed: 0,title,vacancy_type,work_experience,salary,region,salary_min,salary_max,exp_min,exp_max,salary_mean,exp_mean,country
0,Python Разработчик,SE,1–3 года,от 200 000 до 1 500 000 KZT на руки,Астана,200000,1500000,1,3,850000,2,Казахстан
1,Full-stack Python Developer,SE,3–6 лет,от 4 500 до 5 000 EUR до вычета налогов,Астана,4500,5000,3,6,4750,5,Казахстан
2,Junior разработчик/программист в Python,SE,не требуется,от 150 000 до 200 000 KZT до вычета налогов,Нур-Султан (Астана),150000,200000,0,0,175000,0,Казахстан
3,Python Developer (Middle/Senior),SE,3–6 лет,от 2 000 до 4 000 USD на руки,Алматы,2000,4000,3,6,3000,5,Казахстан
4,Backend разработчик,SE,1–3 года,з/п не указана,Астана,0,0,1,3,0,2,Казахстан
...,...,...,...,...,...,...,...,...,...,...,...,...
217,Fullstack developer,SE,1–3 года,от 100 000 KZT до вычета налогов,Алматы,50000,100000,1,3,75000,2,Казахстан
218,PHP-программист,WB,1–3 года,от 350 000 до 450 000 KZT на руки,Алматы,350000,450000,1,3,400000,2,Казахстан
219,Разработчик BI-инструментов,SE,1–3 года,з/п не указана,Алматы,0,0,1,3,0,2,Казахстан
220,Senior QA Engineer / Middle QA Engineer,other,3–6 лет,от 600 000 KZT на руки,Нур-Султан (Астана),300000,600000,3,6,450000,5,Казахстан


In [97]:
# Запишем датасет в csv-таблицу
df.to_csv('parsed_hh_preprocessed.csv', index=False)

##### Расчет средней и медианной зарплаты

In [54]:
group_country_salary_mean = (df[df['salary_mean']!=0]
                         .groupby('country')[['salary_min', 'salary_max', 'salary_mean']]
                         .mean().round(2).sort_values('salary_mean', ascending=True))
group_country_salary_mean

Unnamed: 0_level_0,salary_min,salary_max,salary_mean
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Беларусь,1863.64,3127.27,2495.45
Грузия,2684.21,4710.53,3697.37
Болгария,3431.25,5208.12,4319.75
Латвия,4500.0,5000.0,4750.0
Канада,4000.0,8000.0,6000.0
Объединенные Арабские Эмираты,5000.0,7000.0,6000.0
Германия,7500.0,10834.0,9167.0
Кипр,8928.95,17805.26,13367.11
Азербайджан,22125.0,43750.0,32937.5
Армения,26833.33,46388.89,36611.11


In [55]:
group_country_salary_median = (df[df['salary_mean']!=0]
                         .groupby('country')[['salary_min', 'salary_max', 'salary_mean']]
                         .median().round(2).sort_values('salary_mean', ascending=True))
group_country_salary_median

Unnamed: 0_level_0,salary_min,salary_max,salary_mean
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Беларусь,1250.0,2500.0,1875.0
Узбекистан,2000.0,3000.0,2500.0
Кыргызстан,2500.0,4000.0,3000.0
Грузия,2500.0,4500.0,3250.0
Кипр,2500.0,5000.0,3750.0
Болгария,3500.0,5432.5,4366.5
Азербайджан,3000.0,6000.0,4500.0
Армения,3000.0,6000.0,4500.0
Латвия,4500.0,5000.0,4750.0
Канада,4000.0,8000.0,6000.0


#### Средняя и медианная зарплата по странам и группам вакансий

In [56]:
group_country_vtype_salary_mean = (df[df['salary_mean']!=0]
                         .groupby(['country', 'vacancy_type'])[['salary_min', 'salary_max', 'salary_mean']]
                         .mean().round(2).sort_values('salary_mean', ascending=True))
group_country_vtype_salary_mean

Unnamed: 0_level_0,Unnamed: 1_level_0,salary_min,salary_max,salary_mean
country,vacancy_type,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Беларусь,WB,750.0,1500.0,1125.0
Беларусь,DA,1250.0,2500.0,1875.0
Беларусь,SE,1541.67,2566.67,2054.17
Грузия,DA,2000.0,3500.0,2750.0
Казахстан,DS,2500.0,3000.0,2750.0
Грузия,SE,2423.08,4384.62,3403.85
Беларусь,other,3083.33,5000.0,4041.67
Болгария,other,3375.0,4916.25,4145.75
Кипр,other,3156.25,5625.0,4390.62
Болгария,SE,3487.5,5500.0,4493.75


In [57]:
import scipy.stats as sps

In [58]:
df[['exp_mean', 'salary_mean']].corr()

Unnamed: 0,exp_mean,salary_mean
exp_mean,1.0,0.007113
salary_mean,0.007113,1.0


# Чек-лист

- [x]  Сгруппируйте вакансии по направлениями (DS, DE, Software Engenering, etc.);
- [x]  Какая средняя и медианная зарплата по группам вакансий?
- [x]  Какая средняя и медианная зарплата по каждому региону?
- [x]  Какая самая высокооплачиваемая из групп вакансий, исходя из их средних зарплат?
- [ ]  Какое процентное соотношение каждого региона по вакансиям от всех вакансий?
- [ ]  Какая корреляция уровня опыта от зарплаты? (Преобразовать уровень опыта в числовой тип, если возможно. Например: ('MI': 0, 'SE': 1, 'EN': 2, 'EX': 3);
- [ ]  Сколько должностей в наборе данных?
- [ ]  Какие 10 наиболее часто встречающихся должностей?


df.

In [101]:
df['currency'].value_counts()

undefinite    3036
RUB            974
USD            128
EUR             88
KZT             35
                14
KGS              1
Name: currency, dtype: int64