# Анализ вакансии для аналитиков данных на Linkedin

**Цель:** Визуализировать информацию о рынке вакансий для аналитиков в Европе

**Источник данных:** информация с сайта linkedin.com. Данные извлечены из html-кодов страниц 23 мая 2023 г.

## Представление обработанных данных в Tableau

ссылка на Tableau: https://public.tableau.com/app/profile/liudmila2867/viz/DADS/Dashboard2?publish=yes 

## Предобработка данных

Начнем с того, что ознакомимся с данными перед обработкой (загрузим данные, выведем датасет для ознакомления, определим типы данных, пропущенные значения и дубликаты)

In [1]:
# импортируем необходимые библиотеки

import pandas as pd

In [2]:
# загрузим датасет
data = pd.read_csv('D:\linkedin.csv')

In [3]:
# изучим датасет

df = data.copy()
df.head(15)

Unnamed: 0,title,location,country,employment_type,company_name,employee_qty,company_field,skills,job_description,applicants
0,Data Analyst,Basel,Switzerland,On-site,PharmiWeb.Jobs: Global Life Science Jobs,11-50 employees,Staffing and Recruiting,,What You Will Achi...,47.0
1,Data Analyst - Logistics,Coventry,United Kingdom,On-site,Resolute Recruitment,not specified,not specified,,,
2,Data Analyst - Logistics,Coventry,United Kingdom,On-site,Resolute Recruitment,not specified,not specified,,Data Analyst - Lo...,
3,Data Analyst (Space & Planning),South Molton,United Kingdom,On-site,Mole Valley Farmers,not specified,not specified,,Salary: To b...,
4,Data Analyst,Lugano,Switzerland,On-site,FORFIRM,not specified,not specified,,FORFIRM is p...,
5,Data Analyst - Logistics,Southampton,United Kingdom,On-site,"Butler, Bridge & May",not specified,not specified,,Location: Southam...,
6,Data Analyst,Leeds,United Kingdom,On-site,Maria Mallaband Care Group Ltd,not specified,not specified,,We’re Maria Malla...,
7,Data Analyst,Nuneaton,United Kingdom,Hybrid,Kelly Group,not specified,not specified,,Kelly Group are s...,
8,Data Analyst,Paris,France,On-site,eXalt,"501-1,000 employees",IT Services and IT Consulting,"<span class=""visually-hidden""><!-- -->Skills: ...",Qui sont-ils ? ...,140.0
9,Data Analyst - Hybrid Working,Cambridge,United Kingdom,On-site,Blue Arrow,not specified,not specified,,Data Analyst ...,


In [4]:
# изучим пропуски и типы данных 

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 998 entries, 0 to 997
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   title            998 non-null    object 
 1   location         998 non-null    object 
 2   country          998 non-null    object 
 3   employment_type  998 non-null    object 
 4   company_name     996 non-null    object 
 5   employee_qty     998 non-null    object 
 6   company_field    998 non-null    object 
 7   skills           998 non-null    object 
 8   job_description  998 non-null    object 
 9   applicants       838 non-null    float64
dtypes: float64(1), object(9)
memory usage: 78.1+ KB


In [5]:
# найдем пропущенные значения в датасете

df.isnull().sum().sort_values(ascending=False)

applicants         160
company_name         2
title                0
location             0
country              0
employment_type      0
employee_qty         0
company_field        0
skills               0
job_description      0
dtype: int64

Имеет смысл также выявить неявные пропуски в столбцах ('None','0','not specified')

In [6]:
# изменим тип данных в столбце applicants на стороковый для возможности выполнения следующего цикла

df['applicants'] = df['applicants'].astype('str')

In [7]:
# проверяем каждый столбец на наличие неявных пропусов

for i in df.columns:
    #del df['job_description']
    print('Столбец:',i)
    print('Количество уникальных неявных пропущенных значений в столбце:',df[df[i].str.contains('None')|df[i].str.contains(' 0 ')|\
    df[i].str.contains('not specified')][i].nunique())
    print(df[df[i].str.contains('None')|df[i].str.contains(' 0 ')|\
    df[i].str.contains('not specified')][i].unique())
    continue

Столбец: title
Количество уникальных неявных пропущенных значений в столбце: 0
[]
Столбец: location
Количество уникальных неявных пропущенных значений в столбце: 0
[]
Столбец: country
Количество уникальных неявных пропущенных значений в столбце: 0
[]
Столбец: employment_type
Количество уникальных неявных пропущенных значений в столбце: 1
['not specified']
Столбец: company_name
Количество уникальных неявных пропущенных значений в столбце: 0
[]
Столбец: employee_qty
Количество уникальных неявных пропущенных значений в столбце: 1
['not specified']
Столбец: company_field
Количество уникальных неявных пропущенных значений в столбце: 1
['not specified']
Столбец: skills
Количество уникальных неявных пропущенных значений в столбце: 1
['None']
Столбец: job_description
Количество уникальных неявных пропущенных значений в столбце: 11
["                            bloomon is turning the flower industry on its head – for the better. How? By disrupting the traditional supply chain, where most floris

In [8]:
# возвращаем тип данных для столбца applicants
df['applicants'] = df['applicants'].astype('float')

In [9]:
# найдем задублированные строки

df.duplicated().sum()

112

**Вывод**:

- почти во всех столбцах (8 из 9) тип данных - строковый, в столбце applicants тип данных - вещественный. Тип данных во всех столбцах - корректный.
- наименования столбцов также представлены корректно (нижний регистр, нижнее подчеркивание в случае нескольких слов)
- в столбцах applicants (количество поданных заявок) и company_name имеются пропущенные значения (160 и 2 соответственно). Пропущенных значений в столбце сompany_name - всего два и название компании невозможно чем-то заменить. Имеет смысл рассмотреть столбец applicants
- в датасете имеются 112 строк-дубликатов
- в столбцах employment_type (тип занятости), employee_qty (количество сотрудников), company_field (область компании) пропуски заменены на not specified, т.е. в Linkedin компании решили не указывать эти данные
- в столбце skills есть неявные пропуски (None), однако, не целесообразно заполнять ячейки с пропущенными значениями, т.к. имеет этот столбец не будет анализироваться, а во-вторых, в этом столбце могут быть совершенно разная информация, в-третьих, если мы заполним данными из столбца job_description, то столбец skills просто продублирует job_description, а нам нужно уникальные данные из столбца skills
- в столбце job_description было найдены неявные пропуски, но они фигурируют в самих описаниях вакансии, поэтому можно сказать, что пропусков в столбце job_description - нет

**Причин пропуска значений в столбце applicants может быть 2:**
1) NaN = 0

2) Данные по этому параметру не спарсились

Поскольку данные по этому столбцу не повлияют на точность результатов (количество поданных заявок на вакансию нам не интересны), то можем сделать допущение, что NaN - это ноль.

In [10]:
# проверим, является ли пропущенные значения в столбце applicants (количество поданных заявок) нулем 
# (т.е. на данную вакансию никто не откликнулся)

df[df['applicants']==0]

Unnamed: 0,title,location,country,employment_type,company_name,employee_qty,company_field,skills,job_description,applicants


In [11]:
# заполним пропущенные значения в столбце applicants нулем

df['applicants'] = df['applicants'].fillna(0)

**Вывод**:

- Пропущенные значения в столбце applicants - это ноль, поэтому пропущенные значения заменили нулем.

**Найдем неявные дубликаты в столбцах и заменим их**

In [12]:
# выявим количество уникальных наименований в столбцах
for i in df.columns:
    print('Столбец',i,'\n','Количество уникальных значений:',df[i].nunique(),'\n')

Столбец title 
 Количество уникальных значений: 560 

Столбец location 
 Количество уникальных значений: 428 

Столбец country 
 Количество уникальных значений: 72 

Столбец employment_type 
 Количество уникальных значений: 4 

Столбец company_name 
 Количество уникальных значений: 669 

Столбец employee_qty 
 Количество уникальных значений: 19 

Столбец company_field 
 Количество уникальных значений: 122 

Столбец skills 
 Количество уникальных значений: 617 

Столбец job_description 
 Количество уникальных значений: 812 

Столбец applicants 
 Количество уникальных значений: 178 



Поскольку неявные дубликаты смотрятся вручную, то проанализируем и заменим в случае необходимости неявные дубликаты в столбцах country, employment_type, employee_qty и company_field

In [13]:
# создадим функцию для поиска неявных дубликатов
def duplicated_column(i):
    print(sorted(df[i].unique()))

In [14]:
# создадим функцию для замены неявных дубликатов
def replace_name(data, i,name_old,name_new):
    data[i] = data[i].str.replace(name_old,name_new,regex=True).copy()

Столбец 'country'

In [15]:
# выведем уникальные значения для поиска неявных дубликатов
duplicated_column('country')

[' Austria', ' Belgium', ' Bulgaria', ' Croatia', ' Czechia', ' Denmark', ' Estonia', ' Finland', ' France', ' Germany', ' Greece', ' Hungary', ' Ireland', ' Italy', ' Latvia', ' Lithuania', ' Luxembourg', ' Malta', ' Monaco', ' Netherlands', ' Norway', ' Poland', ' Portugal', ' Romania', ' Slovakia', ' Spain', ' Sweden', ' Switzerland', ' United Kingdom', 'Amsterdam Area', 'Athens Metropolitan Area', 'Berlin Metropolitan Area', 'Brussels Metropolitan Area', 'Bulgaria', 'Cologne Bonn Region', 'Copenhagen Metropolitan Area', 'Denmark', 'Eindhoven Area', 'Finland', 'France', 'Germany', 'Greater Banska Bystrica Area', 'Greater Barcelona Metropolitan Area', 'Greater Dijon Area', 'Greater Lyon Area', 'Greater Madrid Metropolitan Area', 'Greater Milan Metropolitan Area', 'Greater Munich Metropolitan Area', 'Greater Munster Area', 'Greater Nuremberg Metropolitan Area', 'Greater Oslo Region', 'Greater Palma de Mallorca Metropolitan Area', 'Greater Paris Metropolitan Region', 'Greater Pau Area'

In [16]:
# заменим неявные дубликаты
replace_name(df,'country','Amsterdam Area','Netherlands')
replace_name(df,'country','Athens Metropolitan Area', 'Greece')
replace_name(df,'country','Berlin Metropolitan Area', 'Germany')
replace_name(df,'country','Brussels Metropolitan Area', 'Belgium')
replace_name(df,'country','Cologne Bonn Region', 'Germany')
replace_name(df,'country','Copenhagen Metropolitan Area', 'Denmark')
replace_name(df,'country','Eindhoven Area', 'Netherlands')
replace_name(df,'country','Greater Banska Bystrica Area', 'Slovakia')
replace_name(df,'country','Greater Barcelona Metropolitan Area', 'Spain')
replace_name(df,'country','Greater Dijon Area', 'France')
replace_name(df,'country','Greater Lyon Area', 'France')
replace_name(df,'country','Greater Madrid Metropolitan Area', 'Spain')
replace_name(df,'country','Greater Milan Metropolitan Area', 'Italy')
replace_name(df,'country','Greater Munich Metropolitan Area', 'Germany')
replace_name(df,'country','Greater Munster Area', 'Ireland')
replace_name(df,'country','Greater Nuremberg Metropolitan Area', 'Germany')
replace_name(df,'country','Greater Oslo Region', 'Norway')
replace_name(df,'country','Greater Palma de Mallorca Metropolitan Area', 'Spain')
replace_name(df,'country','Greater Paris Metropolitan Region','France')
replace_name(df,'country','Greater Pau Area','France')
replace_name(df,'country','Greater Verona Metropolitan Area', 'Italy')
replace_name(df,'country','Iasi Metropolitan Area', 'Romania')
replace_name(df,'country','Krakow Metropolitan Area', 'Poland')
replace_name(df,'country','Lisbon Metropolitan Area', 'Portugal')
replace_name(df,'country','Prague Metropolitan Area', 'Czechia')
replace_name(df,'country','Rotterdam and The Hague', 'Netherlands')
replace_name(df,'country','Stuttgart Region', 'Germany')
replace_name(df,'country','Warsaw Metropolitan Area', 'Poland')
replace_name(df,'country','Wroclaw Metropolitan Area', 'Poland')
replace_name(df,'country',' ', '')
replace_name(df,'country','UnitedKingdom', 'United Kingdom')

In [17]:
# выведем уникальные значения для поиска неявных дубликатов
duplicated_column('country')

['Austria', 'Belgium', 'Bulgaria', 'Croatia', 'Czechia', 'Denmark', 'Estonia', 'Finland', 'France', 'Germany', 'Greece', 'Hungary', 'Ireland', 'Italy', 'Latvia', 'Lithuania', 'Luxembourg', 'Malta', 'Monaco', 'Netherlands', 'Norway', 'Poland', 'Portugal', 'Romania', 'Slovakia', 'Spain', 'Sweden', 'Switzerland', 'United Kingdom']


Столбец 'employment_type'

In [18]:
# выведем уникальные значения для поиска неявных дубликатов

duplicated_column('employment_type')

['Hybrid', 'On-site', 'Remote', 'not specified']


Столбец 'employee_qty'

In [19]:
# выведем уникальные значения для поиска неявных дубликатов

duplicated_column('employee_qty')

['1,001-5,000 employees', '1-10 employees', '10,001+ employees', '11-50 employees', '201-500 employees', '5,001-10,000 employees', '501-1,000 employees', '51-200 employees', 'Retail Apparel and Fashion', 'Romain GUIHENEUF is hiring for this job', 'See how you compare to 10 applicants. Try Premium for free', 'See how you compare to 13 applicants. Try Premium for free', 'See how you compare to 19 applicants. Try Premium for free', 'See how you compare to 22 applicants. Try Premium for free', 'See how you compare to 4 applicants. Try Premium for free', 'See how you compare to 9 applicants. Try Premium for free', 'See recent hiring trends for Devonshire Hayes Recruitment Specialists Ltd. Try Premium for free', 'Svein Grande is hiring for this job', 'not specified']


In [20]:
# заменим "See how you compare to ... applicants. Try Premium for free",
# "See recent hiring trends for Devonshire Hayes Recruitment Specialists Ltd. Try Premium for free",
# "Svein Grande is hiring for this job",
# "Romain GUIHENEUF is hiring for this job" и
# "Retail Apparel and Fashion" (дублирование из столбца на company_field) на "not specified",
# поскольку это то же самое, что "не указано"

replace_name(df,'employee_qty','See how you compare to 10 applicants. Try Premium for free','not specified')
replace_name(df,'employee_qty','See how you compare to 13 applicants. Try Premium for free','not specified')
replace_name(df,'employee_qty','See how you compare to 19 applicants. Try Premium for free','not specified')
replace_name(df,'employee_qty','See how you compare to 22 applicants. Try Premium for free','not specified')
replace_name(df,'employee_qty','See how you compare to 4 applicants. Try Premium for free','not specified')
replace_name(df,'employee_qty','See how you compare to 9 applicants. Try Premium for free','not specified')
replace_name(df,'employee_qty','See recent hiring trends for Devonshire Hayes Recruitment Specialists Ltd. Try Premium for free',\
             'not specified')
replace_name(df,'employee_qty','Svein Grande is hiring for this job','not specified')
replace_name(df,'employee_qty','Romain GUIHENEUF is hiring for this job','not specified')
replace_name(df,'employee_qty','Retail Apparel and Fashion','not specified')

In [21]:
# проверим, что замена осуществлена

duplicated_column('employee_qty')

['1,001-5,000 employees', '1-10 employees', '10,001+ employees', '11-50 employees', '201-500 employees', '5,001-10,000 employees', '501-1,000 employees', '51-200 employees', 'not specified']


Столбец company_field

In [22]:
# выведем уникальные значения для поиска неявных дубликатов
duplicated_column('company_field')

['1,001-5,000 employees', '1-10 employees', '11-50 employees', '201-500 employees', '501-1,000 employees', '51-200 employees', 'Advertising Services', 'Airlines and Aviation', 'Apparel & Fashion', 'Appliances, Electrical, and Electronics Manufacturing', 'Armed Forces', 'Automation Machinery Manufacturing', 'Automotive', 'Aviation and Aerospace Component Manufacturing', 'Banking', 'Biotechnology Research', 'Book and Periodical Publishing', 'Business Consulting and Services', 'Chemical Manufacturing', 'Computer Games', 'Computer and Network Security', 'Computers and Electronics Manufacturing', 'Construction', 'Consumer Goods', 'Consumer Services', 'Cosmetics', 'Dairy Product Manufacturing', 'Defense & Space', 'Defense and Space Manufacturing', 'Education Administration Programs', 'Entertainment Providers', 'Environmental Services', 'Farming', 'Financial Services', 'Food & Beverages', 'Food Production', 'Food and Beverage Manufacturing', 'Food and Beverage Services', 'Gambling Facilities 

Видим, что в данном столбце есть значения, которые не соответствуют сути данного столбца (про количество сотрудников). Прежде чем убирать эти данные, проверим, что в столбце employee_qty все заполнено

In [23]:
# убеждаемся, что в столбце employee_qty все заполнено
df[(df['company_field'] == '1,001-5,000 employees')|(df['company_field'] == '1-10 employees')|\
   (df['company_field'] == '11-50 employees')|(df['company_field'] == '201-500 employees')|\
   (df['company_field'] == '501-1,000 employees')|(df['company_field'] == '51-200 employees')]

Unnamed: 0,title,location,country,employment_type,company_name,employee_qty,company_field,skills,job_description,applicants
34,Data Analyst,Vilnius,Lithuania,Hybrid,Havas Group Lithuania,51-200 employees,51-200 employees,"<span class=""visually-hidden""><!-- -->Skills: ...",What You Will Do...,98.0
44,Data Analyst,Milan,Italy,Hybrid,SPIN 360,11-50 employees,11-50 employees,"<span class=""visually-hidden""><!-- -->Skills: ...",About the Compan...,196.0
49,Data Analyst,France,France,Remote,Hubble_s,11-50 employees,11-50 employees,"<span class=""visually-hidden""><!-- -->Skills: ...",Data Analyst - I...,0.0
58,Consultor BI,Barcelona,Spain,Hybrid,Konozca Consulting,11-50 employees,11-50 employees,"<span class=""visually-hidden""><!-- -->Skills: ...",Konozca crece y...,86.0
61,Data Analyst,Hungary,Hungary,Remote,Peroptyx,11-50 employees,11-50 employees,"<span class=""visually-hidden""><!-- -->Skills: ...",For thousands of ...,177.0
137,Data analyst,Bordeaux,France,Hybrid,RH Partners,51-200 employees,51-200 employees,"<span class=""visually-hidden""><!-- -->Skills: ...",Notre client est ...,0.0
258,Data Analyst (m/w/d),Düsseldorf,Germany,On-site,Benchmark International,201-500 employees,201-500 employees,"<span class=""visually-hidden""><!-- -->Skills: ...",Über uns: Mit...,102.0
282,Data Governance analyst,Vilvoorde,Belgium,On-site,Streamz,201-500 employees,201-500 employees,"<span class=""visually-hidden""><!-- -->Skills: ...",Streamz is de Vla...,4.0
355,Datový analytik/vývojář,Prague Metropolitan Area,Czechia,Hybrid,Direct technologies,51-200 employees,51-200 employees,"<span class=""visually-hidden""><!-- -->Skills: ...",Hledáme data ana...,4.0
401,Data Analist - startersfunctie (Dutch speaking),The Hague,Netherlands,Hybrid,Whooz,11-50 employees,11-50 employees,"<span class=""visually-hidden""><!-- -->Skills: ...","Van leuk werk, k...",19.0


In [24]:
# заменим данные из данного столбца с данными о количестве сотрудников на 'not specified'
replace_name(df,'company_field','1,001-5,000 employees','not specified')
replace_name(df,'company_field','1-10 employees','not specified')
replace_name(df,'company_field','11-50 employees','not specified')
replace_name(df,'company_field','201-500 employees','not specified')
replace_name(df,'company_field','501-1,000 employees','not specified')
replace_name(df,'company_field','51-200 employees','not specified')

In [25]:
# заменим See how you compare to ... applicants. Try Premium for free и 
# Romain GUIHENEUF is hiring for this job на not specified и т.д.

replace_name(df,'company_field','See how you compare to 10 applicants. Try Premium for free','not specified')
#replace_name('employee_qty',list_name,'not specified')
replace_name(df,'company_field','See how you compare to 13 applicants. Try Premium for free','not specified')
replace_name(df,'company_field','See how you compare to 19 applicants. Try Premium for free','not specified')
replace_name(df,'company_field','See how you compare to 22 applicants. Try Premium for free','not specified')
replace_name(df,'company_field','See how you compare to 4 applicants. Try Premium for free','not specified')
replace_name(df,'company_field','See how you compare to 9 applicants. Try Premium for free','not specified')
replace_name(df,'company_field','See recent hiring trends for Devonshire Hayes Recruitment Specialists Ltd. Try Premium for free',\
             'not specified')
replace_name(df,'company_field','Svein Grande is hiring for this job','not specified')
replace_name(df,'company_field','Romain GUIHENEUF is hiring for this job','not specified')

In [26]:
# проверим, что замена произошла
duplicated_column('company_field')

['Advertising Services', 'Airlines and Aviation', 'Apparel & Fashion', 'Appliances, Electrical, and Electronics Manufacturing', 'Armed Forces', 'Automation Machinery Manufacturing', 'Automotive', 'Aviation and Aerospace Component Manufacturing', 'Banking', 'Biotechnology Research', 'Book and Periodical Publishing', 'Business Consulting and Services', 'Chemical Manufacturing', 'Computer Games', 'Computer and Network Security', 'Computers and Electronics Manufacturing', 'Construction', 'Consumer Goods', 'Consumer Services', 'Cosmetics', 'Dairy Product Manufacturing', 'Defense & Space', 'Defense and Space Manufacturing', 'Education Administration Programs', 'Entertainment Providers', 'Environmental Services', 'Farming', 'Financial Services', 'Food & Beverages', 'Food Production', 'Food and Beverage Manufacturing', 'Food and Beverage Services', 'Gambling Facilities and Casinos', 'Glass, Ceramics and Concrete Manufacturing', 'Government Administration', 'Higher Education', 'Hospitality', 'H

**Вывод:**
- в столбцах company_field, employee_qty и country произведена замена неявных дубликатов

**Создание новой таблицы, где вакансии будут только в сфере Дата аналитики и Дата сайнтса**

In [27]:
# приведем к нижнему регистру значения столбцов (job_description, skills) для упрощения работы с ними 
# (для вычленения хард скиллов)

def lowers(i):
    df[i] = df[i].str.lower()

In [28]:
lowers('job_description')
lowers('skills')
lowers('title')

In [29]:
# создадим новую таблицу, где будут данные только по дата аналитикам и дата сайнтистам

df_new = df.loc[df['title'].str.contains('anal') | df['title'].str.contains('scient')]

In [30]:
data.shape[0]

998

**Проверка на количества оставшихся данных**

In [31]:
print('Было {a} строк, стало {b} строк, что составляет {c:.2%} от изначального количества'.format(a = data.shape[0],\
                                                                                            b = df_new.shape[0],\
                                                                                            c = df_new.shape[0]/data.shape[0])) 

Было 998 строк, стало 807 строк, что составляет 80.86% от изначального количества


**Вывод:**
- осталось 81% от изначального объема.

**Скорректируем индексы после фильтрации и выведение их в качества столбца для идентификации вакансии**

In [32]:
# корректировка индексов с удалением старых индексов и создание столбца с новыми индексами
df_new = df_new.reset_index(drop=True)#.reset_index()
df_new = df_new.reset_index().rename(columns = {'index':'number_vacancy'})

# проверка
df_new.tail(5)

Unnamed: 0,number_vacancy,title,location,country,employment_type,company_name,employee_qty,company_field,skills,job_description,applicants
802,802,marketing analyst,Vilnius,Lithuania,Hybrid,Avon,"10,001+ employees",Personal Care Product Manufacturing,"<span class=""visually-hidden""><!-- -->skills: ...",you’ve picked a gr...,73.0
803,803,emerton data: data scientist & strategy consul...,Paris,France,Hybrid,Emerton,51-200 employees,Business Consulting and Services,"<span class=""visually-hidden""><!-- -->skills: ...",visit: emerton-d...,188.0
804,804,stage | data analyst,Vermezzo,Italy,Hybrid,CPM Italy,51-200 employees,Retail,"<span class=""visually-hidden""><!-- -->skills: ...",this job is...,0.0
805,805,business-analyst:in,Greater Munich Metropolitan Area,Germany,Hybrid,Computer Futures,"501-1,000 employees",IT Services and IT Consulting,"<span class=""visually-hidden""><!-- -->skills: ...",do you want to wo...,51.0
806,806,analista de datos bi,Valencia,Spain,Hybrid,Infoport,51-200 employees,not specified,none,funciones · bu...,198.0


**Выделение хард скиллов**

In [33]:
# создадим список с перечнем хард скиллов, которые будут вычленяться из столбца job_description
skills = [
    ' a/b testing', ' ab testing', ' actian', ' adobe analytics', ' adobe audience manager ',
    ' adobe experience platform', ' adobe launch ', ' adobe target ', ' ai ', 'airflow ',
    ' alooma ', ' alteryx', ' amazon machine learning ', ' amazon web services ', ' aml ',
    ' amplitude ', ' ansible ', ' apache camel ', ' apache nifi ', ' apache spark ',
    ' api ', ' asana ', ' auth0 ', ' aws ', ' aws glue ', ' azure ', ' azure data factory ',
    ' basecamp', ' bash', ' beats ', ' big query ', ' bigquery ', ' birst', ' bitbucket',
    ' blendo ', ' bootstrap ', ' business objects bi ', ' c# ', ' c++ ', ' caffe ', ' cassandra ',
    ' cdata sync', ' chronograf ', ' ci/cd ', ' cicd ', ' clickhouse ', ' cloudera ', ' cluvio ',
    ' cntk ', ' cognos', ' composer ', ' computer vision ', ' conda', ' confluence ',
    ' couchbase ', ' css ', ' d3.js ', ' dash ', ' dashboard ', ' data factory ', ' data fusion ',
    ' data mining ', ' data studio ', ' data warehouse ', ' databricks ', ' dataddo ',
    ' dataflow ', ' datahub', ' dataiku ', ' datastage ', ' dbconvert ', ' dbeaver ', ' dbt ',
    ' deep learning ', ' dl/ml', ' docker ', 'domo ', ' dune ', ' dv360 ', ' dynamodb ',
    ' elasticsearch ', ' elt ', ' erwin ', ' etl ', ' etleap', ' excel ', 'facebook business manager ',
    ' fivetran ', ' fuzzy ', ' ga360 ', ' gcp ', ' gensim ', ' ggplot ', ' git ', ' github ', ' gitlab ',
    ' google ads ', ' google analytics ', ' google cloud platform ', ' google data flow ',
    ' google optimize ', ' google sheets ', ' google tag manager ', ' google workspace ',
    ' grafana ', ' hadoop', ' hana ', ' hanagrafana ', 'hbase ', ' hdfs ', ' hevo data ', ' hightouch ',
    ' hive ', ' hivedatabricks ', ' html ', ' hubspot ', ' ibm coremetrics ', ' inetsoft ',
    ' influxdb ', 'informatica ', ' integrate.io ', ' iri voracity ', ' izenda ', ' java ',
    ' java script ', 'javascript', 'jenkins', 'jira', ' jmp ', ' julia ', 'jupyter',
    ' k2view ', ' kafka ', ' kantar ', ' kapacitor ', ' keras ', ' kibana ', ' kubernetes ',
    ' lambda ', ' linux ', ' logstash ', ' looker ', ' lstm ', ' luidgi ', ' matillion ', ' matlab ',
    ' matplotlib ', ' mendix ', ' metabase ', ' microsoft sql ', ' microsoft sql server ',
    ' microstrategy ', ' miro ', ' mixpanel ', ' ml ', ' ml flow ', ' mlflow ', ' mongodb ', ' mxnet ',
    ' mysql ', ' natural nanguage processing ', ' neo4j ', ' nlp ', ' nltk ', ' nosql ', ' numpy ',
    ' oauth ', 'octave', ' omniture ', ' omnituregitlab ', ' openshift ', ' openstack ',
    ' optimizely ', ' oracle ', '  oracle business intelligence ', ' oracle data integrator ',
    ' pandas ', ' panorama ', ' pentaho ', ' plotly ', ' postgre ', ' postgresql ', ' posthog ',
    ' power amc ', ' power bi ', 'power point', 'powerbi', 'powerpivot', ' powerpoint ',
    ' powerquery ', ' pyspark ', 'python ', 'pytorch', 'pytorchhevo data', ' qlik ',
    ' qlik sense ', ' qliksense ', ' qlikview ',' qlikview ', ' querysurge ', ' r ', ' raphtory ', ' rapidminer ', ' redash ',
    ' redis ', 'redshift ', 'retool', 'rivery', 'rust', 's3', 'sa360', 'salesforce', ' sap ',
    ' sap business objects ', ' sas ', ' sas visual analytics ', ' scala ', ' scikit-learn ',
    ' scipy ', ' seaborn ', ' segment ', ' selenium ', ' sem rush ', ' semrush ', ' shell ', ' shiny ',
    ' singer ', ' sisense ', ' skyvia ', ' snowflake ', ' spacy ', ' spark ', ' sparkml ', ' splunk ',
    ' spotfire ', ' spreadsheet ', ' spss ', ' sql ', ' ssis ', ' sssr ', ' stambia ', ' statistics ',
    ' statsbot ', ' stitch ', ' streamlit ', ' streamsets ', ' svn ', ' t-sql ', ' tableau ', ' talend ',
    ' targit ', ' tealium ', ' telegraf ', ' tensorflow ', 'terraapi ', 'terraform ', 'theano ',
    ' thoughtspot ', ' timeseries', 'trello ', ' unix ', ' vba ', '  vtom ', ' webfocus ', ' wfh ',
    ' xplenty ', ' xtract.io ', ' yellowfin ', ' английский язык ', ' english language ', ' french language ',
    ' французский язык ', ' немецкий язык ', ' german language '
]

In [34]:
# создадим функцию для вычленения хард-скиллов из столбца job_description
def skill_func(cell):
    skill_list = []
    for i in skills:
        if i in cell:
            skill_list.append(i)
    return skill_list

In [35]:
# выполним функцию для вычленения хард скиллов из столбца job_description 
# и создадим новый столбец из этих скиллов

df_new['job_skills_des'] = df_new['job_description'].apply(skill_func)

In [36]:
# создадим фунекцию для вычленения хард-скиллов из столбца skills

skill_list1 = []
for i in df_new['skills']:
    skill_list1.append(i.split(':')[-1].strip().split(',')[:2])

In [37]:
# создадим новый столбец с хард-скиллами из столбва skills

df_new['skills_1'] = skill_list1
df_new['skills_1']

0                                           [none]
1                                           [none]
2                                           [none]
3                                           [none]
4                                           [none]
                          ...                     
802    [marketing campaigns,  marketing reporting]
803                       [python,  решение задач]
804         [data analytics,  визуализация данных]
805         [аналитические навыки,  немецкий язык]
806                                         [none]
Name: skills_1, Length: 807, dtype: object

In [38]:
# объединим вычлененные хард скиллы

df_new["job_skills"] = df_new["job_skills_des"] + df_new["skills_1"] 

In [39]:
# проверим, что хард скиллы вычленены из столбцов job_description и job_skills 
# и информация по ним объединена в столбце job_skills

df_new[['job_skills_des','skills_1','job_skills']].head(5)

Unnamed: 0,job_skills_des,skills_1,job_skills
0,"[ data mining , sap , sas , statistics ]",[none],"[ data mining , sap , sas , statistics , none]"
1,[],[none],[none]
2,[],[none],[none]
3,[ excel ],[none],"[ excel , none]"
4,"[ data warehouse , etl , oracle , python , ...",[none],"[ data warehouse , etl , oracle , python , ..."


In [40]:
# с помощью функции explode разобьем списки хард скиллов на отдельные хард скиллы для корректного анализа

df_new_explode = df_new.explode("job_skills")

In [41]:
# посмотрим на количеству уникальных вакансий 

df_new_explode['number_vacancy'].nunique()

807

In [42]:
# удалим столбцы со списками job_skills_des и job_skills_skil

In [43]:
del df_new_explode['job_skills_des']

In [44]:
del df_new_explode['skills_1']

In [45]:
# удалим строчки, в которых в столбце job_skills есть none
df_new_explode = df_new_explode.query('job_skills != "none"')

In [46]:
# удалим лишние проблемы
df_new_explode['job_skills'] = df_new_explode['job_skills'].str.strip()

In [47]:
#хард скиллы с похожими названиями и сутью объединим

replace_name(df_new_explode,'job_skills','ab testing','a/b testing')
replace_name(df_new_explode,'job_skills','java script','javascript')
replace_name(df_new_explode,'job_skills','pandas','python')
replace_name(df_new_explode,'job_skills','matplotlib','python')
replace_name(df_new_explode,'job_skills','seaborn','python')
replace_name(df_new_explode,'job_skills','numpy','python')
replace_name(df_new_explode,'job_skills','scipy','python')
replace_name(df_new_explode,'job_skills','plotly','python')
replace_name(df_new_explode,'job_skills','cicd','ci/cd')
replace_name(df_new_explode,'job_skills','postgre','sql')
replace_name(df_new_explode,'job_skills','postgresql','sql')
replace_name(df_new_explode,'job_skills','powerbi','power bi')
replace_name(df_new_explode,'job_skills','qlik sense','qlik')
replace_name(df_new_explode,'job_skills','qliksense','qlik')
replace_name(df_new_explode,'job_skills','qlikview','qlik')
replace_name(df_new_explode,'job_skills','qlik view','qlik')
replace_name(df_new_explode,'job_skills','big query','bigquery')
replace_name(df_new_explode,'job_skills','mysql','sql')
replace_name(df_new_explode,'job_skills','nosql','sql')
replace_name(df_new_explode,'job_skills','microsoft sql','microsoft sql server')
replace_name(df_new_explode,'job_skills','ml flow','mlflow')
replace_name(df_new_explode,'job_skills','aws glue','aws')
replace_name(df_new_explode,'job_skills','etl tools','etl')
replace_name(df_new_explode,'job_skills','a/b тестирование','a/b testing')
replace_name(df_new_explode,'job_skills','microsoft sql server server','microsoft sql server')
replace_name(df_new_explode,'job_skills','microsoft sql server server','microsoft sql server server')
replace_name(df_new_explode,'job_skills','microsoft sql server server server server','microsoft sql server')
replace_name(df_new_explode,'job_skills','microsoft sql server server server server server','microsoft sql server')
replace_name(df_new_explode,'job_skills','msql','sql')
replace_name(df_new_explode,'job_skills','powerpoint','power point')
replace_name(df_new_explode,'job_skills','sqlsql','sql')
replace_name(df_new_explode,'job_skills',' statutory accounting principles (sap) ','sap')
replace_name(df_new_explode,'job_skills','искусственный интеллект<!-- --></span>','ai')
replace_name(df_new_explode,'job_skills','visualization','визуализация данных')
replace_name(df_new_explode,'job_skills','microsoft excel','excel')
replace_name(df_new_explode,'job_skills','salesforce.com','salesforce')
replace_name(df_new_explode,'job_skills','english language','английский язык')
replace_name(df_new_explode,'job_skills','статистика','statistics')
replace_name(df_new_explode,'job_skills','машинное обучение','machine learning')
replace_name(df_new_explode,'job_skills','ml','machine learning')
replace_name(df_new_explode,'job_skills','machine learning algorithms','machine learning')
replace_name(df_new_explode,'job_skills','yellowfin','yellowfin bi')
replace_name(df_new_explode,'job_skills','yellowfin bi bi','yellowfin bi')
replace_name(df_new_explode,'job_skills','statistics по компании','statistics')
replace_name(df_new_explode,'job_skills','snowflake cloud','snowflake')
replace_name(df_new_explode,'job_skills','google bigquery','bigquery')
#replace_name(df_new_explode,'job_skills',' google cloud platform ','google cloud platform (gcp)')

In [48]:
# проверим таблицу на наличие дубликатов
df_new_explode.duplicated().sum()

197

In [49]:
# удалим явные дублированные строки и проверим, что их не осталось
df_new_explode = df_new_explode.drop_duplicates()

In [50]:
# проверим, что все дубликаты удалены
df_new_explode.duplicated().sum()

0

In [51]:
sorted(df_new_explode['job_skills'].unique())

['a/b testing',
 'abstracting',
 'ad hoc analysis',
 'adobe analytics',
 'adobe target',
 'agile software development',
 'ai',
 'airflow',
 'algorithm development',
 'alteryx',
 'amachine learning',
 'amazon elastic mapreduce (emr)',
 'amazon kinesis',
 'amazon quicksight',
 'amazon web services (aws)',
 'amplitude',
 'analytical modelling',
 'analytique',
 'apache kafka',
 'apache spark',
 'apache spark streaming',
 'api',
 'application services',
 'attention to detail',
 'attribution',
 'aws',
 'azure',
 'bash',
 'basque',
 'bigquery',
 'bitbucket',
 'bpmn',
 'budget tracking',
 'business administration',
 'business analysis',
 'business case development',
 'business case preparation',
 'business reviews',
 'business solution',
 'business support',
 'c#',
 'c++',
 'ci/cd',
 'clickhouse',
 'cloudera',
 'cluster analysis',
 'cognos',
 'commerce',
 'confluence',
 'coordinating skills',
 'crm',
 'cross-channel marketing',
 'cross-team collaboration',
 'css',
 'cultural affairs',
 'dash',

In [52]:
# найдем хард скиллы, которые встречаются 1-3 раза на весь датасет

df_new_explode_bottom = (df_new_explode.groupby(['job_skills']).agg({'number_vacancy':'count'}).sort_values(by='number_vacancy'\
                                                                    ,ascending=True).reset_index())
df_new_explode_bottom1 = df_new_explode_bottom[df_new_explode_bottom['number_vacancy'].isin([1,2,3])]

df_new_explode_bottom1_skills = df_new_explode_bottom1['job_skills']

# удалим хард скиллы, которые встречается 1-3 раза на весь датасет

df_new_explode_top = df_new_explode.query('job_skills not in @df_new_explode_bottom1_skills')

In [53]:
print('Количество хард-скиллов всего - {a}, количество хард-скиллов, которые встречаются 1-3 раза {b} ({c:.2%})'.\
     format(a=df_new_explode['job_skills'].count(),b=df_new_explode_bottom1_skills.count(),c=df_new_explode_bottom1_skills\
            .count()/df_new_explode['job_skills'].count()))

Количество хард-скиллов всего - 3055, количество хард-скиллов, которые встречаются 1-3 раза 277 (9.07%)


In [54]:
df_new_explode_bottom1_skills.tolist()

['языки программирования',
 'recovery plans',
 'redshift',
 'технологическая подготовка производства',
 'salesforce sales cloud',
 'техническая поддержка',
 'sap bw',
 'sap srm',
 'shiny',
 'sisense',
 'тестирование на приемлемость для пользователя',
 'social',
 'spotfire',
 'spring cloud',
 'управление взаимодействием с корпоративными клиентами',
 'творческий подход к решению проблем',
 'стратегия ведения бизнеса',
 'ssrs',
 'statistical analysis',
 'стратегия',
 'statutory accounting principles (sap)',
 'стратегии ценообразования',
 'targit',
 'technical solution design',
 'tensorflow',
 'timeseries',
 'umachine learning',
 'vbscript',
 'web concepts',
 'spss clementine',
 'quotations',
 'quantitative data',
 'python (software)',
 'marketing campaigns',
 'marketing mix modeling',
 'marketing reporting',
 'matillion',
 'metabase',
 'metrics definition',
 'microsoft dynamics nav',
 'управление объемом работ',
 'mixpanel',
 'mobile switching centre server (mss)',
 'moe',
 'mongodb',
 'n

In [55]:
# удалим софт-скиллы и то, что не относится к скиллам

df_new_explode_top = df_new_explode_top.query('job_skills not in ["транспортировка по трубопроводу","управление проектами",\
"управление данными","статистика по компании","социальные медиа","решение задач","панель управления","основные показатели",\
"организаторские навыки","презентации","наука о данных","межличностное общение","коммуникация","командная работа",\
"ключевые показатели деятельности","качество данных","истории пользователей","инвестиционно-банковская деятельность",\
"бизнес-требования","бизнес-объекты","аналитические навыки","аналитика","анализ бизнес-данных","анализ данных",\
"attention to detail","business analysis","data analytics"]')

In [56]:
# уберем middle и senior

senior = df_new_explode_top[df_new_explode_top['title'].str.contains('senior')]['number_vacancy']
df_new_explode_top = df_new_explode_top.query('number_vacancy not in @senior')

middle = df_new_explode_top[df_new_explode_top['title'].str.contains('middle')]['number_vacancy']
df_new_explode_top = df_new_explode_top.query('number_vacancy not in @middle')

In [57]:
# проверим, что убрали middle и senior
df_new_explode_top[df_new_explode_top['title'].str.contains('senior') | df_new_explode_top['title'].str.contains('middle')]

Unnamed: 0,number_vacancy,title,location,country,employment_type,company_name,employee_qty,company_field,skills,job_description,applicants,job_skills


**Разобьем все вакансии на продуктовых аналитиков, маркетинговых аналитиков, бизнес-аналитиков, финансовых аналитиков и дата сайнтистов**

In [58]:
# создание функции

def name_vacancy (row):
    
    #for i in row['title']
    if 'product' in row['title']:
        return 'product analyst'
    elif 'marketing' in row['title']:
        return 'marketing analyst'
    elif 'business' in row['title']:
        return 'business analyst'
    elif 'financ' in row['title']:
        return 'finance analyst'
    elif 'scientist' in row['title']:
        return 'data scientist'
    elif 'bi ' in row['title']:
        return 'bi analyst'
    else:
        return 'data analyst'
    
# создание нового столбца с разбивкой по типам аналитиков   
    
df_new_explode_top['name_vacancy'] = df_new_explode_top.apply(name_vacancy,axis=1)

In [59]:
# проверка
df_new_explode_top.groupby('name_vacancy')['number_vacancy'].nunique().sort_values(ascending=False)

name_vacancy
data analyst         538
business analyst      75
data scientist        39
product analyst       19
marketing analyst     17
finance analyst       14
bi analyst            11
Name: number_vacancy, dtype: int64

## Перевод полученной таблицы в формат Excel

In [60]:
df_linkedln1 = df_new_explode_top.to_excel('D:\df_linkedln1.xlsx')