# Проект "LinkedIn рестарт" (предобработка данных)

Проект: Анализ вакансии для аналитиков данных.

Цель: Визуализировать информацию о рынке вакансий для аналитиков в Европе.

Датасет ДА + ДС (джун) https://disk.yandex.ru/d/CZ3Idtn61a1JGg.


Данные:
- title - название вакансии.
- location - город, в котором размещена вакансия.
- country - страна, для которой размещена вакансия.
- employment_type - вид трудоустройства (online, hybride, on-site).
- company_name - название компании.
- employee_qty - размер компании (количество сотрудников).
- company_field - Сфера деятельности компании.
- skills - требуемые хард скиллы.
- job_description - описание вакансии.
- applicants - количество соискателей.

In [1]:
#импортируем библиотеки
import pandas as pd

In [2]:
#подгружаем файл
df = pd.read_csv('linkedin.csv')

In [3]:
#смотрим файл
df.head(20)

Unnamed: 0,title,location,country,employment_type,company_name,employee_qty,company_field,skills,job_description,applicants
0,Data Analyst,Basel,Switzerland,On-site,PharmiWeb.Jobs: Global Life Science Jobs,11-50 employees,Staffing and Recruiting,,What You Will Achi...,47.0
1,Data Analyst - Logistics,Coventry,United Kingdom,On-site,Resolute Recruitment,not specified,not specified,,,
2,Data Analyst - Logistics,Coventry,United Kingdom,On-site,Resolute Recruitment,not specified,not specified,,Data Analyst - Lo...,
3,Data Analyst (Space & Planning),South Molton,United Kingdom,On-site,Mole Valley Farmers,not specified,not specified,,Salary: To b...,
4,Data Analyst,Lugano,Switzerland,On-site,FORFIRM,not specified,not specified,,FORFIRM is p...,
5,Data Analyst - Logistics,Southampton,United Kingdom,On-site,"Butler, Bridge & May",not specified,not specified,,Location: Southam...,
6,Data Analyst,Leeds,United Kingdom,On-site,Maria Mallaband Care Group Ltd,not specified,not specified,,We’re Maria Malla...,
7,Data Analyst,Nuneaton,United Kingdom,Hybrid,Kelly Group,not specified,not specified,,Kelly Group are s...,
8,Data Analyst,Paris,France,On-site,eXalt,"501-1,000 employees",IT Services and IT Consulting,"<span class=""visually-hidden""><!-- -->Skills: ...",Qui sont-ils ? ...,140.0
9,Data Analyst - Hybrid Working,Cambridge,United Kingdom,On-site,Blue Arrow,not specified,not specified,,Data Analyst ...,


In [4]:
#смотрим данные
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 998 entries, 0 to 997
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   title            998 non-null    object 
 1   location         998 non-null    object 
 2   country          998 non-null    object 
 3   employment_type  998 non-null    object 
 4   company_name     996 non-null    object 
 5   employee_qty     998 non-null    object 
 6   company_field    998 non-null    object 
 7   skills           998 non-null    object 
 8   job_description  998 non-null    object 
 9   applicants       838 non-null    float64
dtypes: float64(1), object(9)
memory usage: 78.1+ KB


Мы не сможем восстановить названия компаний и данные по количеству соискателей, которые подали заявки, поэтому заменим пропуски на значение-заглушку "not specified".

In [5]:
df['company_name'] = df['company_name'].fillna('not specified')
df['applicants'] = df['applicants'].fillna('not specified')

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 998 entries, 0 to 997
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   title            998 non-null    object
 1   location         998 non-null    object
 2   country          998 non-null    object
 3   employment_type  998 non-null    object
 4   company_name     998 non-null    object
 5   employee_qty     998 non-null    object
 6   company_field    998 non-null    object
 7   skills           998 non-null    object
 8   job_description  998 non-null    object
 9   applicants       998 non-null    object
dtypes: object(10)
memory usage: 78.1+ KB


In [7]:
#смотрим названия вакансий
df['title'].unique()

array(['Data Analyst', 'Data Analyst - Logistics',
       'Data Analyst (Space & Planning)', 'Data Analyst - Hybrid Working',
       'Commercial Data Analyst', 'Asset Data Analyst',
       'Data Analyst - Hybrid', 'Data Analyst (FT)', 'Data Analyst H/F',
       'Data Analyst II', 'Data Analyst (9 Months FTC)',
       'Business Intelligence Analyst', 'Data Analyst (F/H)',
       'BI Analyst', 'Data Analyst Associate', 'Product Data Analyst',
       'Graduate Data Analyst', 'Digital Data Analyst',
       'Business Intelligence Analyst Junior', 'Data analyst H/F',
       'Data Analyst (m/f/d)', 'Analytics Consultant', 'Data Analyst F/H',
       'Consultor BI', 'Statistical Data Analyst',
       'Digital Data Analyst (H/F)',
       'Data Analyst - €60,- per hour - Amsterdam based',
       'Data & Analytics Senior Analyst',
       'JUNIOR DATA ANALYST – Aerospace', 'Data Analyst - Operations',
       'Data Analyst (H/F)', 'BUSINESS INTELLIGENCE ANALYST',
       'Business Intelligence Analys

Для дальнейшего анализа нам не подходят вакансии, в которых встречается слово "senior", а также в которых идёт речь о программистах (например, front-end), о руководителях или о позициях, не связанных с ИТ (продавец, закупщик и т.д.). Мы оставим аналитиков данных (в том числе аналитиков BI, системных и процессных аналитиков) и дата сайнтистов.

Наш DS относительно небольшой, поэтому мы смогли его просмотреть. Если бы он был большим (от 5000 позиций), мы бы искали вакансии по ключевым словам "anal", "scien", "BI", "inteligence", "data".

In [8]:
#список слов, по которым будут отобраны ненужные вакансии
vac_to_del = ['enior', 'ENIOR', 'Junior project manager - Categoria Protetta', 'Medewerker verkoop binnendienst',\
              'BÜROKRAFT (M/W/D) IN GARCHING', 'Mitarbeiter Marketing (m/w/d)', 'Projektmanager / Projektleiter Automotive (m/w/d)',\
              'Accountant', 'Mitarbeiter Marketing B2B (m/w/d)', 'Chargé de projets Sustainability F/H en apprentissage',\
              'Test Engineer', 'Projektleitung Seiltechnik', 'Säljare till Skaraborgsområdet', 'Medewerker Cursuscoördinatie',\
              'Chef de Projet Réhabilitation', 'Chargé de Projets Écologue H/F (56)', 'Product Manager', 'Composiet medewerker',\
              'Sales Specialist', 'Chef de Projet Data F/H', 'Gestor/a Aprovisionamiento - Valladolid', 'Data Entry',\
              'Head of Analytics', '360 Data Product Owner', 'DevOps Engineer', 'Lead Tech et DATA VIZ (H/F)',\
              'Chargé de projet validation stérilisation', 'Front-end Developer', 'Global HRIS Specialist', 'Junior Project Manager',\
              '(Junior) Project Coordinator', 'Chef.fe de Projet Data et BI F/H', 'Sviluppatore front-end',\
              'Aftersales Reporting Specialist', 'Tender Office Specialist', 'Solution Owner', 'QE Manager', 'JUNIOR PROJECT MANAGER']

In [9]:
#создаём функцию для определения ненужных вакансий
def del_v(row):
    for i in vac_to_del:
        if row['title'].find(i) >= 0: return 'на удаление'

In [10]:
#создаём столбец, чтобы пометить лишние вакансии
df['vac_del'] =  df.apply(del_v, axis=1)

In [11]:
#проверяем, что получилось
df.query('vac_del == "на удаление"')

Unnamed: 0,title,location,country,employment_type,company_name,employee_qty,company_field,skills,job_description,applicants,vac_del
70,Data & Analytics Senior Analyst,Greater Palma de Mallorca Metropolitan Area,Greater Palma de Mallorca Metropolitan Area,Hybrid,Hotelbeds,"1,001-5,000 employees","Leisure, Travel & Tourism","<span class=""visually-hidden""><!-- -->Skills: ...",Hotelbeds is the ...,28.0,на удаление
123,Senior Data Analyst,Greater Barcelona Metropolitan Area,Greater Barcelona Metropolitan Area,Hybrid,MANGO,"10,001+ employees",Retail Apparel and Fashion,"<span class=""visually-hidden""><!-- -->Skills: ...",Buscamos un/a Dat...,197.0,на удаление
128,Senior Data Analyst,Brussels,Belgium,Hybrid,g2 Recruitment,201-500 employees,Staffing and Recruiting,"<span class=""visually-hidden""><!-- -->Skills: ...",Exciting client b...,84.0,на удаление
218,Senior Data Analyst,Greater Paris Metropolitan Region,Greater Paris Metropolitan Region,Hybrid,InVivo Digital Factory,51-200 employees,IT Services and IT Consulting,"<span class=""visually-hidden""><!-- -->Skills: ...",InVivo Digital Fa...,138.0,на удаление
250,Senior Data Analyst (f/m/d) - onsite or remote...,Germany,Germany,Remote,1&1 Mail & Media Applications SE - GMX | WEB.D...,"501-1,000 employees","Technology, Information and Internet",,Your tasks: Da...,175.0,на удаление
...,...,...,...,...,...,...,...,...,...,...,...
935,Tender Office Specialist,Genoa,Italy,Hybrid,Esaote,"1,001-5,000 employees",Medical Equipment Manufacturing,"<span class=""visually-hidden""><!-- -->Skills: ...","Esaote, azienda l...",75.0,на удаление
942,"Solution Owner, Enterprise Solutions, IKEA Ind...",Malmö,Sweden,On-site,IKEA,"10,001+ employees",Retail,,"IKEA Industry, pa...",13.0,на удаление
943,QE Manager,Warsaw,Poland,Hybrid,Paramount,"10,001+ employees",Entertainment Providers,"<span class=""visually-hidden""><!-- -->Skills: ...",Paramount is a ...,20.0,на удаление
962,JUNIOR PROJECT MANAGER,Recanati,Italy,On-site,Blupura,51-200 employees,Food and Beverage Services,"<span class=""visually-hidden""><!-- -->Skills: ...","Blupura, a Cullig...",130.0,на удаление


In [12]:
#исключаем лишние строки
df = df.query('vac_del != "на удаление"')
#удаляем столбец vac_del
df = df.drop (columns='vac_del', axis= 1)
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 936 entries, 0 to 997
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   title            936 non-null    object
 1   location         936 non-null    object
 2   country          936 non-null    object
 3   employment_type  936 non-null    object
 4   company_name     936 non-null    object
 5   employee_qty     936 non-null    object
 6   company_field    936 non-null    object
 7   skills           936 non-null    object
 8   job_description  936 non-null    object
 9   applicants       936 non-null    object
dtypes: object(10)
memory usage: 80.4+ KB


In [13]:
#смотрим города
sorted(df['location'])

["'s-Hertogenbosch",
 'Aalborg',
 'Ahlen',
 'Aix-en-Provence',
 'Alsónémedi',
 'Amersfoort',
 'Amersfoort',
 'Amersfoort',
 'Amersfoort',
 'Amstelveen',
 'Amsterdam',
 'Amsterdam',
 'Amsterdam',
 'Amsterdam',
 'Amsterdam',
 'Amsterdam',
 'Amsterdam',
 'Amsterdam',
 'Amsterdam',
 'Amsterdam',
 'Amsterdam',
 'Amsterdam',
 'Amsterdam',
 'Amsterdam',
 'Amsterdam',
 'Amsterdam',
 'Amsterdam',
 'Amsterdam',
 'Amsterdam',
 'Amsterdam Area',
 'Amsterdam Area',
 'Ancona',
 'Arcole',
 'Arconate',
 'Arluno',
 'Arluno',
 'Arnhem',
 'Arrasate / Mondragón',
 'Athens',
 'Athens',
 'Athens',
 'Athens',
 'Athens',
 'Athens',
 'Athens',
 'Athens Metropolitan Area',
 'Athens Metropolitan Area',
 'Augusta',
 'Baierbrunn',
 'Barcelona',
 'Barcelona',
 'Barcelona',
 'Barcelona',
 'Barcelona',
 'Barcelona',
 'Barcelona',
 'Barcelona',
 'Bari',
 'Basel',
 'Basingstoke',
 'Bath',
 'Bath',
 'Belas',
 'Belfast',
 'Bellinzago Lombardo',
 'Bergamo',
 'Bergen op Zoom',
 'Bergisch Gladbach',
 'Berlin',
 'Berlin',
 '

В списке городов встречаются названия регионов, а также названия стран. Восстановить данные не представляется возможным, но это не является критичным, потому что названия городов не нужны нам для построения дашборда.

In [14]:
#смотрим страны
df['country'].unique()

array([' Switzerland', ' United Kingdom', ' France', ' Netherlands',
       ' Ireland', ' Poland', ' Hungary', ' Greece', 'Italy', ' Sweden',
       ' Lithuania', ' Belgium', ' Italy', ' Luxembourg', ' Germany',
       'Brussels Metropolitan Area', 'Portugal',
       'Greater Paris Metropolitan Region', 'France', 'Bulgaria',
       ' Spain', 'Hungary', ' Czechia', 'Warsaw Metropolitan Area',
       'Wroclaw Metropolitan Area', 'Poland', ' Portugal', ' Latvia',
       ' Estonia', ' Malta', ' Austria', 'Iasi Metropolitan Area',
       'Cologne Bonn Region', 'Greater Munster Area',
       'Greater Banska Bystrica Area',
       'Greater Nuremberg Metropolitan Area', ' Norway',
       'Berlin Metropolitan Area', ' Denmark', ' Finland', ' Romania',
       'Greater Barcelona Metropolitan Area', 'Germany',
       'Rotterdam and The Hague', 'Prague Metropolitan Area', 'Denmark',
       ' Bulgaria', 'Greater Pau Area', ' Monaco',
       'Lisbon Metropolitan Area', 'Athens Metropolitan Area',
   

В начале некоторых названий присутствуют лишние пробелы, а также вместо стран указаны города и регионы. Проведём замены.

In [15]:
#удаляем пробелы
df['country'] = df['country'].str.strip()

In [16]:
#готовим список, что на что будем менять
wrong_c = ['Brussels Metropolitan Area', 'Greater Paris Metropolitan Region', 'Warsaw Metropolitan Area', 'Wroclaw Metropolitan Area',\
          'Iasi Metropolitan Area', 'Cologne Bonn Region', 'Greater Munster Area','Greater Banska Bystrica Area',\
          'Greater Nuremberg Metropolitan Area', 'Berlin Metropolitan Area', 'Greater Barcelona Metropolitan Area',\
          'Rotterdam and The Hague', 'Prague Metropolitan Area', 'Greater Pau Area', 'Lisbon Metropolitan Area',\
          'Athens Metropolitan Area', 'Greater Lyon Area', 'Greater Milan Metropolitan Area', 'Stuttgart Region',\
          'Amsterdam Area', 'Greater Oslo Region', 'Eindhoven Area','Greater Munich Metropolitan Area',\
          'Greater Madrid Metropolitan Area', 'Krakow Metropolitan Area', 'Greater Palma de Mallorca Metropolitan Area',\
          'Greater Verona Metropolitan Area', 'Copenhagen Metropolitan Area']
right_c = ['Belgium', 'France', 'Poland', 'Poland', 'Romania', 'Germany', 'Germany','Slovakia',\
          'Germany', 'Germany', 'Spain', 'Netherlands', 'Czechia', 'France', 'Portugal',\
          'Greece', 'France', 'Italy', 'Germany', 'Netherlands', 'Norway', 'Netherlands', 'Germany',\
          'Spain', 'Poland', 'Spain', 'Italy', 'Denmark']

In [17]:
#делаем замены
df['country'] = df['country'].replace(wrong_c, right_c)

In [18]:
#смотрим типы трудоустройства
df['employment_type'].value_counts()

Hybrid           454
On-site          320
Remote            97
not specified     65
Name: employment_type, dtype: int64

Примерно в 7% вакансий отсутствует информация по поводу типа занятости. Можно попробовать восстановить эту информацию из описания вакансии, но успех этого мероприятия не гарантирован. Так как пропусков не очень много, оставим значения "not specified".

In [19]:
#смотрим названия компаний
df['company_name'].unique()

array(['PharmiWeb.Jobs: Global Life Science Jobs', 'Resolute Recruitment',
       'Mole Valley Farmers', 'FORFIRM', 'Butler, Bridge & May',
       'Maria Mallaband Care Group Ltd', 'Kelly Group', 'eXalt',
       'Blue Arrow', 'Mexa Solutions', 'Royal Schiphol Group',
       'networx | Recruitment Software & Services by IRIS',
       'Black Fox Solutions', 'tombola', 'Fives', 'Babcock',
       'Oscar Technology', "Burton's Biscuit Company", 'Getinge',
       'Neos-SDI', 'GLS', 'ARI', 'Axon Moore', 'LAMDA Development S.A.',
       'Nexi Digital', 'Storytel', 'funda', 'Havas Group Lithuania',
       'The Digital Dance Academy', 'Samsonite',
       'Randstad Technologies Italia', 'Truecaller', 'BCEE',
       'Credit Agricole Consumer Finance', 'LOOPING GROUP', 'Withub',
       'DS Smith', 'SPIN 360', 'Nexeo', 'Devoteam', 'Trooli',
       'Echo Analytics', 'Hubble_s', 'Ebiquity plc', 'Alteca',
       'GEDI Gruppo Editoriale', 'Royal Holloway, University of London',
       'Cheil Italia Srl'

Можно было бы попробовать как-то обработать список компаний, но для этого, скорее всего, пришлось бы перебирать весь список вручную. Опять же возникает вопрос, насколько это целесообразно. Обработку этого столбца производите не будем.

Посмотрим размер компании (количество сотрудников).

In [20]:
df['employee_qty'].unique()

array(['11-50 employees', 'not specified', '501-1,000 employees',
       '1,001-5,000 employees', '51-200 employees', '10,001+ employees',
       '1-10 employees', '201-500 employees', '5,001-10,000 employees',
       'Retail Apparel and Fashion',
       'See how you compare to 9 applicants. Try Premium for free',
       'Svein Grande is hiring for this job',
       'See how you compare to 19 applicants. Try Premium for free',
       'See how you compare to 22 applicants. Try Premium for free',
       'See how you compare to 13 applicants. Try Premium for free',
       'See recent hiring trends for Devonshire Hayes Recruitment Specialists Ltd. Try Premium for free',
       'See how you compare to 10 applicants. Try Premium for free',
       'See how you compare to 4 applicants. Try Premium for free'],
      dtype=object)

In [21]:
df.loc[df['employee_qty'] == 'Retail Apparel and Fashion']

Unnamed: 0,title,location,country,employment_type,company_name,employee_qty,company_field,skills,job_description,applicants
220,Sales & Business Analyst,Hamburg,Germany,Hybrid,Movado Group Deutschland G.m.b.H.,Retail Apparel and Fashion,Retail Apparel and Fashion,"<span class=""visually-hidden""><!-- -->Skills: ...",Movado Group Deut...,92.0


Во время парсинга в столбец с данными о размере компании попали данные о сфере компании, предложение о сравнении себя с другими кандидатами и информация по поводу рекрутёра. Заменим такие значения на not specified.

In [22]:
#создаём список ключевых фраз, по которым будем искать данные для замены
wrong_empl_q = ['Retail Apparel and Fashion', 'See how you compare to 9 applicants. Try Premium for free',\
                'Svein Grande is hiring for this job', 'See how you compare to 19 applicants. Try Premium for free',\
                'See how you compare to 22 applicants. Try Premium for free',\
                'See how you compare to 13 applicants. Try Premium for free',\
                'See recent hiring trends for Devonshire Hayes Recruitment Specialists Ltd. Try Premium for free',\
                'See how you compare to 10 applicants. Try Premium for free',\
                'See how you compare to 4 applicants. Try Premium for free']

In [23]:
#меняем ошибочную информацию на not specified
df['employee_qty'] = df['employee_qty'].replace(wrong_empl_q, 'not specified')

In [24]:
#смотрим сферу деятельности
df['company_field'].unique()

array(['Staffing and Recruiting', 'not specified',
       'IT Services and IT Consulting', 'Airlines and Aviation',
       'Medical Equipment Manufacturing',
       'Information Technology & Services',
       'Transportation, Logistics, Supply Chain and Storage',
       'Real Estate', 'Financial Services', 'Entertainment Providers',
       'Software Development', '51-200 employees',
       'Technology, Information and Internet', 'Manufacturing',
       'Human Resources', 'Banking', 'Advertising Services',
       'Public Relations and Communications Services',
       'Packaging and Containers Manufacturing', '11-50 employees',
       'Telecommunications', 'Newspaper Publishing', 'Higher Education',
       'Internet Marketplace Platforms', 'Retail', 'Insurance',
       'Human Resources Services', 'Motor Vehicle Manufacturing',
       'Personal Care Product Manufacturing', 'Utilities',
       'International Trade and Development', 'Information Services',
       'Computer Games', 'Retail H

Вероятно, не для всех компаний заполнена сфера деятельности, поэтому во время парсинга в этот столбец выгрузились некорректные данные: размер компании, предложение о сравнение с другими кандидатами, имя рекрутёра. Для таких строк поставим значение-заглушку.

In [25]:
df.loc[(df['company_field'].str.find('employees') > 0) | (df['company_field'].str.find('Try Premium for free') > 0) | (df['company_field'].str.find('Romain GUIHENEUF') > 0)]

Unnamed: 0,title,location,country,employment_type,company_name,employee_qty,company_field,skills,job_description,applicants
34,Data Analyst,Vilnius,Lithuania,Hybrid,Havas Group Lithuania,51-200 employees,51-200 employees,"<span class=""visually-hidden""><!-- -->Skills: ...",What You Will Do...,98.0
44,Data Analyst,Milan,Italy,Hybrid,SPIN 360,11-50 employees,11-50 employees,"<span class=""visually-hidden""><!-- -->Skills: ...",About the Compan...,196.0
49,Data Analyst,France,France,Remote,Hubble_s,11-50 employees,11-50 employees,"<span class=""visually-hidden""><!-- -->Skills: ...",Data Analyst - I...,not specified
58,Consultor BI,Barcelona,Spain,Hybrid,Konozca Consulting,11-50 employees,11-50 employees,"<span class=""visually-hidden""><!-- -->Skills: ...",Konozca crece y...,86.0
61,Data Analyst,Hungary,Hungary,Remote,Peroptyx,11-50 employees,11-50 employees,"<span class=""visually-hidden""><!-- -->Skills: ...",For thousands of ...,177.0
137,Data analyst,Bordeaux,France,Hybrid,RH Partners,51-200 employees,51-200 employees,"<span class=""visually-hidden""><!-- -->Skills: ...",Notre client est ...,not specified
258,Data Analyst (m/w/d),Düsseldorf,Germany,On-site,Benchmark International,201-500 employees,201-500 employees,"<span class=""visually-hidden""><!-- -->Skills: ...",Über uns: Mit...,102.0
282,Data Governance analyst,Vilvoorde,Belgium,On-site,Streamz,201-500 employees,201-500 employees,"<span class=""visually-hidden""><!-- -->Skills: ...",Streamz is de Vla...,4.0
285,Data Analyst,Cambridge,United Kingdom,On-site,i-Jobs,not specified,See how you compare to 9 applicants. Try Premi...,,This job is...,9.0
355,Datový analytik/vývojář,Prague Metropolitan Area,Czechia,Hybrid,Direct technologies,51-200 employees,51-200 employees,"<span class=""visually-hidden""><!-- -->Skills: ...",Hledáme data ana...,4.0


In [26]:
#создаём список ключевых слов, по которым будем искать данные для замены
wrong_comp_f = ['employees', 'Try Premium for free', 'Romain GUIHENEUF']

In [27]:
#функция для определения некорректных позиций
def change_wrong_field(row):
    for i in wrong_comp_f:
        if row['company_field'].find(i) >= 0: return 'not specified'

In [28]:
#создаём новый столбец, чтобы внести в него информацию о некорректных значениях
df['company_field_ns'] =  df.apply(change_wrong_field, axis=1)

In [29]:
#вносим значения в столбец company_field вместо некорректных, удаляем стоблец company_field_ns
df.loc[df['company_field_ns'] == 'not specified', 'company_field'] = 'not specified'
df = df.drop(columns='company_field_ns', axis= 1)
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 936 entries, 0 to 997
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   title            936 non-null    object
 1   location         936 non-null    object
 2   country          936 non-null    object
 3   employment_type  936 non-null    object
 4   company_name     936 non-null    object
 5   employee_qty     936 non-null    object
 6   company_field    936 non-null    object
 7   skills           936 non-null    object
 8   job_description  936 non-null    object
 9   applicants       936 non-null    object
dtypes: object(10)
memory usage: 80.4+ KB


In [30]:
#делаем описание вакансии строго с маленькой буквы
df['job_description'] = df['job_description'].str.lower()

In [31]:
skills = (['datahub', 'api', 'github', 'google analytics', 'adobe analytics', 'ibm coremetrics', 'omniture', 'gitlab',\
           'erwin', 'hadoop', 'spark', 'hive', 'databricks', 'aws', 'gcp', 'azure','excel', 'redshift', 'bigquery',\
           'snowflake',  'hana', 'grafana', 'kantar', 'spss', 'a/b testing', 'ab testing', 'asana', 'basecamp',\
           'jira', 'dbeaver','trello', 'miro', 'salesforce', 'rapidminer', 'thoughtspot',  'power point',  'docker',\
           'jenkins','integrate.io', 'talend', 'apache nifi','aws glue','pentaho','google data flow',\
           'azure data factory','xplenty','skyvia','iri voracity','xtract.io','dataddo', 'ssis', 'hevo data',\
           'informatica','oracle data integrator','k2view','cdata sync','querysurge', 'rivery', 'dbconvert', 'alooma',\
           'stitch', 'fivetran', 'matillion','streamsets','blendo', 'iri voracity','logstash', 'etleap', 'singer',\
           'apache camel','actian', 'airflow', 'luidgi', 'datastage', 'python', 'vba', 'scala', ' r ', 'java script',\
           'julia', 'sql', 'matlab', 'java', 'html', 'c++', 'sas', 'data studio', 'tableau', 'looker', 'powerbi',\
           'cognos', 'microstrategy', 'spotfire', 'sap business objects','microsoft sql server',\
           'oracle business intelligence', 'yellowfin', 'webfocus','sas visual analytics', 'targit', 'izenda',\
           'sisense', 'statsbot', 'panorama', 'inetsoft', 'birst', 'domo', 'metabase', 'redash', 'power bi', 'alteryx',\
           'dataiku', 'qlik sense', 'qlikview'
          ])  

In [32]:
#функция для нахождения ключевого слова в описании вакансии
def set_skill(row):
        if row['job_description'].find(i) >= 0: return 1
        else: return 0

In [33]:
#для каждого ключевого слова создаём отдельный столбец
#если ключевое слово входит в описание вакансии, в столбце появится 1, если нет 0
for i in skills:
    df[i] =  df.apply(set_skill, axis=1)

In [34]:
df.head()

Unnamed: 0,title,location,country,employment_type,company_name,employee_qty,company_field,skills,job_description,applicants,...,inetsoft,birst,domo,metabase,redash,power bi,alteryx,dataiku,qlik sense,qlikview
0,Data Analyst,Basel,Switzerland,On-site,PharmiWeb.Jobs: Global Life Science Jobs,11-50 employees,Staffing and Recruiting,,what you will achi...,47.0,...,0,0,0,0,0,0,0,0,0,0
1,Data Analyst - Logistics,Coventry,United Kingdom,On-site,Resolute Recruitment,not specified,not specified,,,not specified,...,0,0,0,0,0,0,0,0,0,0
2,Data Analyst - Logistics,Coventry,United Kingdom,On-site,Resolute Recruitment,not specified,not specified,,data analyst - lo...,not specified,...,0,0,0,0,0,0,0,0,0,0
3,Data Analyst (Space & Planning),South Molton,United Kingdom,On-site,Mole Valley Farmers,not specified,not specified,,salary: to b...,not specified,...,0,0,0,0,0,0,0,0,0,0
4,Data Analyst,Lugano,Switzerland,On-site,FORFIRM,not specified,not specified,,forfirm is p...,not specified,...,0,0,0,0,0,1,0,0,0,0


In [35]:
#проверяем дубликаты
df.duplicated().sum()

112

In [36]:
#Удаляем дубликаты
df = df.drop_duplicates().reset_index(drop=True)
df.duplicated().sum()

0

In [37]:
#удаляем лишние столбцы, чтобы выгружаемый файл был менее тяжёлым
df = df.drop(columns=['skills', 'job_description'], axis= 1)

In [38]:
#выгружаем данные в Excel
df.to_excel('./linkedin_final.xlsx')

# Заключение

В рамках предобработки данных были заполнены пропуски, удалены лишние вакансии, скорректирована информация о странах, размерах компании, сферах деятельности, созданы отдельные столбцы с информацией о хард скилах, а также удалены дубликаты и лишние столбцы. Данные были подготовлены для построения дашборда и выгружены в Excel.

# Ссылка на дашборд

https://public.tableau.com/app/profile/alexander1348/viz/LinkedIn_16861500137010/Dashboard2#1