<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Получение-данных" data-toc-modified-id="Получение-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Получение данных</a></span><ul class="toc-item"><li><span><a href="#Название-вакансии" data-toc-modified-id="Название-вакансии-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Название вакансии</a></span></li><li><span><a href="#Локация" data-toc-modified-id="Локация-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Локация</a></span></li><li><span><a href="#Режим-работы" data-toc-modified-id="Режим-работы-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Режим работы</a></span></li><li><span><a href="#Название-компании" data-toc-modified-id="Название-компании-1.4"><span class="toc-item-num">1.4&nbsp;&nbsp;</span>Название компании</a></span></li><li><span><a href="#Размер-компании-и-сфера-деятельности" data-toc-modified-id="Размер-компании-и-сфера-деятельности-1.5"><span class="toc-item-num">1.5&nbsp;&nbsp;</span>Размер компании и сфера деятельности</a></span></li><li><span><a href="#Хард-скиллы" data-toc-modified-id="Хард-скиллы-1.6"><span class="toc-item-num">1.6&nbsp;&nbsp;</span>Хард скиллы</a></span></li><li><span><a href="#Дата-публикации" data-toc-modified-id="Дата-публикации-1.7"><span class="toc-item-num">1.7&nbsp;&nbsp;</span>Дата публикации</a></span></li><li><span><a href="#Количество-кандидатов-на-вакансию" data-toc-modified-id="Количество-кандидатов-на-вакансию-1.8"><span class="toc-item-num">1.8&nbsp;&nbsp;</span>Количество кандидатов на вакансию</a></span></li></ul></li><li><span><a href="#Предобработка-данных" data-toc-modified-id="Предобработка-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Предобработка данных</a></span><ul class="toc-item"><li><span><a href="#Столбец-'title'" data-toc-modified-id="Столбец-'title'-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Столбец 'title'</a></span></li><li><span><a href="#Столбец-'location'" data-toc-modified-id="Столбец-'location'-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Столбец 'location'</a></span></li><li><span><a href="#Столбец-'type_of_employment'" data-toc-modified-id="Столбец-'type_of_employment'-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Столбец 'type_of_employment'</a></span></li><li><span><a href="#Столбец-company_size" data-toc-modified-id="Столбец-company_size-2.4"><span class="toc-item-num">2.4&nbsp;&nbsp;</span>Столбец company_size</a></span></li><li><span><a href="#Столбец-'date'" data-toc-modified-id="Столбец-'date'-2.5"><span class="toc-item-num">2.5&nbsp;&nbsp;</span>Столбец 'date'</a></span></li><li><span><a href="#Столбец-'applicants'" data-toc-modified-id="Столбец-'applicants'-2.6"><span class="toc-item-num">2.6&nbsp;&nbsp;</span>Столбец 'applicants'</a></span></li></ul></li><li><span><a href="#Выводы" data-toc-modified-id="Выводы-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Выводы</a></span></li></ul></div>

# Дашборд по вакансиям на позицию "Аналитик данных" в LinkedIn.

**Описание проекта:** У нас есть файл с сырыми спарсенными данными по всем вакансиям в LinkedIn в период с 01.09.2022 по 07.09.2022г. Необходимо визуализировать данные, чтобы было более ясное представление о рынке труда в Европе. 

**Цель проекта:** Построить дашборд в Tableau в соответствии с техническим заданием:<br>
- фильтры — по стране и по типу занятости<br>
- количество вакансий (абсолютные значения) – индикатор<br>
- количество вакансий по странам (относительные значения) — stack bar chart<br>
- количество вакансий по городам - map<br>
- тип занятости — pie chart<br>
- список нанимающих компаний с указанием количества вакансий, отсортированный в порядке убывания — heat map<br>
- ТОП 10 сфер деятельности компаний, которые нанимают аналитиков — barchart<br>
- размер компаний и количество вакансий — pie chart<br>
- хард скилы — barchart<br>

**План работы:**
1. Распарсить предоставленный csv файл с помощью BS 4<br>
2. Подготовить данные к визуализации:<br>
3. Визуализация данных<br>

In [1]:
import pandas as pd
from bs4 import BeautifulSoup
import numpy as np
from datetime import datetime, timedelta

In [2]:
df = pd.read_csv('linkedin_2022_09_07.csv')

## Получение данных

### Название вакансии

In [3]:
df['title'] = df['html'].apply(lambda x:  BeautifulSoup(x, 'lxml').find('h2').text.strip())

### Локация

In [4]:
df['location'] = df['html'].apply(lambda x:  BeautifulSoup(x, 'lxml').find('span', class_ = 'jobs-unified-top-card__bullet').text.strip()) 

### Режим работы

In [5]:
def get_type(elem):
    try:
        return BeautifulSoup(elem, 'lxml').find('span', class_ = 'jobs-unified-top-card__workplace-type').text.strip()
    except:
        return np.nan

In [6]:
df['type_of_employment'] = df['html'].apply(get_type)

### Название компании

In [7]:
df['company'] = df['html'].apply(lambda x:  BeautifulSoup(x, 'lxml').find('h2').text.strip())

In [8]:
def get_company_name(elem):
    try:
        return BeautifulSoup(elem, 'lxml').find('span', class_ = 'jobs-unified-top-card__company-name').text.strip()
    except:
        return np.nan

In [9]:
df['company'] = df['html'].apply(get_company_name)

### Размер компании и сфера деятельности

In [10]:
def get_size(elem):
    try:
        return BeautifulSoup(elem, 'lxml').find('li', class_='jobs-unified-top-card__job-insight')\
                                            .find('span').find_next().text.strip()
    except:
        return np.nan

In [11]:
df['company_size'] = df['html'].apply(get_size)

### Хард скиллы

In [12]:
skills = (['datahub', 'api', 'github', 'google analytics', 'adobe analytics', 'ibm coremetrics', 'omniture'
            'gitlab', 'erwin', 'hadoop', 'spark', 'hive'
           'databricks', 'aws', 'gcp', 'azure','excel',
            'redshift', 'bigquery', 'snowflake',  'hana'
            'grafana', 'kantar', 'spss', 
           'asana', 'basecamp', 'jira', 'dbeaver','trello', 'miro', 'salesforce', 
           'rapidminer', 'thoughtspot',  'power point',  'docker', 'jenkins','integrate.io', 'talend', 'apache nifi','aws glue','pentaho','google data flow',
             'azure data factory','xplenty','skyvia','iri voracity','xtract.io','dataddo', 'ssis',
             'hevo data','informatica','oracle data integrator','k2view','cdata sync','querysurge', 
             'rivery', 'dbconvert', 'alooma', 'stitch', 'fivetran', 'matillion','streamsets','blendo',
             'iri voracity','logstash', 'etleap', 'singer', 'apache camel','actian', 'airflow', 'luidgi', 'datastage',
           'python', 'vba', 'scala', ' r ', 'java script', 'julia', 'sql', 'matlab', 'java', 'html', 'c++', 'sas',
           'data studio', 'tableau', 'looker', 'powerbi', 'power bi', 'cognos', 'microstrategy', 'spotfire',
             'sap business objects','microsoft sql server', 'oracle business intelligence', 'yellowfin',
             'webfocus','sas visual analytics', 'targit', 'izenda',  'sisense', 'statsbot', 'panorama', 'inetsoft',
             'birst', 'domo', 'metabase', 'redash', 'power bi', 'alteryx', 'dataiku', 'qlik sense', 'qlikview'
          ]) 

In [13]:
df['description'] = df['html'].apply(lambda x: BeautifulSoup(x, 'lxml').find('div', {'id':'job-details'}).text.strip())

In [14]:
def get_skills(elem):
    list_skills = []
    for skill in skills:
        if skill in elem.lower():
            list_skills.append(skill)
    return list_skills

In [15]:
df['description'] = df['description'].apply(get_skills)

### Дата публикации

In [16]:
df['date'] = df['html'].apply(lambda x: BeautifulSoup(x, 'lxml').find('span', class_='jobs-unified-top-card__posted-date')\
                                                                  .text.strip())

### Количество кандидатов на вакансию

In [17]:
def get_candidates(elem):
    try:
        return BeautifulSoup(elem, 'lxml').find('span', class_='jobs-unified-top-card__subtitle-secondary-grouping t-black--light')\
                                        .find('span', class_='jobs-unified-top-card__applicant-count jobs-unified-top-card__applicant-count--low t-bold')\
                                        .text.strip()
    except:
        return np.nan

In [18]:
df['amount_of_applicants'] = df['html'].apply(get_candidates)

In [19]:
df.head()

Unnamed: 0.1,Unnamed: 0,html,title,location,type_of_employment,company,company_size,description,date,amount_of_applicants
0,0,"\n <div>\n <div class=""\n jobs-deta...",Stage - Assistant Ingénieur Qualité - Beyrand ...,"Limoges, Nouvelle-Aquitaine, France",On-site,Hermès,"10,001+ employees · Retail Luxury Goods and Je...","[api, excel]",13 minutes ago,
1,1,"\n <div>\n <div class=""\n jobs-deta...","développeur matlab/simulink, secteur automobil...","Toulouse, Occitanie, France",On-site,AUSY,"5,001-10,000 employees · IT Services and IT Co...",[matlab],4 days ago,6 applicants
2,2,"\n <div>\n <div class=""\n jobs-deta...",Online Data Analyst,"Skara, Vastra Gotaland County, Sweden",Remote,TELUS International AI Data Solutions,"10,001+ employees · IT Services and IT Consulting",[],6 days ago,12 applicants
3,3,"\n <div>\n <div class=""\n jobs-deta...",Online Data Analyst - Belgium,"West Flanders, Flemish Region, Belgium",Remote,TELUS International,"10,001+ employees · IT Services and IT Consulting",[],6 days ago,11 applicants
4,4,"\n <div>\n <div class=""\n jobs-deta...",Data Analyst,"Mecklenburg-West Pomerania, Germany",Remote,TELUS International AI Data Solutions,"10,001+ employees · IT Services and IT Consulting",[],8 hours ago,


## Предобработка данных

Удалим лишние и ненужные столбцы.

In [20]:
df = df.drop(['Unnamed: 0', 'html'], axis=1)

Получим общую информацию о данных.

In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 772 entries, 0 to 771
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   title                 772 non-null    object
 1   location              772 non-null    object
 2   type_of_employment    641 non-null    object
 3   company               772 non-null    object
 4   company_size          770 non-null    object
 5   description           772 non-null    object
 6   date                  772 non-null    object
 7   amount_of_applicants  350 non-null    object
dtypes: object(8)
memory usage: 48.4+ KB


### Столбец 'title'

Переведем названия должностей в нижний регистр.

In [22]:
df['title'] = df['title'].str.lower()

Оставим в таблице только интересующие нас должности data analyst и BI аналитика.

In [23]:
df = df[df['title'].str.contains('data analyst|bi ', regex=True)]

Осталась 261 вакансия.

### Столбец 'location'

In [24]:
df['location'].value_counts()

London, England, United Kingdom                18
Paris, Île-de-France, France                    7
Berlin, Berlin, Germany                         7
Manchester, England, United Kingdom             5
Boulogne-Billancourt, Île-de-France, France     5
                                               ..
Zurich, Switzerland                             1
Courbevoie, Île-de-France, France               1
Strand, England, United Kingdom                 1
Greater Milan Metropolitan Area                 1
Dublin, County Dublin, Ireland                  1
Name: location, Length: 174, dtype: int64

Выделим страну в отдельный столбец.

In [25]:
df['country'] = df['location'].apply(lambda x: x[x.rfind(',') + 1:].strip())

Аналогично выделим город в отдельный столбец.

In [26]:
df['city'] = df['location'].apply(lambda x: x[:x.rfind(',')].strip())

In [27]:
df['city'].value_counts()

London, England                        18
Paris, Île-de-France                    7
Berlin, Berlin                          7
Manchester, England                     5
Boulogne-Billancourt, Île-de-France     5
                                       ..
Zurich                                  1
Courbevoie, Île-de-France               1
Strand, England                         1
Greater Milan Metropolitan Are          1
Dublin, County Dublin                   1
Name: city, Length: 174, dtype: int64

In [28]:
df['city'] = df['city'].apply(lambda x: x[:x.rfind(',')].strip())

Заметим, что в большинстве случаев название города идет до первой запятой, поэтому повторно отсечем всё лишнее.

In [29]:
df['city'].value_counts()

London                           18
Paris                             7
Berlin                            7
Manchester                        5
Boulogne-Billancourt              5
                                 ..
Zuric                             1
Courbevoie                        1
Strand                            1
Greater Milan Metropolitan Ar     1
Dublin                            1
Name: city, Length: 174, dtype: int64

### Столбец 'type_of_employment'

In [30]:
df['type_of_employment'].value_counts()

On-site    111
Remote      77
Hybrid      24
Name: type_of_employment, dtype: int64

Лишних значений нет, но в этом столбце есть пропуски.

### Столбец company_size

In [31]:
df['company_size'].value_counts()

10,001+ employees · IT Services and IT Consulting                          63
201-500 employees · Staffing and Recruiting                                 8
501-1,000 employees · IT Services and IT Consulting                         8
1,001-5,000 employees · IT Services and IT Consulting                       8
51-200 employees · Staffing and Recruiting                                  5
                                                                           ..
£30,000/yr - £35,000/yr                                                     1
10,001+ employees · Construction                                            1
10,001+ employees · Information Services                                    1
1,001-5,000 employees · Retail Office Equipment                             1
10,001+ employees · Transportation, Logistics, Supply Chain and Storage     1
Name: company_size, Length: 123, dtype: int64

В этом столбце оказалось сразу два нужных нам параметра - сфера деятельности компании и размер. Напишем функцию, чтобы разделить эти значения по столбцам.

In [32]:
def get_field(elem):
    try:
        return elem[elem.find('yees') + 7:].strip()
    except:
        return None

In [33]:
df['field'] = df['company_size'].apply(get_field)

In [34]:
def get_size(elem):
    try:
        return elem[: elem.find('empl') - 1].strip()
    except:
        return None

In [35]:
df['company_size'] = df['company_size'].apply(get_size)

In [36]:
df['company_size'].value_counts()

10,001+                                                                                           104
1,001-5,000                                                                                        35
51-200                                                                                             23
501-1,000                                                                                          22
201-500                                                                                            20
5,001-10,000                                                                                       15
1-10                                                                                               15
11-50                                                                                              12
See recent hiring trends for www.TeamQuest.pl. Unlock more Premium insights for fr                  2
See recent hiring trends for Software * IT. Unlock more Premium insights for fr   

В некоторых строках у нас какая-то ненужная информация, уберем ее.

In [37]:
def clean_data(elem):
    if elem is None:
        return 'unknown'
    elif 'See' in elem or 'Serv' in elem or '/' in elem or 'Gove' in elem:
        return 'unknown'
    else:
        return elem

In [38]:
df['company_size'] = df['company_size'].apply(clean_data)

In [39]:
df['company_size'].value_counts()

10,001+         104
1,001-5,000      35
51-200           23
501-1,000        22
201-500          20
5,001-10,000     15
1-10             15
unknown          15
11-50            12
Name: company_size, dtype: int64

### Столбец 'date'

In [40]:
df['date'].value_counts()

1 day ago       61
6 days ago      60
5 days ago      45
2 days ago      29
8 hours ago     13
4 days ago      10
3 days ago       7
23 hours ago     7
2 hours ago      7
9 hours ago      4
21 hours ago     4
7 hours ago      4
19 hours ago     1
14 hours ago     1
3 hours ago      1
4 hours ago      1
16 hours ago     1
6 hours ago      1
18 hours ago     1
11 hours ago     1
1 week ago       1
10 hours ago     1
Name: date, dtype: int64

Переведем этот столбец в формат даты. Данные у нас на 07.09.2022. Отнимем количество дней, указанном в этом столбце, при этом если не прошло полного дня, ничего отнимать не будем.

In [41]:
def get_date(elem):
    if 'day' in elem:
        days = int(elem[:2].strip())
        return datetime(2022, 9, 7) - timedelta(days=days)
    elif 'week' in elem:
        days = int(elem[0]) * 7
        return datetime(2022, 9, 7) - timedelta(days=days)
    else:
        return datetime(2022, 9, 7)

In [42]:
df['date'] = df['date'].apply(get_date)

In [43]:
df['date'].value_counts()

2022-09-06    61
2022-09-01    60
2022-09-07    48
2022-09-02    45
2022-09-05    29
2022-09-03    10
2022-09-04     7
2022-08-31     1
Name: date, dtype: int64

### Столбец 'applicants'

In [44]:
df['amount_of_applicants'].value_counts()

11 applicants    11
3 applicants      9
2 applicants      9
6 applicants      8
5 applicants      8
12 applicants     8
7 applicants      8
14 applicants     7
1 applicant       7
9 applicants      7
13 applicants     5
22 applicants     5
10 applicants     4
18 applicants     3
15 applicants     3
17 applicants     3
20 applicants     3
4 applicants      3
16 applicants     2
8 applicants      2
21 applicants     2
23 applicants     2
19 applicants     1
24 applicants     1
Name: amount_of_applicants, dtype: int64

Уберем лишнее слово 'applicants' из этого столбца.

In [45]:
def get_applicants(elem):
    try:
        return int(elem[: elem.find('app') - 1].strip())
    except:
        return np.nan

In [46]:
df['amount_of_applicants'] = df['amount_of_applicants'].apply(get_applicants)

Посмотрим на итоговую таблицу

In [47]:
df.head()

Unnamed: 0,title,location,type_of_employment,company,company_size,description,date,amount_of_applicants,country,city,field
2,online data analyst,"Skara, Vastra Gotaland County, Sweden",Remote,TELUS International AI Data Solutions,"10,001+",[],2022-09-01,12.0,Sweden,Skara,IT Services and IT Consulting
3,online data analyst - belgium,"West Flanders, Flemish Region, Belgium",Remote,TELUS International,"10,001+",[],2022-09-01,11.0,Belgium,West Flanders,IT Services and IT Consulting
4,data analyst,"Mecklenburg-West Pomerania, Germany",Remote,TELUS International AI Data Solutions,"10,001+",[],2022-09-07,,Germany,Mecklenburg-West Pomerani,IT Services and IT Consulting
5,data analyst,"Hamburg, Germany",Remote,TELUS International AI Data Solutions,"10,001+",[],2022-09-07,,Germany,Hambur,IT Services and IT Consulting
6,alternant/ alternante data analyst m/f,"Rousset, Provence-Alpes-Côte d'Azur, France",On-site,STMicroelectronics,"10,001+","[excel, python, sql, java, html, powerbi, powe...",2022-09-02,,France,Rousset,Semiconductor Manufacturing


И вспомним, что столбец с хард скиллами надо бы разбить:)

In [48]:
df = df.explode('description')

In [49]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 818 entries, 2 to 693
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   title                 818 non-null    object        
 1   location              818 non-null    object        
 2   type_of_employment    614 non-null    object        
 3   company               818 non-null    object        
 4   company_size          818 non-null    object        
 5   description           742 non-null    object        
 6   date                  818 non-null    datetime64[ns]
 7   amount_of_applicants  314 non-null    float64       
 8   country               818 non-null    object        
 9   city                  818 non-null    object        
 10  field                 815 non-null    object        
dtypes: datetime64[ns](1), float64(1), object(9)
memory usage: 76.7+ KB


Заполним пропуски во всех столбцах словом 'unknown'

In [50]:
df = df.fillna('unknown')

Проверим на наличие явных дубликатов.

In [51]:
df.duplicated().sum()

59

Избавимся от них.

In [52]:
df = df.drop_duplicates()

In [53]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 759 entries, 2 to 693
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   title                 759 non-null    object        
 1   location              759 non-null    object        
 2   type_of_employment    759 non-null    object        
 3   company               759 non-null    object        
 4   company_size          759 non-null    object        
 5   description           759 non-null    object        
 6   date                  759 non-null    datetime64[ns]
 7   amount_of_applicants  759 non-null    object        
 8   country               759 non-null    object        
 9   city                  759 non-null    object        
 10  field                 759 non-null    object        
dtypes: datetime64[ns](1), object(10)
memory usage: 71.2+ KB


Теперь всё готово, можно экспортировать файл в табло и готовить дашборд.

In [54]:
df.to_csv('final_data.csv')

## Выводы

С помощью библиотеки BeautifulSoup сырые данные были распарсены, подготовлены и предобратаны. На их основе можно строить дашборд, в соответствии с техническим заданием.