<a id="contents"></a>
__Анализ датасета зарплат в различных компаниях в 50 странах__

Блокнот ведется в формате: пояснения => код

Структура блокнота:

0. [Вывод первых 20 записей в датасете](#title_0) +
1. [Предварительная оценка данных](#title_1) +
2. [Вывод уникальных значений в столбцах и кол-во различных значений](#title_2) +
3. [Названия столбцов и выявление проблем с названиями](#title_3) + 
4. [Выявление пропусков и их устранение](#title_4) + 
5. [Проверка дубликатов и их устранение](#title_5)
6. [Проверка типов данных](#title_6)
7. Создание сводных таблиц:
    - [Средняя зарплата в долларах, в зависимости от опыта работы](#pivot_1)
    * [Количество сотрудников на должности, по уровню удаленной занятости](#pivot_2)
    * [Топ 5 наиболее популярных профессий для EN и MI должностей](#pivot_3)


In [1]:
import pandas as pd

Загрузка данных о зарплатах в переменную `df`:

In [2]:
dataset_path = '../2salary.csv'
df = pd.read_csv(dataset_path)

<a id="title_0"></a>
__Вывод первых 20 записей в датасете__

[Оглавление](#contents)

In [3]:
df.head(20)

Unnamed: 0.1,Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,0,2020,MI,FT,Data Scientist,70000.0,EUR,79833,DE,0,DE,L
1,1,2020,SE,FT,Machine Learning Scientist,260000.0,USD,260000,JP,0,JP,S
2,2,2020,SE,FT,Big Data Engineer,85000.0,GBP,109024,GB,50,GB,M
3,3,2020,MI,FT,Product Data Analyst,20000.0,USD,20000,HN,0,HN,S
4,4,2020,SE,FT,Machine Learning Engineer,150000.0,USD,150000,US,50,US,L
5,5,2020,EN,FT,Data Analyst,72000.0,USD,72000,US,100,US,L
6,6,2020,SE,FT,Lead Data Scientist,190000.0,USD,190000,US,100,US,S
7,7,2020,MI,FT,Data Scientist,11000000.0,HUF,35735,HU,50,HU,L
8,8,2020,MI,FT,Business Data Analyst,135000.0,USD,135000,US,100,US,L
9,9,2020,SE,FT,Lead Data Engineer,125000.0,USD,125000,NZ,50,NZ,S


<a id="title_1"></a>
__Предварительная оценка данных.__

   Датасет "Зарплаты" содержит 610 записей и 12 колонок

   По таблице ниже можно сказать, что столбцы salary (Зарплата) и salary_currency (Валюта заработной платы) содержат null значения (пропуски). 
   
   Столбцы work_year (Год работы) и salary_in_usd (Зарплата в долларах) имеют не соответствия в типах данных. Следует изменить их типы на date и float64, соответственно. Однако для столбца work_year это не критично, так как признак _work_year является категориальным_.
   
   Также столбец 'Unnamed: 0', явно отвечающий за индекс записи, следует переименовать в id или index.

   Описание колонок приведено ниже:

| Column             | Description |
|--------------------|-------------|
| 'Unnamed: 0'       |             |
| work_year          |             |
| experience_level   |             |
| employment_type    |             |
| job_title          |             |
| salary             |             |
| salary_currency    |             |
| salary_in_usd      |             |
| employee_residence |             |
| remote_ratio       |             |
| company_location   |             |
| company_size       |             |

[Оглавление](#contents)

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 610 entries, 0 to 609
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Unnamed: 0          610 non-null    int64  
 1   work_year           610 non-null    int64  
 2   experience_level    610 non-null    object 
 3   employment_type     610 non-null    object 
 4   job_title           610 non-null    object 
 5   salary              607 non-null    float64
 6   salary_currency     609 non-null    object 
 7   salary_in_usd       610 non-null    object 
 8   employee_residence  610 non-null    object 
 9   remote_ratio        610 non-null    int64  
 10  company_location    610 non-null    object 
 11  company_size        610 non-null    object 
dtypes: float64(1), int64(3), object(8)
memory usage: 57.3+ KB


<a id="title_2"></a>
__Вывод уникальных значений в столбцах и кол-во различных значений__

Для более глубокого анализа предметной области были исследованы возможные значения (почти) каждого столбца. 

Ниже представлена таблица, где указано: название столбца; количество уникальных значений; возможные значения. Подробнее со столбцами 'job_title', 'salary_currency', 'employee_residence', 'company_location' можно ознакомится, запустив код ниже.

| Column             | Count | Values |
|:-------------------|:------|:-------|
| work_year          | 3     | 2020, 2021, 2022|
| experience_level   | 4     | MI, SE, EN, EX  |
| employment_type    | 4     | FT, CT, PT, FL  |
| job_title          | 52    | Data Scientist,<br> Director of Data Science,<br>Cloud Data Engineer,<br>Big Data Architect,<br>NLP Engineer,<br> etc...|
| salary_currency    | 18    | EUR, USD, GBP, etc |
| employee_residence | 57    | DE, JP, US, RU, etc |
| remote_ratio       | 3     | 0, 50, 100 |
| company_location   | 50    | DE, JP, US, etc |
| company_size       | 3     | L, M, S |

Пояснения к сокращениям в таблице:

* __experience_level (Уровень опыта)__
    * _EN_ - Entry-level / Начинающий
    * _MI_ - Mid-level / Средний
    * _SE_ - Senior-level / Эксперт
    * _EX_ - Executive-level / Испольнителная должность
    
* __employment_type__
    * _PT_ - Part-time / Неполная занятость
    * _FT_ - Full-time / Полная занятость
    * _CT_ - Contract / Контракт
    * _FL_ - Freelance / Фриланс
    
* __salary_currency__
    * _Валютта в которой выплачивается зарплата в записи валютного кодового стандарта ISO 4217._
    
* __employee_residence & company_location__
    * _Основная страна проживания сотрудника в течение рабочего года в виде кода страны ISO 3166.._
    
* __remote_ratio__
    * _0_ - Отсутствие удаленной занятости (менее 20%)
    * _50_ - Неполная удаленная занятость
    * _100_ - Полная удаленная занятость (более 80%)

* __company_size__
    * _S_ - менее 50 сотрудников (small)
    * _M_ - от 50 до 250 сотрудников (medium)
    * _L_ - более 250 сотрудников (large)
    
    
[Оглавление](#contents)

In [5]:
df_interesting_cols = ['work_year', 'experience_level', 'employment_type', \
                       'job_title', 'salary_currency', 'employee_residence',\
                      'remote_ratio', 'company_location', 'company_size']
for column in df_interesting_cols:
    display(f"Unique '{column}': {len(df[column].unique())} | {df[column].unique()}")

"Unique 'work_year': 3 | [2020 2021 2022]"

"Unique 'experience_level': 4 | ['MI' 'SE' 'EN' 'EX']"

"Unique 'employment_type': 4 | ['FT' 'CT' 'PT' 'FL']"

"Unique 'job_title': 52 | ['Data Scientist' 'Machine Learning Scientist' 'Big Data Engineer'\n 'Product Data Analyst' 'Machine Learning Engineer' 'Data Analyst'\n 'Lead Data Scientist' 'Business Data Analyst' 'Lead Data Engineer'\n 'Lead Data Analyst' 'Data Engineer' 'Data Science Consultant'\n 'BI Data Analyst' 'Director of Data Science' 'Research Scientist'\n 'Machine Learning Manager' 'Data Engineering Manager'\n 'Machine Learning Infrastructure Engineer' 'ML Engineer' 'AI Scientist'\n 'Computer Vision Engineer' 'Principal Data Scientist'\n 'Data Science Manager' 'Head of Data' '3D Computer Vision Researcher'\n 'Data Analytics Engineer' 'Applied Data Scientist'\n 'Marketing Data Analyst' 'Cloud Data Engineer' 'Financial Data Analyst'\n 'Computer Vision Software Engineer' 'Director of Data Engineering'\n 'Data Science Engineer' 'Principal Data Engineer'\n 'Machine Learning Developer' 'Applied Machine Learning Scientist'\n 'Data Analytics Manager' 'Head of Data Science' 'Data Speciali

"Unique 'salary_currency': 18 | ['EUR' 'USD' 'GBP' 'HUF' 'INR' 'JPY' 'CNY' 'MXN' 'CAD' 'DKK' 'PLN' 'SGD'\n 'CLP' 'BRL' 'TRY' 'AUD' 'CHF' nan]"

"Unique 'employee_residence': 57 | ['DE' 'JP' 'GB' 'HN' 'US' 'HU' 'NZ' 'FR' 'IN' 'PK' 'PL' 'PT' 'CN' 'GR'\n 'AE' 'NL' 'MX' 'CA' 'AT' 'NG' 'PH' 'ES' 'DK' 'RU' 'IT' 'HR' 'BG' 'SG'\n 'BR' 'IQ' 'VN' 'BE' 'UA' 'MT' 'CL' 'RO' 'IR' 'CO' 'MD' 'KE' 'SI' 'HK'\n 'TR' 'RS' 'PR' 'LU' 'JE' 'CZ' 'AR' 'DZ' 'TN' 'MY' 'EE' 'AU' 'BO' 'IE'\n 'CH']"

"Unique 'remote_ratio': 3 | [  0  50 100]"

"Unique 'company_location': 50 | ['DE' 'JP' 'GB' 'HN' 'US' 'HU' 'NZ' 'FR' 'IN' 'PK' 'CN' 'GR' 'AE' 'NL'\n 'MX' 'CA' 'AT' 'NG' 'ES' 'PT' 'DK' 'IT' 'HR' 'LU' 'PL' 'SG' 'RO' 'IQ'\n 'BR' 'BE' 'UA' 'IL' 'RU' 'MT' 'CL' 'IR' 'CO' 'MD' 'KE' 'SI' 'CH' 'VN'\n 'AS' 'TR' 'CZ' 'DZ' 'EE' 'MY' 'AU' 'IE']"

"Unique 'company_size': 3 | ['L' 'S' 'M']"

<a id="title_3"></a>
__Названия столбцов и выявление проблем с названиями__

Все названия записаны корректно, отсутствуют имена переменных, записанные через пробелы. Однако столбец 'Unnamed' подлежит переименованию на 'index', так как не отражает своего назначения.

[Оглавление](#contents)

In [6]:
df = df.rename(columns={'Unnamed: 0': 'index'})

df.columns

Index(['index', 'work_year', 'experience_level', 'employment_type',
       'job_title', 'salary', 'salary_currency', 'salary_in_usd',
       'employee_residence', 'remote_ratio', 'company_location',
       'company_size'],
      dtype='object')

<a id="title_4"></a>
__Выявление пропусков и их устранение__

В строках с 'id' 574, 576 и 585 были обнаружены пропуски в столбце зарплаты (salary). Так как это один из главных столбцов датасета, то данные в строках не пригодны, так как не возможно востановить или заменить пропуски.

Также в строке с 'id' 580 обнаружен пропуск в столбце валюты в которой выплачивается зарплата. Однако видно, что зарплата в валюте совпадает с зарплатой в долларах. Значит пропущенное значение есть 'USD'.

[Оглавление](#contents)

In [7]:
nan_condition = df['salary'].isnull() | df['salary_currency'].isnull()

display('Датафрейм до обработки NaN значений:')
display(df[nan_condition])

df.at[580, 'salary_currency'] = 'USD'
df = df.dropna(subset=['salary'])

display('Датафрейм после обработки NaN значений:')
display(df[df['index'].isin([574, 576, 580, 585])])

'Датафрейм до обработки NaN значений:'

Unnamed: 0,index,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
574,574,2022,SE,FT,Data Scientist,,USD,210000,US,100,US,M
576,576,2022,SE,FT,Data Scientist,,USD,210000,US,100,US,M
580,580,2022,SE,FT,Data Analyst,126500.0,,126500,US,100,US,M
585,585,2022,SE,FT,Data Analyst,,USD,110925,US,100,US,M


'Датафрейм после обработки NaN значений:'

Unnamed: 0,index,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
580,580,2022,SE,FT,Data Analyst,126500.0,USD,126500,US,100,US,M


<a id="title_5"></a>
__Проверка дубликатов и их устранение__

Были найдены полные дубликаты последней записи ('id' = 606) на позициях с 607 по 609.

Основываясь на анализе уникальных значений предыдущего [раздела](#title_2), можно сказать, что неявные дубликаты отсутствуют.

[Оглавление](#contents)

In [8]:
display('Явные дубликаты:')
display(df[df.duplicated()])

df = df.drop_duplicates().drop(columns=['index']).reset_index()

display('После удаления дубликатов:')
df.tail(5)

'Явные дубликаты:'

Unnamed: 0,index,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
607,606,2022,MI,FT,AI Scientist,200000.0,USD,200000,IN,100,US,L
608,606,2022,MI,FT,AI Scientist,200000.0,USD,200000,IN,100,US,L
609,606,2022,MI,FT,AI Scientist,200000.0,USD,200000,IN,100,US,L


'После удаления дубликатов:'

Unnamed: 0,index,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
599,602,2022,SE,FT,Data Engineer,154000.0,USD,154000,US,100,US,M
600,603,2022,SE,FT,Data Engineer,126000.0,USD,126000,US,100,US,M
601,604,2022,SE,FT,Data Analyst,129000.0,USD,129000,US,0,US,M
602,605,2022,SE,FT,Data Analyst,150000.0,USD,150000,US,100,US,M
603,606,2022,MI,FT,AI Scientist,200000.0,USD,200000,IN,100,US,L


<a id="title_6"></a>
__Проверка типов данных__

Основываясь на результатах [предварительной оценки данных](#title_1) изменяем типы данных столбцов 'salary_in_usd' и 'work_year' на 'float64' и 'datetime', соответственно.

В результате перевода 'salary_in_usd' в 'float64' была найдена одна строка со значением 'd210000' на позиции 593. Были проверены все строки, начинающиеся с 'd' в столбце и зменены на соответствующие значения без 'd' в начале строки. 

Видимо 'd' - указание на то, что тип данных записи double, что есть float64.

[Оглавление](#contents)

In [23]:
df.at[593, 'salary_in_usd'] = '210000'

df['salary_in_usd'] = pd.to_numeric(df['salary_in_usd'])
df['work_year'] = pd.to_datetime(df['work_year'], format='%Y', errors='coerce')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 604 entries, 0 to 603
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   index               604 non-null    int64         
 1   work_year           604 non-null    datetime64[ns]
 2   experience_level    604 non-null    object        
 3   employment_type     604 non-null    object        
 4   job_title           604 non-null    object        
 5   salary              604 non-null    float64       
 6   salary_currency     604 non-null    object        
 7   salary_in_usd       604 non-null    int64         
 8   employee_residence  604 non-null    object        
 9   remote_ratio        604 non-null    int64         
 10  company_location    604 non-null    object        
 11  company_size        604 non-null    object        
dtypes: datetime64[ns](1), float64(1), int64(3), object(7)
memory usage: 56.8+ KB


<a id="title_7"></a>
__Создание сводных таблиц__

<a id="pivot_1"></a>_Сводная таблица 1._ Средняя зарплата в долларах, в зависимости от опыта работы

[Оглавление](#contents)

In [56]:
job_mean_by_experiance = df.pivot_table(index=['job_title', 'experience_level'],
                                       values=['salary_in_usd'],
                                       aggfunc='mean').round(2)
display(job_mean_by_experiance.head(20))

Unnamed: 0_level_0,Unnamed: 1_level_0,salary_in_usd
job_title,experience_level,Unnamed: 2_level_1
3D Computer Vision Researcher,MI,5409.0
AI Scientist,EN,21987.25
AI Scientist,MI,160000.0
AI Scientist,SE,55000.0
Analytics Engineer,EX,155000.0
Analytics Engineer,SE,195000.0
Applied Data Scientist,EN,110037.0
Applied Data Scientist,MI,105619.0
Applied Data Scientist,SE,278500.0
Applied Machine Learning Scientist,EN,31875.0


<a id="pivot_2"></a>_Сводная таблица 2._ Количество сотрудников на должности, по уровню удаленной занятости

[Оглавление](#contents)

In [None]:

job_count_remote_ratio = df.pivot_table(index=['job_title'],
                                        values=['index'],
                                       columns=['remote_ratio'],
                                       aggfunc='count')
display(job_count_remote_ratio.head(10))

<a id="pivot_3"></a>_Сводная таблица 3._ Топ 5 наиболее популярных профессий для EN и MI должностей

[Оглавление](#contents)

In [None]:
en_mi_condition = (df['experience_level'] == 'EN') | (df['experience_level'] == 'MI')
most_popular_job = df[en_mi_condition].pivot_table(index=['job_title'],
                                                values=['index'],
                                                 aggfunc='count')
display(most_popular_job.sort_values(by='index', ascending=False).head(5))