ВВЕДЕНИЕ
Цель работы: осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.
	Вариант 1: 
Набор данных salary.csv
Задание 1: Группировка - “work_yearˮ и количество компаний каждого размера. Создать датафрейм. Переименовать столбец с количеством в “сountˮ. Отсортировать по убыванию столбца “countˮ.
Задание 2: Группировка - “work_yearˮ и количество компаний каждого размера. Результат должен быть выведен в необходимом формате.
Задание 3: Сводная таблица (pivot_table) - средняя зарплата в usd по должностям (ˮjob_titleˮ). Отсортировать по убыванию. Округлить до двух знаков после запятой. Переименовать столбец “salary_in_usdˮ в “зарплатаˮ.
Задание 4: Сводная таблица (pivot_table) - средняя зарплата в usd по должностям (ˮjob_titleˮ) - строки, и по годам - столбцы. Отсортировать по возрастанию названия должности (ˮjob_titleˮ).
Индивидуальное задание: Создать таблицу с топ 5 вакансий по зарплате, добавить столбцы по зарплате(по категориям), а также по максимальой зарплате

In [2]:
import pandas as pd
import numpy as np

В начале был прочитан csv файл с заданием и бегло осмотрены данные с помощью функций head() и describe().

In [3]:
df_salary = pd.read_csv('salary.csv',sep=';', index_col=False)
df_salary.head(20)

Unnamed: 0,work_year,employment_type,job_title,salary,salary_in_usd,employee_residence,company_location,company_size
0,2020.0,FT,Data SCIENTIST,70000.0,79833.0,DE,DE,L
1,2020.0,FT,Product Data Analyst,20000.0,20000.0,HN,HN,S
2,2020.0,FT,Data Analyst,72000.0,72000.0,US,US,L
3,2020.0,FT,Data Scientist,11000000.0,35735.0,HU,HU,L
4,2020.0,FT,Data Scientist,45000.0,51321.0,FR,FR,S
5,2020.0,FT,Data Scientist,3000000.0,40481.0,IN,IN,L
6,2020.0,FT,Data Scientist,35000.0,39916.0,FR,FR,M
7,2020.0,FT,Data Analyst,85000.0,85000.0,US,US,L
8,2020.0,FT,Data Analyst,8000.0,8000.0,PK,PK,Large
9,2020.0,FT,Data Engineer,4450000.0,41689.0,JP,JP,S


In [4]:
df_salary.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 401 entries, 0 to 400
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   work_year           401 non-null    float64
 1   employment_type     401 non-null    object 
 2   job_title           401 non-null    object 
 3   salary              398 non-null    float64
 4   salary_in_usd       401 non-null    float64
 5   employee_residence  401 non-null    object 
 6   company_location    401 non-null    object 
 7   company_size        401 non-null    object 
dtypes: float64(3), object(5)
memory usage: 25.2+ KB


Можно сказать, что пропуски есть только в столбце salary, где указана зарплата в местной валюте. Но это возоможно исправить, ведь с помощью столбец salary_in_usd и company location можно получить зарплату в местной валюте.
Также, можно сказать, что в датафрейме нет ошибок в названии столбцов, но есть ошибка в формате данных: work_year лучше заменить на int.

In [5]:
df_salary[df_salary.isnull().any(axis=1)]

Unnamed: 0,work_year,employment_type,job_title,salary,salary_in_usd,employee_residence,company_location,company_size
369,2022.0,FT,Data Scientist,,210000.0,US,US,M
371,2022.0,FT,Data Scientist,,210000.0,US,US,M
380,2022.0,FT,Data Analyst,,110925.0,US,US,M


У работников,  не указанной зарплатой в местной валюте место работы - Америка, то есть они получают зарплату в долларах, а значит можно смело подставлять для этих строчек значения из salary_in_usd.

In [6]:
df_salary['salary'] = df_salary['salary'].fillna(df_salary['salary_in_usd'])

In [7]:
df_salary.iloc[369]

work_year                     2022.0
employment_type                   FT
job_title             Data Scientist
salary                      210000.0
salary_in_usd               210000.0
employee_residence                US
company_location                  US
company_size                       M
Name: 369, dtype: object

Далее был исправлен тип данных в столбце work_year на int. с помощью функции astype.

In [8]:
df_salary['work_year'] = df_salary['work_year'].astype('int32')

Далее была произведена проверка данных на неявные дубликаты в столбце job_title. С помощью группироквки и функции count().

In [9]:
df_salary.groupby(['job_title'])['job_title'].count()

job_title
Data Analyst                   98
Data Analytics Engineer         4
Data Analytics Lead             1
Data Analytics Manager          7
Data AnalyticsManager           1
Data Engineer                 132
Data SCIENTIST                  1
Data Science Engineer           3
Data Scientist                140
DataScientist                   2
Head of Data Science            4
Head of Machine Learning        1
Machine Learning Developer      3
Machine Learning Manager        1
NLP Engineer                    1
Product Data Analyst            2
Name: job_title, dtype: int64

Неявные дубликаты: Data SCIENTIST и Data AnalyticsManager. Далее они были заменены с помощью функции replace().

In [10]:
df_salary = df_salary.replace('Data AnalyticsManager', 'Data Analytics Manager')
df_salary = df_salary.replace(dict.fromkeys(['Data SCIENTIST', 'DataScientist'], 'Data Scientist'))
df_salary.groupby(['job_title'])['job_title'].count()

job_title
Data Analyst                   98
Data Analytics Engineer         4
Data Analytics Lead             1
Data Analytics Manager          8
Data Engineer                 132
Data Science Engineer           3
Data Scientist                143
Head of Data Science            4
Head of Machine Learning        1
Machine Learning Developer      3
Machine Learning Manager        1
NLP Engineer                    1
Product Data Analyst            2
Name: job_title, dtype: int64

Далее была проведена проверка и исправление данных на неявные дубликаты в столбце company_size.

In [11]:
df_salary.groupby(['company_size']).count()

Unnamed: 0_level_0,work_year,employment_type,job_title,salary,salary_in_usd,employee_residence,company_location
company_size,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
L,105,105,105,105,105,105,105
Large,1,1,1,1,1,1,1
M,257,257,257,257,257,257,257
S,38,38,38,38,38,38,38


In [12]:
df_salary['company_size'] = df_salary['company_size'].replace(to_replace='Large', value='L')

Далее были удалены явные дубликаты из данных с помощью функции drop_duplicates(), удаляющей одинаковые строи из датафрейма.

In [13]:
df_salary = df_salary.drop_duplicates()

1.Группировка - “work_yearˮ и количество компаний каждого размера. Создать датафрейм. Переименовать столбец с количеством в “сountˮ. Отсортировать по убыванию столбца “count"

In [14]:
df_regroup = df_salary.groupby(['company_size', 'work_year'])['company_size'].count().sort_values(ascending=False)
df_regroup.to_frame('count').reset_index()

Unnamed: 0,company_size,work_year,count
0,M,2022,171
1,L,2021,55
2,M,2021,30
3,L,2022,23
4,L,2020,22
5,S,2021,18
6,S,2020,15
7,M,2020,5
8,S,2022,4


Из таблицы можно сделать вывод, что в 2022 году было собрано очень большое количество данных по компаниям среднего размера: 171 строчка! А в 2020 году для компаний среднего размера было собрано всего 5 строчек.

2. Группировка - “work_yearˮ и количество компаний каждого размера. Результат должен быть выведен в следующем формате.

In [15]:
df_regroup = df_salary.groupby(['work_year', 'company_size'])['salary_in_usd'].mean()
df_regroup

work_year  company_size
2020       L                93236.090909
           M                93168.400000
           S                48008.933333
2021       L                87195.327273
           M                68599.900000
           S                62857.444444
2022       L               130151.260870
           M               119531.795322
           S                47750.000000
Name: salary_in_usd, dtype: float64

Исходя из таблицы можно сказать, что в больших компаниях предлагают большую зарплату за все представленные года. Далее идут средние и маленькие компании. Также можно сказать, что за отрезок 2020-2022 год зарплата выросла ~на 20%

3. Сводная таблица (pivot_table) - средняя зарплата в usd по должностям (ˮjob_titleˮ). Отсортировать по убыванию. Округлить до двух знаков после запятой. Переименовать столбец “salary_in_usdˮ в “зарплатаˮ.

In [16]:
df_pivot = df_salary.pivot_table(index='job_title', values='salary_in_usd', aggfunc='mean').sort_values(by='salary_in_usd', ascending=False).round(2)
df_pivot = df_pivot.rename(columns={'salary_in_usd': 'зарплата'}).reset_index()
df_pivot

Unnamed: 0,job_title,зарплата
0,Data Analytics Lead,405000.0
1,Head of Data Science,146718.75
2,Data Analytics Manager,127134.29
3,Machine Learning Manager,117104.0
4,Data Engineer,109295.46
5,Data Scientist,101257.35
6,Machine Learning Developer,89395.5
7,Data Analyst,88597.23
8,Head of Machine Learning,79039.0
9,Data Science Engineer,75803.33


Данная сводная таблица позволяет увидеть среднюю зарплату по каждой должности. Можно сказать, что самую большую зарплату получают Data Analytics Lead, а самую маленькую - Product Data Analyst.

4. Сводная таблица (pivot_table) - средняя зарплата в usd по должностям (ˮjob_titleˮ) - строки, и по годам - столбцы. Отсортировать по возрастанию названия должности (ˮjob_titleˮ).

In [17]:
df_pivot2 = df_salary.pivot_table(index='job_title', columns='work_year', values='salary_in_usd', aggfunc='mean').sort_values(by='job_title', ascending=True)
df_pivot2 

work_year,2020,2021,2022
job_title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Data Analyst,45547.285714,79505.411765,97199.320755
Data Analytics Engineer,,79732.333333,20000.0
Data Analytics Lead,,,405000.0
Data Analytics Manager,,126666.666667,127485.0
Data Engineer,88162.0,79434.870968,125380.833333
Data Science Engineer,,83705.0,60000.0
Data Scientist,85970.52381,70215.772727,128910.672131
Head of Data Science,,97500.0,195937.5
Head of Machine Learning,,,79039.0
Machine Learning Developer,,100000.0,78791.0


Данная сводная таблица позволяет определить динамику зарплаты каждой должности от года к году. К сожалению, в выборке не хватает данных, чтобы иметь полную статистику по всем годам для всех профессий. Но мы можем сказать, что зарплата за отрезок 2020-2022 год у большинства профессий выросла.

Индивидуальное задание: Сводная таблица, где по строкам вакансии, по столбцам категория зарплаты, а на пересечении максимальная зарплата.

In [125]:
glue = {}
for title in df_salary['job_title'].unique():
    glue[title] = df_salary[df_salary['job_title'] == title]["salary_in_usd"].quantile([.33, .66, 1]).values
pd.DataFrame(glue).transpose().rename(columns={0: 'low',1: 'average',2: 'high'}).sort_values(by='high', ascending=False)

Unnamed: 0,low,average,high
Data Scientist,66185.5,120000.0,412000.0
Data Analytics Lead,405000.0,405000.0,405000.0
Data Engineer,76864.03,129527.5,324000.0
Head of Data Science,109750.0,166717.5,224000.0
Data Analyst,67160.0,106743.2,200000.0
Data Analytics Manager,119785.6,139200.0,150260.0
Data Science Engineer,53264.26,81510.72,127221.0
Machine Learning Manager,117104.0,117104.0,117104.0
Data Analytics Engineer,49700.0,78613.06,110000.0
Machine Learning Developer,85789.97,92788.94,100000.0


Как видно в таблице, самую большую зарплату имеют руководящие должности (Lead, Manager). При этом Data Analyst Lead имеет большой верхний потолок, превышающую зарпалту остальных профессий почти в 2 раза. А самую большую зарплату из неруководящих долностей имеет Data Engineer. В строках, где low, average и high зарплата совпадают, например Data Analytics Lead, обозначены должности, которые имеют только один элемент в выборке.

В ходе выполнения данной лабораторной работы были изучены методы чтения data frame из файла, анализа получившегося data frame, а также методы обработки data frame, включая методы для подготовки data frame для анализа, а именно удаление явных и не явных дубликатов. При помощи данных методов был обработан дата фрейм, содержащий сводку о выпущенных фильмах. В результате лабораторной работы были выявлены самые высокооцененные жанры фильмов из подборки, были созданы таблицы позволяющие наглядно оценить сколько фильмов какого жанра были выпущены в конкретном году, а также проследить тенденцию улучшения или ухудшения фильмов конкретного жанра от года к году.

В ходе работы была осуществлена загрузка csv файла, перевод его в dataframe. Были изучены методы для анализа и предварительной обработки данных в dataframe содержащего информацию о сотрудниках сферы данных. В ходе предобработки были устранены явные и неявные дубликаты, пропуски и другие проблемы в этих данных.
Далее был осуществлён анализ c помощью группировок и сводных таблиц. Была построена сводная таблица, позволяющая найти должности с самыми высокими зарплатами. Была построена таблица группировки, позволяющая обнаружить корреляцию между годом выплаты и зарплатой. Также была построна таблица группировки, позволяющая определить количество элементов в выборке в зависимости от года и размера компании.