## Цель работы
 Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.
## Вариант
Вариант 7.
Файл csv cодержит информацию о зарплатах: 
1. Год выплаты заработной платы (целое число) 
2. Тип работы (PT - Part-time, FT - Full-time, FL-Freelance) 
3. Должность 
4. Зарплата за год (целое число) 
5. Зарплата в долларах (целое число) 
6. Страна проживания 
7. Страна главного офиса 
8. Среднее кол-во людей в компании (S - менее 50 сотрудников (малая), M от 50 до 250 сотрудников (средняя), L - более 250 сотрудников (крупная))



## Ход работы

Выполняется подготовку к лабораторной работе. Так как Pandas не распознал разделитель в файле, то укажем его явно. После выведем 20 строк из файла для ознакомления с данными.

In [506]:
import pandas as pd
df = pd.read_csv('salary.csv', sep=';')

df.head(n=20)

Unnamed: 0,work_year,employment_type,job_title,salary,salary_in_usd,employee_residence,company_location,company_size
0,2020.0,FT,Data SCIENTIST,70000.0,79833.0,DE,DE,L
1,2020.0,FT,Product Data Analyst,20000.0,20000.0,HN,HN,S
2,2020.0,FT,Data Analyst,72000.0,72000.0,US,US,L
3,2020.0,FT,Data Scientist,11000000.0,35735.0,HU,HU,L
4,2020.0,FT,Data Scientist,45000.0,51321.0,FR,FR,S
5,2020.0,FT,Data Scientist,3000000.0,40481.0,IN,IN,L
6,2020.0,FT,Data Scientist,35000.0,39916.0,FR,FR,M
7,2020.0,FT,Data Analyst,85000.0,85000.0,US,US,L
8,2020.0,FT,Data Analyst,8000.0,8000.0,PK,PK,Large
9,2020.0,FT,Data Engineer,4450000.0,41689.0,JP,JP,S


Данные содержат информацию о зарплатах и работах и содержат поля: год работы, тип работы, название работы, зарплата в у.е. и в долларах, страну проживания работника, страну компании и размер компании. Посмотрим информацию о данных. 

In [507]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 401 entries, 0 to 400
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   work_year           401 non-null    float64
 1   employment_type     401 non-null    object 
 2   job_title           401 non-null    object 
 3   salary              398 non-null    float64
 4   salary_in_usd       401 non-null    float64
 5   employee_residence  401 non-null    object 
 6   company_location    401 non-null    object 
 7   company_size        401 non-null    object 
dtypes: float64(3), object(5)
memory usage: 25.2+ KB


Изменяется тип данных для полей work_year, salary_in_usd, salary на int, так как они являются целочисленными. 

In [508]:
df['salary'] = df['salary'].astype(int, errors='ignore')
df['work_year'] = df['work_year'].astype(int)
df['salary_in_usd'] = df['salary_in_usd'].astype(int)

Описываются числовые столбцы.

In [509]:
df.describe()

Unnamed: 0,work_year,salary,salary_in_usd
count,401.0,398.0,401.0
mean,2021.528678,288833.6,105895.017456
std,0.678086,1677081.0,58183.664171
min,2020.0,4000.0,2859.0
25%,2021.0,67000.0,65013.0
50%,2022.0,109140.0,100000.0
75%,2022.0,150000.0,140000.0
max,2022.0,30400000.0,412000.0


Данные корректны, но в столбце salary есть пропуски. Они заменяются на среднее. Заменить столбцы именно на среднее оптиимальнее всего так как в итоге это сильно не скажется на большинстве показателей, в отличие от замены на 0. Также, удалять данные не оптимально, так как уменьшится информации в других столбцах, что может потом навредить выводам.

In [510]:
df['salary'] = df['salary'].fillna(df['salary'].mean())

df['salary'] = df['salary']

df['salary'].describe()

count    4.010000e+02
mean     2.888336e+05
std      1.670780e+06
min      4.000000e+03
25%      6.700000e+04
50%      1.092800e+05
75%      1.500750e+05
max      3.040000e+07
Name: salary, dtype: float64

Проводится проверка данных:
1. Некорректные названия столбцов



In [511]:
df.columns

Index(['work_year', 'employment_type', 'job_title', 'salary', 'salary_in_usd',
       'employee_residence', 'company_location', 'company_size'],
      dtype='object')

Столбцы не содержат пробелов, написаны на одном языке и имеют нижний регистр.

2. Дубликаты в данных

In [512]:
print(df.duplicated().sum())

df.drop_duplicates().reset_index(drop=True)

55


Unnamed: 0,work_year,employment_type,job_title,salary,salary_in_usd,employee_residence,company_location,company_size
0,2020,FT,Data SCIENTIST,70000.0,79833,DE,DE,L
1,2020,FT,Product Data Analyst,20000.0,20000,HN,HN,S
2,2020,FT,Data Analyst,72000.0,72000,US,US,L
3,2020,FT,Data Scientist,11000000.0,35735,HU,HU,L
4,2020,FT,Data Scientist,45000.0,51321,FR,FR,S
...,...,...,...,...,...,...,...,...
341,2022,FT,Data Analyst,52000.0,52000,CA,CA,M
342,2022,FT,Data Engineer,154000.0,154000,US,US,M
343,2022,FT,Data Engineer,126000.0,126000,US,US,M
344,2022,FT,Data Analyst,129000.0,129000,US,US,M


Мы нашли 55 дубликатов в данных и удалили их.

Найдем неявные дубликаты в данных. Проверять зарплаты не будем, так как они могут сильно различаться.

In [513]:
print('work_year: ', df['work_year'].unique())
print('employment_type: ', df['employment_type'].unique())
print('job_title: ', df['job_title'].unique())
print('employee_residence: ', df['employee_residence'].unique())
print('company_location: ', df['company_location'].unique())
print('company_size: ', df['company_size'].unique())


work_year:  [2020 2021 2022]
employment_type:  ['FT' 'PT' 'FL']
job_title:  ['Data SCIENTIST' 'Product Data Analyst' 'Data Analyst' 'Data Scientist'
 'Data Engineer' 'Machine Learning Manager' 'Data Analytics Engineer'
 'Data Science Engineer' 'Machine Learning Developer'
 'Data Analytics Manager' 'Head of Data Science'
 'Head of Machine Learning' 'NLP Engineer' 'Data Analytics Lead'
 'DataScientist' 'Data AnalyticsManager']
employee_residence:  ['DE' 'HN' 'US' 'HU' 'FR' 'IN' 'PK' 'JP' 'GR' 'MX' 'CA' 'AT' 'NG' 'PH'
 'GB' 'ES' 'IT' 'PL' 'BG' 'NL' 'IQ' 'UA' 'SG' 'RU' 'MT' 'CL' 'RO' 'IR'
 'VN' 'BR' 'HK' 'TR' 'RS' 'AR' 'DZ' 'AU' 'CH']
company_location:  ['DE' 'HN' 'US' 'HU' 'FR' 'IN' 'PK' 'JP' 'GR' 'MX' 'CA' 'AT' 'NG' 'GB'
 'ES' 'IT' 'LU' 'PL' 'NL' 'IQ' 'UA' 'IL' 'RU' 'MT' 'CL' 'IR' 'BR' 'VN'
 'TR' 'DZ' 'MY' 'AU' 'CH']
company_size:  ['L' 'S' 'M' 'Large']


Некорректные данные, а именно данные с опечатками и с нарушенным регистром, заменяются на корректные.

In [514]:
df['job_title'] = df['job_title'].replace(['DataScientist', 'Data SCIENTIST'], 'Data Scientist')

df['job_title'] = df['job_title'].replace(['Data AnalyticsManager'], 'Data Analytics Manager')

df['job_title'].value_counts()

job_title
Data Scientist                143
Data Engineer                 132
Data Analyst                   98
Data Analytics Manager          8
Data Analytics Engineer         4
Head of Data Science            4
Data Science Engineer           3
Machine Learning Developer      3
Product Data Analyst            2
Machine Learning Manager        1
Head of Machine Learning        1
NLP Engineer                    1
Data Analytics Lead             1
Name: count, dtype: int64

Так же заменяются разные данные, обозначающие одно и то же, на одинаковые. 

In [515]:
df['company_size'] = df['company_size'].replace('Large', 'L')

df['company_size'].unique()

array(['L', 'S', 'M'], dtype=object)

Выполним задание 1 и 2:
Группировка - “employment_type” и количество компаний по каждой локации “company_location”. Создать датафрейм. Переименовать столбец с количеством в “сount”. Отсортировать по возрастанию столбца “count”.
Группировка - “employment_type” и кпо каждой локации “company_location”. Результат должен быть выведен в следующем формате (на скриншоте представлен фрагмент).

Для выполнения первого задания данные группируются с помощью .groupby, после чего по столбцу company_location считается количество значений. Переводим столбец в Dataframe с помощью reset_index, добавляя колонку count. После этого происходит сортировка по этой колонке с помощью sort_values.
Выводятся данные в виде первых 5 строк. 

In [516]:
employment_df = df.groupby(['employment_type', 'company_location'])['company_location'].count().reset_index(name='count')
employment_df = employment_df.sort_values(by='count', ascending=False)
employment_df.head()

Unnamed: 0,employment_type,company_location,count
30,FT,US,252
10,FT,GB,37
4,FT,CA,19
15,FT,IN,13
7,FT,DE,12


Из этих данных следует, что больше всего людей работают в США, а так же, что большинство людей работают Full-Time. В США Full-time работают 252 человека. После, по количеству работников в страннах, идут GB и CA с 37 и 19 людьми на Full-time соответственно.

Для вывода в заданном формате, изменим создание таблицы, убрав перенос Series в Dataframe с помощью reset_index.

In [517]:
employment_df = df.groupby(['employment_type', 'company_location'])['company_location'].count()
employment_df.head()

employment_type  company_location
FL               US                   2
FT               AT                   3
                 AU                   1
                 BR                   1
                 CA                  19
Name: company_location, dtype: int64

Эти данные являются неотсортированной частью данных первого задания, так что выводы по ним сделать сложнее. Из этих данных можно сделать вывод, что довольно мало людей работают на Freelance, и что на Freelance работают только в США.

Теперь выполним задание 3 и 4:
Сводная таблица (pivot_table) - средняя зарплата по годам (”work_year”). Отсортировать по убыванию зп. Округлить до трёх знаков после запятой. Переименовать столбец “salary” в “зарплата”.
Сводная таблица (pivot_table) - медианная зарплата по годам - строки, и по “employment_type” - столбцы. Отсортировать по убыванию годов.

Для выполнения третьего задания используется метод pivot_table, который группирует данные по столбцу work_year и считает среднее значение по столбцу salary. После этого происходит сортировка по убыванию зарплаты с помощью sort_values.  Данные в столбце округляются до трех знаков после запятой с помощью round. После этого переименовывается столбец salary в зарплата с помощью метода rename.
После этого таблица выводится.

In [518]:
pivot_avg_salary = pd.pivot_table(df, values='salary', index='work_year', aggfunc='mean').sort_values(by='salary', ascending=False).round(3)
pivot_avg_salary = pivot_avg_salary.rename(columns={'salary': 'зарплата'})
pivot_avg_salary

Unnamed: 0_level_0,зарплата
work_year,Unnamed: 1_level_1
2020,548347.857
2021,494989.343
2022,160699.936


Из этих данных можно сделать вывод, что с 2020 зарплаты падают. Самая высокая зарплата была в 2020 году, однако стоит учитывать, что данных по 2022 году на порядок больше. Стоит также учитывать, что зарплаты так же зависят от доллара, который тоже может колебаться. Для более точного анализа стоит использовать данные по зарплате в долларах.

Выполняется 4 задание. Для этого используется метод pivot_table, который группирует данные по столбцам work_year и employment_type и считает медианное значение по столбцу salary. После этого происходит сортировка по убыванию годов с помощью sort_values. 
После этого таблица выводится.

In [519]:
pivot_median_salary = pd.pivot_table(df, values='salary', index='work_year', columns='employment_type', aggfunc='median')
pivot_median_salary.sort_values(by='work_year', ascending=False)

employment_type,FL,FT,PT
work_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2022,100000.0,120600.0,75000.0
2021,20000.0,90000.0,33880.0
2020,,80000.0,19000.0


Из таблицы можно сделать вывод, что самые высокие зарплаты медианные были у Full-time работников в 2022, а самые низкие у Part-time в 2020. Также можно заметить тренд на рост медианной зарплаты, тогда как средняя зарплата в эти года падает. Это можно связать с увеличением количества человек. Также можно увидеть, что в 2020 году на Freelance не было людей, поэтому данные в табличке отсутвтвуют.

## Индивидуальное задание
Задание:
1. Категоризировать salary по трем категориям.
2. Отфильтровать данные, чтобы учитывались только данные за 2020 и 2022 годы.
3. Создать сводную таблицу, где столбцы - категория salary, строки - должности, значения - средняя зарплата в долларах.


Для начала salary категоризируется по трем категориям. Для этого используется метод cut, который разбивает данные на три категории. После этого создается новый столбец salary_category, в который записываются данные. После этого выводится информация о данных.

In [520]:
df['salary_category'] = pd.cut(df['salary_in_usd'], bins=[0, 50000, 100000, float('inf')], labels=['Низкие', 'Средние', 'Высокие'])
df.head()

Unnamed: 0,work_year,employment_type,job_title,salary,salary_in_usd,employee_residence,company_location,company_size,salary_category
0,2020,FT,Data Scientist,70000.0,79833,DE,DE,L,Средние
1,2020,FT,Product Data Analyst,20000.0,20000,HN,HN,S,Низкие
2,2020,FT,Data Analyst,72000.0,72000,US,US,L,Средние
3,2020,FT,Data Scientist,11000000.0,35735,HU,HU,L,Низкие
4,2020,FT,Data Scientist,45000.0,51321,FR,FR,S,Средние


Проведем фильтрацию данных по 2020 и 2022 годам. Для этого используется метод query, который фильтрует данные по годам. После этого выводится информация о данных.

In [521]:
filtered_df = df.query('work_year == 2020 or work_year == 2022')
filtered_df.head()

Unnamed: 0,work_year,employment_type,job_title,salary,salary_in_usd,employee_residence,company_location,company_size,salary_category
0,2020,FT,Data Scientist,70000.0,79833,DE,DE,L,Средние
1,2020,FT,Product Data Analyst,20000.0,20000,HN,HN,S,Низкие
2,2020,FT,Data Analyst,72000.0,72000,US,US,L,Средние
3,2020,FT,Data Scientist,11000000.0,35735,HU,HU,L,Низкие
4,2020,FT,Data Scientist,45000.0,51321,FR,FR,S,Средние


Создается сводная таблица, которая отображает категории salary, должности и salary в usd. Для этого используется метод pivot_table, который группирует данные по столбцам job_title, а также считает среднее значение по столбцу salary_in_usd. После этого таблица выводится.

In [522]:
pd.pivot_table(filtered_df, values='salary_in_usd', columns='salary_category', index='job_title', aggfunc='mean')

salary_category,Низкие,Средние,Высокие
job_title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Data Analyst,31648.416667,79031.322581,128849.552632
Data Analytics Engineer,20000.0,,
Data Analytics Lead,,,405000.0
Data Analytics Manager,,,132040.0
Data Engineer,41832.571429,75210.909091,157373.85
Data Science Engineer,,60000.0,
Data Scientist,38167.933333,79695.619048,162008.145161
Head of Data Science,,,195937.5
Head of Machine Learning,,79039.0,
Machine Learning Developer,,78791.0,


Из таблицы можно сделать несколько выводов по зарплатам для различных должностей в области аналитики данных, машинного обучения и инженерии:

1. Диапазоны зарплат:
    В каждой категории должностей наблюдаются значительные различия в зарплатах между низкими, средними и высокими уровнями.
    Например, для Data Analyst:
        Низкая зарплата: ~31,648
        Средняя зарплата: ~79,031
        Высокая зарплата: ~128,849

2. Самые высокие зарплаты:
    Самые высокие значения зарплат наблюдаются для руководящих должностей:
        Head of Data Science: 195,937 (высокая зарплата)
        Head of Machine Learning: 195,000 (высокая зарплата)
        Data Analytics Lead также имеет высокую зарплату на уровне 405,000.

3. Различия в уровнях зарплат:
    Важно отметить, что для некоторых должностей зарплаты довольно сильно различаются. Например, Data Scientist:
        Низкая зарплата: ~38,167
        Средняя зарплата: ~76,965
        Высокая зарплата: ~162,008

Специализированные роли:
    Для таких ролей, как NLP Engineer и Product Data Analyst, представлена лишь низкая зарплата, что может указывать на ограниченные данные по этим категориям.

## Вывод
По итогам работы были освоены компетенции по предварительной обработке данных, выявлению и устранению проблем с ними. 
Были устранены следующие проблемы с данными:
1. Дубликаты явные и неявные. Были удалены явно дублирующиеся данные, а неявные дубликаты были исправлены путем их переименования.
2. Несоответствие типов данных. Часть данных была в float64 типе, хотя отражали целочисленные значение. Они были приведены к int32.   



Из данных были сделаны следующие выводы: 
1. Медианные зарплаты со временем растут, тогда как средние падают. Виден тренд на повышение зарплат.
2. Зарплаты Full-time работников, ожидаемо, опережают зарплаты Freelance работников. На последнем месте по доходу идут Part-time работники.
3. Зарплаты растут не алгебраически, а, скорее, экспоненциально. У part-time работников зарплаты вырасли за последний год больше, чем на 100%, а у Freelance работников на 500%.