## Цель работы
 Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.
## Вариант
Вариант 7.
Файл csv cодержит информацию о зарплатах: 
1. Год выплаты заработной платы (целое число) 
2. Тип работы (PT - Part-time, FT - Full-time, FL-Freelance) 
3. Должность 
4. Зарплата за год (целое число) 
5. Зарплата в долларах (целое число) 
6. Страна проживания 
7. Страна главного офиса 
8. Среднее кол-во людей в компании (S - менее 50 сотрудников (малая), M от 50 до 250 сотрудников (средняя), L - более 250 сотрудников (крупная))



## Ход работы

Выполним подготовку к лабораторной работе. Так как Pandas не распознал разделитель в файле, то укажем его явно. После выведем 20 строк из файла для ознакомления с данными.

In [101]:
import pandas as pd
df = pd.read_csv('salary.csv', sep=';')

df.head(n=20)

Unnamed: 0,work_year,employment_type,job_title,salary,salary_in_usd,employee_residence,company_location,company_size
0,2020.0,FT,Data SCIENTIST,70000.0,79833.0,DE,DE,L
1,2020.0,FT,Product Data Analyst,20000.0,20000.0,HN,HN,S
2,2020.0,FT,Data Analyst,72000.0,72000.0,US,US,L
3,2020.0,FT,Data Scientist,11000000.0,35735.0,HU,HU,L
4,2020.0,FT,Data Scientist,45000.0,51321.0,FR,FR,S
5,2020.0,FT,Data Scientist,3000000.0,40481.0,IN,IN,L
6,2020.0,FT,Data Scientist,35000.0,39916.0,FR,FR,M
7,2020.0,FT,Data Analyst,85000.0,85000.0,US,US,L
8,2020.0,FT,Data Analyst,8000.0,8000.0,PK,PK,Large
9,2020.0,FT,Data Engineer,4450000.0,41689.0,JP,JP,S


Данные содержат информацию о зарплатах и работах и содержат поля: год работы, тип работы, название работы, зарплата в у.е. и в долларах, страну проживания работника, страну компании и размер компании. Посмотрим информацию о данных. Типы данных было решено оставить нетронутыми, так как они вполне хорошо соответствуют столбцам.

In [102]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 401 entries, 0 to 400
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   work_year           401 non-null    float64
 1   employment_type     401 non-null    object 
 2   job_title           401 non-null    object 
 3   salary              398 non-null    float64
 4   salary_in_usd       401 non-null    float64
 5   employee_residence  401 non-null    object 
 6   company_location    401 non-null    object 
 7   company_size        401 non-null    object 
dtypes: float64(3), object(5)
memory usage: 25.2+ KB


In [103]:
df.describe()

Unnamed: 0,work_year,salary,salary_in_usd
count,401.0,398.0,401.0
mean,2021.528678,288833.6,105895.017456
std,0.678086,1677081.0,58183.664171
min,2020.0,4000.0,2859.0
25%,2021.0,67000.0,65013.0
50%,2022.0,109140.0,100000.0
75%,2022.0,150000.0,140000.0
max,2022.0,30400000.0,412000.0


Данные корректны, но в столбце salary есть пропуски. Заменим их на среднее. Заменить столбцы на среднее было решено так как в итоге это сильно не скажется на большинстве показателей, в отличие от замены на 0. С другой стороны, удалять данные не оптимально, так как уменьшится информации в других столбцах, что может потом ухудшить выводы.

In [104]:
df['salary'] = df['salary'].fillna(df['salary'].mean())

df['salary'] = df['salary']

df['salary'].describe()

count    4.010000e+02
mean     2.888336e+05
std      1.670780e+06
min      4.000000e+03
25%      6.700000e+04
50%      1.092800e+05
75%      1.500750e+05
max      3.040000e+07
Name: salary, dtype: float64

Проведем проверку данных:
1. Некорректные названия столбцов



In [105]:
df.columns

Index(['work_year', 'employment_type', 'job_title', 'salary', 'salary_in_usd',
       'employee_residence', 'company_location', 'company_size'],
      dtype='object')

Столбцы не содержат пробелов и имеют нижний регистр.

2. Дубликаты в данных

In [106]:
print(df.duplicated().sum())

df.drop_duplicates().reset_index(drop=True)

55


Unnamed: 0,work_year,employment_type,job_title,salary,salary_in_usd,employee_residence,company_location,company_size
0,2020.0,FT,Data SCIENTIST,70000.0,79833.0,DE,DE,L
1,2020.0,FT,Product Data Analyst,20000.0,20000.0,HN,HN,S
2,2020.0,FT,Data Analyst,72000.0,72000.0,US,US,L
3,2020.0,FT,Data Scientist,11000000.0,35735.0,HU,HU,L
4,2020.0,FT,Data Scientist,45000.0,51321.0,FR,FR,S
...,...,...,...,...,...,...,...,...
341,2022.0,FT,Data Analyst,52000.0,52000.0,CA,CA,M
342,2022.0,FT,Data Engineer,154000.0,154000.0,US,US,M
343,2022.0,FT,Data Engineer,126000.0,126000.0,US,US,M
344,2022.0,FT,Data Analyst,129000.0,129000.0,US,US,M


Мы нашли 55 дубликатов в данных и удалили их.

Найдем неявные дубликаты в данных. Проверять зарплаты не будем, так как они могут сильно различаться, к тому же их мы проверили раньше.

In [107]:
print('work_year: ', df['work_year'].unique())
print('employment_type: ', df['employment_type'].unique())
print('job_title: ', df['job_title'].unique())
print('employee_residence: ', df['employee_residence'].unique())
print('company_location: ', df['company_location'].unique())
print('company_size: ', df['company_size'].unique())


work_year:  [2020. 2021. 2022.]
employment_type:  ['FT' 'PT' 'FL']
job_title:  ['Data SCIENTIST' 'Product Data Analyst' 'Data Analyst' 'Data Scientist'
 'Data Engineer' 'Machine Learning Manager' 'Data Analytics Engineer'
 'Data Science Engineer' 'Machine Learning Developer'
 'Data Analytics Manager' 'Head of Data Science'
 'Head of Machine Learning' 'NLP Engineer' 'Data Analytics Lead'
 'DataScientist' 'Data AnalyticsManager']
employee_residence:  ['DE' 'HN' 'US' 'HU' 'FR' 'IN' 'PK' 'JP' 'GR' 'MX' 'CA' 'AT' 'NG' 'PH'
 'GB' 'ES' 'IT' 'PL' 'BG' 'NL' 'IQ' 'UA' 'SG' 'RU' 'MT' 'CL' 'RO' 'IR'
 'VN' 'BR' 'HK' 'TR' 'RS' 'AR' 'DZ' 'AU' 'CH']
company_location:  ['DE' 'HN' 'US' 'HU' 'FR' 'IN' 'PK' 'JP' 'GR' 'MX' 'CA' 'AT' 'NG' 'GB'
 'ES' 'IT' 'LU' 'PL' 'NL' 'IQ' 'UA' 'IL' 'RU' 'MT' 'CL' 'IR' 'BR' 'VN'
 'TR' 'DZ' 'MY' 'AU' 'CH']
company_size:  ['L' 'S' 'M' 'Large']


Заменим некорректные столбцы на корректные.

In [108]:
df['job_title'] = df['job_title'].replace(['DataScientist', 'Data SCIENTIST'], 'Data Scientist')

df['job_title'] = df['job_title'].replace(['Data AnalyticsManager'], 'Data Analytics Manager')

df['job_title'].value_counts()

job_title
Data Scientist                143
Data Engineer                 132
Data Analyst                   98
Data Analytics Manager          8
Data Analytics Engineer         4
Head of Data Science            4
Data Science Engineer           3
Machine Learning Developer      3
Product Data Analyst            2
Machine Learning Manager        1
Head of Machine Learning        1
NLP Engineer                    1
Data Analytics Lead             1
Name: count, dtype: int64

In [109]:
df['company_size'] = df['company_size'].replace('Large', 'L')

df['company_size'].unique()

array(['L', 'S', 'M'], dtype=object)

Выполним задание 1 и 2, для чего сгруппируем данные по году и типу работы. После посчитаем эти данные и добавим столбец count. После этого отсортируем данные по убыванию count.

In [110]:
employment_df = df.groupby(['employment_type', 'company_location'])['company_location'].count().reset_index(name='count')
employment_df = employment_df.sort_values(by='count', ascending=False)
employment_df.head()

Unnamed: 0,employment_type,company_location,count
30,FT,US,252
10,FT,GB,37
4,FT,CA,19
15,FT,IN,13
7,FT,DE,12


Для вывода в заданном формате, изменим создание таблицы.

In [111]:
employment_df = df.groupby(['employment_type', 'company_location'])['company_location'].count()
employment_df.head()

employment_type  company_location
FL               US                   2
FT               AT                   3
                 AU                   1
                 BR                   1
                 CA                  19
Name: company_location, dtype: int64

Теперь выполним задание 3 и 4. Для этого создадим сводные таблицы и отсортируем их и округлим. После этого переименуем столбцы.

In [112]:
pivot_avg_salary = pd.pivot_table(df, values='salary', index='work_year', aggfunc='mean').sort_values(by='salary', ascending=False).round(3)
pivot_avg_salary = pivot_avg_salary.rename(columns={'salary': 'зарплата'})
pivot_avg_salary

Unnamed: 0_level_0,зарплата
work_year,Unnamed: 1_level_1
2020.0,548347.857
2021.0,494989.343
2022.0,160699.936


In [113]:
pivot_median_salary = pd.pivot_table(df, values='salary', index='work_year', columns='employment_type', aggfunc='median')
pivot_median_salary.sort_values(by='work_year', ascending=False)

employment_type,FL,FT,PT
work_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2022.0,100000.0,120600.0,75000.0
2021.0,20000.0,90000.0,33880.0
2020.0,,80000.0,19000.0


## Вывод
По итогам работы были освоены компетенции по предварительной обработке данных, выявлению и устранению проблем с ними. 
