In [70]:
import pandas as pd
import numpy as np
df = pd.read_csv("2salary.csv")



### Загрузили данные из CSV в DataFrame с помощью pandas
Первые 20 строк данных 

In [71]:
df.head(20)

Unnamed: 0.1,Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,0,2020,MI,FT,Data Scientist,70000.0,EUR,79833,DE,0,DE,L
1,1,2020,SE,FT,Machine Learning Scientist,260000.0,USD,260000,JP,0,JP,S
2,2,2020,SE,FT,Big Data Engineer,85000.0,GBP,109024,GB,50,GB,M
3,3,2020,MI,FT,Product Data Analyst,20000.0,USD,20000,HN,0,HN,S
4,4,2020,SE,FT,Machine Learning Engineer,150000.0,USD,150000,US,50,US,L
5,5,2020,EN,FT,Data Analyst,72000.0,USD,72000,US,100,US,L
6,6,2020,SE,FT,Lead Data Scientist,190000.0,USD,190000,US,100,US,S
7,7,2020,MI,FT,Data Scientist,11000000.0,HUF,35735,HU,50,HU,L
8,8,2020,MI,FT,Business Data Analyst,135000.0,USD,135000,US,100,US,L
9,9,2020,SE,FT,Lead Data Engineer,125000.0,USD,125000,NZ,50,NZ,S


### Предметная область
Данные о заработной плате разработчиков и инженеров IT сферы разделенные по годам, опыту работы, типу занятости (полная\неполная), валюте, размеру компании и стране компании
#### Столбцы
1. Номер строки
2. Год выплаты ЗП
3. Опыт работы
4. Тип занятости
5. Наименование должности
6. ЗП выраженная в валюте выплаты
7. Валюта выплаты
8. Зп выраженная в долларах USD
9. Страна проживания сотрудника
10. Объем удаленной работы
11. Страна главного офиса компании
12. Размер компании

#### Оценка данных
Оценка данных производится с помощью метода .info() у объекта датафрейма

In [72]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 610 entries, 0 to 609
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Unnamed: 0          610 non-null    int64  
 1   work_year           610 non-null    int64  
 2   experience_level    610 non-null    object 
 3   employment_type     610 non-null    object 
 4   job_title           610 non-null    object 
 5   salary              607 non-null    float64
 6   salary_currency     609 non-null    object 
 7   salary_in_usd       610 non-null    object 
 8   employee_residence  610 non-null    object 
 9   remote_ratio        610 non-null    int64  
 10  company_location    610 non-null    object 
 11  company_size        610 non-null    object 
dtypes: float64(1), int64(3), object(8)
memory usage: 57.3+ KB


Изходя из полученного выше вывода можно увидеть, что всего у нас есть 610 строк данных, но сами данные корректны только в 607 строках, так как это минимальное число строк, где данные не равны null. В добавок можно заметить, что строковые значение  здесь привелись к типу object, а у первого столбца (номера строки) остуствует имя
Рассмотрим имена столбцов подробнее с помощью df.columns

In [73]:
df.columns

Index(['Unnamed: 0', 'work_year', 'experience_level', 'employment_type',
       'job_title', 'salary', 'salary_currency', 'salary_in_usd',
       'employee_residence', 'remote_ratio', 'company_location',
       'company_size'],
      dtype='object')

Исправим название у первого столбца

In [74]:
df = df.rename(columns={df.columns[0]: "row_number"})
df.columns

Index(['row_number', 'work_year', 'experience_level', 'employment_type',
       'job_title', 'salary', 'salary_currency', 'salary_in_usd',
       'employee_residence', 'remote_ratio', 'company_location',
       'company_size'],
      dtype='object')

#### Пропуски данных
Выше мы уже выяснили, что у нас отсутсвуют 3 значения в столбце salary и одного значение в столбце salary_currency
Теперь мы можем более точно проверить пропуски данных с помощью метода isna()


In [75]:
print(df.isna().sum())

row_number            0
work_year             0
experience_level      0
employment_type       0
job_title             0
salary                3
salary_currency       1
salary_in_usd         0
employee_residence    0
remote_ratio          0
company_location      0
company_size          0
dtype: int64


Данные о пропусках совпадают, теперь устраним пропуски с помощью dropna()

In [76]:
df = df.dropna()

#### Поиск полных дубликатов в файле
Поиск дубликатов выполняется с помощью метода duplicated()


In [77]:
duplicates = df.duplicated().where(lambda x: x == True).dropna()
duplicates

607    True
608    True
609    True
dtype: object

Из кода выше видно, что дублируются строки 607,608,609. Последние три строки, проверим их

In [78]:
df[-3:]

Unnamed: 0,row_number,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
607,606,2022,MI,FT,AI Scientist,200000.0,USD,200000,IN,100,US,L
608,606,2022,MI,FT,AI Scientist,200000.0,USD,200000,IN,100,US,L
609,606,2022,MI,FT,AI Scientist,200000.0,USD,200000,IN,100,US,L


Действительно, строки полностью идентичны, удалим дубликаты с помощью drop_duplicates и обновим индексацию

In [79]:
df = df.drop_duplicates().reset_index()

После удаление явных дубликатов, поищем неявные, делая выборку униккальных значений для различных столбцов 

In [87]:
for i in df.columns[2:]:
    print(df[i].unique())

[2020 2021 2022]
['MI' 'SE' 'EN' 'EX']
['FT' 'CT' 'PT' 'FL']
['Data Scientist' 'Machine Learning Scientist' 'Big Data Engineer'
 'Product Data Analyst' 'Machine Learning Engineer' 'Data Analyst'
 'Lead Data Scientist' 'Business Data Analyst' 'Lead Data Engineer'
 'Lead Data Analyst' 'Data Engineer' 'Data Science Consultant'
 'BI Data Analyst' 'Director of Data Science' 'Research Scientist'
 'Machine Learning Manager' 'Data Engineering Manager'
 'Machine Learning Infrastructure Engineer' 'ML Engineer' 'AI Scientist'
 'Computer Vision Engineer' 'Principal Data Scientist'
 'Data Science Manager' 'Head of Data' '3D Computer Vision Researcher'
 'Data Analytics Engineer' 'Applied Data Scientist'
 'Marketing Data Analyst' 'Cloud Data Engineer' 'Financial Data Analyst'
 'Computer Vision Software Engineer' 'Director of Data Engineering'
 'Data Science Engineer' 'Principal Data Engineer'
 'Machine Learning Developer' 'Applied Machine Learning Scientist'
 'Data Analytics Manager' 'Head of Data Sc

На первый взгляд из полученного анализа видно, что неявные дубликаты могут быть только в названиях должностей. Например, Lead Data Scientics и Lead Data Analyst выглядят как одна и таже должность, так же как и Data Science Engineer и Big Data Engineer, однако нельзя сказать, точно, что это одна и та же дожность, поэтому эти неявные дубликаты мы оставим нетронутыми.

#### Проверка типов данных на соотсвествие значениям
В ходе просмотра данных, было выявлено, что столбец salary вместо типа integer является типом float64, что нам не подходит. Изменим тип его данных
Также стобец salary_in_usd не соотвествует типу int64, а также нужно убрать одно значение с опечаткой из этого столбца

In [81]:
df['salary_in_usd'] = df['salary_in_usd'].replace('d210000','210000')
df =df.astype({'salary':'int64','salary_in_usd':'int64'})
df.dtypes

index                  int64
row_number             int64
work_year              int64
experience_level      object
employment_type       object
job_title             object
salary                 int64
salary_currency       object
salary_in_usd          int64
employee_residence    object
remote_ratio           int64
company_location      object
company_size          object
dtype: object

#### Сводные таблицы

На основании данных из файла составим сводные таблицы следующего типа:
Средняя зп для специалистов разных уровней

In [82]:
table = pd.pivot_table(df,index=["experience_level"],values=['salary_in_usd'],aggfunc=np.mean)
table.sort_values(by='salary_in_usd')

Unnamed: 0_level_0,salary_in_usd
experience_level,Unnamed: 1_level_1
EN,61643.318182
MI,87996.056338
SE,138244.264493
EX,199392.038462


Из этой таблицы видна вполне очевидная закономерность: чем больше опыт работы - тем больше средняя зп

In [88]:
table = pd.pivot_table(df,
    index=['experience_level'],
    columns=['work_year'],
    values='salary_in_usd',
    aggfunc=np.mean)
table

work_year,2020,2021,2022
experience_level,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
EN,63648.6,59101.021277,65423.428571
EX,202416.5,223752.727273,178313.846154
MI,85950.0625,85490.088889,91193.956044
SE,137240.5,126596.188406,142592.333333


Исходя из данной таблицы можно увидеть, что в 2021 в целом произошло падение заработной платны специалистов всех уровней, кроме Expert, у них в 2021 году ЗП была максимальной, однако в 2022 году все поменялось, специалисты жтого уровня в 2022 году получали наименьшую ЗП за все 3 года, представленных в файле, а специалисты уровнем ниже наоборот - получали в 2022 году самую высокую зп.

In [84]:
table = pd.pivot_table(df,index=['employee_residence'],values='remote_ratio',aggfunc=[np.mean,len])
table

Unnamed: 0_level_0,mean,len
Unnamed: 0_level_1,remote_ratio,remote_ratio
employee_residence,Unnamed: 1_level_2,Unnamed: 2_level_2
AE,66.666667,3
AR,100.0,1
AT,16.666667,3
AU,83.333333,3
BE,75.0,2
BG,100.0,1
BO,100.0,1
BR,66.666667,6
CA,75.862069,29
CH,0.0,1


Изходя из этой таблицы можно узнать сколько работников в каждой стране, и какой способ работы для них наиболее предпочтителен  (удаленный, полуудаленный, либо офисный)