# Цель работы: 
осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.


### Задание:
1) Группировка - “employment_type” и количество компаний по каждой локации
“company_location”. Создать датафрейм. Переименовать столбец с количеством в “сount”.
Отсортировать по возрастанию столбца “count”. 
2) Группировка - “employment_type” и кпо каждой локации “company_location”. Результат
должен быть выведен в следующем формате (на скриншоте представлен фрагмент).
3) Сводная таблица (pivot_table) - средняя зарплата по годам (”work_year”). Отсортировать по
убыванию зп. Округлить до трёх знаков после запятой. Переименовать столбец “salary” в “зарплата”.
4) Сводная таблица (pivot_table) - медианная зарплата по годам - строки, и по
“employment_type” - столбцы. Отсортировать по убыванию годов.

# Результат выполнения работы:

### Подключение библиотеки pandas

In [1]:
import pandas as pd

### Чтение файла и вывод первых 20 колонок

In [2]:
df = pd.read_csv('salary.csv', delimiter = ';')
df.head(20)

Unnamed: 0,work_year,employment_type,job_title,salary,salary_in_usd,employee_residence,company_location,company_size
0,2020.0,FT,Data SCIENTIST,70000.0,79833.0,DE,DE,L
1,2020.0,FT,Product Data Analyst,20000.0,20000.0,HN,HN,S
2,2020.0,FT,Data Analyst,72000.0,72000.0,US,US,L
3,2020.0,FT,Data Scientist,11000000.0,35735.0,HU,HU,L
4,2020.0,FT,Data Scientist,45000.0,51321.0,FR,FR,S
5,2020.0,FT,Data Scientist,3000000.0,40481.0,IN,IN,L
6,2020.0,FT,Data Scientist,35000.0,39916.0,FR,FR,M
7,2020.0,FT,Data Analyst,85000.0,85000.0,US,US,L
8,2020.0,FT,Data Analyst,8000.0,8000.0,PK,PK,Large
9,2020.0,FT,Data Engineer,4450000.0,41689.0,JP,JP,S


### Информация о наборе данных salary.csv

1. Содержит информацию о зарплатах.
2. Год выплаты заработной платы (целое число)
3. Тип работы (PT - Part-time, FT - Full-time, FL-Freelance)
4. Должность
5. Зарплата за год (целое число)
6. Зарплата в долларах (целое число)
7. Страна проживания
8. Страна главного офиса

### Информация о типах данных в файле

In [3]:
df.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 401 entries, 0 to 400
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   work_year           401 non-null    float64
 1   employment_type     401 non-null    object 
 2   job_title           401 non-null    object 
 3   salary              398 non-null    float64
 4   salary_in_usd       401 non-null    float64
 5   employee_residence  401 non-null    object 
 6   company_location    401 non-null    object 
 7   company_size        401 non-null    object 
dtypes: float64(3), object(5)
memory usage: 25.2+ KB


### Оценка столбцов с числовыми значениями

In [4]:
df.describe()

Unnamed: 0,work_year,salary,salary_in_usd
count,401.0,398.0,401.0
mean,2021.528678,288833.6,105895.017456
std,0.678086,1677081.0,58183.664171
min,2020.0,4000.0,2859.0
25%,2021.0,67000.0,65013.0
50%,2022.0,109140.0,100000.0
75%,2022.0,150000.0,140000.0
max,2022.0,30400000.0,412000.0


### Проверка названий столбцов

In [5]:
df.columns

Index(['work_year', 'employment_type', 'job_title', 'salary', 'salary_in_usd',
       'employee_residence', 'company_location', 'company_size'],
      dtype='object')

### Приведение данных к одному регистру, соответсвующему колонке

In [6]:
df['job_title'] = df['job_title'].apply(lambda x: str(x).lower())
df['employment_type'] = df['employment_type'].apply(lambda x: str(x).upper())
df['company_location'] = df['company_location'].apply(lambda x: str(x).upper())
df['company_size'] = df['company_size'].apply(lambda x: str(x).upper())

### Проверка уникальный данных

In [7]:
for i in df.columns: 
    print(i,df[i].unique(), sep = '\n')
    print()

work_year
[2020. 2021. 2022.]

employment_type
['FT' 'PT' 'FL']

job_title
['data scientist' 'product data analyst' 'data analyst' 'data engineer'
 'machine learning manager' 'data analytics engineer'
 'data science engineer' 'machine learning developer'
 'data analytics manager' 'head of data science'
 'head of machine learning' 'nlp engineer' 'data analytics lead'
 'datascientist' 'data analyticsmanager']

salary
[7.00000e+04 2.00000e+04 7.20000e+04 1.10000e+07 4.50000e+04 3.00000e+06
 3.50000e+04 8.50000e+04 8.00000e+03 4.45000e+06 4.50000e+05 4.20000e+04
 7.20000e+05 1.57000e+05 6.00000e+04 4.10000e+04 6.50000e+04 1.00000e+04
 4.57600e+04 1.06000e+05 8.80000e+04 1.88000e+05 1.05000e+05 6.15000e+04
 9.10000e+04 4.80000e+04 3.40000e+04 1.18000e+05 1.20000e+05 1.38350e+05
 1.10000e+05 1.30800e+05 1.90000e+04 4.12000e+05 5.50000e+04 4.32000e+04
 8.00000e+04 3.70000e+04 6.70000e+04 1.40000e+05 5.00000e+04 2.20000e+06
 7.50000e+04 1.50000e+05 6.20000e+04 7.30000e+04 3.74560e+04 1.15000e+

### Исправление данных

In [8]:
df['company_size'] = df['company_size'].replace('LARGE','L')
df['job_title'] = df['job_title'].replace('data analyticsmanager', 'data analytics manager')
df['job_title'] = df['job_title'].replace('datascientist', 'data scientist')

### Удаление столбцов с None 
заполнить такие столбцы просто так нельзя, тк есть зависимый столбец "salary_in_usd" (и не только он)

In [9]:
print(df.isna().sum())
df = df.dropna(subset = ['salary'])
print(df.isna().sum())

work_year             0
employment_type       0
job_title             0
salary                3
salary_in_usd         0
employee_residence    0
company_location      0
company_size          0
dtype: int64
work_year             0
employment_type       0
job_title             0
salary                0
salary_in_usd         0
employee_residence    0
company_location      0
company_size          0
dtype: int64


### Удаление дубликатов и приведение индексации в нормальный вид

In [10]:
df = df.drop_duplicates().reset_index(drop = True) 
df

Unnamed: 0,work_year,employment_type,job_title,salary,salary_in_usd,employee_residence,company_location,company_size
0,2020.0,FT,data scientist,70000.0,79833.0,DE,DE,L
1,2020.0,FT,product data analyst,20000.0,20000.0,HN,HN,S
2,2020.0,FT,data analyst,72000.0,72000.0,US,US,L
3,2020.0,FT,data scientist,11000000.0,35735.0,HU,HU,L
4,2020.0,FT,data scientist,45000.0,51321.0,FR,FR,S
...,...,...,...,...,...,...,...,...
337,2022.0,FT,data analyst,52000.0,52000.0,CA,CA,M
338,2022.0,FT,data engineer,154000.0,154000.0,US,US,M
339,2022.0,FT,data engineer,126000.0,126000.0,US,US,M
340,2022.0,FT,data analyst,129000.0,129000.0,US,US,M


## Task 1

Группировка - "employment_type" и количество компаний по каждой локации
"company_location". Создать датафрейм. Переименовать столбец с количеством в "сount".
Отсортировать по возрастанию столбца "count". 


In [11]:
df.groupby(['employment_type','company_location']).size().reset_index(name = 'count').set_index('count').sort_values('count')

Unnamed: 0_level_0,employment_type,company_location
count,Unnamed: 1_level_1,Unnamed: 2_level_1
1,FT,JP
1,PT,ES
1,PT,DZ
1,PT,DE
1,FT,VN
1,FT,UA
1,FT,RU
1,FT,NL
1,FT,MY
1,FT,MT


## Task 2

Группировка - "employment_type" и по каждой локации "company_location".

In [12]:
df.groupby(['employment_type','company_location']).size()

employment_type  company_location
FL               US                    2
FT               AT                    3
                 AU                    1
                 BR                    1
                 CA                   15
                 CH                    1
                 CL                    1
                 DE                   11
                 ES                    9
                 FR                   11
                 GB                   32
                 GR                    9
                 HN                    1
                 HU                    1
                 IL                    1
                 IN                   13
                 IQ                    1
                 IR                    1
                 JP                    1
                 LU                    1
                 MT                    1
                 MX                    3
                 MY                    1
                 NG    

## Task 3

Сводная таблица (pivot_table) - средняя зарплата по годам (”work_year”). Отсортировать по
убыванию зп. Округлить до трёх знаков после запятой. Переименовать столбец “salary” в “зарплата”.


In [13]:
df.pivot_table(index = ['work_year'], aggfunc = 'mean').sort_values(['salary'])[::-1].round(3).rename(columns = {'salary': 'зарплата'})

Unnamed: 0_level_0,зарплата,salary_in_usd
work_year,Unnamed: 1_level_1,Unnamed: 2_level_1
2020.0,548347.857,77075.476
2021.0,501913.796,77525.961
2022.0,168095.193,119357.822


In [14]:
df.pivot_table(index = ['work_year'], aggfunc = 'mean').sort_values(['salary'], ascending=False).round(3).rename(columns = {'salary': 'зарплата'})

Unnamed: 0_level_0,зарплата,salary_in_usd
work_year,Unnamed: 1_level_1,Unnamed: 2_level_1
2020.0,548347.857,77075.476
2021.0,501913.796,77525.961
2022.0,168095.193,119357.822


## Task 4

Сводная таблица (pivot_table) - медианная зарплата по годам - строки, и по
“employment_type” - столбцы. Отсортировать по убыванию годов

In [15]:
df.pivot_table(index = ['work_year','employment_type'], aggfunc = 'median')[::-1] 

Unnamed: 0_level_0,Unnamed: 1_level_0,salary,salary_in_usd
work_year,employment_type,Unnamed: 2_level_1,Unnamed: 3_level_1
2022.0,PT,75000.0,77478.5
2022.0,FT,118075.0,115717.0
2022.0,FL,100000.0,100000.0
2021.0,PT,33880.0,40047.5
2021.0,FT,90000.0,79598.5
2021.0,FL,20000.0,20000.0
2020.0,PT,19000.0,21669.0
2020.0,FT,80000.0,68428.0


In [16]:
df.pivot_table(index=['work_year', 'employment_type'], aggfunc='median').sort_index(level='work_year', ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,salary,salary_in_usd
work_year,employment_type,Unnamed: 2_level_1,Unnamed: 3_level_1
2022.0,PT,75000.0,77478.5
2022.0,FT,118075.0,115717.0
2022.0,FL,100000.0,100000.0
2021.0,PT,33880.0,40047.5
2021.0,FT,90000.0,79598.5
2021.0,FL,20000.0,20000.0
2020.0,PT,19000.0,21669.0
2020.0,FT,80000.0,68428.0
