**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

# Загрузка набора данных

### Описание предметной области

Вариант №:3

Набор данных: salary.csv
 
Атрибуты:
1.	Год выплаты заработной платы (целое число)
2.	Тип работы (PT - Part-time, FT - Full-time, FL - Freelance)
3.	Должность
4.	Зарплата за год (целое число)
5.	Зарплата в долларах (целое число)
6.	Страна проживания
7.	Страна главного офиса
8.	Среднее кол-во людей в компании (S  менее 50
сотрудников (малая), M от 50 до 250 сотрудников (средняя), L - более 250 сотрудников (крупная)) 


### 1.Чтение файла (набора данных)

Загружен датасет из файла salary.csv с разделителем ";".

In [2]:
import pandas as pd
df = pd.read_csv('salary.csv', sep=';')

### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода head.

In [3]:
df.head(20)

Unnamed: 0,work_year,employment_type,job_title,salary,salary_in_usd,employee_residence,company_location,company_size
0,2020.0,FT,Data SCIENTIST,70000.0,79833.0,DE,DE,L
1,2020.0,FT,Product Data Analyst,20000.0,20000.0,HN,HN,S
2,2020.0,FT,Data Analyst,72000.0,72000.0,US,US,L
3,2020.0,FT,Data Scientist,11000000.0,35735.0,HU,HU,L
4,2020.0,FT,Data Scientist,45000.0,51321.0,FR,FR,S
5,2020.0,FT,Data Scientist,3000000.0,40481.0,IN,IN,L
6,2020.0,FT,Data Scientist,35000.0,39916.0,FR,FR,M
7,2020.0,FT,Data Analyst,85000.0,85000.0,US,US,L
8,2020.0,FT,Data Analyst,8000.0,8000.0,PK,PK,Large
9,2020.0,FT,Data Engineer,4450000.0,41689.0,JP,JP,S


2.2 Оценка данных с помощью метода info.

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 401 entries, 0 to 400
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   work_year           401 non-null    float64
 1   employment_type     401 non-null    object 
 2   job_title           401 non-null    object 
 3   salary              398 non-null    float64
 4   salary_in_usd       401 non-null    float64
 5   employee_residence  401 non-null    object 
 6   company_location    401 non-null    object 
 7   company_size        401 non-null    object 
dtypes: float64(3), object(5)
memory usage: 25.2+ KB


2.3 Оценка данных с помощью метода describe.

In [5]:
df.describe()

Unnamed: 0,work_year,salary,salary_in_usd
count,401.0,398.0,401.0
mean,2021.528678,288833.6,105895.017456
std,0.678086,1677081.0,58183.664171
min,2020.0,4000.0,2859.0
25%,2021.0,67000.0,65013.0
50%,2022.0,109140.0,100000.0
75%,2022.0,150000.0,140000.0
max,2022.0,30400000.0,412000.0


Выводы: каждый столбец является числовым и отображает результат применения статистических функций ко всем значениям соответствующего столбца исходной таблицы. В строке 'count' представлено количество непустых значений, в строке 'mean' - среднее арифметическое, в 'std' - стандартное отклонение, в 'min'/'max' - минимальное и максимальное значения, а в перцентилях (25%, 50%, 75%) - соответствующие квантили распределения данных.

 2.4 Оценка названий столбцов

In [6]:
df.columns

Index(['work_year', 'employment_type', 'job_title', 'salary', 'salary_in_usd',
       'employee_residence', 'company_location', 'company_size'],
      dtype='object')

### 3. Проверка пропусков

В соответствие с выполнением метода info() ранее, выявлено 3 строки, в которых поле 'salary' является пустым. Их следует удалить с помощью метода dropna()

In [7]:
df.isnull().sum()
df_cleaned = df.dropna(subset=['salary'])
print(f"Удалено записей: {len(df) - len(df_cleaned)}")
df = df_cleaned

Удалено записей: 3



---

**Вы должны аргументировать на защите, почему были выполнены те или иные действия с пропусками, а также знать другие способы работы с пропусками, чтобы
 ответить на вопросы на защите.**


 ---

### 4. Проверка дубликатов

#### Проверка явных дубликатов

Для проверки явных дубликатов следует использовать стандартный метод duplicated() и просуммировать результирующую таблицу.

In [8]:
duplicate_count = df.duplicated().sum()
print(duplicate_count)


54


In [9]:
if duplicate_count > 0:
    df = df.drop_duplicates()

#### Проверка неявных дубликатов

Выводим все уникальные значения столбцов для выявления похожих значений и соответствующего их удаления. С учетом информативного содержания, интересующими столбцами являются 'job_title' и 'company_size'

In [10]:
def print_implicit_duplicates():
    columns_to_check = ['job_title', 'company_size']
    
    for col in columns_to_check:
        if col in df.columns:
            unique_values = df[col].unique()
            print(f"{col}: {unique_values}")
        else:
            print(f"Столбец '{col}' не найден")

print_implicit_duplicates()

job_title: ['Data SCIENTIST' 'Product Data Analyst' 'Data Analyst' 'Data Scientist'
 'Data Engineer' 'Machine Learning Manager' 'Data Analytics Engineer'
 'Data Science Engineer' 'Machine Learning Developer'
 'Data Analytics Manager' 'Head of Data Science'
 'Head of Machine Learning' 'NLP Engineer' 'Data Analytics Lead'
 'DataScientist' 'Data AnalyticsManager']
company_size: ['L' 'S' 'M' 'Large']


Теперь, произведём замену неявных дубликатов на соответствующие варианты. Также отобразим уникальные значения, чтобы проверить, что замена прошла корректно.

In [11]:

df['company_size'] = df['company_size'].replace('Large', 'L')
df['job_title'] = (df['job_title']
    .replace('Data SCIENTIST', 'Data Scientist')
    .replace('DataScientist', 'Data Scientist')
    .replace('Data AnalyticsManager', 'Data Analytics Manager'))

print_implicit_duplicates()

job_title: ['Data Scientist' 'Product Data Analyst' 'Data Analyst' 'Data Engineer'
 'Machine Learning Manager' 'Data Analytics Engineer'
 'Data Science Engineer' 'Machine Learning Developer'
 'Data Analytics Manager' 'Head of Data Science'
 'Head of Machine Learning' 'NLP Engineer' 'Data Analytics Lead']
company_size: ['L' 'S' 'M']


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['company_size'] = df['company_size'].replace('Large', 'L')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['job_title'] = (df['job_title']


---

**Вы должны аргументировать на защите, почему были выполнены те или иные действия с дубликатами, знать, что такое явные и неявные дубликаты и способы работы с ними, чтобы ответить на вопросы на защите.**


 ---

### 5. Провека типов данных

In [26]:
df.dtypes

work_year                         int64
employment_type                  object
job_title                        object
salary                            int64
salary_in_usd                     int64
employee_residence               object
company_location                 object
company_size                     object
Категория зарплаты в долларах    object
dtype: object

---

**Обратите внимание, что во всех вариантах необходимо сделать приведение типов. Будьте готовы на защите аргументировать проверку типов (почему выполнены те или иные преобразования).**


 ---

In [13]:
df['work_year'] = df['work_year'].astype('int64')
df['salary'] = df['salary'].astype('int64')
df['salary_in_usd'] = df['salary_in_usd'].astype('int64')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['work_year'] = df['work_year'].astype('int64')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['salary'] = df['salary'].astype('int64')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['salary_in_usd'] = df['salary_in_usd'].astype('int64')


Для приведения данных к единому формату выполнено преобразование типов столбцов work_year, salary и salary_in_usd в целочисленный тип int64 

### 6. Группировка данных

#### Задание 1

Группировка - “employment_typeˮ и количество каждой локации “company_locationˮ. Результат должен быть выведен в следующем формате (на скриншоте представлен фрагмент).

In [14]:
df.groupby(['employment_type', 'company_location'], observed=True).size()

employment_type  company_location
FL               US                    2
FT               AT                    3
                 AU                    1
                 BR                    1
                 CA                   15
                 CH                    1
                 CL                    1
                 DE                   11
                 ES                    9
                 FR                   11
                 GB                   32
                 GR                    9
                 HN                    1
                 HU                    1
                 IL                    1
                 IN                   13
                 IQ                    1
                 IR                    1
                 JP                    1
                 LU                    1
                 MT                    1
                 MX                    3
                 MY                    1
                 NG    

Вывод: Данные показывают четкое географическое распределение типов занятости:



---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 2

Задание 2: Группировка - “work_yearˮ и количество компаний каждого размера. Создать датафрейм. Переименовать столбец с количеством в “сountˮ. Отсортировать по убыванию столбца “countˮ.

In [15]:
new_df = (
    df.groupby('work_year', observed=True)['company_size']
    .size()
    .reset_index(name='count')
    .sort_values('count', ascending=True)
)
new_df

Unnamed: 0,work_year,count
0,2020,42
1,2021,103
2,2022,199


Вывод: Результат показывает количество записей для каждого типа занятости:



---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 3

Сводная таблица (pivot_table) - средняя зарплата в usd по должностям (ˮjob_titleˮ). 
Отсортировать по убыванию. 
Округлить до двух знаков после запятой. 
Переименовать столбец “salary_in_usdˮ в “зарплатаˮ.

In [16]:
pivot_table = df.pivot_table(
    values='salary_in_usd',  
    index='job_title',      
    aggfunc='mean'  
)

pivot_table = pivot_table.rename(columns={'salary_in_usd': 'зарплата'})

pivot_table['зарплата'] = pivot_table['зарплата'].round(2)

pivot_table.sort_values('зарплата', ascending=False)

Unnamed: 0_level_0,зарплата
job_title,Unnamed: 1_level_1
Data Analytics Lead,405000.0
Head of Data Science,146718.75
Data Analytics Manager,127134.29
Machine Learning Manager,117104.0
Data Engineer,109295.46
Data Scientist,101784.58
Machine Learning Developer,89395.5
Data Analyst,88303.45
Head of Machine Learning,79039.0
Data Science Engineer,75803.33


Результаты сводной таблицы показывают значительный разброс в уровне медианных зарплат в зависимости от должности.

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 4

Сводная таблица (pivot_table) - медианная зарплата по годам - строки, и по “employment_typeˮ - столбцы. 
Отсортировать по убыванию годов.

In [17]:
df.pivot_table(
    values='salary_in_usd',      
    index='work_year',         
    columns='employment_type',   
    aggfunc='median'        
).sort_index(ascending=False).round(2).fillna(0)


employment_type,FL,FT,PT
work_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2022,100000.0,115967.0,77478.5
2021,20000.0,79598.5,40047.5
2020,0.0,68428.0,21669.0


Вывод: Из результата можно увидеть динамику изменения медианных зарплат.

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

### Вывод

В рамках практической работы освоены базовые навыки работы в среде Jupyter Notebook и форматирования документов с использованием Markdown. Проведено знакомство с функционалом библиотеки pandas для обработки и анализа структурированных данных в формате CSV. Практически изучены методы первичного анализа данных, группировки информации и построения сводных таблиц средствами языка Python.

### Дополнительное задание

Задание 4: Создать столбец “Категория зарплаты в долларахˮ (с помощью категоризации). Выделить минимум 3 категории (низкая, высокая, средняя), фильтрацию для уровня зарплаты выбрать самостоятельно, аргументировать выбор. Создать сводную таблицу: средняя и медианная зп в долларах по категории зарплаты в долларах и среднему количество людей в компании.

In [18]:
def categorize_salary(salary):
    if pd.isna(salary):
        return 'Не указана'
    elif salary < 50000:
        return 'Низкая'
    elif 50000 <= salary <= 100000:
        return 'Средняя'
    else:
        return 'Высокая'

df['Категория зарплаты в долларах'] = df['salary_in_usd'].apply(categorize_salary)

print(df['Категория зарплаты в долларах'].value_counts())

df.pivot_table(
    values='salary_in_usd',
    index='Категория зарплаты в долларах',
    columns='company_size', 
    aggfunc=['mean', 'median', 'count'], 
)


Категория зарплаты в долларах
Высокая    159
Средняя    119
Низкая      66
Name: count, dtype: int64


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Категория зарплаты в долларах'] = df['salary_in_usd'].apply(categorize_salary)


Unnamed: 0_level_0,mean,mean,mean,median,median,median,count,count,count
company_size,L,M,S,L,M,S,L,M,S
Категория зарплаты в долларах,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Высокая,153475.534884,150623.017699,110000.0,135000.0,140250.0,110000.0,43,113,3
Низкая,31176.545455,32957.185185,24206.294118,33602.5,38776.0,20000.0,22,27,17
Средняя,73002.4,77800.089552,76533.0,73000.0,78791.0,76958.0,35,67,17


Проведенный анализ позволил категоризировать зарплаты в IT-сфере на три основные группы: низкая (до 50,000$), средняя (50,000-100,000$) и высокая (свыше 100,000$). 
Медиана показывала типичную зарплату, исключая влияние экстремальных значений. Средняя отражазила общий уровень оплаты в категории. Количество наблюдений подтверждало надежность результатов - во всех группах достаточно данных для выводов.
Результаты показали сбалансированное распределение по категориям с преобладанием среднего уровня оплаты, что характерно для зрелого рынка труда.

Задание 9: Отфильтровать набор данных. Выбрать только те должности, средняя зарплата в долларах на которых выше определенного числа (число выбрать самостоятельно). Для отфильтрованного набора данных выполнить группировку: тип работы и средняя+медианная зарплата в долларах.

In [19]:
salary_threshold = 100000

high_paying_jobs = df.groupby('job_title')['salary_in_usd'].mean()
high_paying_jobs = high_paying_jobs[high_paying_jobs > salary_threshold].index.tolist()

print(f"Должности со средней зарплатой выше {salary_threshold}$:")
print(high_paying_jobs)

filtered_df = df[df['job_title'].isin(high_paying_jobs)]

filtered_df.groupby('employment_type')['salary_in_usd'].agg([
    ('Средняя зарплата', 'mean'),
    ('Медианная зарплата', 'median'),
    ('Количество', 'count')
]).round(2)


Должности со средней зарплатой выше 100000$:
['Data Analytics Lead', 'Data Analytics Manager', 'Data Engineer', 'Data Scientist', 'Head of Data Science', 'Machine Learning Manager']


Unnamed: 0_level_0,Средняя зарплата,Медианная зарплата,Количество
employment_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
FL,60000.0,60000.0,2
FT,108918.32,104702.0,249
PT,61591.75,62349.0,4


Проведенный анализ позволил идентифицировать высокооплачиваемые должности, превышающие установленный порог в 100,000$. 
Медианная зарплата демонстрировала типичный уровень оплаты для каждой категории занятости, исключая влияние аномальных значений, в то время как средняя зарплата отражала общий финансовый уровень по каждому типу работы. Количество наблюдений подтвердило репрезентативность данных для всех анализируемых категорий.

Задание 3: отфильтровать набор данных. Выбрать только топ 5 должностей по средней зп + год выплаты  2022 и 2021. Для отфильтрованного набора данных выполнить группировку: должность и средняя+медианная+минимальная+максимальная зарплата в долларах.

Код реализует анализ топ-5 высокооплачиваемых должностей за 2021-2022 годы:

1. Фильтрация данных - выделение записей по годам
2. Агрегация и ранжирование - расчет средних значений зарплат по группам с последующим выделением топ-5 позиций
3. Вторичная фильтрация - создание подвыборки только для отобранных должностей
4. Статистический анализ - расчет дескриптивных статистик (среднее, медиана, минимум, максимум) с оценкой объема выборки

In [22]:
df_filtered_year = df[df['work_year'].isin([2021, 2022])]

top_5_jobs = df_filtered_year.groupby('job_title')['salary_in_usd'].mean().nlargest(5).index.tolist()

print("Топ-5 должностей по средней зарплате в 2021-2022 годах:")
for i, job in enumerate(top_5_jobs, 1):
    print(f"{i}. {job}")

df_top_5 = df_filtered_year[df_filtered_year['job_title'].isin(top_5_jobs)]

df_top_5.groupby('job_title')['salary_in_usd'].agg([
    ('Средняя зарплата', 'mean'),
    ('Медианная зарплата', 'median'),
    ('Минимальная зарплата', 'min'),
    ('Максимальная зарплата', 'max'),
    ('Количество наблюдений', 'count')
]).round(2).sort_values('Средняя зарплата', ascending=False)


Топ-5 должностей по средней зарплате в 2021-2022 годах:
1. Data Analytics Lead
2. Head of Data Science
3. Data Analytics Manager
4. Data Engineer
5. Data Scientist


Unnamed: 0_level_0,Средняя зарплата,Медианная зарплата,Минимальная зарплата,Максимальная зарплата,Количество наблюдений
job_title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Data Analytics Lead,405000.0,405000.0,405000,405000,1
Head of Data Science,146718.75,138937.5,85000,224000,4
Data Analytics Manager,127134.29,120000.0,105400,150260,7
Data Engineer,111552.44,101570.0,4000,324000,103
Data Scientist,104888.27,100000.0,2859,260000,107


Данный анализ позволяет выявить и проанализировать наиболее высокооплачиваемые профессиональные позиции на рынке труда за последние два года. Расчет ключевых статистических показателей (средней, медианной, минимальной и максимальной зарплат) обеспечивает комплексную оценку уровня оплаты труда для каждой топовой должности.

Задание 20: Отфильтровать набор данных. Выбрать только топ 5 должностей по количеству записей в должности + топ 2 года выплаты по средней зп в этих годах 2 размера компании с наименьшим количеством записей. Для отфильтрованного набора данных создать сводную таблицу: должность и медианная зарплата в долларах по размеру компании.

Код реализует многоуровневый анализ данных о зарплатах через последовательную фильтрацию:
1. Отбор наиболее представленных должностей - выделение топ-5 позиций по частоте встречаемости в dataset через value_counts()
2. Фильтрация по временному периоду - определение топ-2 годов с максимальной средней зарплатой среди отобранных должностей
3. Выбор целевой категории компаний - идентификация размера компании с наименьшим представительством в отфильтрованных данных
4. Построение аналитической сводки - создание сводной таблицы с медианными значениями зарплат

In [25]:
top_5_jobs_by_count = df['job_title'].value_counts().nlargest(5).index.tolist()

print("Топ-5 должностей по количеству записей:")
for i, job in enumerate(top_5_jobs_by_count, 1):
    print(f"{i}. {job}")

df_top_jobs = df[df['job_title'].isin(top_5_jobs_by_count)]

top_2_years = df_top_jobs.groupby('work_year')['salary_in_usd'].mean().nlargest(2).index.tolist()

print(f"\nТоп-2 года по средней зарплате: {top_2_years}")

df_top_years = df_top_jobs[df_top_jobs['work_year'].isin(top_2_years)]

company_size_min_count = df_top_years['company_size'].value_counts().idxmin()

df_final = df_top_years[df_top_years['company_size'] == company_size_min_count]

df_final.pivot_table(
    values='salary_in_usd',
    index='job_title',
    columns='company_size',
    aggfunc='median',
    fill_value=0
).round(2)


Топ-5 должностей по количеству записей:
1. Data Scientist
2. Data Engineer
3. Data Analyst
4. Data Analytics Manager
5. Data Analytics Engineer

Топ-2 года по средней зарплате: [2022, 2020]

Размер компании с наименьшим количеством записей: S


company_size,S
job_title,Unnamed: 1_level_1
Data Analyst,15000.0
Data Engineer,41689.0
Data Scientist,51321.0


Проведенный анализ выявил структуру оплаты труда для наиболее распространенных должностей в наименее представленной категории компаний за периоды с наивысшим уровнем заработных плат.
Медианные значения зарплат демонстрируют устойчивые рыночные тенденции, исключая влияние статистических выбросов. Полученные данные показывают реальный уровень оплаты для конкретного сегмента рынка труда - компаний определенного размера.