# <center>Постановка задачи:<center>
* Исследовать данные и сделать выводы по полученным результатам
В ходе анализа нам необходимо:
* 1. Выяснить, какие факторы влияют на заработную плату специалиста DataScientist.
* 2. Ответить на ключевые вопросы:
   * Наблюдается ли ежегодный рост зарплат у специалистов Data Scientist?
   * Как соотносятся зарплаты Data Scientist и Data Engineer в 2022 году?
   * Как соотносятся зарплаты специалистов Data Scientist в компаниях различных размеров?
   * Есть ли связь между наличием должностей Data Scientist и Data Engineer и размером компании?


## <center>Загрузка и обработка данных<center>

In [2]:
# Импортируем основные библиотеки
import pandas as pd
import numpy as np
from scipy import stats
import statsmodels.api as sm 
from statsmodels import stats as sms
import matplotlib.pyplot as plt 
import seaborn as sns

In [3]:
# Загружаем данные
data = pd.read_csv('C:\IDE\data\ds_salaries.csv')
display(data.head())

Unnamed: 0.1,Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,0,2020,MI,FT,Data Scientist,70000,EUR,79833,DE,0,DE,L
1,1,2020,SE,FT,Machine Learning Scientist,260000,USD,260000,JP,0,JP,S
2,2,2020,SE,FT,Big Data Engineer,85000,GBP,109024,GB,50,GB,M
3,3,2020,MI,FT,Product Data Analyst,20000,USD,20000,HN,0,HN,S
4,4,2020,SE,FT,Machine Learning Engineer,150000,USD,150000,US,50,US,L


In [5]:
# Поиск и удаление дубликатов
print('Количество дубликатов: {}'.format(data[data.duplicated()].shape[0]))
data = data.drop_duplicates()
print('Размер таблицы после удаление дубликатов: {}'.format(data.shape))

Количество дубликатов: 0
Размер таблицы после удаление дубликатов: (607, 12)


**Вывод:**
* Дубликатов в данных не обнаруженно.

In [6]:
# Выведем общую информацию о датасете
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 607 entries, 0 to 606
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Unnamed: 0          607 non-null    int64 
 1   work_year           607 non-null    int64 
 2   experience_level    607 non-null    object
 3   employment_type     607 non-null    object
 4   job_title           607 non-null    object
 5   salary              607 non-null    int64 
 6   salary_currency     607 non-null    object
 7   salary_in_usd       607 non-null    int64 
 8   employee_residence  607 non-null    object
 9   remote_ratio        607 non-null    int64 
 10  company_location    607 non-null    object
 11  company_size        607 non-null    object
dtypes: int64(5), object(7)
memory usage: 57.0+ KB


**Вывод:**
   * 1. Типы данных признаков корректны
   * 2. Определенны числовые признаки (work_year, salary, salary_in_usd, remote_ratio)
   * 3. Определенны категориальные признаки (experience_level, employment_type, company_size, job_title, salary_currency,employee_residence, company_location)

In [7]:
# Удаляем неиформативные признаки
data = data.drop(['Unnamed: 0', 'salary', 'salary_currency'], axis=1)
display(data.head())

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2020,MI,FT,Data Scientist,79833,DE,0,DE,L
1,2020,SE,FT,Machine Learning Scientist,260000,JP,0,JP,S
2,2020,SE,FT,Big Data Engineer,109024,GB,50,GB,M
3,2020,MI,FT,Product Data Analyst,20000,HN,0,HN,S
4,2020,SE,FT,Machine Learning Engineer,150000,US,50,US,L


**Выводы:**
   * 1. Признак Unnamed: 0 удален. Явно лишний признак, так как нумерация строк присутствует автоматически.
   * 2. Признак salary удален. Так как есть признак показывающий зарплату в долларах.
   * 3. Принзнак salary_currency удален. Раз есть признак показывающий зарплату в долларах, признак валюты не имеет ценности.

In [25]:
# Ищем статистические характеристики

# Для признака work_year
print(data['work_year'].mode())
# Для признака remote_ratio
print('\n', data['remote_ratio'].mode())
# Для признака salary_in_usd
print('\n', data['salary_in_usd'].describe())
# Для признака experience_level
print('\n', data['experience_level'].describe())
# Для признака employment_type
print('\n', data['employment_type'].describe())
# Для признака job_title
print('\n', data['job_title'].describe())
# Для признака employee_residence
print('\n', data['employee_residence'])
# Для признака company_location
print('\n', data['company_location'].describe())
# Для признака company_size
print('\n', data['company_size'].describe())

0    2022
Name: work_year, dtype: int64

 0    100
Name: remote_ratio, dtype: int64

 count       607.000000
mean     112297.869852
std       70957.259411
min        2859.000000
25%       62726.000000
50%      101570.000000
75%      150000.000000
max      600000.000000
Name: salary_in_usd, dtype: float64

 count     607
unique      4
top        SE
freq      280
Name: experience_level, dtype: object

 count     607
unique      4
top        FT
freq      588
Name: employment_type, dtype: object

 count                607
unique                50
top       Data Scientist
freq                 143
Name: job_title, dtype: object

 0      DE
1      JP
2      GB
3      HN
4      US
       ..
602    US
603    US
604    US
605    US
606    IN
Name: employee_residence, Length: 607, dtype: object

 count     607
unique     50
top        US
freq      355
Name: company_location, dtype: object

 count     607
unique      3
top         M
freq      326
Name: company_size, dtype: object
