<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Анализ-зарплат" data-toc-modified-id="Анализ-зарплат-1">Анализ зарплат</a></span><ul class="toc-item"><li><span><a href="#Импорт-библиотек-и-чтение-датасета" data-toc-modified-id="Импорт-библиотек-и-чтение-датасета-1.1">Импорт библиотек и чтение датасета</a></span></li><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1.2">Загрузка данных</a></span></li></ul></li><li><span><a href="#Задание" data-toc-modified-id="Задание-2">Задание</a></span><ul class="toc-item"><li><span><a href="#Распределение-зарплат" data-toc-modified-id="Распределение-зарплат-2.1">Распределение зарплат</a></span></li><li><span><a href="#Анализ-факторов" data-toc-modified-id="Анализ-факторов-2.2">Анализ факторов</a></span><ul class="toc-item"><li><span><a href="#пол-/-sex" data-toc-modified-id="пол-/-sex-2.2.1">пол / sex</a></span></li><li><span><a href="#тип-населенного-пункта-/-town_type" data-toc-modified-id="тип-населенного-пункта-/-town_type-2.2.2">тип населенного пункта / town_type</a></span></li><li><span><a href="#семейное-положение-/-marital_status" data-toc-modified-id="семейное-положение-/-marital_status-2.2.3">семейное положение / marital_status</a></span></li><li><span><a href="#проффессиональная-группа-/-professional_group" data-toc-modified-id="проффессиональная-группа-/-professional_group-2.2.4">проффессиональная группа / professional_group</a></span></li><li><span><a href="#образование-/-finished_education" data-toc-modified-id="образование-/-finished_education-2.2.5">образование / finished_education</a></span></li><li><span><a href="#индустрия-/-industry" data-toc-modified-id="индустрия-/-industry-2.2.6">индустрия / industry</a></span></li></ul></li><li><span><a href="#Кодировка-категориальных-признаков" data-toc-modified-id="Кодировка-категориальных-признаков-2.3">Кодировка категориальных признаков</a></span></li><li><span><a href="#Линейная-регрессия" data-toc-modified-id="Линейная-регрессия-2.4">Линейная регрессия</a></span></li><li><span><a href="#Корректность-линейной-регрессии" data-toc-modified-id="Корректность-линейной-регрессии-2.5">Корректность линейной регрессии</a></span></li></ul></li></ul></div>

# Анализ зарплат

Эта домашняя работа будет основана на основе данных РМЭЗ НИУ ВШЭ
- [об исследовании подробнее](https://www.hse.ru/rlms/)
- [данные за разные года](https://www.hse.ru/rlms/spss)
- [опросник для 25-ой волны](https://www.hse.ru/data/2018/11/15/1169536982/r25a_user_1216.pdf)
    - [за остальные волны](https://www.hse.ru/rlms/question)
- [кодировка переменных 25-ой волны](https://www.hse.ru/data/2019/09/09/1170599989/R25_ind_codebook_09.2019.pdf)
    - [за остальные волны](https://www.hse.ru/rlms/code)

## Импорт библиотек и чтение датасета

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline


In [2]:
plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (10, 5)


## Загрузка данных

Далее идет небольшая предобработка датасета, это код можно просто запустить

In [3]:
# тип данных в колонках
cols = {
    'status':'category',
    'popul':'category',
    'u_age':float,
    'uh5':'category',
    'u_marst':'category',
    'u_diplom':'category',
    'u_educ':'category',
    'u_occup08':'category',
    'uj1':'category',
    'uj4.1':'category',
    'uj13.2':float
}


In [4]:
# как они будут переименованы
rename_cols={
    'status':'town_type',
    'popul':'population',
    'u_age':'age',
    'uh5':'sex',
    'u_marst':'marital_status',
    'u_diplom':'finished_education',
    'u_educ':'education',
    'u_occup08':'professional_group',
    'uj1':'employed',
    'uj4.1':'industry',
    'uj13.2':'wage'}


In [5]:
df = pd.read_csv('../data/r25iall26с.csv', usecols=cols.keys(), dtype=cols, 
                 na_values=['#NULL!','NA','99999999','99999998','99999997'], 
                 low_memory=False)
df = df.rename(columns = rename_cols)
df.head()

Unnamed: 0,town_type,population,age,professional_group,education,finished_education,marital_status,sex,employed,industry,wage
0,3,12187,43.0,2.0,21,6,4,2,1,10.0,40000.0
1,3,12187,61.0,5.0,16,4,5,2,1,12.0,28000.0
2,3,12187,32.0,5.0,10,3,4,2,1,14.0,
3,3,12187,30.0,,9,3,2,1,5,,
4,3,12187,72.0,,7,2,1,2,5,,


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18756 entries, 0 to 18755
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype   
---  ------              --------------  -----   
 0   town_type           18756 non-null  category
 1   population          18756 non-null  category
 2   age                 18755 non-null  float64 
 3   professional_group  8292 non-null   category
 4   education           15280 non-null  category
 5   finished_education  15280 non-null  category
 6   marital_status      15289 non-null  category
 7   sex                 18756 non-null  category
 8   employed            15302 non-null  category
 9   industry            8286 non-null   category
 10  wage                7025 non-null   float64 
dtypes: category(9), float64(2)
memory usage: 485.0 KB


In [7]:
df.describe()

Unnamed: 0,age,wage
count,18755.0,7025.0
mean,38.184537,24324.848114
std,22.702215,18163.937524
min,0.0,0.0
25%,20.0,14000.0
50%,37.0,20000.0
75%,56.0,30000.0
max,102.0,400000.0


In [None]:
# for j in df.dtypes[df.dtypes=='category'].index:
#     print('\n',j,list(df[j].unique()))

In [9]:
# как будут переименованы категории

town_type={1:'Областной центр',
2:'Город',
3:'Посёлок городского типа' ,
4:'Село',
}

marital_status={
1: 'Никогда в браке не состояли',
2: 'Состоите в зарегистрированном браке',
3: 'Живете вместе, но не зарегистрированы',
4: 'Разведены и в браке не состоите',
5: 'Bдовец (вдова)',
6: 'Официально зарегистрированы, но вместе не проживают',
}

sex={
1: 'М',
2: 'Ж',
}


professional_group=[
'Военнослужащие',
'Законодатели; крупные чиновники; руководители высш. и сред. звена',
'Специалисты высшего уровня квалификации',
'Специалисты среднего уровня квалификации; чиновники',
'Служащие офисные и по обслуживанию клиентов',
'Работники сферы торговли и услуг',
'Квалифицированные работники сельского, лесного хоз-ва и рыбоводства',
'Квалифицированные рабочие, занятые ручным трудом',
'Квалифицированные рабочие, исп. машины и механизмы',
'Неквалифицированные рабочие всех отраслей',
]
professional_group = {x:professional_group[x] for x in range(len(professional_group))}


finished_education = ['окончил 0 - 6 классов',
 'незаконченное среднее образование (7 - 8 кл)',
 'незаконченное среднее образование (7 - 8 кл) + что-то еще',
 'законченное среднее образование',
 'законченное среднее специальное образование',
 'законченное высшее образование и выше']
finished_education = {x:finished_education[x-1] for x in range(1,len(finished_education)+1)}


education = ['0 классов школы',
'1 класс школы',
'2 класса школы',
'3 класса школы',
'4 класса школы',
'5 классов школы',
'6 классов школы',
'7 классов школы',
'8 классов школы',
'9 классов школы',
'7-9 классов школы (незак. средн) +     без диплома',
'7-9 классов школы (незак. средн) +     с дипломом',
'10 и более классов школы без аттестата о среднем образовании',
'7-9 классов школы (незак. среднее) и менее 2 лет в техникуме',
'среднее образование - есть аттестат о ср. образовании',
'10 и более классов школы и какое-либо професс. обр. без диплома',
'10 и более классов школы и какое-либо професс. обр. с дипломом',
'10 и более классов школы и техникум без диплома',
'техникум с дипломом',
'1-2 года в высшем учебном заведении',
'3 и более лет в высшем учебном заведении',
'есть диплом о высшем образовании',
'аспирантура и т.п. без диплома',
'аспирантура и т.п. с дипломом',]
education = {x:education[x] for x in range(len(education))}

industry = ['ЛЕГКАЯ, ПИЩЕВАЯ ПРОМЫШЛЕННОСТЬ',
'ГРАЖДАНСКОЕ МАШИНОСТРОЕНИЕ',
'ВОЕННО-ПРОМЫШЛЕННЫЙ КОМПЛЕКС',
'НЕФТЕГАЗОВАЯ ПРОМЫШЛЕННОСТЬ',
'ДРУГАЯ ОТРАСЛЬ ТЯЖЕЛОЙ ПРОМЫШЛЕННОСТИ',
'СТРОИТЕЛЬСТВО',
'ТРАНСПОРТ, СВЯЗЬ',
'СЕЛЬСКОЕ ХОЗЯЙСТВО',
'ОРГАНЫ УПРАВЛЕНИЯ',
'ОБРАЗОВАНИЕ',
'НАУКА, КУЛЬТУРА',
'ЗДРАВООХРАНЕНИЕ',
'АРМИЯ, МВД, ОРГАНЫ БЕЗОПАСНОСТИ',
'ТОРГОВЛЯ, БЫТОВОЕ ОБСЛУЖИВАНИЕ',
'ФИНАНСЫ И СТРАХОВАНИЕ',
'ЭНЕРГЕТИЧЕСКАЯ ПРОМЫШЛЕННОСТЬ',
'ЖИЛИЩНО-КОММУНАЛЬНОЕ ХОЗЯЙСТВО',
'ОПЕРАЦИИ С НЕДВИЖИМОСТЬЮ',
'ДРУГОЕ',]
industry=[x.lower().capitalize() for x in industry]
industry = {x:industry[x-1] for x in range(1,1+len(industry))}

employed = ['Вы сейчас работаете ',
'Вы находитесь в отпуске - декретном или по уходу за ребёнком до 3-х лет ',
'Вы находитесь в любом другом оплачиваемом отпуске ',
'Вы находитесь в неоплачиваемом отпуске ',
'Или у Вас сейчас нет работы',]
employed = {x:employed[x-1] for x in range(1,1+len(employed))}


In [10]:
df['population'] = df['population'].astype(int)

In [11]:
df['industry'] = np.where(df['industry'].astype(float)>19,19,df['industry'])
df['industry'] = df['industry'].astype('category')
df['industry'].head()

0     10
1     12
2     14
3    NaN
4    NaN
Name: industry, dtype: category
Categories (19, object): [19, '1', '10', '11', ..., '6', '7', '8', '9']

In [12]:
cats = df.dtypes[df.dtypes=='category'].index
for col in cats:
    dict_j = globals()[col]
#     print('\n',col,dict_j,sep='\n')
#     df[col] = df[col].astype('category').cat.rename_categories(dict_j)
    df[col] = df[col].astype(float).replace(dict_j).astype('category')


In [13]:
df.head()

Unnamed: 0,town_type,population,age,professional_group,education,finished_education,marital_status,sex,employed,industry,wage
0,Посёлок городского типа,12187,43.0,Специалисты высшего уровня квалификации,есть диплом о высшем образовании,законченное высшее образование и выше,Разведены и в браке не состоите,Ж,Вы сейчас работаете,Образование,40000.0
1,Посёлок городского типа,12187,61.0,Работники сферы торговли и услуг,10 и более классов школы и какое-либо професс....,законченное среднее образование,Bдовец (вдова),Ж,Вы сейчас работаете,Здравоохранение,28000.0
2,Посёлок городского типа,12187,32.0,Работники сферы торговли и услуг,7-9 классов школы (незак. средн) + без дип...,незаконченное среднее образование (7 - 8 кл) +...,Разведены и в браке не состоите,Ж,Вы сейчас работаете,"Торговля, бытовое обслуживание",
3,Посёлок городского типа,12187,30.0,,9 классов школы,незаконченное среднее образование (7 - 8 кл) +...,Состоите в зарегистрированном браке,М,Или у Вас сейчас нет работы,,
4,Посёлок городского типа,12187,72.0,,7 классов школы,незаконченное среднее образование (7 - 8 кл),Никогда в браке не состояли,Ж,Или у Вас сейчас нет работы,,


In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18756 entries, 0 to 18755
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype   
---  ------              --------------  -----   
 0   town_type           18756 non-null  category
 1   population          18756 non-null  int64   
 2   age                 18755 non-null  float64 
 3   professional_group  8292 non-null   category
 4   education           15280 non-null  category
 5   finished_education  15280 non-null  category
 6   marital_status      15289 non-null  category
 7   sex                 18756 non-null  category
 8   employed            15302 non-null  category
 9   industry            8286 non-null   category
 10  wage                7025 non-null   float64 
dtypes: category(8), float64(2), int64(1)
memory usage: 589.0 KB


# Задание

| Задание                            | Баллы          |
|------------------------------------|----------------|
| Добавление новых переменных        |             5 |
| Распределение зарплат              |             15 |
| Анализ факторов                    |             50+50 |
| Кодировка категориальных признаков |             10 |
| Линейная регрессия                 |             10 |
| Корректность линейной регрессии    |             10 |
| Всего                              |            100 |

## Распределение зарплат

Изучите опросник или кодировку переменных в этом исследовании и добавьте 1-3 переменных, которые могли бы влиять на зарплату.


Исследуйте распределение зарплат в России. 

- Похоже ли распределение на нормальное? А после логарифмирования? Воспользуйтесь формальными критериями для выводов. Если бы выборка была меньше, изменились бы выводы?
- Постройте подходящие гистограммы. Проанализируйте qq-график для исходной переменной и логарифмированной. Можно ли предположить, что логарифм зарплат имеет нормальное распределение?


## Анализ факторов

**Часть 1**
- Для начала оставьте в выборке только работающих (колонка - employed)
- Проанализируйте влияние каждого фактора на зарплату
    - пол / sex
    - тип населенного пункта / town_type
    - семейное положение / marital_status
    - проффессиональная группа / professional_group
    - образование / finished_education
    - индустрия / industry
- Для анализа взаимосвязи постройте подходящие графики 
    - например, боксплоты зарплаты в зависимости от категорий или распределение зарплаты в зависимости от бинарных переменных
    - вы можете рассмотреть, как логарифм зарплаты, так и ее оригинальное значение – в зависимости от того, что решили делать с целевой переменной и как лучше видна взаимосвязь или её отсутствие
- Напишите **краткие** выводы о наличии взаимосвязи (к более развернутым выводам стоит прийти после построения регрессии)


---

Следующее задание будет связано с подготовкой датасета к one-hot кодированию, поэтому уже на этом этапе имеет смысл подумать о том, как будут закодированы категориальные факторы

Особое внимание нужно обратить на категории, которых мало в выборке. Их стоит удалить или укрупнить до собирательной категории `Иное`. Например тех, кто закончил `0-6 классов`, почти нет в выборке, коэффицент для этой категории будет не значим, поэтому эту категорию можно заранее удалить (например, удалить эти наблюдения как выбросы).

Рекомендуется проанализировать подобную таблицу для каждого фактора или нанести значения из неё на график

<a href="https://ibb.co/NFRYmxq"><img src="https://i.ibb.co/rQ9yckh/image.png" alt="image" border="0"></a>



**Часть 2 (бонусная, + 50 баллов)**

- При помощи инструментов для тестирования однородности выборок проверьте влияние всех на зарплату
- Для этого нужно попарно сравить однородность всех категорий друг с другом и воспользоваться корректировкой на множественное тестирование (например, методом Бенджамини-Хохберга)
- В качестве статистического теста воспользуйтесь критерием Манна-Уитни или t-тестом
- Решение лучше реализовать через фунции, циклы итд, чтобы его можно было легко применить на каждую исследуемую переменную и на любой стат. тест
    
В качестве решения, предлагается для каждого категориального признака составить свобдную таблицу, в которой будут сопоставлены все возможные пары категориальных признаков и выведен результат тестирования гипотезы об однородности с учетом корректировки. 

Например, в таблице ниже приведен результат тестирования гипотезы о равенстве средних з/п для всех возможных пар по переменной `тип населенного пункта / town_type`. На основе этой таблицы гипотеза о равенстве средней з/п в `городах` и `поселках городского типа` не отвергается, а в остальных случаях наоборот отвергается. 

<a href="https://ibb.co/HNnjyKS"><img src="https://i.ibb.co/SQRzg6j/image.png" alt="image" border="0" width=500></a>

Если проанализровать распределения з/п в зависимости от этой переменной, то в `городах` и `поселках городского типа` распределение и медианы оказываются достаточно близки, поэтому при кодировки этих двух категорий их можно объединить в одну общую `город и ПГТ`.

<a href="https://ibb.co/vQ8tLYd"><img src="https://i.ibb.co/5nV7sFj/image.png" alt="image" border="0"></a>


Ниже идут подзаголовки для каждой переменной, которая может влиять на зарплату, просьба ими пользоваться

### пол / sex

### тип населенного пункта / town_type


### семейное положение / marital_status

### проффессиональная группа / professional_group

### образование / finished_education


### индустрия / industry

## Кодировка категориальных признаков

Для построения линейной регрессии категориальные колонки предстоит закодировать с помощью one-hot-encoding. Для этого необходимо:
- для каждой категориальной колонки выбрать базовую категорию (относительно которой будет анализироваться влияние),
- удалить из анализа те категории, в которые попало слишком мало наблюдений (выбрать на ваше усмотрение такие категории), либо укрупнить их в собирательную категорию "иное"
- исходя из анализа в предыдущемм задании выбрать близкие по смыслу категории и крупнить (если гипотеза об их однородности не отвергается или если вы пришли к этому через визуальный анализ)
- те переменные, которые мало влияют на зарплату, можно не кодировать и не включать в итоговый датасет


## Линейная регрессия

- Убедитесь, что все данные готовы и постройте линейную регрессию
- Проанализируйте результаты регрессии
- Соотносятся ли результаты регрессии с разведывательным анализом данных ранее?


## Корректность линейной регрессии

Проверьте корректность линейной регрессии (предпосылки теоремы Гаусса-Маркова) подобно тому, как мы это делали на семинаре. Анализируя остатки регрессии, можно также использовать дополнительные тесты на ваше усмотрение.