In [2]:
import numpy as np
import pandas as pd
import pyreadstat
import seaborn as sns
import matplotlib.pyplot as plt

In [3]:
file_path = 'r29i_os_73.sav'
df, meta = pyreadstat.read_sav(file_path)
df = df[['yj13.2','yj72.18a','yj6.2','yj10.2','yj21b', 'yj1.1.1']]

df.rename(columns = {'yj13.2':'ЗП',
                     'yj72.18a':'Образование',
                     'yj6.2':'Рабочая неделя',
                     'yj10.2':'Премия',
                     'yj21b':'Отпуск',
                     'yj1.1.1': 'Удовлетворенность'},
                inplace = True)
df

Unnamed: 0,ЗП,Образование,Рабочая неделя,Премия,Отпуск,Удовлетворенность
0,,4.0,,,,
1,,1.0,,,,
2,,6.0,,,,
3,,2.0,,,,
4,25000.0,5.0,40.0,99999996.0,42.0,3.0
...,...,...,...,...,...,...
12115,,10.0,,,,
12116,40000.0,6.0,50.0,99999996.0,14.0,2.0
12117,99999997.0,6.0,48.0,,58.0,2.0
12118,,,,,,


### Обнаружение выбросов

In [4]:
def detect_deviation(data: pd.DataFrame):
    Q1 = data.quantile(0.25)
    Q3 = data.quantile(0.75)
    IQR = Q3 - Q1

    mx = Q3 + 1.5 * IQR
    mn = Q1 - 1.5 * IQR

    print(f'IQR: min = {mn}, max = {mx}')
    

### ЗП

In [6]:
data = df['ЗП']
data = pd.DataFrame(df['ЗП'].dropna())
data = data.sort_values('ЗП')
data = data.drop(data[data['ЗП'] == 0].index)
data = data.drop(data[data['ЗП'] == 99999999].index)
data = data.drop(data[data['ЗП'] == 99999998].index)
data = data.drop(data[data['ЗП'] == 99999997].index)

detect_deviation(data)
data

IQR: min = ЗП   -12000.0
dtype: float64, max = ЗП    68000.0
dtype: float64


Unnamed: 0,ЗП
6223,800.0
11540,1081.0
8037,1500.0
7369,2050.0
4959,2600.0
...,...
2488,180000.0
7296,200000.0
10159,200000.0
1841,200000.0


### Премия

In [7]:
data = df['Премия']
data = pd.DataFrame(df['Премия'].dropna())
data = data.sort_values('Премия')
data = data.drop(data[data['Премия'] == 99999999].index)
data = data.drop(data[data['Премия'] == 99999998].index)
data = data.drop(data[data['Премия'] == 99999997].index)
data = data.drop(data[data['Премия'] == 99999996].index)

detect_deviation(data)
data

IQR: min = Премия   -7500.0
dtype: float64, max = Премия    20500.0
dtype: float64


Unnamed: 0,Премия
4288,200.0
2076,500.0
10498,500.0
11437,500.0
3382,500.0
...,...
11928,50000.0
11524,50000.0
6605,60000.0
3393,70000.0


### Отпуск

In [8]:
data = df['Отпуск']
data = pd.DataFrame(df['Отпуск'].dropna())
data = data.sort_values('Отпуск')
data = data.drop(data[data['Отпуск'] == 99999999].index)
data = data.drop(data[data['Отпуск'] == 99999998].index)
data = data.drop(data[data['Отпуск'] == 99999997].index)

detect_deviation(data)
data

IQR: min = Отпуск    7.5
dtype: float64, max = Отпуск    51.5
dtype: float64


Unnamed: 0,Отпуск
7024,2.0
11200,5.0
5158,6.0
9283,7.0
2035,7.0
...,...
9388,90.0
708,90.0
4457,92.0
3622,120.0


### Образование

In [None]:
data = df['Образование']
data = pd.DataFrame(df['Образование'].dropna())
data = data.drop(data[data['Образование'] == 9.9999999e+07].index)

data.describe()

Unnamed: 0,Образование
count,10322.0
mean,5.655106
std,3.428681
min,1.0
25%,2.0
50%,6.0
75%,10.0
max,17.0


### Рабочая неделя 

In [9]:
data = df['Рабочая неделя']
data = pd.DataFrame(df['Рабочая неделя'].dropna())
data = data.sort_values('Рабочая неделя')
data = data.drop(data[data['Рабочая неделя'] == 99999999].index)
data = data.drop(data[data['Рабочая неделя'] == 99999998].index)
data = data.drop(data[data['Рабочая неделя'] == 99999997].index)
data = data.drop(data[data['Рабочая неделя'] == 168].index)

detect_deviation(data)
data

IQR: min = Рабочая неделя    28.0
dtype: float64, max = Рабочая неделя    60.0
dtype: float64


Unnamed: 0,Рабочая неделя
11109,3.0
4959,4.0
6223,5.0
10553,5.0
1253,5.0
...,...
7712,120.0
9559,120.0
2239,126.0
1848,126.0


### Составляем новые данные 

In [None]:
new_data: pd.DataFrame = df.copy()

new_data['Удовлетворенность'] = new_data['Удовлетворенность'].replace(9.9999999e+07, np.nan)
new_data['Удовлетворенность'] = new_data['Удовлетворенность'].replace(9.9999997e+07, np.nan)
# new_data = new_data.drop(new_data[new_data['Удовлетворенность'] == np.float64(np.nan)].index)
new_data = new_data.dropna(subset=['Удовлетворенность'])

new_data = new_data.drop(new_data[(new_data['ЗП'] <= 0) 
                | (new_data['ЗП'] > 68000)].index)
new_data['ЗП'] = new_data['ЗП'].replace(np.nan, new_data['ЗП'].mean())

new_data['Премия'] = new_data['Премия'].replace(99999996, np.nan)
new_data = new_data.drop(new_data[(new_data['Премия'] < 0) 
                | (new_data['Премия'] > 20500)].index)
new_data['Премия'] = new_data['Премия'].replace(np.nan, new_data['Премия'].mean())


new_data = new_data.drop(new_data[(new_data['Отпуск'] < 7.5) 
                | (new_data['Отпуск'] > 51.5)].index)
new_data['Отпуск'] = new_data['Отпуск'].replace(np.nan, new_data['Отпуск'].mean())


new_data = new_data.drop(new_data[(new_data['Рабочая неделя'] < 28) 
                | (new_data['Рабочая неделя'] > 60)].index)
new_data['Рабочая неделя'] = new_data['Рабочая неделя'].replace(np.nan, new_data['Рабочая неделя'].mean())

new_data.loc[new_data['Образование'] > 17, 'Образование'] = np.nan

# Сокращаем образование до 4 классов
dict = {}
for _ in range(17):
    i = _ + 1
    if (i == 1) or (i == 2):
        dict[i] = 1
    elif (i <= 6) or (i == 15):
        dict[i] = 2
    elif (i <= 12):
        dict[i] = 3
    else:
        dict[i] = 4

new_data['Образование'] = new_data['Образование'].replace(dict)
new_data['Образование'] = new_data['Образование'].replace(np.nan, new_data['Образование'].mean())
new_data = new_data.rename(columns={'Рабочая неделя': 'РабочаяНеделя'})

new_data_mean = new_data
# pyreadstat.write_sav(new_data_mean, 'data_mean.sav')
new_data_mean

Unnamed: 0,ЗП,Образование,РабочаяНеделя,Премия,Отпуск,Удовлетворенность
4,25000.0,2.0,40.0,6487.010782,42.000000,3.0
6,18000.0,2.0,60.0,6487.010782,27.490365,4.0
12,30000.0,1.0,48.0,6487.010782,27.490365,4.0
15,38000.0,3.0,40.0,6487.010782,28.000000,1.0
16,40000.0,3.0,40.0,6487.010782,28.000000,1.0
...,...,...,...,...,...,...
12106,30000.0,2.0,48.0,6487.010782,28.000000,2.0
12107,35000.0,1.0,60.0,6487.010782,27.490365,3.0
12108,20000.0,2.0,40.0,6487.010782,14.000000,3.0
12113,53000.0,2.0,40.0,6487.010782,28.000000,2.0
