# Мастерская. KPMI

### Описание

KPMI (Keys to Personal Mastery Inventory) — Ключи персонального мастерства.

Тест «Ключи персонального мастерства» предназначен для определения индивидуального поведенческого стиля личности. Является оригинальной отечественной разработкой на базе широко известного типологического опросника Майер-Бриггс.

Помимо традиционного описания психологических особенностей личности тест позволяет прогнозировать, в какой сфере деятельности личность с наибольшей вероятностью сможет реализоваться и работать с удовольствием.

### Цель проекта

С помощью моделей классического машинного обучения попробовать улучшить качество предсказания сферы деятельности в которой человек сможет максимально самореализоваться.

Из результатов ответа на вопрос о профессии выделить собственно профессии, на основе которых построить каталог сфер деятельности;

Для каждой сферы деятельности построить классификатор(ы?), который по результатам заполнения анкеты дает прогноз о том, в
каких сферах деятельности респондент сможет максимально самореализоваться.

### Данные

- ответы на 60 вопросов анкеты;
- ответ на вопрос "кем ты работаешь?";
- ответ на разметочный вопрос "моя работа позволяет мне самореализовываться";
- время ответа в секундах на каждый вопрос;
- расчитанный психотип;
- 4 дихотимии психотипа.

## Подготовка, загрузка, осмотр данных

Импортируем необходимые библиотеки.

In [1]:
import pandas as pd
import numpy as np
import pymorphy2
from statsmodels.stats.outliers_influence import variance_inflation_factor

import re
from nltk.corpus import stopwords
import nltk

from collections import Counter

import pkg_resources
from symspellpy import SymSpell, Verbosity

Задаём глобальные переменные.

In [2]:
SEED = 314159 # случайное зерно

Изменим настройки отображения, сняв ограничение на количество строк и колонок.

In [3]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

Прочитаем данные в файл.

In [4]:
df = pd.read_csv('kpmi.ru_190k.csv', low_memory=False)

Сделаем осмотр данных.

In [5]:
df.info(verbose=True, show_counts=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 194568 entries, 0 to 194567
Data columns (total 133 columns):
 #    Column      Non-Null Count   Dtype  
---   ------      --------------   -----  
 0    q1          194568 non-null  int64  
 1    t1          194568 non-null  float64
 2    q2          194567 non-null  float64
 3    t2          194567 non-null  float64
 4    q3          194567 non-null  float64
 5    t3          194567 non-null  float64
 6    q4          194567 non-null  float64
 7    t4          194567 non-null  float64
 8    q5          194567 non-null  float64
 9    t5          194566 non-null  float64
 10   q6          194567 non-null  float64
 11   t6          194567 non-null  float64
 12   q7          194567 non-null  float64
 13   t7          194567 non-null  float64
 14   q8          194567 non-null  float64
 15   t8          194567 non-null  float64
 16   q9          194567 non-null  float64
 17   t9          194567 non-null  float64
 18   q10         194567 non

In [6]:
df.describe()

Unnamed: 0,q1,t1,q2,t2,q3,t3,q4,t4,q5,t5,q6,t6,q7,t7,q8,t8,q9,t9,q10,t10,q11,t11,q12,t12,q13,t13,q14,t14,q15,t15,q16,t16,q17,t17,q18,t18,q19,t19,q20,t20,q21,t21,q22,t22,q23,t23,q24,t24,q25,t25,q26,t26,q27,t27,q28,t28,q29,t29,q30,t30,q31,t31,q32,t32,q33,t33,q34,t34,q35,t35,q36,t36,q37,t37,q38,t38,q39,t39,q40,t40,q41,t41,q42,t42,q43,t43,q44,t44,q45,t45,q46,t46,q47,t47,q48,t48,q49,t49,q50,t50,q51,t51,q52,t52,q53,t53,q54,t54,q55,t55,q56,t56,q57,t57,q58,t58,q59,t59,q60,t60,t61,q62,t62,scale_e,scale_i,scale_f,scale_t,scale_s,scale_n,scale_j,scale_p
count,194568.0,194568.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194566.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194566.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194566.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194567.0,194566.0,194567.0,194566.0,194567.0,194567.0,194567.0,194566.0,194567.0,194567.0,188316.0,185189.0,185189.0,172164.0,172164.0,172164.0,172164.0,172164.0,172164.0,172164.0,172164.0
mean,1.549391,56.07079,1.552745,21.275059,1.34861,30.76964,1.382819,14.441525,1.471755,14.014786,1.672015,35.10847,1.373013,18.764205,1.575971,41.77171,1.59563,28.593607,1.549548,37.11933,1.812476,23.289877,1.513612,20.133837,1.5301,39.56914,1.562351,17.817841,1.303757,26.97609,1.479542,19.543901,1.731311,8.752648,1.490124,11.907196,1.366059,13.101655,1.466991,9.196527,1.701964,11.451623,1.723226,14.925256,1.480636,12.80888,1.547595,8.657048,1.632471,11.60524,1.442562,21.66036,1.300395,13.505555,1.361824,17.58499,1.441426,6.700172,1.770516,14.482513,1.201231,23.03248,1.213803,8.86418,1.38321,19.495246,1.524863,16.430559,1.274409,10.182456,1.795212,16.915841,1.283054,13.189403,1.641368,16.317221,1.710912,11.900601,1.322007,17.13305,1.58291,9.333561,1.423376,20.92937,1.686838,9.933899,1.638675,18.937966,1.405999,12.4674,1.524483,10.690008,1.493357,11.086685,1.282746,11.063649,1.556986,11.965574,1.400936,11.082843,1.413827,18.969167,1.360138,13.388244,1.601238,26.05003,1.319766,15.755147,1.650912,16.320239,1.370736,26.64411,1.322218,19.746608,1.308151,17.801299,1.494488,12.997785,1.387872,24.522245,16.710691,2.033782,11.474681,13.741677,21.438326,16.881584,16.777782,16.143026,16.717333,20.897435,15.961397
std,0.497556,5436.131,0.497211,1186.044698,0.476531,5922.551,0.486076,665.664792,0.499203,510.826242,0.46948,2625.322,0.483607,987.694108,0.494196,5353.557,0.490771,2181.44985,0.49754,4447.033,0.390333,2132.029811,0.499816,629.801897,0.499094,5281.149,0.496098,1921.010776,0.45988,6286.508,0.499583,1530.334325,0.443279,282.335338,0.499904,853.324949,0.481727,1783.901287,0.49891,608.954013,0.457397,744.462532,0.447405,2231.872056,0.499626,1274.794921,0.497731,286.804729,0.482133,748.322188,0.496691,4001.424,0.458431,741.166042,0.480529,3913.528,0.496559,85.945714,0.420502,721.231296,0.400922,3936.585,0.40999,160.767785,0.48617,1824.773637,0.499383,2234.255337,0.446217,578.430813,0.403548,1027.111966,0.450484,887.298209,0.4796,656.09853,0.45334,680.603595,0.467247,2492.865,0.493079,251.243887,0.494095,857.126477,0.463781,198.616236,0.480386,1001.659983,0.491086,681.184313,0.499402,359.593933,0.499957,532.310072,0.450335,306.315381,0.496743,871.813719,0.490089,397.829074,0.492519,699.503299,0.480042,1210.45859,0.489645,4143.217,0.466387,1002.527823,0.476683,786.906676,0.483003,3348.171,0.467327,1132.322309,0.46173,491.811164,0.499971,619.458166,0.487266,2744.623313,1552.652014,0.876973,904.491933,8.152163,7.612804,7.897234,7.743296,8.501869,6.571154,7.828525,7.553124
min,1.0,-3443.36,1.0,-13.46,1.0,-87.9,1.0,-9.05,1.0,-56.42,1.0,-3591.69,1.0,-341.16,1.0,-305.54,1.0,-464.77,1.0,0.06,1.0,-3.79,1.0,-75.67,1.0,-28.77,1.0,-472.0,1.0,-5.33,1.0,-8.39,1.0,-10.13,1.0,0.01,1.0,0.06,1.0,0.02,1.0,-0.1,1.0,0.06,1.0,-54047.68,1.0,-164.88,1.0,-63.44,1.0,-8.6,1.0,-3575.91,1.0,0.01,1.0,-96.1,1.0,-76523.8,1.0,0.05,1.0,0.06,1.0,-161.83,1.0,-51.68,1.0,0.05,1.0,-3338.84,1.0,0.07,1.0,0.07,1.0,0.04,1.0,-8.3,1.0,-3.65,1.0,-3589.5,1.0,-144.45,1.0,-72.21,1.0,0.06,1.0,-75.38,1.0,-6.19,1.0,-154.88,1.0,-8.34,1.0,-72.2,1.0,0.03,1.0,0.02,1.0,-51.88,1.0,0.03,1.0,0.03,1.0,-163.89,1.0,-8.3,1.0,-66.73,1.0,0.06,1.0,0.03,-5.7,1.0,-6.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,1.0,5.34,1.0,5.66,1.0,6.51,1.0,5.28,1.0,4.77,1.0,7.68,1.0,6.5,1.0,6.64,1.0,6.67,1.0,7.47,2.0,6.05,1.0,7.16,1.0,7.83,1.0,5.01,1.0,4.37,1.0,4.71,1.0,3.77,1.0,3.42,1.0,3.48,1.0,3.12,1.0,3.45,1.0,3.21,1.0,3.35,1.0,3.1,1.0,3.31,1.0,4.83,1.0,3.89,1.0,3.28,1.0,2.71,2.0,5.33,1.0,3.93,1.0,3.84,1.0,5.58,1.0,3.72,1.0,3.81,2.0,5.89,1.0,3.77,1.0,5.64,1.0,4.43,1.0,3.99,1.0,4.0,1.0,6.96,1.0,4.74,1.0,6.3,1.0,4.1,1.0,4.67,1.0,4.35,1.0,4.28,1.0,3.87,1.0,4.32,1.0,6.76,1.0,3.88,1.0,7.01,1.0,5.52,1.0,6.6,1.0,6.09,1.0,7.43,1.0,6.82,1.0,5.35,1.0,7.09,6.7,1.0,4.33,8.0,15.0,11.0,12.0,10.0,12.0,16.0,9.0
50%,2.0,7.41,2.0,8.31,1.0,8.4375,1.0,7.45,1.0,6.75,2.0,9.37,1.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,8.78,2.0,8.4,2.0,8.58,2.0,9.42,2.0,7.0,1.0,6.16,1.0,6.74,2.0,5.33,1.0,4.88,1.0,5.02,1.0,4.55,2.0,4.94,2.0,4.65,1.0,4.88,2.0,4.53,2.0,4.85,1.0,6.5,1.0,5.44,1.0,4.86,1.0,4.0,2.0,7.33,1.0,5.62,1.0,5.55,1.0,7.9,2.0,5.36,1.0,5.47,2.0,8.03,1.0,5.27,2.0,8.18,2.0,6.19,1.0,5.63,2.0,5.47,1.0,8.64,2.0,6.42,2.0,8.4375,1.0,5.79,2.0,6.45,1.0,6.02,1.0,6.08,2.0,5.5,1.0,6.12,1.0,8.4375,1.0,5.45,2.0,8.4375,1.0,7.74,2.0,8.4375,1.0,8.4375,1.0,8.99,1.0,8.4375,1.0,7.37,1.0,8.4375,8.4375,2.0,5.98,12.0,22.0,16.0,16.0,16.0,16.0,22.0,15.0
75%,2.0,9.48,2.0,10.76,2.0,11.03,2.0,9.43,2.0,8.53,2.0,14.58,2.0,10.96,2.0,12.18,2.0,11.79,2.0,12.46,2.0,10.53,2.0,12.83,2.0,14.04,2.0,8.65,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,8.13,2.0,8.34,2.0,7.75,2.0,8.21,2.0,7.86,2.0,8.26,2.0,7.89,2.0,8.33,2.0,8.4375,2.0,8.4375,2.0,8.42,2.0,7.07,2.0,8.91,1.0,8.4375,1.0,8.4375,2.0,9.91,2.0,8.4375,2.0,8.4375,2.0,9.79,2.0,8.4375,2.0,10.34,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,13.18,2.0,8.4375,2.0,10.69,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,12.11,2.0,8.4375,2.0,12.15,2.0,9.73,2.0,11.66,2.0,10.57,2.0,13.45,2.0,12.06,2.0,9.11,2.0,12.13,12.54,3.0,8.4375,20.0,28.0,22.0,23.0,23.0,21.0,25.0,20.0
max,2.0,1714797.0,2.0,346087.73,2.0,2599272.0,2.0,238718.52,2.0,135051.51,2.0,1002410.0,2.0,253297.46,2.0,2180981.0,2.0,776720.56,2.0,1521950.0,2.0,756516.44,2.0,130504.62,2.0,1901530.0,2.0,785341.39,2.0,2757272.0,2.0,572439.65,2.0,107796.07,2.0,248738.64,2.0,773402.35,2.0,257651.39,2.0,226012.74,2.0,859020.39,2.0,529575.64,2.0,71330.66,2.0,269504.69,2.0,1740150.0,2.0,190817.39,2.0,1724315.0,2.0,16510.87,2.0,181396.86,2.0,1509478.0,2.0,43125.44,2.0,686747.68,2.0,925027.92,2.0,243457.16,2.0,338006.21,2.0,309284.32,2.0,166738.97,2.0,271121.86,2.0,1077338.0,2.0,84554.2,2.0,223379.02,2.0,53981.75,2.0,257278.85,2.0,245700.29,2.0,94172.97,2.0,188392.52,2.0,72896.02,2.0,351721.78,2.0,146846.61,2.0,201468.26,2.0,510288.8,2.0,1811677.0,2.0,393343.06,2.0,322278.61,2.0,1262039.0,2.0,406887.41,2.0,100394.45,2.0,256737.92,2.0,939268.14,623374.0,3.0,347842.02,35.0,35.0,35.0,35.0,35.0,37.0,35.0,35.0


In [7]:
df.sample(10)

Unnamed: 0,q1,t1,q2,t2,q3,t3,q4,t4,q5,t5,q6,t6,q7,t7,q8,t8,q9,t9,q10,t10,q11,t11,q12,t12,q13,t13,q14,t14,q15,t15,q16,t16,q17,t17,q18,t18,q19,t19,q20,t20,q21,t21,q22,t22,q23,t23,q24,t24,q25,t25,q26,t26,q27,t27,q28,t28,q29,t29,q30,t30,q31,t31,q32,t32,q33,t33,q34,t34,q35,t35,q36,t36,q37,t37,q38,t38,q39,t39,q40,t40,q41,t41,q42,t42,q43,t43,q44,t44,q45,t45,q46,t46,q47,t47,q48,t48,q49,t49,q50,t50,q51,t51,q52,t52,q53,t53,q54,t54,q55,t55,q56,t56,q57,t57,q58,t58,q59,t59,q60,t60,q61,t61,q62,t62,scale_e,scale_i,scale_f,scale_t,scale_s,scale_n,scale_j,scale_p,psychotype
64872,1,6.23,2.0,5.03,1.0,7.51,2.0,6.32,1.0,6.7,2.0,10.52,2.0,5.33,1.0,6.36,2.0,8.96,1.0,6.82,2.0,5.83,2.0,6.81,2.0,9.52,1.0,5.43,1.0,3.6,2.0,5.94,2.0,3.05,2.0,2.28,1.0,2.86,1.0,2.81,1.0,2.9,2.0,3.26,2.0,5.47,1.0,2.78,1.0,2.85,2.0,7.8,2.0,4.18,1.0,2.86,2.0,2.16,2.0,6.34,2.0,3.58,2.0,2.9,2.0,3.39,1.0,3.88,1.0,4.68,1.0,8.54,2.0,2.3,1.0,4.59,1.0,2.41,2.0,2.91,2.0,1.89,2.0,3.43,2.0,3.11,1.0,8.08,2.0,2.93,2.0,6.22,1.0,6.51,2.0,6.29,1.0,7.08,2.0,4.81,2.0,5.4,2.0,4.16,2.0,7.67,2.0,6.68,1.0,8.19,1.0,6.09,2.0,11.38,1.0,10.02,1.0,5.84,1.0,9.72,Не кем,6.11,2.0,5.03,12.0,20.0,8.0,26.0,14.0,19.0,10.0,23.0,INTP
34052,2,5.58,2.0,10.27,1.0,9.72,1.0,14.78,1.0,11.94,2.0,32.3,1.0,6.54,2.0,16.75,2.0,81.11,2.0,47.14,2.0,5.85,1.0,13.34,2.0,24.8,2.0,16.57,2.0,14.39,1.0,12.94,2.0,4.3,1.0,15.35,2.0,5.1,2.0,7.51,1.0,12.72,2.0,4.92,2.0,8.32,1.0,4.85,2.0,122.33,1.0,38.37,1.0,11.33,2.0,7.14,1.0,5.47,2.0,30.59,1.0,7.21,2.0,9.71,1.0,20.29,1.0,25.87,1.0,3.82,2.0,14.97,1.0,10.01,2.0,11.96,1.0,9.03,2.0,16.18,2.0,5.78,1.0,20.82,1.0,4.06,2.0,16.38,2.0,10.07,1.0,5.79,1.0,10.23,1.0,7.02,2.0,27.48,1.0,7.07,2.0,56.73,2.0,20.15,2.0,14.34,2.0,20.02,2.0,9.44,2.0,31.41,1.0,9.3,2.0,16.76,2.0,7.07,1.0,10.21,Дизайнер,18.79,3.0,8.3,12.0,22.0,13.0,16.0,16.0,19.0,25.0,6.0,INTJ
70437,2,6.86,2.0,4.69,1.0,6.64,2.0,16.66,2.0,6.69,1.0,10.3,1.0,13.92,2.0,6.72,2.0,6.3,2.0,42.6,2.0,8.91,1.0,14.2,2.0,10.45,1.0,5.72,1.0,5.93,1.0,5.05,2.0,5.45,1.0,4.6,2.0,4.78,2.0,6.52,2.0,4.58,2.0,5.71,1.0,3.8,2.0,5.72,2.0,3.06,2.0,5.43,1.0,5.86,2.0,4.64,1.0,4.19,1.0,7.48,1.0,6.38,1.0,5.02,1.0,4.9,2.0,3.91,1.0,7.56,2.0,6.55,1.0,4.03,2.0,6.16,2.0,5.55,1.0,5.17,2.0,6.17,2.0,9.98,1.0,4.85,2.0,4.88,1.0,8.31,1.0,5.49,2.0,6.78,1.0,3.73,2.0,6.93,1.0,3.67,1.0,12.16,1.0,5.54,2.0,54.03,1.0,4.97,2.0,6.72,2.0,7.92,1.0,11.97,1.0,8.0,1.0,6.39,2.0,11.31,,3.29,3.0,5.85,5.0,28.0,19.0,19.0,23.0,12.0,32.0,6.0,ISFJ
127145,1,9.83,2.0,16.07,1.0,17.82,1.0,18.77,1.0,31.62,2.0,12.03,1.0,10.27,1.0,9.26,2.0,20.66,1.0,9.48,1.0,26.86,2.0,15.96,2.0,25.32,2.0,11.76,1.0,7.82,2.0,12.05,2.0,11.95,2.0,6.58,1.0,9.22,1.0,13.8,2.0,6.86,2.0,5.8,1.0,15.74,1.0,14.93,1.0,10.47,1.0,11.42,1.0,38.89,1.0,4.04,2.0,2.49,2.0,13.58,1.0,11.99,1.0,7.24,1.0,13.94,1.0,7.38,2.0,11.73,1.0,43.91,1.0,9.42,1.0,8.58,1.0,9.45,1.0,4.92,2.0,17.98,1.0,22.63,1.0,13.26,1.0,7.78,2.0,8.01,1.0,7.58,2.0,87.04,2.0,6.33,1.0,7.52,1.0,7.02,1.0,10.77,1.0,7.1,1.0,13.79,2.0,34.3,2.0,7.3,1.0,11.41,1.0,21.7,1.0,21.27,1.0,17.05,1.0,7.85,никем,7.81,2.0,20.3,25.0,11.0,16.0,26.0,12.0,16.0,16.0,18.0,ENTP
93993,1,6.64,2.0,4.76,2.0,11.43,2.0,5.55,2.0,19.54,2.0,25.75,2.0,9.94,2.0,8.4,1.0,29.16,2.0,66.44,2.0,14.74,1.0,9.05,2.0,7.28,2.0,4.99,1.0,7.49,1.0,7.41,2.0,3.57,1.0,5.53,1.0,8.04,1.0,3.54,2.0,3.6,2.0,3.58,2.0,4.07,2.0,3.9,2.0,2.63,1.0,5.66,1.0,4.01,1.0,2.05,1.0,2.3,2.0,5.99,1.0,20.75,1.0,2.21,2.0,5.43,1.0,4.04,1.0,8.15,2.0,9.44,2.0,3.76,1.0,5.38,2.0,9.37,1.0,3.67,1.0,1.97,2.0,12.49,2.0,6.25,2.0,6.86,2.0,3.06,1.0,5.04,1.0,60.11,1.0,3.88,1.0,4.32,1.0,3.6,1.0,7.28,1.0,16.85,2.0,7.92,1.0,8.87,1.0,7.52,2.0,9.54,2.0,9.93,2.0,6.12,1.0,21.61,1.0,9.39,школьник,13.74,2.0,6.39,18.0,20.0,8.0,21.0,12.0,19.0,16.0,23.0,INTP
5244,2,3.68,2.0,4.41,1.0,4.68,2.0,9.02,1.0,5.25,2.0,16.7,2.0,8.04,2.0,6.58,2.0,7.26,1.0,6.89,2.0,5.3,2.0,6.63,2.0,8.62,2.0,3.46,1.0,3.29,1.0,3.74,2.0,3.68,1.0,3.46,1.0,1.73,1.0,2.21,1.0,2.41,2.0,2.1,2.0,2.41,1.0,3.5,2.0,1.64,1.0,7.24,1.0,4.25,2.0,3.63,1.0,1.57,2.0,4.83,1.0,6.34,1.0,8.6,1.0,5.81,1.0,5.04,1.0,2.33,1.0,4.63,1.0,4.05,2.0,13.05,2.0,3.92,1.0,2.88,1.0,1.94,1.0,7.52,1.0,6.39,1.0,4.62,1.0,3.31,2.0,4.01,1.0,4.42,1.0,3.55,1.0,5.79,2.0,3.42,1.0,7.62,1.0,2.41,2.0,5.24,1.0,8.52,2.0,6.36,1.0,9.04,1.0,8.0,2.0,11.21,2.0,4.83,2.0,6.49,,2.6,1.0,4.04,10.0,28.0,8.0,21.0,12.0,18.0,32.0,9.0,INTJ
131049,2,7.28,1.0,6.1,1.0,8.49,1.0,5.0,2.0,3.45,2.0,8.04,2.0,5.0,1.0,5.51,1.0,5.04,2.0,6.92,2.0,5.38,2.0,6.07,1.0,5.49,2.0,2.53,2.0,2.54,2.0,3.71,2.0,2.79,2.0,2.37,1.0,3.74,1.0,2.15,2.0,4.09,2.0,2.34,2.0,2.3,1.0,4.06,1.0,3.69,1.0,3.64,1.0,3.66,2.0,3.01,1.0,1.99,1.0,4.88,2.0,3.4,1.0,3.33,1.0,4.29,1.0,3.66,1.0,3.57,2.0,5.26,1.0,3.15,2.0,4.16,2.0,4.42,1.0,3.35,1.0,3.03,1.0,9.38,2.0,4.36,2.0,5.74,2.0,2.82,2.0,3.99,1.0,3.56,1.0,3.51,1.0,3.16,2.0,3.98,2.0,5.55,1.0,3.64,2.0,8.37,1.0,6.18,1.0,4.51,1.0,4.81,1.0,5.17,1.0,5.79,1.0,4.32,1.0,4.71,Пре,6.36,1.0,3.51,20.0,15.0,24.0,7.0,10.0,23.0,19.0,15.0,ENFJ
66377,2,11.46,2.0,11.36,2.0,14.33,1.0,14.14,1.0,7.6,1.0,12.72,2.0,7.42,2.0,9.45,2.0,9.19,2.0,12.58,2.0,15.7,1.0,11.84,2.0,10.66,2.0,18.88,1.0,6.17,1.0,8.45,2.0,11.79,1.0,4.25,2.0,8.21,2.0,8.36,2.0,5.57,2.0,10.86,1.0,5.58,1.0,7.25,2.0,9.56,1.0,15.49,1.0,11.69,1.0,16.72,2.0,11.76,2.0,6.68,1.0,52.06,1.0,9.47,1.0,11.93,2.0,5.57,2.0,7.68,2.0,11.55,1.0,9.48,2.0,9.93,2.0,6.16,1.0,7.43,2.0,5.91,2.0,18.22,2.0,6.96,1.0,16.59,1.0,6.3,2.0,19.59,2.0,10.73,1.0,8.04,2.0,7.49,1.0,18.09,2.0,11.31,1.0,8.94,1.0,25.83,1.0,10.02,2.0,26.2,2.0,12.49,1.0,24.56,1.0,14.78,2.0,9.51,2.0,17.07,Я учусь в школе,17.0,2.0,5.84,5.0,26.0,11.0,28.0,27.0,8.0,29.0,15.0,ISTJ
115981,2,8.87,2.0,21.98,1.0,11.54,2.0,28.8,1.0,11.61,2.0,26.79,1.0,21.98,1.0,15.47,2.0,14.12,2.0,14.66,2.0,12.49,2.0,124.77,1.0,21.71,2.0,6.14,1.0,5.29,2.0,5.13,2.0,3.57,2.0,3.87,1.0,48.77,2.0,12.69,2.0,6.8,1.0,4.94,1.0,5.64,1.0,4.19,2.0,4.58,2.0,7.89,1.0,7.1,1.0,6.06,2.0,6.21,2.0,107.73,1.0,6.84,1.0,24.88,1.0,37.63,2.0,10.52,1.0,4.06,1.0,12.33,1.0,8.4,2.0,17.9,2.0,14.99,1.0,5.78,2.0,7.01,1.0,24.08,1.0,15.73,2.0,56.06,1.0,38.26,1.0,49.55,1.0,57.52,2.0,42.71,2.0,28.93,1.0,8.61,2.0,19.77,1.0,188.04,2.0,75.84,2.0,124.44,2.0,127.66,1.0,21.59,2.0,67.34,1.0,32.27,1.0,138.16,1.0,14.38,сортировщик,67.36,2.0,17.72,10.0,28.0,19.0,19.0,23.0,16.0,22.0,12.0,ISFJ
171374,1,0.18,1.0,0.18,1.0,0.21,1.0,0.18,1.0,0.2,1.0,0.17,1.0,0.2,1.0,0.19,1.0,0.19,1.0,0.18,1.0,0.19,1.0,0.19,1.0,0.2,1.0,0.17,1.0,0.52,1.0,0.17,1.0,0.27,1.0,0.16,1.0,0.18,1.0,0.25,1.0,0.15,1.0,0.18,1.0,0.19,1.0,0.2,1.0,0.21,1.0,0.18,1.0,0.17,1.0,0.19,1.0,0.2,1.0,0.19,1.0,0.18,1.0,0.19,1.0,0.19,1.0,0.18,1.0,0.2,1.0,0.2,1.0,0.17,1.0,0.39,2.0,0.2,1.0,0.17,1.0,0.19,1.0,0.2,1.0,0.2,1.0,0.18,1.0,0.2,1.0,0.41,2.0,0.2,2.0,1.25,1.0,0.2,1.0,0.18,1.0,0.2,1.0,0.2,1.0,0.19,1.0,0.2,1.0,0.21,1.0,0.2,1.0,0.19,1.0,0.77,1.0,0.73,2.0,5.08,,,,,30.0,9.0,24.0,12.0,23.0,14.0,22.0,18.0,ESFJ


## Чистка данных

Проверим дубликаты.

In [8]:
df.duplicated().value_counts()

False    194515
True         53
dtype: int64

Сбросим дубликаты.

In [9]:
df.drop_duplicates(inplace=True)

Фактор инфляции дисперсии (VIF) больше 5 говорит о высокой степени коллинеарности. Шкалы `scale_?` получаются путём суммирования результатов ответов на определённые вопросы, поэтому обрадают мультиколлинеарностью и должны быть удалены для обработки линейными моделями. Также удалим психотип, как производное от шкал и ответов.

In [10]:
columns_to_drop = ['scale_e', 'scale_i', 'scale_f', 'scale_t', 'scale_s', 'scale_n', 'scale_j', 'scale_p', 'psychotype']

df.drop(columns=columns_to_drop, axis=1, inplace=True)

Сбросим оставшиеся выявленные пропуски в данных.

In [11]:
df.dropna(inplace=True)

Проверим оставшиеся данные.

In [12]:
df.info(verbose=True, show_counts=True)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 149700 entries, 93 to 194566
Data columns (total 124 columns):
 #    Column  Non-Null Count   Dtype  
---   ------  --------------   -----  
 0    q1      149700 non-null  int64  
 1    t1      149700 non-null  float64
 2    q2      149700 non-null  float64
 3    t2      149700 non-null  float64
 4    q3      149700 non-null  float64
 5    t3      149700 non-null  float64
 6    q4      149700 non-null  float64
 7    t4      149700 non-null  float64
 8    q5      149700 non-null  float64
 9    t5      149700 non-null  float64
 10   q6      149700 non-null  float64
 11   t6      149700 non-null  float64
 12   q7      149700 non-null  float64
 13   t7      149700 non-null  float64
 14   q8      149700 non-null  float64
 15   t8      149700 non-null  float64
 16   q9      149700 non-null  float64
 17   t9      149700 non-null  float64
 18   q10     149700 non-null  float64
 19   t10     149700 non-null  float64
 20   q11     149700 non-null

Избавимся от строк, где ответ на вопрос об удовлетворённости неопределённый.

In [13]:
df.drop(df[df['q62'] == 3].index, inplace=True)

Создадим для дальнейшей работы список колонок со временем.

In [14]:
time_columns = []

for i in range(1, 63):
    time_columns.append('t'+str(i))

Сбросим строки, в которых время оказалось отрицательным.

In [15]:
for time_column in time_columns:
    df.drop(df[df[time_column] <= 0].index, inplace=True)

Проверим результат.

In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 94137 entries, 94 to 194566
Columns: 124 entries, q1 to t62
dtypes: float64(122), int64(1), object(1)
memory usage: 89.8+ MB


Избавимся от экстремальных значений, отбросив 0.1 и 99.9 персентили.

In [17]:
indexes_to_drop = set()

for time_column in time_columns:
    q_min = df[time_column].quantile(.001)
    q_max = df[time_column].quantile(.999)
    indexes_to_drop.update(df[df[time_column] <= q_min].index)
    indexes_to_drop.update(df[df[time_column] >= q_max].index)
    
df.drop(list(indexes_to_drop), inplace=True)
df.reset_index(drop=True, inplace=True)
print(q_min)
print(q_max)

0.9613599999999999
166.0024000000056


Проверим общее оставшееся количество строк.

In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 88744 entries, 0 to 88743
Columns: 124 entries, q1 to t62
dtypes: float64(122), int64(1), object(1)
memory usage: 84.0+ MB


Поменяем типы колонок.

In [19]:
# uint8 колонки
uint8_columns = set()
for i in range(1, 61):
    uint8_columns.add('q'+str(i))
uint8_columns.add('q62')

# изменяем dtypes колонок
df = df.astype({
    **{_:'uint8' for _ in list(uint8_columns)}
})

Проверим результат.

In [20]:
df.info(verbose=True, show_counts=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 88744 entries, 0 to 88743
Data columns (total 124 columns):
 #    Column  Non-Null Count  Dtype  
---   ------  --------------  -----  
 0    q1      88744 non-null  uint8  
 1    t1      88744 non-null  float64
 2    q2      88744 non-null  uint8  
 3    t2      88744 non-null  float64
 4    q3      88744 non-null  uint8  
 5    t3      88744 non-null  float64
 6    q4      88744 non-null  uint8  
 7    t4      88744 non-null  float64
 8    q5      88744 non-null  uint8  
 9    t5      88744 non-null  float64
 10   q6      88744 non-null  uint8  
 11   t6      88744 non-null  float64
 12   q7      88744 non-null  uint8  
 13   t7      88744 non-null  float64
 14   q8      88744 non-null  uint8  
 15   t8      88744 non-null  float64
 16   q9      88744 non-null  uint8  
 17   t9      88744 non-null  float64
 18   q10     88744 non-null  uint8  
 19   t10     88744 non-null  float64
 20   q11     88744 non-null  uint8  
 21   t11     88

А также посмотрим статистическую информацию по полученному датасету.

In [21]:
df.describe()

Unnamed: 0,q1,t1,q2,t2,q3,t3,q4,t4,q5,t5,q6,t6,q7,t7,q8,t8,q9,t9,q10,t10,q11,t11,q12,t12,q13,t13,q14,t14,q15,t15,q16,t16,q17,t17,q18,t18,q19,t19,q20,t20,q21,t21,q22,t22,q23,t23,q24,t24,q25,t25,q26,t26,q27,t27,q28,t28,q29,t29,q30,t30,q31,t31,q32,t32,q33,t33,q34,t34,q35,t35,q36,t36,q37,t37,q38,t38,q39,t39,q40,t40,q41,t41,q42,t42,q43,t43,q44,t44,q45,t45,q46,t46,q47,t47,q48,t48,q49,t49,q50,t50,q51,t51,q52,t52,q53,t53,q54,t54,q55,t55,q56,t56,q57,t57,q58,t58,q59,t59,q60,t60,t61,q62,t62
count,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0,88744.0
mean,1.522255,11.670955,1.559553,10.591019,1.347066,10.634785,1.368926,9.198865,1.44607,8.917394,1.667369,13.818304,1.381479,10.847737,1.577447,12.172707,1.545772,11.61351,1.552409,12.052298,1.801057,10.605497,1.550527,12.412982,1.535247,13.765837,1.5637,8.697879,1.302477,7.781034,1.487717,8.509629,1.747566,6.897066,1.506626,6.518209,1.362402,6.526738,1.491177,6.225146,1.709332,6.550841,1.715586,6.286744,1.480348,6.610523,1.532735,6.346055,1.635435,6.536768,1.40245,8.006971,1.280301,7.376361,1.364554,6.715795,1.466465,5.697635,1.770091,8.738388,1.196994,7.753855,1.192486,7.209273,1.366211,9.535758,1.514559,7.149922,1.254834,7.07211,1.785552,9.550308,1.277698,6.852061,1.638409,9.920997,1.694931,7.816363,1.327628,7.27494,1.538087,7.004153,1.396579,12.125042,1.717029,7.909178,1.65565,10.518058,1.399193,7.715451,1.493183,7.636718,1.488844,7.443634,1.269596,8.020684,1.570957,7.401604,1.399565,7.873256,1.396838,11.543212,1.367304,7.167911,1.620876,11.800815,1.327909,9.718428,1.639773,10.874782,1.33147,10.044081,1.318838,12.072309,1.316866,11.558583,1.481024,9.294475,1.406247,11.484264,12.427217,1.391102,7.254294
std,0.499507,37.498066,0.496444,15.881627,0.47604,13.825612,0.482517,10.223205,0.497086,12.418026,0.471158,22.76528,0.485753,15.020169,0.493968,20.962527,0.497903,18.015887,0.497248,16.881615,0.399207,16.114768,0.497443,18.219828,0.498759,20.702596,0.495928,10.172231,0.459333,9.340046,0.499852,10.770531,0.434411,7.490578,0.499959,7.31244,0.480697,6.407131,0.499925,7.078157,0.454073,7.512421,0.451137,6.768454,0.499616,7.913435,0.49893,7.866204,0.481311,7.437074,0.490394,7.815392,0.449149,9.657449,0.481308,9.015758,0.498877,6.094055,0.420776,9.594719,0.39773,9.938074,0.394255,7.941591,0.481771,10.698081,0.499791,9.394272,0.43577,7.591577,0.410441,11.278331,0.447866,7.415714,0.480464,12.44027,0.460439,9.026456,0.469351,8.891307,0.49855,7.497039,0.48919,17.134165,0.450445,8.222893,0.475159,13.290024,0.489735,10.074094,0.499956,6.511311,0.499878,7.304758,0.443752,9.656319,0.494942,8.339059,0.489812,9.802556,0.489245,13.763074,0.482073,8.211027,0.485172,15.138707,0.469454,11.906777,0.480069,11.925508,0.470744,11.044223,0.466029,12.791381,0.465258,14.714412,0.499643,10.220926,0.491135,13.028524,9.8785,0.488,6.204182
min,1.0,1.79,1.0,0.99,1.0,0.88,1.0,0.84,1.0,0.77,1.0,0.76,1.0,0.76,1.0,0.71,1.0,0.7,1.0,0.71,1.0,0.67,1.0,0.62,1.0,0.69,1.0,0.66,1.0,0.6,1.0,0.56,1.0,0.66,1.0,0.61,1.0,0.58,1.0,0.53,1.0,0.54,1.0,0.58,1.0,0.49,1.0,0.52,1.0,0.56,1.0,0.78,1.0,0.71,1.0,0.65,1.0,0.61,1.0,0.57,1.0,0.7,1.0,0.61,1.0,0.58,1.0,0.56,1.0,0.61,1.0,0.56,1.0,0.54,1.0,0.61,1.0,0.59,1.0,0.63,1.0,0.62,1.0,0.61,1.0,0.59,1.0,0.57,1.0,0.6,1.0,0.68,1.0,0.6,1.0,0.58,1.0,0.59,1.0,0.68,1.0,0.63,1.0,0.63,1.0,0.64,1.0,0.63,1.0,0.58,1.0,0.59,1.0,0.73,1.0,0.7,1.0,0.67,1.0,0.63,0.57,1.0,0.97
25%,1.0,5.46,1.0,5.75,1.0,6.62,1.0,5.38,1.0,4.83,1.0,7.82,1.0,6.58,1.0,6.78,1.0,6.79,1.0,7.57,2.0,6.19,1.0,7.25,1.0,8.0,1.0,5.12,1.0,4.5,1.0,4.89,1.0,3.89,1.0,3.56,1.0,3.61,1.0,3.23,1.0,3.56,1.0,3.32,1.0,3.46,1.0,3.22,1.0,3.42,1.0,4.92,1.0,3.96,1.0,3.4,1.0,2.8,2.0,5.45,1.0,4.02,1.0,3.89,1.0,5.65,1.0,3.82,1.0,3.93,2.0,6.0,1.0,3.86,1.0,5.73,1.0,4.53,1.0,4.13,1.0,4.08,1.0,7.04,1.0,4.8,1.0,6.41,1.0,4.23,1.0,4.76,1.0,4.42,1.0,4.38,1.0,3.95,1.0,4.46,1.0,6.91,1.0,3.99,1.0,7.13,1.0,5.65,1.0,6.69,1.0,6.14,1.0,7.48,1.0,6.93,1.0,5.45,1.0,7.2,8.1,1.0,4.46
50%,2.0,7.785,2.0,8.4375,1.0,8.4375,1.0,7.74,1.0,6.95,2.0,9.0,1.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,8.48,2.0,8.4375,2.0,8.4375,2.0,9.11,2.0,7.23,1.0,6.41,1.0,7.09,2.0,5.58,2.0,5.14,1.0,5.29,1.0,4.78,2.0,5.16,2.0,4.89,1.0,5.13,2.0,4.78,2.0,5.08,1.0,6.72,1.0,5.59,1.0,5.12,1.0,4.21,2.0,7.6,1.0,5.83,1.0,5.71,1.0,8.13,2.0,5.57,1.0,5.72,2.0,8.3,1.0,5.45,2.0,8.4375,2.0,6.41,1.0,5.91,2.0,5.67,1.0,8.4375,2.0,6.57,2.0,8.4375,1.0,6.04,1.0,6.65,1.0,6.2,1.0,6.34,2.0,5.74,1.0,6.39,1.0,8.4375,1.0,5.68,2.0,8.4375,1.0,8.07,2.0,8.4375,1.0,8.4375,1.0,8.53,1.0,8.4375,1.0,7.63,1.0,8.4375,9.28,1.0,6.04
75%,2.0,9.31,2.0,10.32,2.0,10.71,2.0,9.15,2.0,8.4375,2.0,14.09,2.0,10.63,2.0,11.84,2.0,11.44,2.0,12.12,2.0,10.31,2.0,12.37,2.0,13.66,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,8.32,2.0,8.74,1.0,8.4375,1.0,8.4375,2.0,9.58,2.0,8.4375,2.0,8.4375,2.0,9.56,2.0,8.4375,2.0,10.06,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,12.55,2.0,8.4375,2.0,10.38,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,8.4375,2.0,11.84,2.0,8.4375,2.0,11.74,2.0,9.52,2.0,11.23,2.0,10.15,2.0,12.83,2.0,11.6,2.0,8.88,2.0,11.81,13.9425,2.0,8.4375
max,2.0,1494.51,2.0,568.01,2.0,511.92,2.0,302.58,2.0,428.29,2.0,1062.39,2.0,528.16,2.0,862.49,2.0,696.61,2.0,611.53,2.0,611.73,2.0,657.39,2.0,826.42,2.0,292.56,2.0,322.0,2.0,392.67,2.0,236.52,2.0,216.3,2.0,179.19,2.0,210.91,2.0,269.99,2.0,197.27,2.0,242.78,2.0,274.22,2.0,232.78,2.0,228.19,2.0,284.47,2.0,316.43,2.0,154.49,2.0,300.73,2.0,306.31,2.0,228.47,2.0,326.42,2.0,337.2,2.0,241.89,2.0,448.54,2.0,227.04,2.0,550.98,2.0,315.12,2.0,325.35,2.0,241.26,2.0,709.99,2.0,239.84,2.0,435.92,2.0,324.56,2.0,189.84,2.0,220.82,2.0,264.31,2.0,202.37,2.0,332.44,2.0,387.65,2.0,260.63,2.0,493.4,2.0,386.75,2.0,352.83,2.0,362.22,2.0,409.32,2.0,474.62,2.0,233.1,2.0,421.34,200.0,2.0,165.7


## Обработка столбца с профессиями

Осмотрим текущие данные.

In [22]:
with np.printoptions(threshold=np.inf):
    print(df['q61'].unique())

['Данный момент не работаю ' 'Учитель' 'я школьник' 'рекламист'
 'Руководитель участка' 'Повар' 'Фитнес '
 'Менеджер регионального отдела продаж' 'инженер' 'преподаватель'
 'акушерка' 'Учителем ' 'Ведущий менеджер ' 'Свое дело.' 'Курьер'
 'Студент ' 'предприниматель ' 'Бизнесмен' 'Пожарный' 'Разнорабочий'
 'учусь ' 'дизайнер' 'Педагогом организатором' 'Врач' 'Бухгалтер '
 'Бухгалтер' 'Инженер по охране труда' 'никем' 'Домохозяйка' 'Военный'
 'Продавец' 'Авиадиспетчер' 'танцор' 'Оптик' 'Педагог' 'Не работаю'
 'Кадровик' 'Технолог' 'менеджер' 'не кем' 'некем ' 'Кладовщик '
 'Архивариус ' 'мастер ногтевого сервиса' 'Кладовщик' 'Юрист' 'учусь'
 'Лоо' 'бухгалтером' 'Студент' 'Регистратоп' 'Ведущий специалист '
 'студент' 'Программист' 'Дизайнер' 'Администратор ' 'Никем'
 'Рабочая производства' 'На складе' 'архитектор' 'Оператор харвестера'
 'УЧУСЬ' 'Политиком' 'Начальник' 'Медсестра' 'Секретарь корректор'
 'дизайнер мебели' 'Психологом' 'официант' 'Начальник отдела гсм' 'Тренер'
 'Врачом' '

Загрузим словарь библиотеки SymSpell.

In [23]:
sym_spell = SymSpell(max_dictionary_edit_distance=3, prefix_length=7)

dictionary_path = pkg_resources.resource_filename('symspellpy', 'ru-100k.txt')

sym_spell.load_dictionary(dictionary_path, term_index=0, count_index=1, separator=' ', encoding='UTF-8')

True

Создадим функцию для фильтрации и исправления опечаток в графе `профессия`.

In [24]:
morph = pymorphy2.MorphAnalyzer()
stops = set(stopwords.words("russian"))
lemmas_list = []

def review_to_wordlist(to_review: str) -> list:
    '''
    Функция принимает строку с текстом. Удаляет всё кроме букв и пробелов. Переводит в нижний регистр.
    Разделяет на отдельные слова. Отсеивает слова входящие в список стоп-слов. Выделяет из полученных слов леммы
    и возвращает в виде списка слов.
    '''
    # убираем все символы кроме букв и пробелов
    review_text = re.sub('[^а-яА-Яa-zA-Z]', ' ', to_review)
    # переводим в нижний регистр и разделяем на отдельные слова
    words = review_text.lower().split()
    # отсеиваем стоп-слова
    words = [w for w in words if not w in stops]
    # выделяем леммы
    words = [morph.parse(w)[0].normal_form for w in words]
    # проверяем каждое слово на ошибки модулем SymSpellPy
    result = []
    for word in words:
        suggestions = sym_spell.lookup(word, Verbosity.CLOSEST, max_edit_distance=2, include_unknown=True)
        try:
            result.append(suggestions[0].term)
            lemmas_list.append(suggestions[0].term)
        except:
            None
    
    return(result)

Применим полученную функцию для очистки данных.

In [25]:
df['reviewed'] = df['q61'].transform(review_to_wordlist)

Проверим результат.

In [26]:
df.sample(10)

Unnamed: 0,q1,t1,q2,t2,q3,t3,q4,t4,q5,t5,q6,t6,q7,t7,q8,t8,q9,t9,q10,t10,q11,t11,q12,t12,q13,t13,q14,t14,q15,t15,q16,t16,q17,t17,q18,t18,q19,t19,q20,t20,q21,t21,q22,t22,q23,t23,q24,t24,q25,t25,q26,t26,q27,t27,q28,t28,q29,t29,q30,t30,q31,t31,q32,t32,q33,t33,q34,t34,q35,t35,q36,t36,q37,t37,q38,t38,q39,t39,q40,t40,q41,t41,q42,t42,q43,t43,q44,t44,q45,t45,q46,t46,q47,t47,q48,t48,q49,t49,q50,t50,q51,t51,q52,t52,q53,t53,q54,t54,q55,t55,q56,t56,q57,t57,q58,t58,q59,t59,q60,t60,q61,t61,q62,t62,reviewed
66377,1,9.84,2,17.49,2,13.69,2,9.11,2,14.02,2,18.5,2,16.41,2,14.2,2,11.74,2,15.76,2,10.94,2,14.21,1,15.47,2,9.85,2,7.12,2,6.98,1,4.19,1,3.98,1,8.04,1,3.67,2,5.09,1,6.9,2,4.35,2,9.04,2,6.75,2,11.66,2,6.12,1,3.08,2,4.86,2,11.55,1,7.19,1,3.71,1,20.03,1,4.37,1,6.46,2,19.0,1,4.93,1,9.19,1,8.53,1,3.75,2,4.38,1,4.79,2,4.3,2,9.35,1,6.8,1,5.5,1,12.99,2,7.4,1,5.42,1,6.17,1,3.38,1,4.07,2,19.09,2,5.69,1,18.12,1,15.92,1,17.04,1,11.17,1,13.18,1,8.52,Бомжом,9.0,1,9.0,[том]
6151,1,3.52,1,2.48,1,4.23,1,5.08,2,1.91,2,5.02,1,4.92,1,3.08,1,3.91,1,5.72,2,5.11,2,7.99,1,6.66,2,1.9,2,1.85,2,1.94,1,1.69,1,2.25,1,2.69,1,1.34,1,1.89,2,1.58,2,1.53,2,3.14,1,2.49,1,2.47,2,1.95,1,2.67,1,1.52,1,2.18,2,3.07,1,2.33,2,4.13,1,3.2,1,1.55,2,3.56,1,2.37,2,4.63,2,2.87,2,3.28,1,3.6,1,4.44,1,3.29,2,5.32,2,3.21,1,3.05,2,2.88,1,5.21,2,2.58,2,2.06,2,9.4,1,3.38,2,10.45,1,5.36,1,2.27,1,4.55,1,6.29,1,3.07,1,3.87,1,6.95,менеджер продаж,28.88,2,3.62,"[менеджер, продажа]"
7043,2,24.15,2,27.16,1,21.05,1,28.18,1,32.36,2,25.56,1,9.79,2,17.44,2,29.38,1,9.3,2,65.15,2,14.16,2,20.04,2,15.89,1,9.81,1,12.36,2,9.08,2,15.46,1,10.78,2,44.13,2,8.85,2,7.17,2,9.26,2,7.37,2,25.53,1,25.23,1,11.23,1,8.66,2,5.76,2,15.52,2,15.55,1,17.93,1,33.56,2,16.74,1,16.67,2,16.05,2,24.84,2,22.4,2,14.31,1,20.91,1,29.2,1,14.47,2,13.17,1,19.81,1,38.0,1,11.51,2,15.94,1,39.94,2,33.33,1,25.71,2,10.44,2,8.99,1,42.23,2,25.72,1,17.52,2,80.33,1,49.87,2,28.34,1,47.16,2,74.48,Продажник,17.33,1,12.73,[продажи]
49547,1,4.41,1,9.17,1,8.43,1,6.8,2,5.33,2,10.9,1,4.52,1,7.85,1,7.77,1,8.52,2,5.63,2,8.31,2,8.33,2,4.92,1,6.07,2,5.4,1,5.03,2,3.2,1,3.9,1,4.25,1,6.95,2,2.38,1,5.51,1,5.11,1,2.66,2,8.14,2,3.93,1,4.63,1,2.75,2,6.59,1,4.96,1,4.6,1,7.48,2,5.74,1,3.55,1,5.66,1,2.68,1,4.43,2,9.46,2,4.9,1,5.04,2,6.76,2,6.99,2,5.26,1,8.11,2,5.07,1,4.3,1,4.86,2,5.27,2,12.22,1,13.02,2,6.66,2,9.47,1,11.21,1,6.91,2,8.24,1,5.23,2,14.65,1,6.18,2,6.49,Тетапрактик,8.18,1,3.47,[тетапрактик]
87359,1,8.4375,1,8.4375,2,8.4375,2,8.4375,2,8.4375,2,8.4375,1,8.4375,2,8.4375,1,8.4375,1,8.4375,2,8.4375,2,8.4375,2,8.4375,2,8.4375,1,8.4375,2,8.4375,2,8.4375,2,8.4375,1,8.4375,1,8.4375,2,8.4375,2,8.4375,2,8.4375,1,8.4375,1,8.4375,2,8.4375,2,8.4375,1,8.4375,2,8.4375,2,8.4375,1,8.4375,1,8.4375,1,8.4375,1,8.4375,1,8.4375,2,8.4375,1,8.4375,1,8.4375,1,8.4375,1,8.4375,1,8.4375,1,8.4375,2,8.4375,2,8.4375,2,8.4375,1,8.4375,2,8.4375,2,8.4375,1,8.4375,2,8.4375,2,8.4375,1,8.4375,1,8.4375,2,8.4375,2,8.4375,1,8.4375,1,8.4375,2,8.4375,1,8.4375,1,8.4375,"Коммуникация, продажи | Менеджер по продажам",8.4375,2,8.4375,"[коммуникация, продажа, менеджер, продажа]"
52230,1,2.45,1,1.45,1,2.07,2,2.4,1,1.7,2,8.98,2,3.82,1,2.45,1,3.82,2,3.28,2,1.95,2,2.35,1,5.41,1,1.26,1,1.32,2,1.56,2,1.39,2,2.02,1,2.1,1,2.09,1,1.44,2,1.48,2,2.12,1,1.26,1,1.64,1,2.51,1,2.23,1,2.27,2,3.35,2,5.56,1,2.3,2,4.92,1,5.75,2,3.06,1,3.08,1,8.76,2,3.6,2,10.7,1,3.78,2,2.78,1,3.21,1,4.83,2,9.85,1,11.24,1,4.0,1,4.55,2,6.1,1,2.76,2,5.23,2,4.34,1,4.85,2,3.1,2,6.79,1,5.03,2,5.13,2,6.35,1,23.07,1,16.58,1,7.98,2,5.56,учусь в школе,11.44,1,3.75,"[учиться, школа]"
22830,1,12.13,2,36.82,1,9.6,1,9.07,1,6.71,2,7.34,1,9.78,1,9.06,2,12.33,2,19.77,2,20.56,1,14.77,1,22.52,1,5.27,1,13.58,2,8.19,2,12.06,1,4.36,1,5.55,1,7.67,2,8.13,1,16.08,1,20.82,1,4.53,2,5.98,1,29.07,1,5.13,2,25.45,1,5.75,2,7.72,1,5.25,2,4.34,1,5.56,2,4.0,1,5.71,2,7.38,1,18.57,1,6.88,2,5.56,2,5.8,1,4.92,1,6.78,1,5.83,2,5.46,1,5.2,2,7.2,2,10.18,1,8.85,2,3.46,1,6.02,2,9.86,1,3.86,2,5.82,1,7.57,2,8.72,2,10.57,1,8.05,2,8.82,2,10.93,1,7.38,Школьник,37.71,1,5.46,[школьник]
473,2,6.15,2,13.45,1,8.51,2,7.28,1,39.89,2,9.48,2,7.28,1,10.13,2,20.88,2,10.57,2,14.19,1,12.91,2,10.81,1,9.26,1,8.57,1,6.82,2,7.65,1,11.75,1,3.48,1,5.0,2,4.78,2,4.44,2,6.92,1,5.1,2,3.5,2,5.74,1,4.83,1,3.46,1,2.44,2,6.2,1,6.58,1,8.87,1,11.37,1,3.93,1,3.74,2,8.67,1,5.06,1,10.9,2,5.79,2,10.32,2,11.66,1,9.16,2,5.75,1,11.1,1,8.25,1,10.83,1,5.76,1,14.15,2,7.02,1,6.63,2,9.79,1,5.6,1,12.15,2,10.71,2,13.86,1,9.01,1,10.96,1,10.78,2,8.12,1,10.75,Никем,8.77,1,6.95,[никто]
46538,2,7.62,1,41.49,2,48.77,1,16.19,1,16.15,1,26.75,1,43.0,2,10.82,2,10.27,2,21.95,2,13.6,2,14.72,2,54.09,2,46.27,2,7.46,1,15.26,2,8.75,1,9.48,2,4.91,2,8.44,2,10.54,2,11.3,1,5.44,2,8.01,1,30.03,1,8.22,1,8.47,2,42.58,2,10.03,2,10.25,2,54.43,1,29.29,1,7.67,2,8.29,1,8.26,2,8.87,1,5.45,1,15.58,1,12.49,1,4.81,2,6.15,2,9.27,2,22.88,1,12.14,1,6.38,2,6.42,1,16.23,1,8.7,1,6.67,2,21.05,2,10.84,1,20.38,1,27.35,2,53.89,2,9.54,1,12.38,1,55.64,2,19.05,2,17.15,1,8.41,Мультипликатор,35.18,1,7.63,[мультипликатор]
76860,2,8.4375,1,8.4375,2,8.4375,1,8.4375,1,8.4375,1,8.4375,1,8.4375,1,8.4375,1,8.4375,2,8.4375,2,8.4375,1,8.4375,1,8.4375,2,8.4375,2,8.4375,2,8.4375,2,8.4375,1,8.4375,2,8.4375,1,8.4375,1,8.4375,2,8.4375,2,8.4375,1,8.4375,2,8.4375,2,8.4375,1,8.4375,1,8.4375,1,8.4375,2,8.4375,1,8.4375,1,8.4375,2,8.4375,1,8.4375,1,8.4375,2,8.4375,2,8.4375,2,8.4375,2,8.4375,1,8.4375,1,8.4375,2,8.4375,2,8.4375,2,8.4375,1,8.4375,1,8.4375,2,8.4375,2,8.4375,2,8.4375,1,8.4375,1,8.4375,1,8.4375,2,8.4375,1,8.4375,1,8.4375,1,8.4375,2,8.4375,1,8.4375,1,8.4375,1,8.4375,Менеджер среднего звена (руководитель отдела) ...,8.4375,2,8.4375,"[менеджер, среднее, звено, руководитель, отдел..."


In [27]:
with np.printoptions(threshold=np.inf):
    print(Counter(lemmas_list).most_common())

[('менеджер', 6991), ('руководитель', 6426), ('учиться', 6055), ('никто', 5425), ('студент', 5084), ('продажа', 3704), ('школьник', 3635), ('специалист', 3232), ('ученик', 3061), ('организация', 2387), ('коммуникация', 2210), ('персонал', 2138), ('бухгалтер', 2026), ('отдел', 1988), ('продавец', 1945), ('оператор', 1784), ('инженер', 1606), ('дизайн', 1602), ('директор', 1542), ('школа', 1506), ('учитель', 1480), ('юрист', 1408), ('торговля', 1300), ('посредничество', 1292), ('администратор', 1259), ('финансы', 1250), ('реклама', 1217), ('обучение', 1185), ('начальник', 1129), ('программист', 1095), ('художник', 1088), ('и', 1073), ('работа', 1055), ('маркетинг', 1022), ('кто', 1019), ('врач', 956), ('звено', 955), ('среднее', 954), ('it', 953), ('работать', 945), ('экономист', 921), ('психолог', 830), ('клиент', 817), ('консультант', 815), ('повар', 660), ('преподаватель', 656), ('мастер', 614), ('предприниматель', 593), ('администрирования', 583), ('домохозяйка', 567), ('старший', 56

Попробуем отсечь те леммы что встречаются реже 4 раз.

In [28]:
with np.printoptions(threshold=np.inf):
    print(Counter(lemmas_list).most_common()[:-2680:-1])

[('ними', 1), ('автостраховщик', 1), ('vfhrtnjkju', 1), ('никому', 1), ('северный', 1), ('авторитет', 1), ('криминальной', 1), ('мер', 1), ('борец', 1), ('музейщик', 1), ('джигит', 1), ('отдавать', 1), ('heart', 1), ('startup', 1), ('фабрикантов', 1), ('гостей', 1), ('agile', 1), ('фотосессия', 1), ('инж', 1), ('фельдъегерь', 1), ('достойный', 1), ('камин', 1), ('каменный', 1), ('фитосанитарный', 1), ('шов', 1), ('пппаап', 1), ('price', 1), ('конфликт', 1), ('урегулирование', 1), ('теория', 1), ('реселлера', 1), ('революционера', 1), ('визитом', 1), ('руководительница', 1), ('экструдорщик', 1), ('бригады', 1), ('шиномонтажный', 1), ('интеллект', 1), ('ростовщик', 1), ('груди', 1), ('путешественника', 1), ('арендодатель', 1), ('кардиология', 1), ('фасовщица', 1), ('копья', 1), ('nikem', 1), ('они', 1), ('безроба', 1), ('арбитражный', 1), ('дендролог', 1), ('киберкотлета', 1), ('ламимейкер', 1), ('инвестиций', 1), ('kadrov', 1), ('otdel', 1), ('шкодьникнуть', 1), ('дьявола', 1), ('вестни

In [29]:
print('6557')

6557


In [30]:
pd.Series(lemmas_list).nunique()

4655

Составим список лемм, строки с которыми необходимо сбросить.

In [31]:
lemmas_to_drop = {'учиться', 'никто', 'студент', 'школьник', 'ученик', 'школа', 'безработный',
                 'студентка', 'некого', 'и', 'кто', 'пока', 'ах', 'хотеть', 'тат'}
for lemma, freq in Counter(lemmas_list).most_common()[:-2680:-1]:
    lemmas_to_drop.add(lemma)

Сбросим строки со строками содержащими леммы для сброса.

In [36]:
indexes_to_drop = set()

def drop_lemmas(row: pd.Series, lemmas: list) -> None:
        '''
        Функция проверяет содержится ли в столбце 'reviwed' леммы из списка.
        Если верно - добавляет индекс в лист для сброса.
        Также добавит в индекс пустые списки, те в которых были только стоп слова.
        '''
        for word in row['reviewed']:
            if word in lemmas:
                indexes_to_drop.add(row.name)
        if len(row['reviewed']) == 0:
            indexes_to_drop.add(row.name)
        return None

In [37]:
df.apply(drop_lemmas, lemmas=lemmas_to_drop, axis=1)

0        None
1        None
2        None
3        None
4        None
5        None
6        None
7        None
8        None
9        None
10       None
11       None
12       None
13       None
14       None
15       None
16       None
17       None
18       None
19       None
20       None
21       None
22       None
23       None
24       None
25       None
26       None
27       None
28       None
29       None
30       None
31       None
32       None
33       None
34       None
35       None
36       None
37       None
38       None
39       None
40       None
41       None
42       None
43       None
44       None
45       None
46       None
47       None
48       None
49       None
50       None
51       None
52       None
53       None
54       None
55       None
56       None
57       None
58       None
59       None
60       None
61       None
62       None
63       None
64       None
65       None
66       None
67       None
68       None
69       None
70       None
71    

In [38]:
df.drop(list(indexes_to_drop), inplace=True)
df.reset_index(drop=True, inplace=True)

Вновь проверим леммы что вошли в усечённый набор.

In [39]:
lemmas_list = []

def count_lemmas(row: pd.Series) -> None:
    '''
    Функция для проверки текущего суммарного состава лемм в столбце.
    '''
    for word in row['reviewed']:
        lemmas_list.append(word)
    return None

df.apply(count_lemmas, axis=1)
    
with np.printoptions(threshold=np.inf):
    print(Counter(lemmas_list).most_common())

print(pd.Series(lemmas_list).nunique())

[('менеджер', 6499), ('руководитель', 6336), ('продажа', 3692), ('специалист', 3111), ('организация', 2384), ('коммуникация', 2210), ('бухгалтер', 2024), ('продавец', 1921), ('отдел', 1901), ('персонал', 1874), ('оператор', 1732), ('инженер', 1587), ('дизайн', 1555), ('директор', 1514), ('учитель', 1461), ('юрист', 1393), ('торговля', 1299), ('посредничество', 1292), ('финансы', 1249), ('администратор', 1241), ('реклама', 1120), ('программист', 1076), ('художник', 1058), ('начальник', 1031), ('работа', 1004), ('it', 943), ('врач', 932), ('маркетинг', 928), ('обучение', 925), ('экономист', 919), ('среднее', 898), ('звено', 898), ('работать', 814), ('клиент', 814), ('консультант', 803), ('психолог', 802), ('повар', 650), ('преподаватель', 643), ('предприниматель', 589), ('домохозяйка', 565), ('администрирования', 560), ('хозяйство', 551), ('коммерческий', 550), ('сельский', 545), ('старший', 544), ('бизнес', 538), ('грузчик', 535), ('официант', 529), ('школьника', 516), ('мастер', 506), 