In [1]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

## Подготовка данных: общие подсчёты

In [2]:
table = '''Префиксальный компонент	Квадратное отклонение	LogDice-метрика	Относительная частота
на-	26195.27 (+)	-8.2	5.56%
до-	5224.4 (+)	-8.2	1.67%
за-	798.66 (+)	-8.6	4.04%
с-	1280.74 (-)	-11.0	4.56%
пере-	1409.32 (-)	-9.1	0.82%'''

In [3]:
data_gen_t = pd.DataFrame([row.split('\t') for row in table.split('\n')[1:]],\
                        columns=[table.split('\n')[0].split('\t')])

In [4]:
data_gen = data_gen_t

In [5]:
data_gen['Квадратное отклонение'] = data_gen['Квадратное отклонение'].applymap(\
            lambda x: -1 * float(x.split()[0]) if '-' in x.split()[1] else float(x.split()[0]))
data_gen['LogDice-метрика'] = data_gen['LogDice-метрика'].applymap(lambda x: float(x))
data_gen['Относительная частота'] = data_gen['Относительная частота'].applymap(lambda x:\
                                                                               float(x[:-1]))
data_gen=data_gen[['Квадратное отклонение', 'LogDice-метрика', 'Относительная частота']].to_numpy()

In [6]:
scaler = MinMaxScaler()
data_gen = scaler.fit_transform(data_gen)

## Подсчёт

### Средние

#### Арифметическое

In [7]:
(data_gen[:, 0] + data_gen[:, 1] + data_gen[:, 2]) / 3

array([1.        , 0.47321237, 0.53881791, 0.26456249, 0.22619048])

In [8]:
data_gen_t[data_gen_t.columns[0]].values[np.argsort((\
        data_gen[:, 0] + data_gen[:, 1] + data_gen[:, 2]) / 3)]

array(['пере-', 'с-', 'до-', 'за-', 'на-'], dtype=object)

#### Геометрическое

In [9]:
((data_gen[:, 0] + 1) * (data_gen[:, 1] + 1) * (data_gen[:, 2] + 1))**(1/3)

array([2.        , 1.43020457, 1.49899224, 1.21584601, 1.18844734])

In [10]:
data_gen_t[data_gen_t.columns[0]].values[np.argsort\
        (((data_gen[:, 0] + 2) * (data_gen[:, 1] + 2) * (data_gen[:, 2] + 2))**(1/3))]

array(['пере-', 'с-', 'до-', 'за-', 'на-'], dtype=object)

#### Гармоническое

In [11]:
3/((data_gen[:, 0] + 1)**(-1) + (data_gen[:, 1] + 1)**(-1) + (data_gen[:, 2] + 1)**(-1))

array([2.        , 1.39263393, 1.45639773, 1.17447815, 1.1557377 ])

In [12]:
data_gen_t[data_gen_t.columns[0]].values[np.argsort\
        (3/((data_gen[:, 0] + 2)**(-1) + (data_gen[:, 1] + 2)**(-1) + (data_gen[:, 2] + 2)**(-1)))]

array(['пере-', 'с-', 'до-', 'за-', 'на-'], dtype=object)

## Подготовка данных: частные случаи

In [13]:
table = '''Слово	Квадратное отклонение	LogDice-метрика	Относительная частота
начитаться	4807.82 (+)	4.8	21.85%
наесться	5721.71 (+)	7.6	87.06%
допрыгаться	6787.15 (+)	6.8	56.70%
доиграться	13793.95 (+)	3.8	21.11%
засидеться	122272.68 (+)	3.8	60.70%
засмотреться	30002.17 (+)	3.0	12.86%
зачитаться	5995.48 (+)	2.5	5.11%
сговориться	73587.34 (+)	0.0	10.61%
сработаться	3614.79 (+)	1.3	6.83%
переброситься	381.52 (-)	-3.2	0.88%
переписываться	0.79 (+)	2.6	38.87'''
data_gen_t = pd.DataFrame([row.split('\t') for row in table.split('\n')[1:]],\
                        columns=[table.split('\n')[0].split('\t')])

In [14]:
data_gen = data_gen_t

In [15]:
data_gen['Квадратное отклонение'] = data_gen['Квадратное отклонение'].applymap(\
            lambda x: -1 * float(x.split()[0]) if '-' in x.split()[1] else float(x.split()[0]))
data_gen['LogDice-метрика'] = data_gen['LogDice-метрика'].applymap(lambda x: float(x))
data_gen['Относительная частота'] = data_gen['Относительная частота'].applymap(lambda x:\
                                                                               float(x[:-1]))
data_gen=data_gen[['Квадратное отклонение', 'LogDice-метрика', 'Относительная частота']].to_numpy()

In [16]:
data_gen

array([[ 4.8078200e+03,  4.8000000e+00,  2.1850000e+01],
       [ 5.7217100e+03,  7.6000000e+00,  8.7060000e+01],
       [ 6.7871500e+03,  6.8000000e+00,  5.6700000e+01],
       [ 1.3793950e+04,  3.8000000e+00,  2.1110000e+01],
       [ 1.2227268e+05,  3.8000000e+00,  6.0700000e+01],
       [ 3.0002170e+04,  3.0000000e+00,  1.2860000e+01],
       [ 5.9954800e+03,  2.5000000e+00,  5.1100000e+00],
       [ 7.3587340e+04,  0.0000000e+00,  1.0610000e+01],
       [ 3.6147900e+03,  1.3000000e+00,  6.8300000e+00],
       [-3.8152000e+02, -3.2000000e+00,  8.8000000e-01],
       [ 7.9000000e-01,  2.6000000e+00,  3.8800000e+01]])

In [17]:
scaler = MinMaxScaler()
data_gen = scaler.fit_transform(data_gen)

## Подсчёт

### Средние

#### Арифметическое

In [18]:
(data_gen[:, 0] + data_gen[:, 1] + data_gen[:, 2]) / 3

array([0.34212579, 0.68325322, 0.54402873, 0.33282068, 0.78075891,
       0.32026792, 0.2096176 , 0.33742261, 0.17276338, 0.        ,
       0.3267211 ])

In [19]:
w = data_gen_t['Слово'].values[np.argsort((data_gen[:, 0] + data_gen[:, 1] + data_gen[:, 2]) / 3)]

In [20]:
for i in range(11, 0, -1):
    print(w[i-1][0])

засидеться
наесться
допрыгаться
начитаться
сговориться
доиграться
переписываться
засмотреться
зачитаться
сработаться
переброситься


#### Геометрическое

In [21]:
w = data_gen_t['Слово'].values[np.argsort(((data_gen[:, 0] + 1) * (data_gen[:, 1] + 1) * (data_gen[:, 2] + 1))**(1/3))]

In [22]:
for i in range(11, 0, -1):
    print(w[i-1][0])

засидеться
наесться
допрыгаться
сговориться
доиграться
начитаться
засмотреться
переписываться
зачитаться
сработаться
переброситься


#### Гармоническое

In [23]:
w = data_gen_t['Слово'].values[np.argsort(3/((data_gen[:, 0] + 2)**(-1) + (data_gen[:, 1] + 2)**(-1) + (data_gen[:, 2] + 2)**(-1)))]

In [24]:
for i in range(11, 0, -1):
    print(w[i-1][0])

засидеться
наесться
допрыгаться
сговориться
доиграться
начитаться
засмотреться
переписываться
зачитаться
сработаться
переброситься


# Кластеризация

## Общие измерения

In [25]:
from sklearn.cluster import DBSCAN, KMeans

In [26]:
clustering = DBSCAN(eps=0.9, min_samples=2)

In [27]:
table = '''Префиксальный компонент	Квадратное отклонение	LogDice-метрика	Относительная частота
на-	26195.27 (+)	-8.2	5.56%
до-	5224.4 (+)	-8.2	1.67%
за-	798.66 (+)	-8.6	4.04%
с-	1280.74 (-)	-11.0	4.56%
пере-	1409.32 (-)	-9.1	0.82%'''
data_gen = pd.DataFrame([row.split('\t') for row in table.split('\n')[1:]],\
                        columns=[table.split('\n')[0].split('\t')])
data_gen['Квадратное отклонение'] = data_gen['Квадратное отклонение'].applymap(\
            lambda x: -1 * float(x.split()[0]) if '-' in x.split()[1] else float(x.split()[0]))
data_gen['LogDice-метрика'] = data_gen['LogDice-метрика'].applymap(lambda x: float(x))
data_gen['Относительная частота'] = data_gen['Относительная частота'].applymap(lambda x:\
                                                                               float(x[:-1]))
data_gen=data_gen[['Квадратное отклонение', 'LogDice-метрика', 'Относительная частота']].to_numpy()
scaler = MinMaxScaler()
data_gen = scaler.fit_transform(data_gen)

In [28]:
clustering.fit_predict(data_gen)

array([-1,  0,  0,  0,  0], dtype=int64)

## Частные случаи

In [36]:
table = '''Слово	Квадратное отклонение	LogDice-метрика	Относительная частота
начитаться	4807.82 (+)	4.8	21.85%
наесться	5721.71 (+)	7.6	87.06%
допрыгаться	6787.15 (+)	6.8	56.70%
доиграться	13793.95 (+)	3.8	21.11%
засидеться	122272.68 (+)	3.8	60.70%
засмотреться	30002.17 (+)	3.0	12.86%
зачитаться	5995.48 (+)	2.5	5.11%
сговориться	73587.34 (+)	0.0	10.61%
сработаться	3614.79 (+)	1.3	6.83%
переброситься	381.52 (-)	-3.2	0.88%
переписываться	0.79 (+)	2.6	38.87'''
data_gen = pd.DataFrame([row.split('\t') for row in table.split('\n')[1:]],\
                        columns=[table.split('\n')[0].split('\t')])
word = data_gen['Слово'].values
data_gen['Квадратное отклонение'] = data_gen['Квадратное отклонение'].applymap(\
            lambda x: -1 * float(x.split()[0]) if '-' in x.split()[1] else float(x.split()[0]))
data_gen['LogDice-метрика'] = data_gen['LogDice-метрика'].applymap(lambda x: float(x))
data_gen['Относительная частота'] = data_gen['Относительная частота'].applymap(lambda x:\
                                                                               float(x[:-1]))
data_gen=data_gen[['Квадратное отклонение', 'LogDice-метрика', 'Относительная частота']].to_numpy()
scaler = MinMaxScaler()
data_gen = scaler.fit_transform(data_gen)

In [37]:
clustering = DBSCAN(eps=0.3, min_samples=2)

In [38]:
clustering.fit_predict(data_gen)

array([ 0, -1, -1,  0, -1,  0,  0, -1,  0, -1,  0], dtype=int64)

In [39]:
clustering = DBSCAN(eps=0.5, min_samples=2)

In [40]:
clustering.fit_predict(data_gen)

array([ 0,  0,  0,  0, -1,  0,  0,  0,  0,  0,  0], dtype=int64)

In [41]:
for i in word[clustering.fit_predict(data_gen)==0]:
    print(i[0], end=', ')

начитаться, наесться, допрыгаться, доиграться, засмотреться, зачитаться, сговориться, сработаться, переброситься, переписываться, 

In [42]:
for i in word[clustering.fit_predict(data_gen)==1]:
    print(i[0], end=', ')