In [42]:
import sys
import pandas as pd
sys.path.append('/Users/smallhamster/Documents/research/jokesclustering/') # ваш путь до корня проекта
from components import FasttextVectorizer, KmeansSimpleClusterExtractor
from vector_clustering.abstract.model import Model
from vector_clustering.data.manager import get_jokes_as_dataframe, load_pandas_csv, load, ARANEUM_FASTTEXT
from sklearn.cluster import KMeans

### 1. Инициализируем все необходимое

In [3]:
jokes = get_jokes_as_dataframe()
jokes.head()

Unnamed: 0,joke_text
0,"Мужчину трудно задеть за живое, но уж если зад..."
1,В нашем кемпинге строго запрещено людям разног...
2,А как хорошо у девушек начинается: любимый: ми...
3,"Только у нас фраза ""поправить здоровье"" означа..."
4,"Одна белка случайно попробовала пиво и поняла,..."


In [43]:
selected = load_pandas_csv('100_manual_selection.csv')
selected.head()

Unnamed: 0,joke_index,joke_text,joke_topics
0,75622,Вот и минул ещё один день дурака. Но хватит о ...,политика
1,88009,Китайские космонавты после успешно завершенной...,национальность
2,20296,"Украина - единственная страна мира, где грипп ...",политика
3,45900,Временно исполняющий обязанности президента ма...,политика
4,52912,"Решение наболевшего дела проще, чем вы там себ...",жизнь


In [44]:
topics = selected.joke_topics.values
unique_topics = set()
for topic in topics:
    unique_topics.update([x.strip() for x in topic.split(',')])

Ручной анализ тем в 100 случайных шутках, показал, что мы наблюдаем следующие темы:

In [45]:
print(unique_topics)

{'национальность', 'компьютер', 'армия', 'политика', 'менты', 'алкоголь', 'история', 'деньги', 'еда', 'животные', 'семья', 'пол', 'штирлиц', 'спорт', 'пошлятина', 'отдых', 'студенты', 'непонятно', 'работа', 'лгбт', 'преступление', 'эстрада', 'плагиат', 'праздники', 'лень', 'туристы', 'медицина', 'расизм', 'игра слов', 'погода', 'сарказм', 'отношения', 'мигранты', 'имя', 'экономика', 'мат', 'жизнь', 'зависть', 'образование', 'тюрьма', 'жадность', 'наркота'}


In [46]:
len(unique_topics)

42

предположим, что на самом деле тем на 20% больше, откуда следует, что будем искать следующее число кластеров:

In [None]:
len(unique_topics) + int(len(unique_topics) * 0.2)

### 2. Выделим кластеры

Проинициалазируем все необходимое для работы: (если нужно)

In [None]:
vectorizer = FasttextVectorizer()

In [None]:
kmeans_model = KMeans(n_clusters=50, random_state=42)

In [None]:
cluster_extractor = KmeansSimpleClusterExtractor(kmeans_model)

In [None]:
model = Model(vectorizer, cluster_extractor)

Подготови тексты и обучим модель:

In [None]:
texts = jokes.joke_text.values

In [None]:
texts.shape

In [None]:
demo = model.fit(texts)

In [None]:
from sklearn.externals import joblib
joblib.dump(model.get_model(), 'knn_fasttext.pkl') 

In [None]:
jokes['cluster_id'] = model.get_model().labels_

In [None]:
def get_random_n_jokes(cluster_id, n):
    return jokes[jokes.cluster_id == cluster_id].sample(n)

In [None]:
unique_ids = jokes.cluster_id.unique()
df = get_random_n_jokes(unique_ids[0], 5)
for cluster_id in unique_ids[1:]:
    df = df.append(get_random_n_jokes(cluster_id, 5))
df.head()

### 3. Оценим результаты

In [None]:
df['score'] = 0
df.to_csv('scoring.csv', index=False)

In [None]:
df = pd.read_csv('cluster_analysis.csv')

In [None]:
print('\n\n'.join(df[df.cluster_id == 47].joke_text.values))

In [None]:
for c in range(0, 50):
    print(c, jokes[jokes.cluster_id == c].shape[0])

0 - ирония (повезло ??!?) 2466
1 - праздники и алкоголь (немного зашумлен)  2011
2 - спорт 1685
3 - ШУМ 4611
4 - пошлость, ШУМ 1057
5 - медицина, шутки про врачей 1964
6 - деньги 1773
7 - ШУМ  3023
8 - ШУМ 5746
9 - евреи + милиция + ШУМ 2711
10 - IT 573
11 - политика + менталитет + ШУМ 3289
12 - ШУМ 2875
13 - политика + чиновники 2684
14 - ШУМ 3325
15 - ШУМ 4027
16 - алкоголь + ШУМ 4756
17 - еда + связанное с ней
18 - сортирный юмор + отношения
19 - национальности
20 - экономика
21 - деньги + IT
22 - космос + ШУМ
23 - чиновники + коррупция
24 - купля-продажа
25 - отношения + семья
26 - ШУМ
27 - дорожное движение + ШУМ
28 - ШУМ + игра слова
29 - бизнес
30 - про анекдоты + ШУМ
31 - армия + ШУМ
32 - политика + ШУМ
33 - Россия (национальность)
34 - ШУМ 2620
35 - ШУМ 3779
36 - пол (м/ж)
37 - пол (м/ж) + ШУМ
38 - образование 1925
39 - политика 2492
40 - пол 2578
41 - Россия + ШУМ
42 - ШУМ 3941
43 - ирония (повезло ??!?)
44 - ШУМ 3568
45 - за жизнь
46 - ирония + ШУМ 3643
47 - ШУМ 3791
48 - международные отношения
49 - пол (м/ж) + ШУМ

In [None]:
get_random_cluster_id_n_jokes(0, 5)

### 4. Дальнейший анализ

найдем самый популяные слова каждого кластера

In [None]:
from sklearn.externals import joblib
model = joblib.load('knn_fasttext.pkl')

In [None]:
jokes['cluster_id'] = model.labels_

In [None]:
import pymorphy2
from pymorphy2.tokenizers import simple_word_tokenize
import string
analyzer = pymorphy2.MorphAnalyzer()

In [None]:
def lemmatize(text):
    text = [x for x in simple_word_tokenize(text) if x not in string.punctuation]
    text = [analyzer.parse(x)[0].normal_form for x in text]
    return ' '.join(text)

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

def get_top_words(cluster_id, top_n=15):
    cluster = jokes[jokes.cluster_id == cluster_id]
    cluster['lemmatized'] = cluster.joke_text.apply(lemmatize)
    tfidf = TfidfVectorizer()
    tfidf.fit(cluster.lemmatized.values)
    indices = np.argsort(tfidf.idf_)[::-1]
    features = tfidf.get_feature_names()
    top_features = [features[i] for i in indices[:top_n]]
    return top_features

In [None]:
get_top_words(10)

In [None]:
import tqdm
results = []
for i in tqdm.tqdm(range(50)):
    results.append(get_top_words(i))

In [None]:
results[3]

In [None]:
with open('top-10-words-by-cluster.txt', 'w') as f:
    for i, res in enumerate(results):
        f.write('Cluster {}\n'.format(i))
        for word in res:
            f.write(word)
            f.write('\n')
        f.write('\n')

### 5.Поиск топ слов для каждого кластера на основе близости вектора слова к центроиде

In [4]:
from sklearn.externals import joblib
model = joblib.load('knn_fasttext.pkl')

In [5]:
import pymorphy2
import numpy as np
from pymorphy2.tokenizers import simple_word_tokenize
import string
analyzer = pymorphy2.MorphAnalyzer()

In [6]:
jokes['cluster_id'] = model.labels_

In [12]:
def nouns_in_joke(joke):
    words = simple_word_tokenize(joke)
    return [x.lower() for x in words if analyzer.parse(x)[0].tag.POS == 'NOUN']

def cluster_nouns(cluster_id):
    sub = jokes[jokes.cluster_id == cluster_id].joke_text.values
    sub = [nouns_in_joke(x) for x in sub]
    res = set()
    for x in sub:
        res.update(x)
    return np.array(list(res))

In [8]:
fasttext_wrapper = load(ARANEUM_FASTTEXT)

In [28]:
from sklearn.metrics.pairwise import euclidean_distances

def cluster_top_based_on_equclidian_distance(cluster_id, top=15):
    centroid_vector = model.cluster_centers_[cluster_id]
    nouns = cluster_nouns(cluster_id)
    
    vectores = []
    words = []
    for noun in nouns:
        try:
            vectores.append(fasttext_wrapper[noun])
            words.append(noun)
        except KeyError as e:
            pass
        
    vectores = np.array(vectores)
    nouns = np.array(words)
    
    distances = euclidean_distances(vectores, [centroid_vector])
    distances_idx = np.argsort(np.ravel(distances))
    min_dist_top = distances_idx[:top]
    print(distances[min_dist_top])
    words = nouns[min_dist_top]
    return '\n'.join(words)

In [30]:
print(cluster_top_based_on_equclidian_distance(2))

  # This is added back by InteractiveShellApp.init_path()


[[0.1505993 ]
 [0.15260075]
 [0.15617454]
 [0.16016094]
 [0.16387317]
 [0.16812092]
 [0.17161429]
 [0.1716237 ]
 [0.17369813]
 [0.18063644]
 [0.18087688]
 [0.18315643]
 [0.18517503]
 [0.1874604 ]
 [0.1893295 ]]
прохорова-кейгбоксинг
футболистов-пофигистов
родоначальниками
зиновьева-морозова-счастливого-и-всех-всех-всех
страны-победителем
осьминог-предсказатель
спортсменов-коммунистов
тотализаторе
суперпидорасов
великобритании
миллионеров-капиталистов
футболист-матерщинник
черепах-репортер
наставления
медведеве-багминтон


In [24]:
for c in range(50):
    print(c)
    print(cluster_top_based_on_equclidian_distance(c))
    print()

0


  # This is added back by InteractiveShellApp.init_path()


покемонов-сетевик-патриот
веган-вейпер-скейтер-йог-диджей-блоггер-модель-тату-зожник-призмафото-ловец
современники
несправедливости
соображений
противоположности
соплеменников
ангелом-хранителем
презервативы
наставлений
привидений
справедливости
просторы
пристрастиях
недоразумения

1


  # This is added back by InteractiveShellApp.init_path()


понедельником
знаменитости
понедельникам
понедельника
магнитогорска
константина
мужа-программиста
понедельников
владивостоке
понедельник-то
соседа-школьника
москва-владивосток
петрограде
бездельники
воскресеньем

2


  # This is added back by InteractiveShellApp.init_path()


прохорова-кейгбоксинг
футболистов-пофигистов
родоначальниками
зиновьева-морозова-счастливого-и-всех-всех-всех
страны-победителем
осьминог-предсказатель
спортсменов-коммунистов
тотализаторе
суперпидорасов
великобритании
миллионеров-капиталистов
футболист-матерщинник
черепах-репортер
наставления
медведеве-багминтон

3


  # This is added back by InteractiveShellApp.init_path()


борькой-трактористом
подельником
скороговорки
одноклассниками
племяннике-бездельнике
терминатором
одноклассником
родственниками
дочери-шестиклассницы
ровесниками
однокласниками
одноклассника
рабиновичей
трактористки
братьями-амбалами

4


  # This is added back by InteractiveShellApp.init_path()


родственниками
разговариваешъ
автоинформатора
дринк-собеседник
дистанционку
рабиновича
администратора
одноклассниках
телефонистками
оператора
родственники
злоумышленника-расиста
операторам
операторов
мобильником

5


  # This is added back by InteractiveShellApp.init_path()


учеными-стоматологами
врачи-траснплантологи
сторож-дистрофик
врача-сексопатолога
враче-трансплантологе
головогружение
предостережения
стоматолога-протезиста
коллеги-стоматологи
сексопатологу
проститутка-стажерка
простаты
соломоновичем
беременности
врачами-травматологами

6


  # This is added back by InteractiveShellApp.init_path()


мультимиллионера
мультимиллионерами
мультимиллиардеров
мультимиллиардером
вестербайтерами
вестербайтеры
мужа-программиста
соплеменника
трактористом
рабиновичем
презервативы
остановок
мультимиллиарда
знаменитостью
жириновского

7


  # This is added back by InteractiveShellApp.init_path()


старик-долгожитель
соотечественником
наставниками
родственниками
милитаристам
терминатором
одноклассниках
одноклассникам
презервативы
разочарований
жириновского
презервативов
родственники
иваном-дураком
маши-искусительницы

8


  # This is added back by InteractiveShellApp.init_path()


абракобамбрашвабрмаафроамериканбраштатыроссияфрэндшипфорэвэмбра
приятеля-автомобилиста
скороговорки
индейцем-проводником
мужика-автомобилиста
остервенением
раскольниковых
плевательницу
терминатора
соловья-насильника
родственниками
остановок
рабиновичей
подсрачники
перепутьи

9


  # This is added back by InteractiveShellApp.init_path()


родителей-железнодорожников
переспрашивания
беспаспортанцев
контрабандист-смертинк
издевательства
полицейские-интеллектуалы
недополицейский
продовольствием
сторонники
пограничника
жириновского
доброумышленники
карманника-рецидивиста
родственники
домогательствах

10


  # This is added back by InteractiveShellApp.init_path()


программистов
программистом
стенографирования
мульти-триллионером
стикеры-напоминалки
одноклассниках
программиста
программисты
прослушивания
програмисты
программисту
производительности
интернет-зависимость
отпрыску-тинейджеру
электричества

11


  # This is added back by InteractiveShellApp.init_path()


соотечественниками
соотечественника
интернационалистами
анатольевич-первое
политкорректности
талисманопроизводители
сторонниками
предостережения
действительности
протестантов
последователей
правители-клептократы
интернационализме
презервативов
последовательности

12


  # This is added back by InteractiveShellApp.init_path()


учёными-экспериментаторами
справочник-путеводитель
индификатором
действительности
следователи
презервативов
простаты
банальности
родственниками
видеокомпроматы
одноклассниками
презервативом
рационализаторов
одновременноё
видеорегистраторе

13


  # This is added back by InteractiveShellApp.init_path()


пользователей-милиционеров
предусмотрительности
распостранителем
политкорректности
частности
следователи
постановлением
издевательски
презервативов
центризберкоме
видео-регистратором
предательству
разбирательств
соотечественников
сторонником

14


  # This is added back by InteractiveShellApp.init_path()


пенсионерка-экстремалка
мать-перемать
остервенением
страус-клаустрофоб
белка-клаустрофоб
подворотню
просыпается-дров
передника
головоломку
анатольевичем
подворотне
матроску
подельнику
теребоньканья
сандаликами

15


  # This is added back by InteractiveShellApp.init_path()


перфекционистом
родственниками
видеорегистратором
перфекционисты
водителя-новичка
бесполезно-не
переполненом
презервативов
презервативы
одноклассниках
странностями
т-т-т-терминатор
экстравертом
сказочниками
ангела-хранителя

16


  # This is added back by InteractiveShellApp.init_path()


подружек-следователей
толковательнице
последователи
градоначальника
политкорректности
соотечественником
подстрекательстве
родственниками
современники
откровенности
ставленника
сериалахождение
представительницами
партиейединолюдовисправедлюдов
следователи

17


  # This is added back by InteractiveShellApp.init_path()


гамбурга-вегетарианец
подорожником
большезадомшевелин
варениками
морепродуктов
евроморковки
заменителей
презервативом
посетительнице
рабиновичей
кхолодильникунеподходин
укропаспортом
презервативов
деликатесом
папоротника

18


  # This is added back by InteractiveShellApp.init_path()


политкорректности
женоненавистники
презервативы
миллионер-качок-подкаблучник
недостатками
придурковатость
презервативов
простаты
джентельменства
действительности
маркетологов-женщин
блондинка-недотрога
одноклассниках
уверенности
беременности

19


  # This is added back by InteractiveShellApp.init_path()


знаменитости
шотландец-чревовещатель
политкоретности
родоначальником
великобритании
простолюдина-англичанина
оранжевоволосоамериканец
аргентинец-трансвестит
знаменитостей
демонстрантами
американизмам
пограничника
презервативы
мальчика-наследника
рукоплесканиями

20


  # This is added back by InteractiveShellApp.init_path()


долгожительству
остервенением
компанией-триллионером
презервативов
центробанкам-эмитентам
остановок
тотализаторе
экономистов-реформаторов
автомобилепотребления
презервативы
родителей-пенсионеров
доларовый
перепроизводства
финансистов
старуху-проценшицу

21


  # This is added back by InteractiveShellApp.init_path()


программистка-индивидуалка
неосмотрительности
продавцом-консультантом
трудоголиком-инженером
экспрессионистов
программистов
частности
презервативов
сутенёры-трудоголики
учёные-криминалисты
работоголиков
парень-маркетолог
администратора
понедельника
начальниками

22


  # This is added back by InteractiveShellApp.init_path()


очередности
колесниковым
городе-побратиме
пограничниками
последователи
терминатора
соотечественники
роботы-трансформеры-десептиконы
жара-напоминание
градоначальником
передовиками
достопримечьятельностей
передовицами
пролетариату
трактористы

23


  # This is added back by InteractiveShellApp.init_path()


пока-еще-действующего-президента
политкорректности
очковтирательством
безответственности
чиновниками-ворами
националистом
патернализмом
правозащитниками
крепостных-бюджетников
следователи
тотализаторе
бандительство
призывников-уклонистов
крысятничество
издевательством

24


  # This is added back by InteractiveShellApp.init_path()


продавцу-з-з-завесте
терминатором
терминатора
покупательнице
мужа-программиста
продавца-консультанта
покупатель-хохол
презервативов
покупательницам
покупательниц
уговариват
расточительности
презервативы
владивостока
потребительниц

25


  # This is added back by InteractiveShellApp.init_path()


проказница-мартышка
одноклассниками
старушка-потрошительница
король-эксгибиционист
мальчика-наркомана
садомахохисты-сладкоежки
настенькиной
настенька-мизинчик
одноклассниках
матроску
пастернака
гномики-штангисты
просторам
сестрица-аленушка
настенькина

26


  # This is added back by InteractiveShellApp.init_path()


страну-производителя
распространители
трактористов
ученые-метрополисологи
видеорегистратором
автопроизводителей
метростроители-клаустрофобы
автопроизводители
терминатора
примечательностью
серегу-плиточника
частности
фальшивомонетчик-профессионал
рационализаторы
интеллектоборонсервис

27


  # This is added back by InteractiveShellApp.init_path()


иностранца-автомобилиста
пассажирам-участникам
издевательски
магнитогорска
остановок
скороговорки
петровичем
водитель-то
бронетраспортера
калининград-владивосток
владивостока
днепропетровщине
приятелю-мотоциклисту
железнодорожникам
водители-дальнобойщики

28


  # This is added back by InteractiveShellApp.init_path()


тушканчики-шпагоглотатели
череззаборногузадерищенко
череззаборногуперекидышкин
колесниковым
издевательски
соседи-металлисты
пастернака
потапову
чивизднеркильмаскишбрунгер
полицейскому-оборотень
атлантикой-пассажирам
карлика-медведева
анатольича
женой-каратисткой
соображений

29


  # This is added back by InteractiveShellApp.init_path()


судопроизводственников
частности
усовершенствования
соотечественники
котировок-министерство
действительности
бумаготворительность
неорганизованностью
государственно-частное
медлительности
превосходительством
государственно-частного
соотечественников
благотворительностью
презервативов

30


  # This is added back by InteractiveShellApp.init_path()


папа-программист
рабинович-то
разочарованием
анатольича
одноклассника
знаменитостей
кинематографисты
интернет-переписка
шестеренках
придуренкови
сценариста
жириновского
идиотов-телепузиков
товарищами
виссарионовичу

31


  # This is added back by InteractiveShellApp.init_path()


приходит-аккомулятора
электросаксафон
тринитросульфидопропилена
поворотником
презервативом
видеорегистраторов
поворотника
осторожности
презервативов
стопарение
автопроизводители
неосторожности
остановками
полутораспальная
настопиздела

32


  # This is added back by InteractiveShellApp.init_path()


товарищам-единомышленникам
членами-корреспондентами
аликманкишиоглыбердыкилимандыбатырбекову
бездельников-строителей
градоначальником
владимировичем
зоо-течественники
перестановок
родоначальником
спасателей-профессионалов
александровича
днепропетровска
трактористам
журавлеведения
анатольевичем

33


  # This is added back by InteractiveShellApp.init_path()


соотечественником
страной-бензоколонкой
стран-организаторов
подстрекательстве
государством-агрессором
интернационалистов
коллаборационисты
контроллера-американца
соотечественников
отпускники-оплаченцы-шахтёры-трактористы
страна-победительница
налогоплатильщиков
великобритании
негодованием
истребителя-невидимки

34


  # This is added back by InteractiveShellApp.init_path()


константиновны
товарищами
водолазом-глубоководником
понедельником
предатели
изванить
удовольствием
понедельника
напоминанием
преферансистов
петровича
астрахани
жизнерадостности
проституток
бездельнику

35


  # This is added back by InteractiveShellApp.init_path()


историко-эротическаго
безобразности
доминошниками
ребенка-инопланетянина
политкорректности
знаменитости
натуралиста
соображений
валентиновича
достопримечательностью
стереотеливозоров
распространителей
остановок
презервативов
мини-стервство

36


  # This is added back by InteractiveShellApp.init_path()


женщина-надежду
девственница-нимфоманка
подкаблучника
обдумать-женщина
политкорректности
мужчинам-водителям
непристойности
женщин-моделей
женщина-загадка
удовольствием
материалистом
недотроги
мать-одиночка
собеседника
любовником

37


  # This is added back by InteractiveShellApp.init_path()


трухспринтодинокрузианусфен
перфекционист-похуист
мезинтросгрупигруздоперинотинат
сверхудовольствие
нупридумайчтонибудьсама
человека-с-автобусом-в-заднице
удовольствием
одноклассниках
презервативы
презервативов
сына-проказника
родственники
уверенности
презервативе
удовольствий

38


  # This is added back by InteractiveShellApp.init_path()


преподавательницы
преподователем
преподавательницу
астрофизик-профессор-интеллигент
начальника-гребуна
преподавателей
преподаватели
переводчик-профессионал
благотворительности
преподавателем
действительности
убедительности
частности
наставления
презервативов

39


  # This is added back by InteractiveShellApp.init_path()


министрами-теневиками
матрешками-президентами
президент-твиттерист
телегина-григьян-капительман
президентам-ворам
президенту-алкоголику
президента-негра
владимировичем
парапрезидент
президентом-придурком
медведев-ходорковский
жириновского
президент-коммерсант
преферансистов
жириновскому

40


  # This is added back by InteractiveShellApp.init_path()


парень-презерватив-девушка
любовник-клаустрофоб
невеста-проститутка
одноклассницами
джентельменов
мясник-романтик
москвички-блондинки
человек-невидимка
гетеросексуала-продюсера-еврея
подругу-блондинку
разочарований
девственницами
открытки-валентинки
красавец-любовник
недотрогами

41


  # This is added back by InteractiveShellApp.init_path()


константиновны
пременно-батенька
простонародии
константина
протестантов
родственниками
ангелы-хранители
последователей
ангела-хранителя
единорогов
противоположностей
простынь-самодранка
бессребреником
настоятельнице
приятелем-историком

42


  # This is added back by InteractiveShellApp.init_path()


раскольниковым
политкорректности
гей-пассивистами
наплевательски
предпочтениесчастливчику
наперсточниками
современника
следователи
презервативов
революционерам-простакам
презервативы
презервативом
гуда-трудоголика
перестановкой
соображений

43


  # This is added back by InteractiveShellApp.init_path()


константиновны
константина
черного-пречереного
соотечественники
родоначальником
семеновича
смирнову-сокольскому
тинаканделакивидение
градоначальники
борисовны
иванькова-япончика
александровны
станиславского
анатольевне
журавли-чиновники

44


  # This is added back by InteractiveShellApp.init_path()


соотечественниками
терминатор-жесть
соотечествиникам
соотечественника
соотечествинники
перестановок
распространители
напоминалку-приглашение
знаменитости
терминатором
мужем-иностранцем
импрессионистов
терминатора
распостранителей
борисовичем

45


  # This is added back by InteractiveShellApp.init_path()


самодостаточности
политкорректности
последовательности
сообразительности
сообразительностью
простаты
презервативом
знакопеременность
презервативов
следователи
полиорганометаллосилоксаном
банкиров-вредителей
простатита
нано-презервативы
частности

46


  # This is added back by InteractiveShellApp.init_path()


женоненавистником
бесцеремонности
терминатором
придурковатости
рабиновичей
супернаглость
предатели
единорогов
человек-невидимка
медведтрезвитель
одноклассниках
родственники
подкаблучники
подкаблучника
вожделением

47


  # This is added back by InteractiveShellApp.init_path()


растеренности
перфекционистов
политкорректности
остервенением
оно-приспосабливаться-не
решительноенаступление
сверхосторожность
мужа-программиста
подорожника
воображением
презервативом
действительности
презервативы
прокрастинации
петровичем

48


  # This is added back by InteractiveShellApp.init_path()


империалистами-колонизаторами
перестаните
соотечественникам
политкорректности
протестантов
провокаторами
вестербайтеров
сторонники
национал-предатели
бессовестностью
очернительства
осведомители
чекистами-патриотами
националистом
предатели

49


  # This is added back by InteractiveShellApp.init_path()


политкорректности
перфекционист-экзистенциалист
действительности
подозрительностью
рассудительности
последовательности
сторонниками
признательности
противоположности
противоположностей
сообразительностью
неполниценности
невнимательности
действительностью
родственниками



In [35]:
pd.DataFrame({'label' : model.labels_}).to_csv('labels.csv', index=False)

In [38]:
a = pd.read_csv('labels.csv')
a.label.unique().shape

(50,)

In [39]:
jokes.head(10)

Unnamed: 0,joke_text,cluster_id
0,"Мужчину трудно задеть за живое, но уж если зад...",18
1,В нашем кемпинге строго запрещено людям разног...,18
2,А как хорошо у девушек начинается: любимый: ми...,25
3,"Только у нас фраза ""поправить здоровье"" означа...",16
4,"Одна белка случайно попробовала пиво и поняла,...",30
5,ОБЪЯВЛЕНИЕ На время мирового финансового кризи...,29
6,"Мужчина рассматривает тест на беременность, и ...",18
7,"Таможенники в ступоре: никак не могут решить, ...",9
8,Есть какая-то двусмысленность в подписях на фо...,11
9,На театральной тусовке артисты театра Куклачев...,43


0 - ирония (повезло ??!?) 2466
1 - праздники и алкоголь (немного зашумлен)  2011
2 - спорт 1685
3 - ШУМ 4611
4 - пошлость, ШУМ 1057
5 - медицина, шутки про врачей 1964
6 - деньги 1773
7 - ШУМ  3023
8 - ШУМ 5746
9 - евреи + милиция + ШУМ 2711
10 - IT 573
11 - политика + менталитет + ШУМ 3289
12 - ШУМ 2875
13 - политика + чиновники 2684
14 - ШУМ 3325
15 - ШУМ 4027
16 - алкоголь + ШУМ 4756
17 - еда + связанное с ней
18 - сортирный юмор + отношения
19 - национальности
20 - экономика
21 - деньги + IT
22 - космос + ШУМ
23 - чиновники + коррупция
24 - купля-продажа
25 - отношения + семья
26 - ШУМ
27 - дорожное движение + ШУМ
28 - ШУМ + игра слова
29 - бизнес
30 - про анекдоты + ШУМ
31 - армия + ШУМ
32 - политика + ШУМ
33 - Россия (национальность)
34 - ШУМ 2620
35 - ШУМ 3779
36 - пол (м/ж)
37 - пол (м/ж) + ШУМ
38 - образование 1925
39 - политика 2492
40 - пол 2578
41 - Россия + ШУМ
42 - ШУМ 3941
43 - ирония (повезло ??!?)
44 - ШУМ 3568
45 - за жизнь
46 - ирония + ШУМ 3643
47 - ШУМ 3791
48 - международные отношения
49 - пол (м/ж) + ШУМ

In [50]:
idx = 45
vals = jokes[jokes.cluster_id == idx].sample(10).joke_text.values
for v in vals:
    print(v)
    print()

- И всё-таки время - субстанция материальная! - Мужики, давно сидите? - Литр!

- Для физических лиц у нас достаточно предъявить паспорт. Вы физическое лицо? - Нет, я астральное тело...

Британские учёные доказали, что кастрюля борща продлевает брак на сутки.

- Чем отличается Дума от цирка? - В Думе все представления закрытые.

В этом году Россию ждут большие перемены: племена майя - не ЦИК, могли и правильно посчитать.

Гаишник, который пять лет просидел с радаром в кустах, приобрёл способность к фотосинтезу.

подскажите что делать: Сын растёт тряпкой - собственной жизненной позиции не имеет, от мамы не отлипает, ничего не делает - даже лень голову от кровати поднять. возраст 7 дней.

Стечение обстоятельств образовало лужу, в которой барахталось несколько человек.

Супрематизм - неповторимые лексические обороты сантехника Петрова, вступившего в собачье дерьмо.

У нас в стране даже черту бедности надо переходить в строго отведенном месте.



взять фильтрованные шутки

1) TSNE для того, что есть<br>
2) иерархическая кластеризация для ШУМОВЫХ кластеров<br>
3) используем классификатор на рубрики, смотрим насколько имя кластера соответствует классу, который дал классификатор<br>
4) попробовать разные способы нормализации векторов предложений<br>
5) распределение слова Штирлиц