In [1]:
#!/usr/bin/env python
# -*- coding: utf-8 -*-

import numpy as np
import pymorphy2

morph = pymorphy2.MorphAnalyzer()

In [2]:
import multiprocessing
import gensim
import re
import pymystem3
import functools
import collections
import itertools
import json

In [3]:

# In[3]:

mystem = pymystem3.Mystem()

def clear_string(word):
    return re.sub(r'[^\w\s]', '', word)


STOP_POS = frozenset([
    'PREP', 'CONJ', 'PRCL',
    'INTJ', 'NPRO', 'PRED',
    'ADJF',
])


# Список слов, которые заменяются на "Мужское имя"
BOYS_NAME_LIST = frozenset(
    ['Абрам', 'Август', 'Авдей', 'Аверкий', 'Авксентий', 'Авраам', 'Автоном', 'Агап', 'Агафон', 'Аггей', 'Агей',
     'Адам', 'Адольф', 'Адриан', 'Азарий', 'Аким', 'Александр', 'Александр', 'Алексей', 'Алексей', 'Альберт',
     'Альтаир', 'Альфред', 'Амвросий', 'Амос', 'Ананий', 'Анатолий', 'Анатолий', 'Андрей', 'Андрей', 'Андриан',
     'Андрон', 'Андроник', 'Аникей', 'Аникита', 'Анисим', 'Антип', 'Антон', 'Антонин', 'Аполлинарий',
     'Аполлон', 'Арефий', 'Аристарх', 'Аркадий', 'Аркадий', 'Арсен', 'Арсен', 'Арсений', 'Арсений', 'Арсений',
     'Артем', 'Артем', 'Артемий', 'Артемий', 'Артур', 'Артём', 'Архип', 'Архип', 'Аскольд', 'Афанасий', 'Афиноген',
     'Бажен', 'Бенедикт', 'Богдан', 'Богдан', 'Болеслав', 'Болеслав', 'Бонифаций', 'Борис', 'Борис', 'Борислав',
     'Боян', 'Бронислав', 'Бронислав', 'Будимир', 'Вадим', 'Вадим', 'Вадим', 'Валентин', 'Валентин', 'Валентин',
     'Валерий', 'Валерий', 'Валерий', 'Валерьян', 'Валерьян', 'Вальтер', 'Варлаам', 'Варлаам', 'Варлам', 'Варлам',
     'Варфоломей', 'Варфоломей', 'Василий', 'Василий', 'Василий', 'Василиск', 'Василиск', 'Велимир', 'Велимир',
     'Венедикт', 'Венедикт', 'Вениамин', 'Вениамин', 'Вениамин', 'Викентий', 'Викентий', 'Виктор', 'Виктор',
     'Виктор', 'Викторин', 'Викторин', 'Вильгельм', 'Виссарион', 'Виссарион', 'Виталий', 'Виталий', 'Виталий',
     'Владилен', 'Владилен', 'Владимир', 'Владимир', 'Владимир', 'Владислав', 'Владислав', 'Владислав', 'Владлен',
     'Владлен', 'Влас', 'Влас', 'Влас', 'Вольдемар', 'Всеволод', 'Всеволод', 'Всеволод', 'Всемил', 'Всемил',
     'Всеслав', 'Всеслав', 'Вышеслав', 'Вышеслав', 'Вячеслав', 'Вячеслав', 'Вячеслав', 'Гавриил', 'Гавриил',
     'Гаврила', 'Галактион', 'Гамлет', 'Гарри', 'Гедеон', 'Геннадий', 'Геннадий', 'Генрих', 'Георгий', 'Георгий',
     'Георгий', 'Егор', 'Герасим', 'Герман', 'Герман', 'Глеб', 'Глеб', 'Гордей', 'Гордей', 'Гостомысл', 'Гремислав',
     'Григорий', 'Григорий', 'Гурий', 'Давид', 'Давид', 'Давыд', 'Давыд', 'Давид', 'Даниил', 'Даниил', 'Даниил',
     'Данила', 'Дементий', 'Демид', 'Демьян', 'Демьян', 'Денис', 'Денис', 'Дмитрий', 'Дмитрий', 'Добромысл',
     'Доброслав', 'Донат', 'Дорофей', 'Евгений', 'Евгений', 'Евграф', 'Евдоким', 'Евдоким', 'Евлампий',
     'Евлампий', 'Евсей', 'Евстафий', 'Евстигней', 'Егор', 'Егор', 'Елизар', 'Елисей', 'Елисей', 'Емельян',
     'Епифан', 'Еремей', 'Ермил', 'Ермолай', 'Ерофей', 'Ефим', 'Ефим', 'Ефрем', 'Ефрем', 'Ждан', 'Захар',
     'Зиновий', 'Иван', 'Иван', 'Игнат', 'Игнатий', 'Игнатий', 'Игорь', 'Игорь', 'Измаил', 'Изот',
     'Изяслав', 'Иларион', 'Илларион', 'Илья', 'Илья', 'Иннокентий', 'Иннокентий', 'Иоан', 'Иосиф', 'Иосиф',
     'Осип', 'Ипат', 'Ипатий', 'Ипполит', 'Ипполит', 'Ираклий', 'Исаак', 'Исаакий', 'Исаакий', 'Исай',
     'Исидор', 'Карл', 'Карэн', 'Кирил', 'Кирилл', 'Кондрат', 'Константин', 'Кристиан', 'Лавр', 'Лаврентий',
     'Лаврентий', 'Ладимир', 'Лазарь', 'Лев', 'Лев', 'Леон', 'Леонард', 'Леонид', 'Леонид', 'Леонтий',
     'Леонтий', 'Лонгин', 'Лука', 'Лукьян', 'Лучезар', 'Любим', 'Любомир', 'Любомысл', 'Людвиг', 'Макар',
     'Макар', 'Максим', 'Максим', 'Максимилиан', 'Максимилиан', 'Максимильян', 'Мануил', 'Марат', 'Мариан',
     'Марк', 'Марк', 'Мартин(Мартын)', 'Мартын', 'Мартьян', 'Матвей', 'Матвей', 'Мефодий', 'Мечислав',
     'Милан', 'Милен', 'Милий', 'Мина', 'Мир', 'Мирон', 'Мирон', 'Мирослав', 'Мирослав', 'Митрофан',
     'Михаил', 'Михей', 'Модест', 'Моисей', 'Моисей', 'Мокей', 'Мстислав', 'Назар', 'Наркис',
     'Натан', 'Наум', 'Нестер', 'Нестор', 'Никандр', 'Никанор', 'Никита', 'Никифор', 'Никодим', 'Никола',
     'Николай', 'Никон', 'Нил', 'Нифонт', 'Овидий', 'Олег', 'Олесь', 'Онисим', 'Онисим', 'Осип', 'Оскар',
     'Остап', 'Павел', 'Панкрат', 'Панкратий', 'Пантелей', 'Пантелеймон', 'Панфил', 'Парамон', 'Парфен',
     'Парфений', 'Пахом', 'Петр', 'Пимен', 'Платон', 'Поликарп', 'Порфирий', 'Потап', 'Пров', 'Прокл',
     'Прокоп', 'Прокопий', 'Прокофий', 'Прохор', 'Радик', 'Радим', 'Радислав', 'Радован',
     'Ратибор', 'Ратмир', 'Рафаил', 'Рафаэль', 'Рафик', 'Ринат', 'Ричард', 'Роберт', 'Родион',
     'Рома', 'Роман', 'Роман', 'Ростислав', 'Ростислав', 'Рудольф', 'Руслан', 'Руслан', 'Рустам', 'Рюрик',
     'Савелий', 'Самуил', 'Святослав', 'Семен', 'Серафим', 'Сергей', 'Спартак', 'Спиридон', 'Станислав',
     'Степан', 'Тамирлан', 'Тарас', 'Тарас', 'Твердислав', 'Творимир', 'Теодор', 'Терентий', 'Терентий',
     'Тигран', 'Тимофей', 'Тимофей', 'Тимур', 'Тимур', 'Тит', 'Тихон', 'Тихон', 'Трифон', 'Трофим', 'Трофим',
     'Ульян', 'Устин', 'Фадей', 'Фарид', "Федя", 'Федор', 'Федор', 'Федосей', 'Федосий', 'Федот', 'Феликс', 'Феликс',
     'Феодосий', 'Феоктист', 'Феофан', 'Феофан', 'Ферапонт', 'Филимон', 'Филип', 'Филипп', 'Филипп', 'Фирс',
     'Флор', 'Флорентин', 'Фока', 'Фома', 'Фома', 'Фортунат', 'Фотий', 'Фридрих', 'Фрол', 'Фёдор', 'Харитон',
     'Харлампий', 'Христофор', 'Эдвард', 'Эдгар', 'Эдуард', 'Эльдар', 'Эмиль', 'Эрик', 'Эрнест', 'Ювеналий',
     'Юджин', 'Юлиан', 'Юлиан', 'Юлий', 'Юлий', 'Юрий', 'Юрий', 'Юхим', 'Яков', 'Ян', 'Янус', 'Ярослав',
     'Саша', 'Ганс','Макс','Максим', "Алекс", "Тони", "Эрчин", "Вейд", "Лавини", "Димитро", "Иссей", "Рольф",
     "Василя", "Зак", "Грэм", "Моргот", "Лиам", "Яго", "Эдди", "Мануйл", "Амери", "Митя", "Мати", "Дима", "Семён", "Алик",
     "Пётр", "Яша", "Игар", "Пашка", "Гаррик", "Чарли", "Димка", "Лёня", "Аксен", "Анастасий", "Джон", "Эштон", "Питер",
      "Сурен", "Бруно","Ален","Умарь","Ярго","Марель", "Азар","Рик", "Хелена", "Рашид", "Рикардо", "Дориан","Вейд","Вэйд",
      "Аят", "Панголин", "Исраил", "Амадей", "Джо", "Мэтью", "Браун", "Маркус",
      "Джимми", "Джим", "Джеймс", "Юджин", "Грэга", "Грэг","Морис", "Рэм", "Никс", "Колька", "Влад", "Вася",
      "Жек","Жека", "Ваня", "Ванька", "Анри", "Стоун", "Ванечка", "Анджело", "Грейс", "Ван", "Вани", "Факундо",
        "Ванюша", "Армин", "Ленард", "Дениэл", "Дэниэл", "Киан","Борман", "Ахмет", "Джош", "Тихвин", "Грег",
     "Алан", "Патрик", "Жак", "Смит", "Мигель", "Фрост", "Джина", "Раяна", "Лекс", "Эрих", "Раф", "Павло", "Пабло",
     "Стив", "Билл", "Бенедикто", "Доминик", "Билль", "Мэгга", "Вовчик", "Амариллис", "Родик", "Бим", "Аландо", "Жан",
     "Сильвестр", "Роланд", "Володя", "Себастьян", "Виталик", "Ромка", "Казимир", "Себастьян", "Вовик", "Мэт",
     "Гришка", "Гриша", "Бен", "Бэн", "Ленька", "Лёнька", "Зуев", "Малик", "Антоша", "Семёнов", "Мичурин", "Джеки"
     "Джек", "Кай", "Савва", "Тимоха", "Жерар", "Рихард", "Василий", "Мотя", "Джастин", "Василёк", "Прокофьев",
     "Илюшка", "Толика", "Витя", "Георг", "Вит", "Фред", "Волан", "Роберто", "Ромэо", "Ромео", "Джесси", "Рюг", "Раймонд",
     "Гаспар", "Киса", "Алексий", "Армель", "Тимофеев", "Карло", "Гущин", "Тео", "Лёшка", "Изар", "Джалал", "Брюсов", "Афоня",
     "Гоша", "Димона", "Димон", "Эйтан", "Юрик", "Паша", "Славик", "Дамир", "Савченко", "Филя", "Колин", "Рудаков", "Тайлера",
     "Саид", "Иса", "Мурад", "Венцель", "Юсуф", "Симеон", "Лорик", "Гонорий", "Хайк", "Исмаил", "Мустафа", "Голованов",
     "Йося", "Гилберт", "Рон", "Майк", "Алистер", "Антонов", "Лёва", "Михаэль", "Камил", "Ланс", "Богров", "Илюха", "Алек",
     "Сережа", "Митька", "Тишка", "Стаст", "Анфис", "Романов", "Галар", "Николя", "Эван", "Фокс", "Коул", "Ирвин",
     "Макфлай", "Уэйн", "Стивен", "Томас", "Ден", "Уильям", "Андрэ", "Мусин", "Кузя", "Крамер", "Джейк", "Хант", "Джеффри",
     "Алексашка", "Мэддисон", "Сашка", "Фил", "Кейн", "Арчибальд", "Тимка", "Чоу", "Эрклион", "Коля", "Валерка", "Коляна",
     "Колян", "Вадик", "Брайан", "Арик", "Хасан", "Ларионов", "Фима", "Прохоров", "Волошка", "Мурза", "Трунов", "Левушка",
     "Валя", "Вале", "Валей", "Валюш", "Валер", "Валера", "Валерий", "Лидий", "Сергеев", "Эраст", "Ашот", "Лёшик",
     "Хенрик", "Браун", "Данил", "Рабби", "Росс", "Самсон", "Антуан", "Фомин", "Фадеев", "Авгур", "Пластун", "Скобелев",
     "Фролов", "Сирин", "Ахмед", "Вартан", "Болотов", "Лопухин", "Фет", "Марков", "Александэр", "Лаптев", "Мартынов",
     "Свирский", "Икар", "Некит", "Крымов", "Чайковский", "Тихомирова", "Абель", "Гейнц", "Агнес", "Дитрих", "Морган",
     "Герберт", "Хаим", "Марти", "Майер", "Франсуа", "Тэйт", "Генка", "Арнольд", "Миронов", "Миха", "Миша", "Мишаня",
     "Лешек", "Олежка", "Иванов", "Степанов", "Сашенек", "Фредерик", "Реми", "Эдик", "Серж", "Кузнецов", "Иванушка",
    "Самойлов", "Мухин", "Ибрахим", "Брайса", "Хеллинга", "Каин", "Авель", "Саня", "Кротов", "Щербаков", "Рогов", "Лазарев",
     "Васенька", "Эрклион", "Курт", "Гарин", "Иов", "Сьюзи", "Сани", "Пронин", "Николос", "Хомич", "Френсис", "Сизов",
     "Клюев", "Поликарпыч", "Поликарпыча", "Мышкин", "Захарий", "Иванцаревич", "Плетнёв", "Васильев", "Джерри", "Митяй",
     "Майкл", "Оливер", "Рамон", "Фреда", "Фрэда", "Мохинь", "Мелис", "Амур", "Ритик", "Альдо", "Ярош", "Гарик", "Гай",
     "Богданов", "Лебедев", "Зураб", "Самуэль", "Иона", "Лукас", "Сеня", "Элвис", "Берг" "Рональд", "Пион", "Джони",
     "Вилли", "Керн", "Августин", "Томпсон", "Гришин", "Ральф", "Робби", "Брут", "Михайло", "Павлов", "Костик",
     "Вельмить", "Девид","Дэвид", "Сидор", "Николаев", "Алевтин", "Кирюха", "Шейла", "Налим", "Герш", "Мишин", "Жуков",
     "Мэй", "Лямин", "Дир", "Микола", "Султанбек", "Нолана", "Первушин", "Канис", "Майлз", "Вова", "Гаврил", "Себастьян",
     "Бертрам", "Уилла","Рауль", "Энж", "Голди", "Армандо", "Дронов", "Юрген", "Санчёс", "Санчес", "Смолев", "Кристофер",
     "Ник", "Мишка", "Алёша", "Данька", "Валька", "Сёма", "Говард", "Салим", "Дэнни", "Джозеф", "Джефф", "Клауд", "Хорн",
     "Кох", "Тед", "Тор", "Муса", "Фрэнк", "Гордон", "Берт", "Маркий", "Энцо", "Мак", "Кравцов","Майло", "Надир",
     "Октавий",  "Горацио",  "Анатолий", "Боб", "Шон", "Энди", "Берси", "Тун", "Герд", "Франклин", "Яго", "Монтана",
     "Исса", "Бажэн", "Бажен", "Линкольн", "Хендриксон", "Сэн", "Дэнель", "Дэниэль","Даниэль", "Даниель", "Боря",
     "Лео", "Клим", "Волков","Павлик", "Антоний", "Данило", "Клаус", "Хенсель", "Коробкин", "Арман", "Андреев" "Путилин",
    "Луи", "Андре", "Ларин", "Роджер", "Юра", "Юр", "Грегори", "Чен", "Костя", "Остапенко", "Ушаков", "Рейнер", "Рейнор",
     "Горбунов", "Сайф", "Марсик", "Улисс", "Фредди", "Дункан", "Франциск", "Петька", "Алессандро", "Клавдий", "Саныч",
     "Стас", "Дэн", "Стасик", "Дэнчик",
     ]
)


# Список слов, которые заменяются на женские имена
GIRLS_NAME_LIST = frozenset(
    [
        "Катя", "Юля", "Кат", "Юли","Юлия", "Катюша", "Ассоль", "Джена", "Милла", "Ульянка", "Кадмона", "Кэрролл",
        "Кэрролл", "Маша", "Аля", "Ида", "Соня",
        "Энн", "Лайза", "Луиза", "Луиз", "Матильда", "Эллис", "Машенька", "Уиль", "Мара", "Саманта", "Люда", "Мэг",
        "Джейн","Ариан", "Валачча", "Харальда", "Вианда", "Джу", "Джессика", "Людочка", "Джесс", "Настенёк",
        "Алин", "Алине", "Томка", "Риша", "Силиса", "Валюшка", "Джуна", "Дженна", "Элли", "Элен", "Софа",
        "Майра", "Ксеня", "Альбена", "Анюта", "Пенни", "Дастина", "Лукреция", "Сьюзен", "Варёк", "Лэй", "Эйден",
        "Маринка", "Мария", "Ариэль", "Рэн", "Настасья", "Аврора", "Алатэя", "Дарси", "Коркина", "Эристина",
        "Марьин", "Лита", "Саломея", "Камелия", "Габриэла", "Варя", "Душкина", "Любаша", "Любка","Наташка", "Наташа",
        "Маня", "Зина","Верочка", "Зинка", "Ксюхий", "Эли", "Кларисса", "Николина", "Альба", "Эрис", "Костылёва",
        "Лизавета", "Феня", "Зосима", "Айсу", "Альма", "Валери", "Энни", "Шэль", "Аида", "Изабель", "Катрина", "Альбин",
        "Альбина", "Эрина", "Сонька", "Мелинда", "Нюра", "Долли", "Сюзанна", "Мелинда", "Лилька", "Ося",
        "Марго", "Регин", "Регина", "Элиса", "Джульетта", "Триша", "Жозефина", "Лера", "Лерочка", "Кейт",
        "Люся",  "Ефросинья", "Олафа",  "Джилла", "Лилечка", "Марибель", "Ребекка", "Лола", "Нина", "Кэт", "Кэти",
        "Таня", "Женя","Танька", "Женька", "Юля", "Юлька", "Танечка", 'Танюша', "Танин", "Жасмина", "Кларисса", "Женька",
        "Вивиана","Айсонака","Рита", "Мелисса", "Эмма", "Алавира", "Нюся", "Шарлотта", "Жюстина", "Дебби", "Клэр", "Джэс",
        "Клодия", "Лив", "Алёхина", "Марьям", "Лескюр",  "Лайон", "Поленька", "Эмма", "Элвира", "Стефани", "Ксюша"
        "Хелма", "Ирена", "Алёнка", "Маша", "Машка", "Настя", "Айседора", "Лена", "Ленка", "Елена","Леночка", "Аня", "Ксана",
        'Аделия', 'Августа','Августина', 'Авигея', 'Аврора', 'Агата', 'Агнесса', 'Агния', 'Ада', "Катерина", "Галя"
        'Аделина', 'Адель', 'Адельфина', 'Аза', 'Азалия', 'Азиза', 'Аида', 'Айлин', 'Аксинья', "Марин", "Анжела","Анжел",
        'Алевтина', 'Александра', 'Александрина', 'Алика', 'Алина', 'Алира', 'Алира', 'Алиса', "Натали"
        'Алия', 'Алла', 'Альберта', 'Альбина', 'Альвина', 'Альжбета', 'Алёна', 'Амелия','Амалия', "Эми", "Эмми",
        'Амина', 'Амира', 'Анастасия', 'Ангелина', 'Андриана', 'Анжела', 'Анжелика', 'Лика', "Аделаида",
        'Анжиолетта', 'Анисья', 'Анита', 'Анна', 'Антонина', 'Анфиса', 'Анэля', 'Ариадна', "Мариночка", "Фиса"
        'Арина', 'Артемида', 'Архелия', 'Арьяна', 'Асида', 'Астра', 'Ася', 'Аурелия', 'Аэлита', "Шура", "Мена", "Даша",
        'Аюна', 'Беатриса', 'Белла', 'Береслава', 'Берта', 'Биргит', 'Богдана', 'Божена', 'Борислава',
        'Бронислава', 'Валентина', 'Валерия', 'Ванда', 'Ванесса', 'Варвара', 'Василиса', 'Венера',
        'Вера', 'Верона', 'Вероника', 'Версавия', 'Веселина', 'Весняна', 'Веста', 'Вида','Видана',
        'Виктория', 'Вилора', 'Винетта', 'Виоланта', 'Виолетта', 'Виргиния', 'Виталина', 'Влада',
        'Владислава', 'Владлена', 'Властилина', 'Габи', 'Габриэлла', 'Галина', 'Гаянэ', 'Гелана',
        'Гелена', 'Гелианна', 'Гелла', 'Генриетта', 'Георгина', 'Гера', 'Герда', 'Гертруда',
        'Глафира', 'Глория', 'Гражина', 'Грета', 'Дана', 'Даниэла', 'Дания', 'Данна', 'Данута',
        'Дарина', 'Дария', 'Дарья', 'Даша', 'Дарьяна', 'Дебора', 'Джема', 'Джулия', 'Джульетта',
        'Диана', 'Дина', 'Динара', 'Диодора', 'Дионисия', 'Диша', 'Доля', 'Доминика','Ника',
        'Дэнна', 'Ева', 'Евгения', 'Евдокия', 'Екатерина', 'Елена', 'Елизавета', 'Есения', 'Жаклин',
        'Жанна', 'Жасмин', 'Женевьева', 'Жюли', 'Залина', 'Зара', 'Зарина', 'Земфира', 'Зинаида',
        'Злата', 'Златослава', 'Зоряна', 'Зоя', 'Иветта','Ветта', 'Ивона', 'Изабелла', 'Изольда',
        'Илена', 'Илзе', 'Илона', 'Инара', 'Инга', 'Индира', 'Инесса', 'Инна', 'Иоанна', 'Иоланта',
        'Ираида', 'Ирина', 'Ирма', 'Ирэн', 'Ирэна', 'Калерия', 'Камилла', 'Капитолина', 'Кара',
        'Карина', 'Кармелитта', 'Мелитта', 'Каролина', 'Каторина', 'Келен', 'Кира', 'Клавдия',
        'Клара', 'Крис', 'Кристина', 'Ксения', 'Лада', 'Лайма', 'Лали', 'Лана', 'Ландыш', 'Лариса',
        'Лаура', 'Лейла', 'Леся', 'Лея', 'Лиана', 'Лигия', 'Лидия', 'Лиза', 'Лика', 'Лили', 'Лилия',
        'Лилу', 'Лина', 'Лира', 'Лия', 'Луиза', 'Лунара', 'Любава', 'Любовь', 'Людмила', 'Ляля', 'Магда',
        'Магдалина', 'Майя', 'Малика', 'Мальта', 'Маргарита', 'Марианна', 'Марина', 'Мариша', 'Мария',
        'Марта', 'Мартина', 'Марфа', 'Марьяна', 'Мелиана', 'Мелитта', 'Мериса', 'Мила', 'Милана', 'Милда',
        'Милена', 'Милиса', 'Милолика', 'Милослава', 'Мирра', 'Мишель', 'Мия', 'Моника', 'Моник',
        'Муза', 'Мэри', 'Надежда', 'Надя', 'Нания', 'Наоми', 'Наталия', 'Наталья', 'Нева', 'Нега', 'Нелли',
        'Неолина', 'Ника', 'Никки', 'Николь', 'Нила', 'Неонила', 'Нина', 'Нинна', 'Номи', 'Нонна', 'Нора',
        'Оксана', 'Октябрина', 'Олеся', 'Алеся', 'Ольга', 'Патрисия', 'Пелагея', 'Полианна', 'Полина',
            'Прасковья', 'Радмила', 'Радослава', 'Раиса', 'Ралина', 'Рамина', 'Рамина', 'Рая', 'Регина',
            'Риана', 'Римма', 'Роза', 'Розалия', 'Розалина', 'Роксалана', 'Роксана', 'Романа', 'Руслана',
        'Сабина', 'Сабрина', 'Санда', 'Сандра', 'Александра', 'Санта', 'Сара', 'Сафина', 'Светлана',
        'Святослава', 'Северина', 'Селена', 'Серафима', 'Силика', 'Сильва', 'Сильвия', 'Сима', 'Симона',
        'Снежана', 'София', 'Софья', 'Станислава', 'Стелла', 'Стефания', 'Сусанна', 'Таира', 'Таисия',
        'Тала', 'Тамара', 'Татьяна', 'Тереза', 'Томила', 'Триана', 'Ульна', 'Ульяна', 'Уля', 'Устинья',
        'Фаиза', 'Фаина', 'Фаня', 'Фанни', 'Фая', 'Фелиция', 'Феодосия', 'Фия', 'Флора', 'Франсуаза', 'Фрида',
        'Хана', 'Харита', 'Харитина', 'Хельга', 'Хильда', 'Христина', 'Цветана', 'Чеслава', 'Эвелина', 'Эдда',
        'Эдилия', 'Эдита', 'Эдуарда', 'Эжени', 'Элеонора', 'Элиза', 'Элизабет', 'Элина', 'Эллина',
        'Элла', 'Эллада', 'Элоиза', 'Эльвина', 'Эльвира', 'Эльга', 'Эльза', 'Эльмира', 'Эля',
        'Эмбер', 'Эмилия', 'Эмма', 'Эрида', 'Эрика', 'Эстелла', 'Эшли', 'Юзефа', 'Юланта',
        'Юлиана', 'Юлия', 'Юна', 'Юнона', 'Юстина', 'Юфеза', 'Ядвига', 'Яна', 'Янина', 'Янита', 'Ярослава', 'Ясмина',
        'Саша','Ксюша', 'Аннет','Гермиона','Фелла','Вика', "Нея", "Рина",
    ]
)


# Список слов, которые не влияют на смысл непосредственно, и не обрабатываются предыдущими фильтрами.
STOP_WORD_LIST = frozenset([
    'уже', 'самый', 'мочь', 'говорить', 'являться', 'быть', 'хотеть', 'стать', 'знать', 'начать',
    'сказать', 'брать', 'является', 'есть', 'иметь', 'хотеть', 'содержаться', 'существует', 'сделать','делать','оказаться'
    'очень', 'минимально', 'максимально', 'абсолютно', 'огромный', 'предельно', 'сильно', 'слабо', 'много', 'мало','немного','немало'
    'несколько', 'сразу', 'потом', 'ещё', 'пока', 'куда', 'туда',
    'наиболее', 'наименьшее', 'самый',
    'тут','оба', 'ктото', 'както','чтото', 'ктонибудь', 'чтонибудь', 'какойто', 'такойто',
    'где','раз','там','дать','теперь','сейчас','здесь', 'тоже', 'там', 'сям',
    'прийти', 'скоро', 'долго', 'выходить','слушать','вообще','случиться',
    'поэтому','потому', 'почему', 'почти', "едва", 'чуть',
    'снова', 'опять', 'вновь', 'всегда','никогда','некогда','вдруг','внезапно',
    'хорошо', "нехорошо", "плохо", "неплохо", "нормально",
    'всего', 'вцелом', "целиком", "полностью", "вместе", "несколько",
    'совершенно', 'довольно', "более", "менее"
])


def isfloat(value):
    '''
    Проверяем можно ли привести токен к числу с плавающей точкой
    '''
    try:
        return float(value)
    except ValueError:
        return False


@functools.lru_cache(maxsize=100)
def map_numbers(word):
    '''
    Заменяем числа диапазонами, в которых они находятся.

    '''
    value = isfloat(word)
    if value == False:
        if value == 'ноль':
            return '0'
        elif value in ['раз', "один"]:
            return '1'
        elif value == "два":
            return '2'
        elif value == "три":
            return '3'
        elif value in ["четыре", "пять", "шесть", "семь", "восемь", "девять", "десять"]:
            return '__число_между_3_и_10__'
        elif value in ['одиннадцать', "двенадцать", "тринадцать", "четырнадцать", "пятнадцать",
                       "шеснадцать", "семнадцать", "восемнадцать", "девятнадцать", "двадцать"]:
            return '__число_между_10_и_20__'
        elif value in ['тридцать', "сорок", "пятьдесят"]:
            return '__число_между_20_и_50__'
        elif value in ["шестьдесят", "семьдесят", "восемьдесят", "девяносто", "сто"]:
            return '__число_между_50_и_100__'
        elif value in ["двести", "триста", "четыреста", "пятьсот"]:
            return '__число_между_100_и_500__'
        elif value in ["шестьсот", "семьсот", "восемьсот", "девятьсот", "тысяча", "тыща", "тысеча"]:
            return '__число_между_500_и_1000__'
        else:
            return
    if value < 0:
        return '__negative_number__'
    elif value == 0:
        return '0'
    elif 0 < value < 1:
        return '__number_in_0_1__'
    elif 1 <= value <= 3:
        str(value)
    elif 3 < value <= 10:
        return '__число_между_3_и_10__'
    elif 10 < value <= 20:
        return '__число_между_10_и_20__'
    elif 20 < value <= 50:
        return '__число_между_20_и_50__'
    elif 50 < value <= 100:
        return '__число_между_50_и_100__'
    elif 100 < value <= 500:
        return '__число_между_100_и_500__'
    elif 500 < value <= 1000:
        return '__число_между_500_и_1000__'
    elif 1000 < value <= 1500:
        return '__число_между_1000_и_1500__'
    elif 1500 < value <= 1600:
        return '__число_между_1500_и_1600__'
    elif 1600 < value <= 1700:
        return '__число_между_1600_и_1700__'
    elif 1700 < value <= 1800:
        return '__число_между_1700_и_1800__'
    elif 1800 < value <= 1900:
        return '__число_между_1800_и_1900__'
    elif 1900 < value <= 2100:
        return str(value)
    elif 2100 < value <= 5000:
        return '__число_между_2100_и_5000__'
    elif 5000 < value <= 10000:
        return '__число_между_5000_и_10000__'
    elif 10000 < value:
        return '__число_больше_10000__'

@functools.lru_cache(maxsize=1000)
def not_cyrilic(word):
    if re.match('.+[A-Za-z]+.+', word):
        return None
    return word


@functools.lru_cache(maxsize=1000000)
def parse_token(normal_form):
    
    word = normal_form
    if not word: # Пустая строка
        return ''

    if word.isupper() and len(word)==2:
        return word


    if word in [
        #'I', английское z
        # 'XL', размер
        # 'XXX', категория контента
        # 'C', язык программирования
        # 'CD', носитель данных
        # 'DC', издатель комиксов

        'II','III', 'IIII'
        'IV', 'V', 'VI', 'VII', 'VIII',
        'IX', 'X', 'XX',
        'L', 'LX', 'LXX', 'LXXX',
        'XC', 'CC', 'CCC',
        'D',  'DCC', 'DCCC',
        'CM', 'M', 'MM', 'MMM',
        'MMMCMXCIX'
    ]:
        return '__РИМСКОЕ_ЧИСЛО_%s__' % word

    if not not_cyrilic(word):
        return '__слово_на_латинице__'

    # if p.tag.grammemes & STOP_POS:
    #     return None

    if (word in STOP_WORD_LIST):
        return ''

    if all((i == word[0] for i in word)):
        return ''
    
    word_is_boy = (
        (word.capitalize() in BOYS_NAME_LIST) or
        (word.lower().capitalize() in BOYS_NAME_LIST)
    )
    word_is_girl = (
         (word.capitalize() in GIRLS_NAME_LIST) or
         (word.lower().capitalize() in GIRLS_NAME_LIST)
    )

    if word_is_boy:
        return '__МУЖСКОЕ_ИМЯ__'
    elif word_is_girl:
        return '__ЖЕНСКОЕ_ИМЯ__'

    is_number = map_numbers(word)
    if is_number:
        return is_number

    if len(word.strip()) <3:
        return ''

    return word


@functools.lru_cache()
def normalize_by_mystem(from_my_stem):
    from_my_stem = json.loads(from_my_stem)
    if not from_my_stem['text'].strip():
        return ''
    
    if 'analysis' in from_my_stem and from_my_stem['analysis']:
        try:
            return parse_token(from_my_stem.get('analysis', [{}])[0].get('lex'))
        except:
            print(from_my_stem)
            raise Exception
    else:
        return parse_token(from_my_stem.get('text'))

def test(from_my_stem):
    return from_my_stem

In [4]:
@functools.lru_cache(maxsize=1000000)
def preprocessing(string):
    return ' '.join(
        map(
            normalize_by_mystem,
#             normalize_by_mystem,
            [
                json.dumps(j)
                for j in mystem.analyze(
                    ' '.join(
                        (
                            i
                            for i in map(clear_string, string.split())
                            if len(i) > 2
                        )
                    )
                )
            ]
        )
    )
    return

def iter_sentence():
    with open('./big_train.csv','r') as f:
        f.readline()
        for line in f:
            yield preprocessing(line.strip().split(',')[3].lower()).split()
            
    with open('./rating_test_without_rating.csv', 'r') as f:
        f.readline()
        for line in f:
            yield preprocessing(line.strip().split(',')[2].lower()).split()
            
class SentenseIterator():
    def __iter__(self):
        yield from iter_sentence()
    

In [5]:
def train_iter_sentence():
    with open('./big_train.csv','r') as f:
        f.readline()
        for line in f:
            yield preprocessing(line.strip().split(',')[3].lower()).split()
            
class TrainSentenseIterator():
    def __iter__(self):
        yield from train_iter_sentence()
        

def test_iter_sentence():
    with open('./rating_test_without_rating.csv', 'r') as f:
        f.readline()
        for line in f:
            yield preprocessing(line.strip().split(',')[2].lower()).split()
            
class TestSentenseIterator():
    def __iter__(self):
        yield from test_iter_sentence()
        
train_sentences = TrainSentenseIterator()
test_sentences = TestSentenseIterator()

In [6]:
sentences = SentenseIterator()

In [7]:
model = gensim.models.Word2Vec(
    max_vocab_size=10**5*2,
    min_count=5,
    workers=multiprocessing.cpu_count()
)

In [8]:
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

In [9]:
model.build_vocab(sentences=sentences)

2018-02-22 17:42:56,404 : INFO : collecting all words and their counts
2018-02-22 17:42:58,778 : INFO : PROGRESS: at sentence #0, processed 0 words, keeping 0 word types
2018-02-22 17:44:03,840 : INFO : PROGRESS: at sentence #10000, processed 430261 words, keeping 32691 word types
2018-02-22 17:45:04,830 : INFO : PROGRESS: at sentence #20000, processed 854636 words, keeping 48247 word types
2018-02-22 17:46:07,215 : INFO : PROGRESS: at sentence #30000, processed 1286765 words, keeping 60734 word types
2018-02-22 17:47:07,250 : INFO : PROGRESS: at sentence #40000, processed 1724216 words, keeping 72253 word types
2018-02-22 17:48:12,110 : INFO : PROGRESS: at sentence #50000, processed 2151102 words, keeping 82793 word types
2018-02-22 17:49:11,284 : INFO : PROGRESS: at sentence #60000, processed 2564945 words, keeping 92323 word types
2018-02-22 17:50:14,661 : INFO : PROGRESS: at sentence #70000, processed 2992124 words, keeping 101523 word types
2018-02-22 17:51:11,830 : INFO : PROGRES

In [11]:
model.train(sentences, epochs=3,  total_examples=model.corpus_count)

2018-02-15 22:05:08,420 : INFO : training model with 4 workers on 41046 vocabulary and 100 features, using sg=0 hs=0 sample=0.001 negative=5 window=5
2018-02-15 22:05:09,459 : INFO : PROGRESS: at 0.91% examples, 248391 words/s, in_qsize 0, out_qsize 1
2018-02-15 22:05:10,494 : INFO : PROGRESS: at 2.09% examples, 272751 words/s, in_qsize 0, out_qsize 0
2018-02-15 22:05:11,525 : INFO : PROGRESS: at 3.74% examples, 326654 words/s, in_qsize 0, out_qsize 0
2018-02-15 22:05:12,534 : INFO : PROGRESS: at 5.34% examples, 353400 words/s, in_qsize 0, out_qsize 1
2018-02-15 22:05:13,538 : INFO : PROGRESS: at 6.84% examples, 362795 words/s, in_qsize 0, out_qsize 0
2018-02-15 22:05:14,566 : INFO : PROGRESS: at 8.45% examples, 370657 words/s, in_qsize 0, out_qsize 0
2018-02-15 22:05:15,615 : INFO : PROGRESS: at 9.97% examples, 372695 words/s, in_qsize 0, out_qsize 0
2018-02-15 22:05:16,625 : INFO : PROGRESS: at 11.49% examples, 375962 words/s, in_qsize 0, out_qsize 0
2018-02-15 22:05:17,680 : INFO : 

30408518

In [11]:
model.wv.index2word

['что',
 '__слово_на_латинице__',
 'очень',
 'это',
 'как',
 'этот',
 'книга',
 'все',
 'для',
 'весь',
 'так',
 'который',
 'еще',
 'такой',
 'один',
 'вкусный',
 'хороший',
 'место',
 'свой',
 'только',
 'если',
 'заведение',
 'просто',
 'можно',
 'мой',
 'они',
 'нет',
 'или',
 'человек',
 'заказывать',
 '__МУЖСКОЕ_ИМЯ__',
 'она',
 'блюдо',
 'даже',
 'время',
 'понравиться',
 'официант',
 'себя',
 'вот',
 'когда',
 'меню',
 'большой',
 'другой',
 'сам',
 'цена',
 'первый',
 'день',
 'тот',
 'вкусно',
 'год',
 'еда',
 'ребенок',
 'при',
 'приятный',
 'приносить',
 'после',
 'чтобы',
 'заказ',
 'кто',
 'наш',
 'спасибо',
 '__ЖЕНСКОЕ_ИМЯ__',
 'каждый',
 'обслуживание',
 'ресторан',
 'без',
 'отличный',
 'становиться',
 'читать',
 'кухня',
 'кофе',
 'хотеться',
 'автор',
 'про',
 'понимать',
 'чем',
 'салат',
 'вкус',
 'интерьер',
 'минута',
 'интересный',
 'приходить',
 'друг',
 'конечно',
 'персонал',
 'хотя',
 'столик',
 'решать',
 'быстро',
 'ждать',
 'работать',
 'рекомендовать',
 

In [13]:
model.most_similar('официант')

  """Entry point for launching an IPython kernel.
2018-02-15 22:06:40,195 : INFO : precomputing L2-norms of word weight vectors


[('официантка', 0.9459431171417236),
 ('девушкаофициант', 0.7950291633605957),
 ('персонал', 0.7920031547546387),
 ('администратор', 0.7191694974899292),
 ('девушка', 0.7173543572425842),
 ('кассир', 0.7008011341094971),
 ('кальянщик', 0.6782796382904053),
 ('девушкаофициантка', 0.654279351234436),
 ('хостес', 0.6517984867095947),
 ('офик', 0.651033878326416)]

In [69]:
model.wv.word_vec('официант')

array([-1.16490519, -2.39631724,  1.22702217, -0.4833999 , -1.81730068,
       -0.48772752,  0.89475888, -0.2036234 ,  1.78867042, -0.47792315,
       -1.94477391,  0.28253135, -2.86050558, -1.88632739, -2.79638648,
        1.87157404,  2.06843829, -0.04652323,  1.88178909,  1.03721488,
        2.2300396 ,  1.15912724, -2.13789368,  0.3728328 ,  0.37598792,
       -0.36440837,  2.07403731, -0.47243625, -0.02244153,  1.27159321,
       -2.44426537, -0.50231838,  2.15738416,  0.671911  , -0.42188048,
       -2.22126532,  0.25318474, -1.55090678,  2.38419366, -0.72404426,
       -1.10256445, -0.28712273,  4.61564064, -0.58936644, -0.78231442,
        0.74315983, -0.40295851, -0.53364909,  2.00119185,  1.4031204 ,
        0.84262437,  0.16767573,  1.99934852,  1.01910639, -2.2733047 ,
       -1.41535187,  0.84479833, -3.5623436 ,  1.02344   ,  0.47774908,
       -0.9200446 ,  0.1271165 ,  0.08192538, -0.80192125, -0.2261727 ,
       -2.33092022, -2.01634717,  3.48501158,  2.16095686, -2.39

In [12]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.externals import joblib

In [13]:
tfidf = TfidfVectorizer(vocabulary=model.wv.index2word)
X = tfidf.fit_transform((' '.join(i) for i in sentences))

In [16]:
X.shape

(237591, 41046)

In [14]:
X_train_source = tfidf.transform((' '.join(i) for i in train_sentences))
X_test_source = tfidf.transform((' '.join(i) for i in test_sentences))

In [15]:
model.wv.syn0.shape

(41046, 100)

In [69]:
X_train_source.shape

(154371, 41046)

In [16]:
X_test_source.shape

(83220, 41046)

In [17]:
X_train_w2v = X_train_source.dot(model.wv.syn0)

In [18]:
X_train_w2v.shape

(154371, 100)

In [19]:
import numpy as np
from sklearn.tree import  DecisionTreeClassifier
from sklearn.ensemble import  RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neural_network import MLPRegressor

from sklearn.metrics import  confusion_matrix, classification_report
from sklearn.cross_validation import train_test_split



In [22]:
Y_train_w2v = []
Y_train_w2v_condition = []
with open('./big_train.csv','r') as f:
    f.readline()
    for line in f:
        ratingCount = line.strip().split(',')[5]
        if ratingCount != 'n/a':
            Y_train_w2v.append(int(ratingCount))
            Y_train_w2v_condition.append(True)
        else:
            Y_train_w2v_condition.append(False)
Y_train_w2v = np.array(Y_train_w2v)

In [42]:
Y_train_w2v.shape, len(Y_train_w2v_condition)

((84070,), 154371)

In [26]:
X_train_source.shape

(154371, 41046)

In [24]:
_X_train_source = X_train_source[np.array(Y_train_w2v_condition)]

In [28]:
_X_train_source.shape

(84070, 41046)

In [29]:
X_train_w2v = X_train_source.dot(model.wv.syn0)

In [30]:
_X_train_w2v = X_train_w2v[np.array(Y_train_w2v_condition)]


In [82]:
_X_train_w2v.shape

(84070, 100)

In [31]:
X_train,  X_test, Y_train, Y_test = train_test_split(_X_train_w2v, Y_train_w2v)

In [145]:
dt = DecisionTreeClassifier(max_depth=12, min_samples_leaf=12)
dt.fit(X_train, Y_train)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=12,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=12, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

In [85]:
Y_pred = dt.predict(X_test)

In [86]:
print(classification_report(y_true=Y_test, y_pred=Y_pred))

             precision    recall  f1-score   support

          1       0.36      0.37      0.37      1495
          2       0.28      0.16      0.20      1449
          3       0.24      0.18      0.21      1974
          4       0.27      0.13      0.18      3188
          5       0.74      0.91      0.82     12912

avg / total       0.57      0.63      0.59     21018



In [141]:
logreg = LogisticRegression(C=1.5, solver='newton-cg')
logreg.fit(X_train, Y_train)

LogisticRegression(C=0.1, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='newton-cg', tol=0.0001,
          verbose=0, warm_start=False)

In [142]:
Y_pred = logreg.predict(X_test)
print(classification_report(y_true=Y_test, y_pred=Y_pred, digits=4))
print(confusion_matrix(y_true=Y_test, y_pred=Y_pred))

             precision    recall  f1-score   support

          1     0.4811    0.5191    0.4994      1495
          2     0.3282    0.0594    0.1005      1449
          3     0.3272    0.1444    0.2004      1974
          4     0.3631    0.1785    0.2393      3188
          5     0.7451    0.9640    0.8405     12912

avg / total     0.6004    0.6739    0.6139     21018

[[  776    78   135    52   454]
 [  404    86   237   199   523]
 [  237    61   285   446   945]
 [  111    23   149   569  2336]
 [   85    14    65   301 12447]]


In [37]:
X_test_w2v = X_test_source.dot(model.wv.syn0)

In [76]:
X_test_w2v.shape

(83220, 100)

In [143]:
Y_target = logreg.predict(X_test_w2v)

In [130]:
rf_clf = RandomForestClassifier(max_depth=7, n_estimators=2000, n_jobs=-1, verbose=1)
rf_clf.fit(X_train, Y_train)

[Parallel(n_jobs=-1)]: Done  42 tasks      | elapsed:   11.6s
[Parallel(n_jobs=-1)]: Done 192 tasks      | elapsed:   46.1s
[Parallel(n_jobs=-1)]: Done 442 tasks      | elapsed:  1.7min
[Parallel(n_jobs=-1)]: Done 792 tasks      | elapsed:  3.3min
[Parallel(n_jobs=-1)]: Done 1242 tasks      | elapsed:  5.5min
[Parallel(n_jobs=-1)]: Done 1792 tasks      | elapsed:  8.1min
[Parallel(n_jobs=-1)]: Done 2000 out of 2000 | elapsed:  9.0min finished


RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=7, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=2000, n_jobs=-1,
            oob_score=False, random_state=None, verbose=1,
            warm_start=False)

In [45]:
nn= MLPRegressor(hidden_layer_sizes=(1000), activation='relu', verbose=1)

In [46]:
nn.fit(X_train, Y_train)

Iteration 1, loss = 1.59354262
Iteration 2, loss = 0.76177608
Iteration 3, loss = 0.74269981
Iteration 4, loss = 0.73315039
Iteration 5, loss = 0.72943118
Iteration 6, loss = 0.72822439
Iteration 7, loss = 0.72810972
Iteration 8, loss = 0.72793381
Iteration 9, loss = 0.72777146
Iteration 10, loss = 0.72808187
Iteration 11, loss = 0.72862369
Iteration 12, loss = 0.72829609
Training loss did not improve more than tol=0.000100 for two consecutive epochs. Stopping.


MLPRegressor(activation='relu', alpha=0.0001, batch_size='auto', beta_1=0.9,
       beta_2=0.999, early_stopping=False, epsilon=1e-08,
       hidden_layer_sizes=1000, learning_rate='constant',
       learning_rate_init=0.001, max_iter=200, momentum=0.9,
       nesterovs_momentum=True, power_t=0.5, random_state=None,
       shuffle=True, solver='adam', tol=0.0001, validation_fraction=0.1,
       verbose=1, warm_start=False)

In [47]:
Y_pred = nn.predict(X_test)
# print(classification_report(y_true=Y_test, y_pred=Y_pred))
# print(confusion_matrix(y_true=Y_test, y_pred=Y_pred))

In [48]:
Y_target = nn.predict(X_test_w2v)

In [None]:
# Tensorflow

In [50]:
import tensorflow as tf

In [51]:
x = tf.placeholder(
    dtype=tf.float32,
    shape=[None, 100]
)

y = tf.placeholder(
    dtype=tf.float32,
    shape=[None, 5]
)

In [52]:
layer = tf.layers.Dense(
    units=128,
    activation=tf.nn.elu
)

In [53]:
hidden = layer(x)

In [54]:
output = tf.layers.Dense(units=4, activation=None)(hidden)

In [55]:
softmax = tf.nn.softmax(output)

In [56]:
cross_entropy_loss = tf.nn.softmax_cross_entropy_with_logits(
    logits=output,
    labels=y
)

Instructions for updating:

Future major versions of TensorFlow will allow gradients to flow
into the labels input on backprop by default.

See tf.nn.softmax_cross_entropy_with_logits_v2.



In [59]:
loss = tf.reduce_mean(cross_entropy_loss)

In [60]:
optimizer = tf.train.AdamOptimizer(learning_rate=0.0001)

In [61]:
train_op = optimizer.minimize(loss)

In [62]:
_Y_train = Y_train

In [69]:
_Y_train.shape

(63052,)

In [71]:
_Y_train = _Y_train.reshape(63052,)

In [142]:
_Y_train

array([2, 4, 5, ..., 5, 5, 5])

2

In [174]:
__Y = []

for i in range(_Y_train.size):
    if i > 20:
        break
    test = [0 for j in range(5)]
    test[_Y_train[i] - 1] = _Y_train[i]
    __Y.append([i, np.array(test)])

print(__Y[1])

ValueError: setting an array element with a sequence.

In [134]:
__Y = []


for i in range(_Y_train.size):
    __Y.append([i, _Y_train[i]])

In [135]:
__Y = np.array(__Y)

In [140]:
__Y[:,1]

array([2, 4, 5, ..., 5, 5, 5])

In [73]:
def iter_data(X=X_train, Y=_Y_train, batch_size=100) :
    batch_x = []
    batch_y = []
    for _x, _y in zip(X, Y):
        batch_x.append(_x)
        batch_y.append(_y)
        if len(batch_x) == batch_size:
            yield np.array(batch_x), np.array(batch_y)
            batch_x = []
            batch_y = []
    yield np.array(batch_x), np.array(batch_y)

In [74]:
with tf.Session() as sess:
    saver = tf.train.Saver()
    sess.run(tf.global_variables_initializer())
    for _tick, (_x, _y) in enumerate(iter_data()):
#         if _tick > 3:
#             break
#         print(_x)
        _, _loss, _softmax = sess.run(
            [train_op, loss, softmax],
            feed_dict = {
                x: _x,
                y: _y
            }
        )
        print(loss)
        
        if not _tick % 50:
            print(_softmax[0], _y[0])
            saver.save(sess=sess, save_path='./test-model.model')

ValueError: Cannot feed value of shape (100,) for Tensor 'Placeholder_1:0', which has shape '(?, 5)'

In [49]:
with open('submission.csv','w') as sol:
    with open('./rating_test_without_rating.csv', 'r') as f:
        sol.write('_id,rating\n')
        f.readline()
        for (line, label) in zip(f, Y_target):
            data = line.split(',')
            sol.write('%s,%s\n' % (data[0], label))