In [1]:
import os
import logging
import yaml
from pyyoutube import Api
import json
import requests
import numpy as np
from nltk.corpus import stopwords
import pandas as pd
import re
import numpy as np
from pymystem3 import Mystem
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import SpectralClustering
from sklearn.metrics import f1_score, silhouette_score
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
import mlflow
from mlflow.tracking import MlflowClient

In [2]:
def get_data(YOUTUBE_API_KEY, videoId, maxResults, nextPageToken):
    """
    Получение информации со страницы с видео
    """
    YOUTUBE_URI = 'https://www.googleapis.com/youtube/v3/commentThreads?key={KEY}&textFormat=plainText&' + \
        'part=snippet&videoId={videoId}&maxResults={maxResults}&pageToken={nextPageToken}'
    format_youtube_uri = YOUTUBE_URI.format(KEY=YOUTUBE_API_KEY,
                                            videoId=videoId,
                                            maxResults=maxResults,
                                            nextPageToken=nextPageToken)
    content = requests.get(format_youtube_uri).text
    data = json.loads(content)
    return data


def get_text_of_comment(data):
    """
    Получение комментариев из полученных данных под одним видео
    """
    comms = set()
    for item in data['items']:
        comm = item['snippet']['topLevelComment']['snippet']['textDisplay']
        comms.add(comm)
    return comms


def get_all_comments(YOUTUBE_API_KEY, query, count_video=10, limit=30, maxResults=10, nextPageToken=''):
    """
    Выгрузка maxResults комментариев
    """
    api = Api(api_key=YOUTUBE_API_KEY)
    video_by_keywords = api.search_by_keywords(q=query,
                                               search_type=["video"],
                                               count=count_video,
                                               limit=limit)
    videoId = [x.id.videoId for x in video_by_keywords.items]

    comments_all = []
    for id_video in videoId:
        try:
            data = get_data(YOUTUBE_API_KEY,
                            id_video,
                            maxResults=maxResults,
                            nextPageToken=nextPageToken)
            comment = list(get_text_of_comment(data))
            comments_all.append(comment)
        except:
            continue
    comments = sum(comments_all, [])
    return comments

In [23]:
config_path = os.path.join('/Users/miracl6/airflow-mlflow-tutorial/config/params_all.yaml')
config = yaml.safe_load(open(config_path))['train']

In [24]:
SEED = config['SEED']

In [25]:
config

{'SEED': 10,
 'clustering': {'affinity': 'cosine',
  'count_max_clusters': 15,
  'silhouette_metric': 'euclidean'},
 'comments': {'YOUTUBE_API_KEY': 'AIzaSyCPYNxHdsk6_-UX60p9Hm65cPXWXifut9A',
  'count_video': 5,
  'limit': 30,
  'maxResults': 20,
  'nextPageToken': '',
  'query': 'дата сайенс'},
 'cross_val': {'test_size': 0.3},
 'dir_folder': '/Users/miracl6/airflow-mlflow-tutorial',
 'model': {'class_weight': 'balanced'},
 'model_lr': 'LogisticRegression',
 'model_vec': 'vector_tfidf',
 'name_experiment': 'my_second',
 'stopwords': 'russian',
 'tf_model': {'max_features': 300}}

In [6]:
comments = get_all_comments(**config['comments'])

In [7]:
comments[:10]

['Кто ждёт новый год \nЯ - лайк \nНет - коммент',
 'Наша команда уже второй год занимается обработкой и разметкой данных, растем в этом направлении. Заинтересованных лиц просьба писать в личку.',
 'ля, я такой в начале, что еще за сатанист',
 'Как правильно? Газпром нефтИ или нЕфти?',
 'Раскатал про ИИ по красоте!) Простому смертному стало более понятно, что такое машин лернинг',
 'Я студент финансового университета, учусь по направлению Анализ больших данных и принятие экономических решений. Как мне попасть на стажировку в Газпром?',
 'Качественно сделано и довольно интересно. Подпишусь на ваш канал)',
 'А как же вопросы "где учиться" и "сколько можно зарабатывать"?)))',
 'Я закончил бакалавриат по специальности разработка и эксплуатация нгм. Сейчас обучаюсь в магистратуре по направлению "Big data". Подскажите, есть ли возможность попасть на работу по данной специальности на шельфовое месторождение?',
 'Очень хорошо и понятно все обьяснил! Спасибо']

In [8]:
def remove_emoji(string):
    """
    Удаление эмоджи из текста
    """
    emoji_pattern = re.compile("["u"\U0001F600-\U0001F64F"  # emoticons
                               u"\U0001F300-\U0001F5FF"  # symbols & pictographs
                               u"\U0001F680-\U0001F6FF"  # transport & map symbols
                               u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                               u"\U00002702-\U000027B0"
                               u"\U000024C2-\U0001F251"
                               u"\U0001f926-\U0001f937"
                               u'\U00010000-\U0010ffff'
                               u"\u200d"
                               u"\u2640-\u2642"
                               u"\u2600-\u2B55"
                               u"\u23cf"
                               u"\u23e9"
                               u"\u231a"
                               u"\u3030"
                               u"\ufe0f"
                               "]+", flags=re.UNICODE)
    return emoji_pattern.sub(r'', string)


def remove_links(string):
    """
    Удаление ссылок
    """
    string = re.sub(r'http\S+', '', string)  # remove http links
    string = re.sub(r'bit.ly/\S+', '', string)  # rempve bitly links
    string = re.sub(r'www\S+', '', string)  # rempve bitly links
    string = string.strip('[link]')  # remove [links]
    return string


def preprocessing(string, stopwords, stem):
    """
    Простой препроцессинг текста, очистка, лематизация, удаление коротких слов
    """
    string = remove_emoji(string)
    string = remove_links(string)

    # удаление символов "\r\n"
    str_pattern = re.compile("\r\n")
    string = str_pattern.sub(r'', string)

    # очистка текста от символов
    string = re.sub('(((?![а-яА-Я ]).)+)', ' ', string)
    # лематизация
    string = ' '.join([
        re.sub('\\n', '', ' '.join(stem.lemmatize(s))).strip()
        for s in string.split()
    ])
    # удаляем слова короче 3 символов
    string = ' '.join([s for s in string.split() if len(s) > 3])
    # удаляем стоп-слова
    string = ' '.join([s for s in string.split() if s not in stopwords])
    return string


def get_clean_text(data, stopwords):
    """
    Получение текста в преобразованной после очистки
    матричном виде, а также модель векторизации
    """
    # Простой препроцессинг текста
    stem = Mystem()
    comments = [preprocessing(x, stopwords, stem) for x in data]
    # Удаление комментов, которые имеют меньше, чем 5 слов
    comments = [y for y in comments if len(y.split()) > 5]
    #common_texts = [i.split(' ') for i in comments]
    return comments


def vectorize_text(data, tfidf):
    """
    Получение матрицы кол-ва слов в комменариях
    Очистка от пустых строк
    """
    # Векторизация
    X_matrix = tfidf.transform(data).toarray()
    # Удаляем строки в матрице с пустыми значениями
    mask = (np.nan_to_num(X_matrix) != 0).any(axis=1)
    return X_matrix[mask]

In [9]:
comments_clean = get_clean_text(comments, stopwords.words(config['stopwords']))
tfidf = TfidfVectorizer(**config['tf_model']).fit(comments_clean)

In [10]:
config

{'SEED': 10,
 'clustering': {'affinity': 'cosine',
  'count_max_clusters': 15,
  'silhouette_metric': 'euclidean'},
 'comments': {'YOUTUBE_API_KEY': 'AIzaSyCPYNxHdsk6_-UX60p9Hm65cPXWXifut9A',
  'count_video': 5,
  'limit': 30,
  'maxResults': 20,
  'nextPageToken': '',
  'query': 'дата сайенс'},
 'cross_val': {'test_size': 0.3},
 'dir_folder': '/Users/miracl6/airflow-mlflow-tutorial',
 'model': {'class_weight': 'balanced'},
 'model_lr': 'LogisticRegression',
 'model_vec': 'vector_tfidf',
 'name_experiment': 'my_first',
 'stopwords': 'russian',
 'tf_model': {'max_features': 300}}

In [11]:
comments_clean[:10]

['команда второй заниматься обработка разметка данный расти направление заинтересованный лицо просьба писать личка',
 'раскатать красота простой смертный становиться понятно машина лернинг',
 'студент финансовый университет учиться направление анализ большой данный принятие экономический решение попадать стажировка газпром',
 'качественно сделать довольно интересно подписываться канал',
 'заканчивать бакалавриат специальность разработка эксплуатация обучаться магистратура направление подсказывать возможность попадать работа данна специальность шельфовый месторождение',
 'дата сайентист нефтянка говорить квартира получаться взять ипотека начинать понимать страна приходить туда',
 'газпром нефть дата сатанист взаимосвязь иметь ввиду название канал',
 'хотеть купить брать ипотека вариант грустно',
 'вопрос специалист нужный большой данные большой данные сколько возможно выгружать память человек диск нейронный сеть правда дата сайентист самый сексуальный профессия ученый нефтяник ученый не

In [12]:
X_matrix = vectorize_text(comments_clean, tfidf)

In [13]:
X_matrix.shape

(39, 300)

In [14]:
tfidf.get_feature_names()[:10]

['авторитарный',
 'алгоритм',
 'анализ',
 'аналитика',
 'аналитический',
 'артефакт',
 'багамы',
 'базовый',
 'бакалавриат',
 'бали']

In [15]:
def get_clusters(data, count_max_clusters, random_state, affinity,
                 silhouette_metric):
    """
    Подбор наилучшего числа кластеров, возвращает полученные кластера тематик
    """
    cluster_labels = {}
    silhouette_mean = []

    for i in range(2, count_max_clusters, 1):
        clf = SpectralClustering(n_clusters=i,
                                 affinity=affinity,
                                 random_state=random_state)
        #clf = KMeans(n_clusters=n, max_iter=1000, n_init=1)
        clf.fit(data)
        labels = clf.labels_
        cluster_labels[i] = labels
        silhouette_mean.append(
            silhouette_score(data, labels, metric=silhouette_metric))
    n_clusters = silhouette_mean.index(max(silhouette_mean)) + 2
    return cluster_labels[n_clusters]


def get_f1_score(y_test, y_pred, unique_cluster_labels):
    """
    Возращает результат обучения классификатора по тематикам
    """
    return f1_score(
        y_test, y_pred,
        average='macro') \
        if len(unique_cluster_labels) > 2 \
        else f1_score(y_test, y_pred)

In [16]:
cluster_labels = get_clusters(X_matrix,
                                 random_state=SEED,
                                 **config['clustering'])



In [17]:
config

{'SEED': 10,
 'clustering': {'affinity': 'cosine',
  'count_max_clusters': 15,
  'silhouette_metric': 'euclidean'},
 'comments': {'YOUTUBE_API_KEY': 'AIzaSyCPYNxHdsk6_-UX60p9Hm65cPXWXifut9A',
  'count_video': 5,
  'limit': 30,
  'maxResults': 20,
  'nextPageToken': '',
  'query': 'дата сайенс'},
 'cross_val': {'test_size': 0.3},
 'dir_folder': '/Users/miracl6/airflow-mlflow-tutorial',
 'model': {'class_weight': 'balanced'},
 'model_lr': 'LogisticRegression',
 'model_vec': 'vector_tfidf',
 'name_experiment': 'my_first',
 'stopwords': 'russian',
 'tf_model': {'max_features': 300}}

In [18]:
cluster_labels[:10]

array([3, 0, 3, 0, 3, 6, 0, 6, 0, 5], dtype=int32)

In [19]:
X_train, X_test, y_train, y_test = train_test_split(X_matrix,
                                                    cluster_labels,
                                                    **config['cross_val'],
                                                    random_state=SEED)

In [20]:
clf_lr = LogisticRegression(**config['model'])

In [22]:
%%bash
export MLFLOW_REGISTRY_URI=../mlflow

In [27]:
mlflow.set_tracking_uri("http://localhost:5000")
mlflow.set_experiment(config['name_experiment'])
with mlflow.start_run():
    clf_lr.fit(X_train, y_train)
    print(clf_lr.predict_proba(X_test))

    # Логирование модели и параметров
    mlflow.log_param(
        'f1', get_f1_score(y_test, clf_lr.predict(X_test),
                           set(cluster_labels)))
    mlflow.sklearn.log_model(
        tfidf,
        artifact_path="vector",
        registered_model_name=f"{config['model_vec']}")
    mlflow.sklearn.log_model(
        clf_lr,
        artifact_path='model_lr',
        registered_model_name=f"{config['model_lr']}")
    mlflow.end_run()

Registered model 'vector_tfidf' already exists. Creating a new version of this model...
2021/05/02 19:53:43 INFO mlflow.tracking._model_registry.client: Waiting up to 300 seconds for model version to finish creation.                     Model name: vector_tfidf, version 29


[[0.12980699 0.13219332 0.141417   0.12500189 0.12521816 0.11938949
  0.11138085 0.1155923 ]
 [0.13225054 0.09461199 0.14431436 0.14921074 0.12746151 0.12149697
  0.11319859 0.1174553 ]
 [0.1488154  0.09091486 0.15653628 0.14699363 0.12095594 0.11566808
  0.10800232 0.11211349]
 [0.14166712 0.09029179 0.1767976  0.12378369 0.12853311 0.11464353
  0.11344233 0.11084083]
 [0.14735099 0.09412684 0.14295515 0.12872404 0.12654938 0.12060076
  0.12294893 0.11674391]
 [0.14852655 0.08947448 0.13987674 0.12342287 0.12322714 0.11324573
  0.15235379 0.10987269]
 [0.1433901  0.09291234 0.14875431 0.12435637 0.12450994 0.14043332
  0.11060968 0.11503393]
 [0.17761867 0.09219381 0.13923505 0.12629707 0.12340639 0.11763627
  0.10961023 0.11400252]
 [0.13568458 0.0949781  0.15717993 0.13047939 0.12802549 0.12203414
  0.11358408 0.11803429]
 [0.13182455 0.09333186 0.15002128 0.12495374 0.13229934 0.13286687
  0.1191945  0.11550786]
 [0.14957397 0.09164231 0.15114628 0.12472615 0.12895741 0.12000372
  

Created version '29' of model 'vector_tfidf'.
Registered model 'LogisticRegression' already exists. Creating a new version of this model...
2021/05/02 19:53:43 INFO mlflow.tracking._model_registry.client: Waiting up to 300 seconds for model version to finish creation.                     Model name: LogisticRegression, version 29
Created version '29' of model 'LogisticRegression'.


In [28]:
mlflow.get_artifact_uri()

'mlflow/2/da17c6f5dbce43aeaa6727a3674d2376/artifacts'

In [29]:
def get_version_model(config_name, client):
    """
    Получение последней версии модели из MLFlow
    """
    dict_push = {}
    for count, value in enumerate(
        client.search_model_versions(f"name='{config_name}'")):
        # client.list_registered_models()):
        # Все версии модели
        dict_push[count] = value
    return dict(list(dict_push.items())[-1][1])['version']

In [31]:
client = MlflowClient()
last_version_lr = get_version_model(config['model_lr'], client)
last_version_vec = get_version_model(config['model_vec'], client)

In [32]:
last_version_lr

'29'

In [33]:
last_version_vec

'29'