In [15]:
import os
import logging
import yaml

from pyyoutube import Api
import json
import requests

import nltk
from nltk.corpus import stopwords
nltk.download('punkt')
nltk.download('stopwords')

import re
import numpy as np

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import SpectralClustering
from sklearn.metrics import f1_score, silhouette_score
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
import pymorphy2

import mlflow
from mlflow.tracking import MlflowClient

[nltk_data] Downloading package punkt to /home/aegon/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /home/aegon/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [None]:
# logger = logging.getLogger(__name__)
# logger.setLevel(logging.INFO)

# handler = logging.FileHandler('../logging/logging.log')
# logger.addHandler(handler)

# formatter = logging.Formatter('%(asctime)s - %(levelname)s - %(message)s')
# handler.setFormatter(formatter)

In [16]:
def get_data(YOUTUBE_API_KEY, video_id, max_results, next_page_token):
    youtube_uri = f'https://www.googleapis.com/youtube/v3/commentThreads?key={YOUTUBE_API_KEY}&textFormat=plainText&' + \
        f'part=snippet&videoId={video_id}&maxResults={max_results}&pageToken={next_page_token}'
    
    try: 
        response = requests.get(youtube_uri)
        response.raise_for_status()
        data = json.loads(response.text)
    except Exception as e:
        return None
    return data


def get_text_of_comment(data):
    comms = set()
    for item in data['items']:
        comm = item['snippet']['topLevelComment']['snippet']['textDisplay']
        comms.add(comm)
    return comms


def get_all_comments(YOUTUBE_API_KEY, query, count_video=10, limit=30, max_results=10, next_page_token=''):
    api = Api(api_key=YOUTUBE_API_KEY)
    video_by_keywords = api.search_by_keywords(q=query,
                                               search_type=["video"],
                                               count=count_video,
                                               limit=limit
    )
    video_ids = [x.id.videoId for x in video_by_keywords.items]

    comments_all = []
    for video_id in video_ids:
        try:
            data = get_data(YOUTUBE_API_KEY,
                            video_id=video_id,
                            max_results=max_results,
                            next_page_token=next_page_token
            )
            
            if 'items' in data:
                comment = list(get_text_of_comment(data))
                comments_all.append(comment)
        except Exception as e:
            continue

    comments = sum(comments_all, [])
    return comments


In [3]:
config_path = os.path.join('/home/aegon/Documents/Development/Projects/topic-sentiment-explorer/config/params_all.yaml')
config = yaml.safe_load(open(config_path))['train']
config['clustering']

{'affinity': 'cosine',
 'count_max_clusters': 15,
 'silhouette_metric': 'euclidean'}

In [4]:
SEED = config['SEED']

comments = get_all_comments(**config['comments'])
comments[:10]

['Шикос, благодарю за видео!!\nВсем добра)',
 'Неподготовленному слушателю вообще непонятно. "На выходе вектор..."',
 'Подскажите пожалуйста какой тип архитектуры используется для обучения сети при создании Deep Fake медиа',
 'почаще моргай, а то выдаешь свой ИИ',
 'Очень помогло. Спасибо!',
 '10 минут видео заменят вам 3 месяца яндекс практикума',
 'Посоветуйте литературу пожалуйста? Что это за книжки у вас на столе такие интересные? Было бы очень интересно посмотреть разбор литературы от вас. Видео 🔥🔥🔥!!!',
 'Давно уже пришёл к выводу, что умение просто объяснить сложные вещи - это признак очень глубокого понимания предмета.\nПодписался.\nЕсть шальная мысль попробовать в своей специальности (я биолог) - но понятно, что само оно не сделается, надо немало усилий приложить :)',
 'Это лучшее объяснение нейронных сетей, что я видел на просторах интернета. Спасибо!',
 'Меня всегда удивляют люди которые могут сложные вещи объяснить простыми слова! Лайк и подписка обязательно!']

In [18]:
def remove_emoji(sentence):
    emoji_pattern = re.compile("["u"\U0001F600-\U0001F64F"  # emoticons
                               u"\U0001F300-\U0001F5FF"  # symbols & pictographs
                               u"\U0001F680-\U0001F6FF"  # transport & map symbols
                               u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                               u"\U00002702-\U000027B0"
                               u"\U000024C2-\U0001F251"
                               u"\U0001f926-\U0001f937"
                               u'\U00010000-\U0010ffff'
                               u"\u200d"
                               u"\u2640-\u2642"
                               u"\u2600-\u2B55"
                               u"\u23cf"
                               u"\u23e9"
                               u"\u231a"
                               u"\u3030"
                               u"\ufe0f"
                               "]+", flags=re.UNICODE
    )
    return emoji_pattern.sub(r'', sentence)


def remove_links(sentence):
    link_pattern = r'(http\S+|bit\.ly/\S+|www\S+)'
    sentence = re.sub(link_pattern, '', sentence)
    sentence = sentence.strip('[link]')
    return sentence


def preprocessing(sentence, stop_words, morph):
    sentence = remove_emoji(sentence)
    sentence = remove_links(sentence)

    str_pattern = re.compile("\r\n")
    sentence = str_pattern.sub(r'', sentence)

    sentence = re.sub('(((?![а-яА-Я ]).)+)', ' ', sentence)

    sentence = [morph.parse(word)[0].normal_form for word in nltk.word_tokenize(sentence) if word not in stop_words]
    sentence = ' '.join(sentence).lower()
    return sentence


def get_clean_text(data):
    morph = pymorphy2.MorphAnalyzer()
    language = config['stopwords']
    stop_words = set(stopwords.words(language))
    comments = [preprocessing(sentence, stop_words, morph) for sentence in data]
    comments = [comm for comm in comments if len(comm) > 2]
    return comments


def vectorize_text(data, tfidf):
    mtx = tfidf.transform(data).toarray()
    mask = (np.nan_to_num(mtx) != 0).any(axis=1)
    return mtx[mask]

In [19]:
cleaned_comments = get_clean_text(comments)
tfidf = TfidfVectorizer(**config['tf_model']).fit(cleaned_comments)
cleaned_comments[:10]

['шикос благодарить видео весь добро',
 'неподготовленный слушатель вообще непонятно на выход вектор',
 'подсказать пожалуйста тип архитектура использоваться обучение сеть создание медиа',
 'частый моргать выдавать свой ия',
 'очень помочь спасибо',
 'минута видео заменить месяц яндекс практикум',
 'посоветовать литература пожалуйста что это книжка стол такой интересный быть очень интересно посмотреть разбор литература видео',
 'давно приша л вывод умение просто объяснить сложный вещь это признак очень глубокий понимание предмет подписаться есть шальной мысль попробовать свой специальность биолог понятно сам оно сделаться немало усилие приложить',
 'это хороший объяснение нейронный сеть видеть простор интернет спасибо',
 'я удивлять человек который мочь сложный вещь объяснить простой слово лайк подписка обязательно']

In [20]:
mtx = vectorize_text(cleaned_comments, tfidf)
mtx.shape, tfidf.get_feature_names_out()[:10]

((2741, 300),
 array(['автор', 'активация', 'алгоритм', 'база', 'благодарить', 'блин',
        'больший', 'большой', 'будущее', 'быть'], dtype=object))

In [8]:
def get_clusters(data, count_max_clusters, random_state, affinity, silhouette_metric):
    cluster_labels = {}
    silhouette_mean = []
    for i in range(2, count_max_clusters, 1):
        clf = SpectralClustering(n_clusters=i,
                                 affinity=affinity,
                                 random_state=random_state)
        #clf = KMeans(n_clusters=n, max_iter=1000, n_init=1)
        clf.fit(data)
        labels = clf.labels_
        cluster_labels[i] = labels
        silhouette_mean.append(
            silhouette_score(data, labels, metric=silhouette_metric)
        )
    n_clusters = silhouette_mean.index(max(silhouette_mean)) + 2
    return cluster_labels[n_clusters]


def get_f1_score(y_test, y_pred, unique_cluster_labels):
    if len(unique_cluster_labels) > 2:
        return f1_score(y_test, y_pred, average='macro')
    else:
        return f1_score(y_test, y_pred)

In [9]:
cluster_labels = get_clusters(mtx, random_state=SEED, **config['clustering'])
cluster_labels[:10]

array([11,  0,  6, 13, 12, 11,  0,  0, 12,  0], dtype=int32)

In [10]:
X_train, X_test, y_train, y_test = train_test_split(mtx, cluster_labels, **config['cross_val'], random_state=SEED)

In [11]:
clf_lr = LogisticRegression(**config['model'])

In [19]:
%%bash
export MLFLOW_REGISTRY_URI=../mlflow

In [12]:
mlflow.set_tracking_uri("http://localhost:5000")
mlflow.set_experiment(config['name_experiment'])

with mlflow.start_run():
    clf_lr.fit(X_train, y_train)
    mlflow.log_param(
        'f1', get_f1_score(y_test, clf_lr.predict(X_test), set(cluster_labels))
    )
    mlflow.sklearn.log_model(
        tfidf,
        artifact_path="vector",
        registered_model_name=f"{config['model_vec']}"
    )
    mlflow.sklearn.log_model(
        clf_lr,
        artifact_path='model_lr',
        registered_model_name=f"{config['model_lr']}"
    )
    mlflow.end_run()

mlflow.get_artifact_uri()

Registered model 'vector_tfidf' already exists. Creating a new version of this model...
2024/05/10 22:59:24 INFO mlflow.store.model_registry.abstract_store: Waiting up to 300 seconds for model version to finish creation. Model name: vector_tfidf, version 10
Created version '10' of model 'vector_tfidf'.
Registered model 'LogisticRegression' already exists. Creating a new version of this model...
2024/05/10 22:59:26 INFO mlflow.store.model_registry.abstract_store: Waiting up to 300 seconds for model version to finish creation. Model name: LogisticRegression, version 10
Created version '10' of model 'LogisticRegression'.


's3://arts/2/44fedd14c6224147bbbf8fc334bfbe52/artifacts'

In [22]:
def get_version_model(config_name, client):
    dict_push = {}
    model_versions = client.search_model_versions(f"name='{config_name}'")
    for count, value in enumerate(model_versions):
        # client.list_registered_models()):
        dict_push[count] = value
    return dict(list(dict_push.items())[-1][1])['version']

In [23]:
client = MlflowClient()
last_version_lr = get_version_model(config['model_lr'], client)
last_version_vec = get_version_model(config['model_vec'], client)
last_version_lr, last_version_vec

('1', '1')