In [1]:
import os
import logging
import yaml
import json
import requests
import numpy as np
from googleapiclient.discovery import build
from nltk.corpus import stopwords
import pandas as pd
import re
from pymystem3 import Mystem
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import SpectralClustering
from sklearn.metrics import f1_score, silhouette_score
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
import mlflow
from mlflow.tracking import MlflowClient

In [2]:
# Инициализация клиента YouTube API
def initialize_youtube(YOUTUBE_API_KEY):
    return build('youtube', 'v3', developerKey=YOUTUBE_API_KEY)

# Функция для получения ID видео по ключевым словам
def get_video_ids(youtube, query, count_video=10):
    """
    Поиск видео по ключевым словам
    """
    search_response = youtube.search().list(
        q=query,
        part='id',
        maxResults=count_video,
        type='video'
    ).execute()
    
    video_ids = [item['id']['videoId'] for item in search_response.get('items', [])]
    return video_ids

# Получение данных о комментариях
def get_data(YOUTUBE_API_KEY, videoId, maxResults, nextPageToken):
    """
    Получение информации со страницы с видео
    """
    YOUTUBE_URI = 'https://www.googleapis.com/youtube/v3/commentThreads?key={KEY}&textFormat=plainText&' + \
        'part=snippet&videoId={videoId}&maxResults={maxResults}&pageToken={nextPageToken}'
    format_youtube_uri = YOUTUBE_URI.format(KEY=YOUTUBE_API_KEY,
                                            videoId=videoId,
                                            maxResults=maxResults,
                                            nextPageToken=nextPageToken)
    content = requests.get(format_youtube_uri).text
    data = json.loads(content)
    return data


def get_text_of_comment(data):
    """
    Получение комментариев из полученных данных под одним видео
    """
    comms = set()
    for item in data['items']:
        comm = item['snippet']['topLevelComment']['snippet']['textDisplay']
        comms.add(comm)
    return comms


# Основная функция для получения всех комментариев
def get_all_comments(YOUTUBE_API_KEY, query, count_video=10, limit=30, maxResults=10, nextPageToken=''):
    """
    Выгрузка maxResults комментариев
    """
    youtube = initialize_youtube(YOUTUBE_API_KEY)
    videoIds = get_video_ids(youtube, query, count_video)

    comments_all = []
    for id_video in videoIds:
        try:
            data = get_data(YOUTUBE_API_KEY, id_video, maxResults=maxResults, nextPageToken=nextPageToken)
            comment = list(get_text_of_comment(data))
            comments_all.append(comment)
        except Exception as e:
            logging.error(f"Error fetching comments for video ID {id_video}: {e}")
            continue
    comments = sum(comments_all, [])
    return comments

In [30]:
config_path = os.path.join('/Users/forcemajor01/data_science/work_place/other/airflow-mlflow-tutorial/configs/params_all.yaml')
config = yaml.safe_load(open(config_path))['train']
SEED = config['SEED']


In [31]:
config

{'SEED': 10,
 'clustering': {'affinity': 'cosine',
  'count_max_clusters': 15,
  'silhouette_metric': 'euclidean'},
 'comments': {'YOUTUBE_API_KEY': 'AIzaSyBLU5mFczWyGRHq4HLpm9OzENB05l7RP3w',
  'count_video': 50,
  'limit': 30,
  'maxResults': 250,
  'nextPageToken': '',
  'query': 'дата сайенс'},
 'cross_val': {'test_size': 0.3},
 'dir_folder': '/Users/forcemajor01/data_science/work_place/other/airflow-mlflow-tutorial',
 'model': {'class_weight': 'balanced'},
 'model_lr': 'LogisticRegression',
 'model_vec': 'vector_tfidf',
 'name_experiment': 'my_first',
 'stopwords': 'russian',
 'tf_model': {'max_features': 300}}

In [10]:
comments = get_all_comments(**config['comments'])

In [11]:
comments[:10]

['Так на самом деле',
 'Никакого дефицита в DS на самом деле нет.\n\nЧто касается entry-level позиций, то они закрываются либо по знакомствам, либо с дичайшим конкурсом в пользу ребят с топовых кафедр по матеше/проге.\n\n Проблема у работодателей разве что может быть, как и в США, в поиске спецов на research позиции, хотя деньги там большие',
 'Работаю в сфере не связанной с IT и совершенно далекой от математики, зарплата мои потребности покрывает, но захотелось чего-то другого - по итогу пошел на курсы по DS в одну известную контору. \nЗаканчиваю 2-й год по CV. Пришел к выводу, что нужна вышка, иначе будут проблемы с поиском новой работы. \nСдал экзамены и поступил в магистратуру одного очень известного ВУЗа (по результатам экзаменов в верхней 1/3 абитуриентов). С сентября начинается учеба. \nНаправление очень нравится, с математикой, правда, сложно, но буду пытаться. \nСо своего опыта обучения скажу так - дата-сайентисты свои зарплаты получают не просто так, это реально очень сложное

In [12]:
def remove_emoji(string):
    """
    Удаление эмоджи из текста
    """
    emoji_pattern = re.compile("["u"\U0001F600-\U0001F64F"  # emoticons
                               u"\U0001F300-\U0001F5FF"  # symbols & pictographs
                               u"\U0001F680-\U0001F6FF"  # transport & map symbols
                               u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                               u"\U00002702-\U000027B0"
                               u"\U000024C2-\U0001F251"
                               u"\U0001f926-\U0001f937"
                               u'\U00010000-\U0010ffff'
                               u"\u200d"
                               u"\u2640-\u2642"
                               u"\u2600-\u2B55"
                               u"\u23cf"
                               u"\u23e9"
                               u"\u231a"
                               u"\u3030"
                               u"\ufe0f"
                               "]+", flags=re.UNICODE)
    return emoji_pattern.sub(r'', string)


def remove_links(string):
    """
    Удаление ссылок
    """
    string = re.sub(r'http\S+', '', string)  # remove http links
    string = re.sub(r'bit.ly/\S+', '', string)  # rempve bitly links
    string = re.sub(r'www\S+', '', string)  # rempve bitly links
    string = string.strip('[link]')  # remove [links]
    return string


def preprocessing(string, stopwords, stem):
    """
    Простой препроцессинг текста, очистка, лематизация, удаление коротких слов
    """
    string = remove_emoji(string)
    string = remove_links(string)

    # удаление символов "\r\n"
    str_pattern = re.compile("\r\n")
    string = str_pattern.sub(r'', string)

    # очистка текста от символов
    string = re.sub('(((?![а-яА-Я ]).)+)', ' ', string)
    # лематизация
    string = ' '.join([
        re.sub('\\n', '', ' '.join(stem.lemmatize(s))).strip()
        for s in string.split()
    ])
    # удаляем слова короче 3 символов
    string = ' '.join([s for s in string.split() if len(s) > 3])
    # удаляем стоп-слова
    string = ' '.join([s for s in string.split() if s not in stopwords])
    return string


def get_clean_text(data, stopwords):
    """
    Получение текста в преобразованной после очистки
    матричном виде, а также модель векторизации
    """
    # Простой препроцессинг текста
    stem = Mystem()
    comments = [preprocessing(x, stopwords, stem) for x in data]
    # Удаление комментов, которые имеют меньше, чем 5 слов
    comments = [y for y in comments if len(y.split()) > 5]
    #common_texts = [i.split(' ') for i in comments]
    return comments


def vectorize_text(data, tfidf):
    """
    Получение матрицы кол-ва слов в комменариях
    Очистка от пустых строк
    """
    # Векторизация
    X_matrix = tfidf.transform(data).toarray()
    # Удаляем строки в матрице с пустыми значениями
    mask = (np.nan_to_num(X_matrix) != 0).any(axis=1)
    return X_matrix[mask]

In [13]:
comments_clean = get_clean_text(comments, stopwords.words(config['stopwords']))
tfidf = TfidfVectorizer(**config['tf_model']).fit(comments_clean)

In [15]:
comments_clean[:10]

['никакой дефицит самый дело касаться позиция закрываться либо знакомство либо дикий конкурс польза ребята топовый кафедра матеш прога проблема работодатель поиск спец позиция хотя деньги большой',
 'работать сфера связывать совершенно далекий математик зарплата потребность покрывать захотеться итог пойти курсы известный контора заканчивать приходить вывод нужный вышка иначе проблема поиск новый работа сдавать экзамен поступать магистратура очень известный результат экзамен верхний абитуриент сентябрь начинаться учеба направление очень нравиться математика правда сложно пытаться свой опыт обучение сказать дата сайентист свой зарплата получать просто реально очень сложный направление математик английский чтение научный статья никуда интересно скоро знать складываться жалеть рубль потратить учеба удача',
 'автоматизация правда расти спокойно агентство открывать инфобиз переходить',
 'любить математика докапывание итстинный програмирование просто любить деньги подойд профессия',
 'понятно

In [17]:
X_matrix = vectorize_text(comments_clean, tfidf)

In [18]:
X_matrix.shape

(1132, 300)

In [20]:
tfidf.get_feature_names_out()[:10]

array(['автор', 'алгоритм', 'анализ', 'аналитик', 'аналитика',
       'анастасия', 'английский', 'бабушкин', 'база', 'базовый'],
      dtype=object)

In [23]:
def get_clusters(data, count_max_clusters, random_state, affinity,
                 silhouette_metric):
    """
    Подбор наилучшего числа кластеров, возвращает полученные кластера тематик
    """
    cluster_labels = {}
    silhouette_mean = []

    for i in range(2, count_max_clusters, 1):
        clf = SpectralClustering(n_clusters=i,
                                 affinity=affinity,
                                 random_state=random_state)
        #clf = KMeans(n_clusters=n, max_iter=1000, n_init=1)
        clf.fit(data)
        labels = clf.labels_
        cluster_labels[i] = labels
        silhouette_mean.append(
            silhouette_score(data, labels, metric=silhouette_metric))
    n_clusters = silhouette_mean.index(max(silhouette_mean)) + 2
    return cluster_labels[n_clusters]


def get_f1_score(y_test, y_pred, unique_cluster_labels):
    """
    Возращает результат обучения классификатора по тематикам
    """
    return f1_score(
        y_test, y_pred,
        average='macro') \
        if len(unique_cluster_labels) > 2 \
        else f1_score(y_test, y_pred)

In [24]:
cluster_labels = get_clusters(X_matrix,
                                 random_state=SEED,
                                 **config['clustering'])

In [32]:
config

{'SEED': 10,
 'clustering': {'affinity': 'cosine',
  'count_max_clusters': 15,
  'silhouette_metric': 'euclidean'},
 'comments': {'YOUTUBE_API_KEY': 'AIzaSyBLU5mFczWyGRHq4HLpm9OzENB05l7RP3w',
  'count_video': 50,
  'limit': 30,
  'maxResults': 250,
  'nextPageToken': '',
  'query': 'дата сайенс'},
 'cross_val': {'test_size': 0.3},
 'dir_folder': '/Users/forcemajor01/data_science/work_place/other/airflow-mlflow-tutorial',
 'model': {'class_weight': 'balanced'},
 'model_lr': 'LogisticRegression',
 'model_vec': 'vector_tfidf',
 'name_experiment': 'my_first',
 'stopwords': 'russian',
 'tf_model': {'max_features': 300}}

In [26]:
cluster_labels[:10]

array([ 6,  2,  2,  3,  9, 10,  2,  2,  2,  2], dtype=int32)

In [27]:
X_train, X_test, y_train, y_test = train_test_split(X_matrix,
                                                    cluster_labels,
                                                    **config['cross_val'],
                                                    random_state=SEED)

In [28]:
clf_lr = LogisticRegression(**config['model'])

In [29]:
%%bash
export MLFLOW_REGISTRY_URI=../mlflow

In [33]:
mlflow.set_tracking_uri("http://localhost:5001")
mlflow.set_experiment(config['name_experiment'])
with mlflow.start_run():
    clf_lr.fit(X_train, y_train)
    print(clf_lr.predict_proba(X_test))

    # Логирование модели и параметров
    mlflow.log_param(
        'f1', get_f1_score(y_test, clf_lr.predict(X_test),
                           set(cluster_labels)))
    mlflow.sklearn.log_model(
        tfidf,
        artifact_path="vector",
        registered_model_name=f"{config['model_vec']}")
    mlflow.sklearn.log_model(
        clf_lr,
        artifact_path='model_lr',
        registered_model_name=f"{config['model_lr']}")
    mlflow.end_run()

2024/10/14 13:27:33 INFO mlflow.tracking.fluent: Experiment with name 'my_first' does not exist. Creating a new experiment.


[[0.1019415  0.03471452 0.07495948 ... 0.03793634 0.20496989 0.05223601]
 [0.01806405 0.00804515 0.02716471 ... 0.00960577 0.28788865 0.01547912]
 [0.06885996 0.02905023 0.07846428 ... 0.0304531  0.04241483 0.04172083]
 ...
 [0.04285026 0.1252693  0.07856961 ... 0.04306601 0.04882859 0.04683564]
 [0.03794967 0.01268974 0.12699254 ... 0.02364957 0.02531088 0.06697331]
 [0.00598721 0.00329804 0.01601326 ... 0.00441986 0.02246577 0.00737974]]


Successfully registered model 'vector_tfidf'.
2024/10/14 13:27:36 INFO mlflow.store.model_registry.abstract_store: Waiting up to 300 seconds for model version to finish creation. Model name: vector_tfidf, version 1
Created version '1' of model 'vector_tfidf'.
Successfully registered model 'LogisticRegression'.
2024/10/14 13:27:37 INFO mlflow.store.model_registry.abstract_store: Waiting up to 300 seconds for model version to finish creation. Model name: LogisticRegression, version 1
Created version '1' of model 'LogisticRegression'.
2024/10/14 13:27:37 INFO mlflow.tracking._tracking_service.client: 🏃 View run indecisive-sloth-676 at: http://localhost:5001/#/experiments/1/runs/eade7c2e56c440469bb41cf18f4b75cc.
2024/10/14 13:27:37 INFO mlflow.tracking._tracking_service.client: 🧪 View experiment at: http://localhost:5001/#/experiments/1.


In [34]:
mlflow.get_artifact_uri()

'/Users/forcemajor01/data_science/work_place/other/airflow-mlflow-tutorial/mlflow/1/96911c12d2284b2bbffff034b26b8e93/artifacts'

In [35]:
def get_version_model(config_name, client):
    """
    Получение последней версии модели из MLFlow
    """
    dict_push = {}
    for count, value in enumerate(
        client.search_model_versions(f"name='{config_name}'")):
        # client.list_registered_models()):
        # Все версии модели
        dict_push[count] = value
    return dict(list(dict_push.items())[-1][1])['version']

In [36]:
client = MlflowClient()
last_version_lr = get_version_model(config['model_lr'], client)
last_version_vec = get_version_model(config['model_vec'], client)

In [37]:
last_version_lr

'1'

In [38]:
last_version_vec

'1'