# Задача:

Исследование и анализ популярных тематик в корпусе текстов-комментариев из видео на тему финтеха.

# Гипотеза:

Существует определенная группа высокочастотных токенов и тем, которые регулярно встречаются в текстах, связанных с видео, и их идентификация может помочь в определении популярных тематик в данном корпусе.

- Н0: подтверждена
- Н1: опровержена

# Обоснование метода:

Для анализа корпуса текстов будет использоваться метод pymystem3 и Scikit-learn. 
При помощи первого будет произведена предобработка текста, токенизация, подсчет частоты встречаемости токенов.
При помощи второго будет произведена векторизация.

# Выгрузка не менее сотни (если не обосновано иное) недублирующихся (по их id или содержанию) текстов на каждого участника команды

In [None]:
# 1. Импорт необходимых библиотек
import googleapiclient.discovery as api, pandas

In [None]:
# 2. Конструкция обращения к АПИ ютуба
API_KEY = "AIzaSyASvmJMngF2Q4jLrJm_BD4MLkt8U4sym2U"
api_service_name = "youtube"
api_version = "v3"

youtube = api.build(api_service_name,
    api_version,
    developerKey= API_KEY)
# Прописываем переменные, которые будут исопльзоваться
maxResults = 100
order = 'relevance'
part = 'id, replies, snippet'
textFormat = 'plainText'

In [None]:
# 3. Создаём переменную с Id имеющихся видео (все видео были вручную отфильтрованы на предмет релевантности исследованию)
videossId = pandas.read_excel('Все_видео.xlsx', usecols='B')
videossId

In [None]:
# 4. Пробный запрос с одним из видео.
request = youtube.commentThreads().list(
    part=part,
    maxResults=maxResults,
    videoId="wmbLep9dW8U"
)
response = request.execute()

In [None]:
# 5. Пропустим через цикл. Для начала формируем список видео, с которыми у нас есть проблемы. Основные процессы визуализированы
problem_videoId = []
# Комментарии выводим в датафреме
comments = pandas.DataFrame()
# Создаём условие, при котором видео с ошибками будут помещаться в список problem_videoId при помощи метода append, а "нормальные" формировать содержимое comments
for videoId in videossId['id']:
    try:
        request = youtube.commentThreads().list(
            part=part,
            videoId=videoId,
            maxResults=maxResults
        )
        response = request.execute()
        comments_additional = pandas.json_normalize(response['items'])
        comments = pandas.concat([comments, comments_additional])
        print(f"Видео №{videossId[videossId['id'] == videoId].index[0]} из {len(videossId) - 1}")
        i = 1
        while 'nextPageToken' in response.keys():
            request = youtube.commentThreads().list(
                part=part,
                videoId=videoId,
                maxResults=maxResults,
                pageToken=response['nextPageToken']
            )
            response = request.execute()
            comments_additional = pandas.json_normalize(response['items'])
            comments = pandas.concat([comments, comments_additional])
            print(f'Итерация №{i}')
            i += 1

    except:
        print(f"Видео №{videossId[videossId['id'] == videoId].index[0]} -- проблема")
        problem_videoId.append(videoId)

comments = comments.drop_duplicates('id')
comments = comments.drop(['snippet.topLevelComment.kind',
                          'snippet.topLevelComment.etag',
                          'snippet.topLevelComment.id',
                          'snippet.topLevelComment.snippet.videoId'], axis=1)
comments

In [None]:
# 6. Обновляем индекс
comments.index = range(1, len(comments) + 1)

In [None]:
# 7. Сбрасываем дубликаты
comments.drop_duplicates('id')['snippet.totalReplyCount'].sum()

In [None]:
# 8. Посмотрим только на те комменатрии, на которые отвечали
comments[comments['snippet.totalReplyCount'] > 0]

In [None]:
# 9. Запишем номера отвеченных комментариев
comments_repliesIndex = comments[comments['snippet.totalReplyCount'] > 0].index
comments_repliesIndex

In [None]:
# 10. Создадим новый столбец, в который будет записываться недостача
comments.loc[comments_repliesIndex[0], 'Недостача_ответов'] = comments['snippet.totalReplyCount'][comments_repliesIndex[0]]\
- len(pandas.json_normalize(comments['replies.comments'][comments_repliesIndex[0]]))
comments

In [None]:
# 11. Записываем раннее выгруженный комменатрий в таблицу с ответами
replies = pandas.json_normalize(comments['replies.comments'][comments_repliesIndex[0]])
replies

In [None]:
# 12. Тепеь пройдёмся по всем родительским комментариям, у которых есть ответы и распарсим эти ответы, сохраняя их каждый раз в датафреймы с последующим объединением через конкат
comments.index = range(1, len(comments) + 1)

comments_repliesIndex = comments[comments['snippet.totalReplyCount'] > 0].index

replies = pandas.DataFrame()
j = 1

for i in comments_repliesIndex:
    comments.loc[i, 'Недостача_ответов'] = comments['snippet.totalReplyCount'][i]\
    - len(pandas.json_normalize(comments['replies.comments'][i]))
    
    replies_additional = pandas.json_normalize(comments['replies.comments'][i])
    replies = pandas.concat([replies, replies_additional])
    
    print(f"Итерация {j} из {len(comments_repliesIndex)}")
    j += 1
    
replies

In [None]:
#13. Проверим, есть ли совпадающие столбцы в таблицах родительских комментариев и ответов
mutualColumns = []
for column in comments.columns:
    if column in replies.columns:
        mutualColumns.append(column)
mutualColumns

In [None]:
# 14. Избавляемся от префиксов
comments_replies = comments.copy()

comments_replies_new_columns = []
for column in comments_replies.columns:
    if 'snippet.topLevelComment.' in column:
        column = column.replace('snippet.topLevelComment.', '')
    comments_replies_new_columns.append(column)
comments_replies_new_columns

In [None]:
# 15. Присваиваем новые названия столбцам таблицы:
comments_replies.columns = comments_replies_new_columns
comments_replies

In [None]:
# 16. Перепроверяем на наличие совпадений
mutualColumns = []
for column in comments_replies.columns:
    if column in replies.columns:
        mutualColumns.append(column)
mutualColumns

In [None]:
#17. Процесс объединения
replies.loc[:, 'snippet.totalReplyCount'] = 0
replies.loc[:, 'Недостача_ответов'] = 0
replies

In [None]:
# 18. Переперепроверяем на наличие совпадений
mutualColumns = []
for column in comments_replies.columns:
    if column in replies.columns:
        mutualColumns.append(column)
mutualColumns

In [None]:
# 19. Оставляем только совпадающие столбцы таблицы с род. комменатриями
comments_replies = comments_replies[mutualColumns]
comments_replies

In [None]:
# 20. То же самое только с комментариями-ответами
replies = replies[mutualColumns]
replies

In [None]:
# 21. Объединим обе таблицы с конкатом
comments_replies = pandas.concat([comments_replies, replies])
comments_replies

In [None]:
# 22. Сколько комментариев ютуб не выдал?
comments_replies['Недостача_ответов'].sum()

In [None]:
# 23. выписываем нужные переменные
part = 'id, snippet'

id = ''
parentId = ''

maxResults = 100

order = 'relevance'

pageToken = ''

textFormat = 'plainText'

In [None]:
# 24. Пришла пора выгрузить недосдачу по комментариям

print(f"Сколько комментариев-ответов YouTube не додал? {comments_replies['Недостача_ответов'].sum()}")

print(f"Сколько всего ожидается ответов на интересующие родительские (topLevel) комментарии? \
{comments_replies['snippet.totalReplyCount'][comments_replies['Недостача_ответов'] > 0].sum()}")

problem_commentId = []
replies = pandas.DataFrame()
j = 1
# Создаём цикл
for commentId in comments_replies['id'][comments_replies['Недостача_ответов'] > 0]:
    
    try:
        request = youtube.comments().list(
            part=part,
            parentId=commentId,
            maxResults=maxResults
        )
        response = request.execute()
        
        # Процесс записи содержимого в таблицу
        replies_additional = pandas.json_normalize(response['items'])
        replies = pandas.concat([replies, replies_additional])
        
        # Визуализируем процесс
        print(f"Комментарий №{j} из {len(comments_replies['id'][comments_replies['Недостача_ответов'] > 0]) }")
        j += 1
        
        # Создаём цикл для прохода по всем следующим страницам выдачи с процедурой записи в таблицу
        i = 1
        while 'nextPageToken' in response.keys():
            request = youtube.comments().list(
                part=part,
                parentId=commentId,
                maxResults=maxResults,
                pageToken=response['nextPageToken']
            )
            response = request.execute()
        
            # Процесс записи содержимого в таблицу
            replies_additional = pandas.json_normalize(response['items'])
            replies = pandas.concat([replies, replies_additional])
            
            print(f"Итерация №{i}")
            i += 1
            
    except:
        print(f"Видео №{comments_replies[comments_replies['id'] == commentId].index[0]} -- проблема")
        
        problem_commentId.append(commentId)
        
print(f"Ответов {len(replies)}, а проблемных родительских (topLevel) комментариев {len(problem_commentId)}")

# Добавляем столбцы 'snippet.totalReplyCount' и 'Недостача_ответов' в таблицу с комментариями-ответами
replies.loc[:, 'snippet.totalReplyCount'] = 0
replies.loc[:, 'Недостача_ответов'] = 0

# Удаляем столбец snippet.parentId, т.к. есть "id"
replies = replies.drop('snippet.parentId', axis=1)

# Объединяем обе таблицы
comments_replies = pandas.concat([comments_replies, replies])

comments_replies = comments_replies.drop_duplicates('id')

# Предобработка текстов: удаление «мусорных» (в контексте решаемой задачи) символов, лемматизация слов (приведение их к начальной лексической форме), удаление стоп-слов (высокочастотных, но НЕ несущих значимый смысл в контексте решаемой задачи), векторизация документов.

In [None]:
# 25. Импорт библиотек
import pymystem3, stop_words

In [None]:
# 26. Выведение базы данных
comments_replies.index = range(1,len(comments_replies)+1)
comments_replies

In [None]:
# 27. Выбираем столбец для предобработки
data = pandas.DataFrame()
data.loc[:,'Текст_на_предобработку'] = comments_replies['snippet.textOriginal']
data

In [None]:
# 28. Удаляем пропуски в ячейках -- их не оказалось, 
# но в случае если бы мы работали с тегами, такое может быть
data = data[data['Текст_на_предобработку'].notna()]
data

In [None]:
# 28.1. Убираем "мусорные" символы
data['Текст_на_предобработку'][2]

In [None]:
# 28.2. Очищаем объект 
cleaned_text = ''
for simbol in data['Текст_на_предобработку'][2]:
    if (simbol.isalnum()) | (simbol == ' '):
        cleaned_text = cleaned_text + simbol
    else:
        cleaned_text = cleaned_text + ' '
cleaned_text

In [None]:
# 28.3. Создаём функцию для очистики комментариев от мусора
def simbols_cleaner(text):
    cleaned_text = ''
    for simbol in text:
        if (simbol.isalnum()) | (simbol == ' '):
            cleaned_text = cleaned_text + simbol
        else:
            cleaned_text = cleaned_text + ' '
    return cleaned_text

In [None]:
# 28.4. Применим функцию ко всем ячейкам датафрейма с комментариями
data['Текст_на_предобработку'].apply(simbols_cleaner)

In [None]:
# 28.5. Записываем результат
data['Предобработанный_текст'] = data['Текст_на_предобработку'].apply(simbols_cleaner)
data['Предобработанный_текст']

In [None]:
# 29. Посмотрим на датафрейм
data

In [None]:
# 30. Обращаемся к пакету pymystem3
mstem = pymystem3.Mystem()

In [None]:
# 30.1. Применяем лемматизацию ко всем ячейкам нужного столбца
data['Предобработанный_текст'] = data['Предобработанный_текст'].apply(mstem.lemmatize)
data['Предобработанный_текст']

In [None]:
# 31. Обращаемся к нужному методу для удаления стоп-слов
display(stop_words.get_stop_words('russian'),
        stop_words.get_stop_words('english'))

In [None]:
# 31.1. Создаём общий список стоп-слов и по желанию добавляем свои слова или удаляем ненужные при помощи remove
stopwords_list = stop_words.get_stop_words('russian')
stopwords_list.extend(stop_words.get_stop_words('english'))
stopwords_list

In [None]:
# 31.2. Оформляем функцию для работы со всеми лемметизированными комментариями
def words_cleaner(text):
    text_cleaned = ''
    for word in text:
        if word not in stopwords_list:
            text_cleaned += word
            
    while '  ' in text_cleaned:
        text_cleaned = text_cleaned.replace('  ', ' ')
        
    text_cleaned = text_cleaned.strip()
    
    return text_cleaned

In [None]:
# 31.3. Применяем функцию к нашему лемметизированному списку комментариев с заменой
data['Предобработанный_текст'] = data['Предобработанный_текст'].apply(words_cleaner)
data['Предобработанный_текст']

In [None]:
data.to_excel('Комментарии+Лемматизация+удаленённые_стоп-слова.xlsx')

In [None]:
# 32. Добавляем столбец 'Предобработанный_текст' в таблицу с комментариями и ответами + транспонируем
comments_replies = pandas.concat([comments_replies, data['Предобработанный_текст']], axis=1)
comments_replies

In [None]:
# 33. Сохраняем
comments_replies.to_excel('Все_комментарии(Абсолютно_все)+Комментарии+Лемматизация+удаленённые_стоп-слова.xlsx')

In [None]:
# 34. Импорт нужных библиотек для векторизации
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

In [None]:
# 35. Выгружаем только нужные столбцы
comments_replies = pandas.read_excel('Все_комментарии(Абсолютно_все)+Комментарии+Лемматизация+удаленённые_стоп-слова.xlsx', usecols='G, S')
comments_replies

In [None]:
# 36. Создаём новый датафрейм и назначяем в нём нужный столбец из базы данных
data = pandas.DataFrame()
data.loc[:, 'Текст_на_векторизацию'] = comments_replies['Предобработанный_текст']
data = data.dropna()
data

In [None]:
# 37. Выюираем пороговое значение для токенизации слов
min_df = 2

In [None]:
# 38. Процесс создания матрицы векторизации
cvect = CountVectorizer(min_df=min_df).fit(data['Текст_на_векторизацию'])
# результат записываем в cmatrix
cmatrix = cvect.transform(data['Текст_на_векторизацию'])
# из cmatrix оформляем новый датафрейм
cmatrix_df = pandas.DataFrame(cmatrix.toarray(), columns=cvect.get_feature_names_out(), index=data.index)
cmatrix_df

In [None]:
# 39. Посмотрим на частотность токенов
cmatrix_df[:].sum().sort_values()

In [None]:
# 40. Добавляем матрицу к столбцам с исходным тектом
cmatrix_df = pandas.concat([comments_replies, cmatrix_df], axis=1)
cmatrix_df.to_csv('cmatrix_df.xlsx', index=False)
cmatrix_df

In [None]:
# 41. Настройка класса TfidfVectorizer. Скрипт во многом схож с тем, что был в чанке № 16
tfidfvect = TfidfVectorizer(min_df=min_df).fit(data['Текст_на_векторизацию'])
# Результат записываем
tfidfmatrix = tfidfvect.transform(data['Текст_на_векторизацию'])
tfidfmatrix_df = pandas.DataFrame(tfidfmatrix.toarray(), columns=cvect.get_feature_names_out(), index=data.index)
tfidfmatrix_df

In [None]:
# 42. Проверяем частотность
tfidfmatrix_df[:].sum().sort_values()

In [None]:
# 43. Добавляем другую матрицу к столбцам с исходным тектом и сохраняем в формате csv
tfidfmatrix_df = pandas.concat([comments_replies, tfidfmatrix_df], axis=1)
tfidfmatrix_df.to_csv('tfidfmatrix_df.xlsx', index=False)
tfidfmatrix_df

In [None]:
# 44. Импорт библиотек
from randan.descriptive_statistics import ScaleStatistics
from randan.dimension_reduction import PCA

In [None]:
# 45. Первичный анализ частотности токенов в наших базах данных
data = cmatrix_df.drop(['snippet.textOriginal', 'Предобработанный_текст'], axis=1).sum()

# Описательная статистика для интервальных значений
data = pandas.DataFrame(data, columns=['Токенов_в_корпусе'])
ss = ScaleStatistics(data[['Токенов_в_корпусе']])

# Убираем столбцы, не являющиеся токенами
data = cmatrix_df.drop(['snippet.textOriginal', 'Предобработанный_текст'], axis=1).T.sum()

# Описательная статистика для интервальных значений
data = pandas.DataFrame(data, columns=['Токенов_в_корпусе'])
ss = ScaleStatistics(data[['Токенов_в_корпусе']])

In [None]:
# 46. Убираем столбцы, не являющиеся токенами
data = pandas.DataFrame()
data = cmatrix_df.drop(['snippet.textOriginal', 'Предобработанный_текст'], axis=1)
data

In [None]:
# 47 Начинаем работать с PCA
pca = PCA()

In [None]:
# 48 Долгая операция -- подаём токены в PCA

pca = pca.fit(data)

Выводы:
86% информации объясняется 2594 топиками (по критерию Кайзера)

50% информации объясняется 275 топиками

Медианное число токенов на документ, равно 6, объясняется 80 топиками = 25% информации

In [None]:
# 49 настройка модели
pca = PCA(n_components=80, rotation='varimax')

In [None]:
# 50 Запуск обновлённой модели PCA
pca = pca.fit(data, show_results=False)

In [None]:
# 51 Сохраняем матрицу с токенами в файл
component_loadings_rotated = pca.component_loadings_rotated
component_loadings_rotated.to_csv('component_loadings_rotated.xlsx')
component_loadings_rotated

In [None]:
# 52 Добавляем в матрицу документы топики документы в исходном и преобразованном состониях  для дальнейшей интерпретации
scores = pca.transform(data)
scores = pandas.concat([cmatrix_df[['snippet.textOriginal', 'Предобработанный_текст']], scores], axis=1)
scores.to_csv('scores.xlsx')
scores

In [None]:
# 53. Импорт библиотек
import matplotlib.pyplot as plt

In [None]:
# 54. Импорт баз данных
component_loadings_rotated = pandas.read_csv('component_loadings_rotated.xlsx', index_col=0)
scores = pandas.read_csv('scores.xlsx', index_col=0)
display(component_loadings_rotated, scores)

In [None]:
# 55. Интепретируем результат в графиках
loadings_threshold = 0.50
n_tokens = 15
n_docs = 15

summary = pandas.DataFrame()
errors = []
for i in range(1, 81):
    try:
        print(f'Topic PC{i}_vrmx')
        
    # Документы-топики
        data = scores[f'PC{i}_vrmx']
        data.index = scores['snippet.textOriginal']
        # Гистограмма изучаемой характеристики
        plt.figure(figsize=(8,6))
        plt.hist(data.dropna(), color='grey')
        plt.title(f"Distribution of docs' scores across {data.name}")
        plt.xlabel(f'{data.name}')
        plt.ylabel('Frequency');
        # Боксплот изучаемой характеристики
        plt.figure(figsize=(8,6))
        plt.boxplot(data.dropna()) 
        plt.title(f"Distribution of docs' scores across {data.name}")
        plt.xticks([])
        plt.ylabel(f'{data.name}');
        plt.show()
        # Полярные документы
        topic_docs = pandas.concat([scores.sort_values([f'PC{i}_vrmx'], ascending=False)[['snippet.textOriginal', f'PC{i}_vrmx']].head(n_docs), scores.sort_values([f'PC{i}_vrmx'])[['snippet.textOriginal', f'PC{i}_vrmx']].head(n_docs)])
        display(f'Документы на полюсах топика PC{i}_vrmx',
                topic_docs)
        
    #Токены-топики
        data = component_loadings_rotated[f'PC{i}_vrmx']
        plt.figure(figsize=(8,6))
        plt.hist(data.dropna(), color='grey')
        plt.title(f"Distribution of tokens' scores across {data.name}")
        plt.xlabel(f'{data.name}')
        plt.ylabel('Frequency');
        # Боксплот изучаемой характеристики
        plt.figure(figsize=(8,6))
        plt.boxplot(data.dropna()) 
        plt.title(f"Distribution of tokens' scores across {data.name}")
        plt.xticks([])
        plt.ylabel(f'{data.name}');
        plt.show()
        # Полярные токены
        topic_tokens = pandas.concat([data[data.abs() > loadings_threshold].sort_values(ascending=False).head(n_tokens),
                                      data[data.abs() < -loadings_threshold].sort_values().head(n_tokens)])
        display(f'Токены на полюсах топика PC{i}_vrmx',
                topic_tokens)
        
    # Обработка полярных документов и токенов; запись в датафрейм
        summary_additional = pandas.DataFrame()
        
        summary_plus = pandas.DataFrame()
        if len(data[data > loadings_threshold].sort_values(ascending=False).head(n_tokens)) > 0:
            summary_plus = topic_docs[topic_docs[f'PC{i}_vrmx'] > 0].round(3)
            summary_plus.loc[:, 'Topic'] = i
            summary_plus.loc[:, 'Токены'] = ', '.join(list(data[data > loadings_threshold].sort_values(ascending=False)\
                                            .head(n_tokens).index))
            summary_plus.loc[:, 'Токены_Mean_Loading'] = data[data > loadings_threshold].sort_values(ascending=False)\
                                            .head(n_tokens).mean()
            summary_plus.loc[:, 'Релевантность_теме_исследования'] = ''
            summary_plus.loc[:, 'Название_топика'] = ''
            
        summary_minus = pandas.DataFrame()
        if len(data[data < -loadings_threshold].sort_values(ascending=False).head(n_tokens)) > 0:
            summary_minus = topic_docs[topic_docs[f'PC{i}_vrmx'] < 0].round(3)
            summary_minus.loc[:, 'Topic'] = i
            summary_minus.loc[:, 'Токены'] = ', '.join(list(data[data < -loadings_threshold].sort_values(ascending=False)\
                                            .head(n_tokens).index))
            summary_minus.loc[:, 'Токены_Mean_Loading'] = data[data < -loadings_threshold].sort_values(ascending=False)\
                                            .head(n_tokens).mean()
            summary_minus.loc[:, 'Релевантность_теме_исследования'] = ''
            summary_minus.loc[:, 'Название_топика'] = ''
            
        summary_additional = pandas.concat([summary_plus, summary_minus])
        summary_additional.columns = ['Текст_на_предобработку',
                                      'scores',
                                      'Topic',
                                      'Токены',
                                      'Токены_Mean_Loading',
                                      'Релевантность_теме_исследования',
                                      'Название_топика']
        
        summary = pandas.concat([summary, summary_additional])
        
    except:
        print(f'Ошибка при обработке топика {i}')
        errors.append(i)

In [None]:
# 56 Смотрим summary
summary

Далее начался процесс ручной фильтрации топиков по релевантности

In [None]:
topics = pandas.read_excel('Топики.xlsx', index_col=0)
topics

Все топики были проанализированы с точки зрения релевантности исследования

# Выводы на основе части топиков:

1. Было выявлено, что из-за того, что выдающиеся показатели количества комментариев было занято рекламой/подкастом/интервью основателя одного из финтех стартапов, отобранные 80 топиков представляют собой повторяющиеся аргументы\доводы\суждения и просто комментарии, разбитым на следующие темы: 
- Тайминг видео
- Анализ услуг финтех стартапа
- О личности основателя финтех стартапа
- Отзыв об услагах
- Комментарии об уровне владения английским ведущего\спикера\одного из участников дискуссии

Итоги рефлексии по данному поводу: появилось желание сменить тему и поисковый запрос в процессе разметки релевантности топиков и их комментариев, однако оно было преодолено желанием довести проект с данным параметром поиска до логического завершения, не зависимо от того, каким по итогу окажется результат.

2. Топики, по всей видимости, относящиеся к одному и тому же видео с выдающимися значениями по количеству комментариев, были определены при помощи предобработки текста как к наиболее подходящими по запросам исследования, что не является верным. Возникли сомнения в том, насколько релевантными целям исследования окажутся топики после разметки документов с учителем. 

3. При беглом осмотре, 5-ти топиков оказалось достаточно, чтобы выявить общу. картину из 80 топиков - комментарии повторяются и они косвенно относятся к теме финтеха, так как посвящены не самому являению\процессу развития финтеха в России, а конкретному стартапу Револют, т.к. параметры видео, посвящённые данному видео, преобладают над количеством комментариев под другими видео, которые были отобраны при оценке релевантности базы данных с видео на тему финтеха. 

Вероятное решение проблемы, если будет желание в дальнейшем изучить эту тему: 
- Убрать из релевантных видео те, что относятся к обсуждению конкретного финтех стартапа\продукта
- Убрать из релевантных видео те, что относятся к обсуждению трейдинга, криптовалют и иных способов транзакции средств


In [None]:
# 57. Загружаем базу с cmatrix
cmatrix_df = pandas.read_csv('cmatrix_df.xlsx')
cmatrix_df

In [None]:
# 58 Загружаем базу данных с разметкой релевантности топиков
comments_replies_relevance = pandas.read_excel('Топики.xlsx', usecols='A, B, G', index_col=0)
comments_replies_relevance

In [None]:
# 59. Выясним, есть ли в документе в столбце с релевантностью противоречия по показателю
docS_index_unq = list(dict.fromkeys(comments_replies_relevance.index).keys())
docS_index_unq.sort()

mpping_cnflct = []
for i in docS_index_unq:
    print(f'Итерация {i}')
    if (comments_replies_relevance.loc[i, 'Релевантность_теме_исследования'].mean() > 0)\
    & (comments_replies_relevance.loc[i, 'Релевантность_теме_исследования'].mean() < 1):
        mpping_cnflct.append(i)
print(f'Индексы документов, размеченных противоречиво: {mpping_cnflct}')

In [None]:
# 60. Удаление дубликатов
comments_replies_relevance.drop_duplicates()

In [None]:
# 61 Конкат двух датафреймов
comments_replies_relevance = pandas.concat([comments_replies_relevance.drop_duplicates(), cmatrix_df], axis=1)
comments_replies_relevance

In [None]:
# 62 Проверяем совпадение столбцов двух датафреймов с комментариями
comments_replies_relevance[['Текст_на_предобработку', 'snippet.textOriginal']].dropna()

In [None]:
# 63. Описательная статистика с исопльзованием ресурсов пандас
comments_replies_relevance['Релевантность_теме_исследования'].value_counts()

In [None]:
# 64 Убираем Текст_на_предобработку
comments_replies_relevance = comments_replies_relevance.drop('Текст_на_предобработку', axis=1)
comments_replies_relevance

In [None]:
# 65 Сохраняем результат
comments_replies_relevance.to_csv('Матрица_Релевантность.csv')

# Начало построение машинного обучение для текст-майнинга

In [None]:
# 66 Импорт пакета и базы данных и назначение зависимой переменной
import randan
data = pandas.read_csv('Матрица_Релевантность.csv', index_col=0)
dpndnt = 'Релевантность_теме_исследования'

In [None]:
# 67 Удаляем строки с пустыми (опустошёнными предобработкой) документами
data = data[(data['Предобработанный_текст'].notna()) & (data['Предобработанный_текст'] != '')]
data

In [None]:
# 68 Временно разделяем общий датафрейм на два, чтобы заменить все частоты, превышающие ноль на единицу
data_docS = data[['Релевантность_теме_исследования', 'snippet.textOriginal', 'Предобработанный_текст']]
data_tokenS = data.drop(['Релевантность_теме_исследования', 'snippet.textOriginal', 'Предобработанный_текст'], axis=1)
tokenS = data_tokenS.columns

In [None]:
# 69 Заменить все частоты, превышающие ноль на единицу
data_tokenS[data_tokenS >= 1] = 1

In [None]:
# 70 Проверка
print(f'{(data_tokenS == 0).sum().sum()} ячеек с нулевыми частотами')
print(f'{(data_tokenS == 1).sum().sum()} ячеек с единичными частотами')
print(f'{(data_tokenS > 1).sum().sum()} ячеек с частотами выше единичных')

In [None]:
# 71 Снова объединяем части датафрейма
data = pandas.concat([data_docS, data_tokenS], axis=1)
data

In [None]:
# 72 Простейшая описатльная статистика из пандаса
print(f"{(data_docS[dpndnt].notna()).sum()} валидных значений зависимой переменной")

display('Распределение зависимой переменной на всех размеченных данных (в долях)',
        data_docS[dpndnt].value_counts(normalize=True))

In [None]:
# 73 Делим датафрейм на размеченный и неразмеченный
data_tagged = data[data[dpndnt].notna()]
data_untagged = data[data[dpndnt].isna()]
display(data_tagged, data_untagged)

In [None]:
# 74 Делим учительский датафрейм на обучающий (75%) и тестовый (25%) выборки
data_tagged_training = data_tagged.sample(frac=0.75, random_state=1)
data_tagged_test = data_tagged.drop(data_tagged_training.index)
display('Обучающая выборка:', data_tagged_training, 'Тестовая выборка:', data_tagged_test)

In [None]:
# 75 Снова простейшая описатльная статистика из пандаса
display('Распределение зависимой переменной в обучающей выборке (в долях)',
        data_tagged_training[dpndnt].value_counts(normalize=True))

In [None]:
data_tagged_training[tokenS].var()

In [None]:
data_tagged_training[tokenS].var().sort_values()

In [None]:
data_tagged_training[tokenS].var().sort_values() == 0

In [None]:
tokenS_out = list(data_tagged_training[tokenS].var()[data_tagged_training[tokenS].var() == 0].index)
print(f'Токены без дисперсии -- исключение: {tokenS_out}')

In [None]:
print(f'Проверка: дисперсия токены "{tokenS_out[0]}" равна', data_tagged_training[tokenS].var()[tokenS_out[0]])

In [None]:
# 76 Список предикторов (токены с дисперсией в обучающей выборке)
tokenS_in = list(data_tagged_training[tokenS].var()[data_tagged_training[tokenS].var() != 0].index)
print(f'Остаются {len(tokenS_in)} токенов: {tokenS_in}')

In [None]:
# 77. Начинаем с малого - начинаем разметку текстов
import os
os.environ["PATH"] += os.pathsep + 'C:/Program Files/Graphviz/bin/'
chaid = randan.tree.CHAIDClassifier(max_depth=None,
                                    min_child_node=10,
                                    min_parent_node=0).fit(data_tagged_training,
                                                           dpndnt,
                                                           tokenS_in,
                                                           test_data=data_tagged_test)

In [None]:
# 78. Обученным деревом размечаем неразмеченные документы
predictionS = chaid.predict(data_untagged)
print(f'{predictionS.sum()} релевантных документов среди размеченных деревом')

In [None]:
# 80. Конкат
data_untagged = pandas.concat([predictionS, data_untagged], axis=1)
data_untagged

In [None]:
# 81. Продолжаем конкатинацию
data = pandas.concat([data_untagged, data_tagged])

In [None]:
# 82. Выделяем только релевантные документы
data_relevant = data[(data[dpndnt] == 1) | (data[predictionS.columns[0]] == 1)]
data_relevant

In [None]:
# 83. Сохраняем обновлённый датафрейм с результатами применения машинного обучения с учителем
data.to_csv(f'Матрица_Релевантность_SL.csv')