## Import libraries

In [1]:
import pandas as pd
import numpy as np

import ast

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report, confusion_matrix, roc_auc_score, roc_curve

from sklearn.linear_model import LogisticRegression

import seaborn as sns
import matplotlib.pyplot as plt

plt.rcParams["figure.figsize"] = (16, 12)

In [2]:
import emoji

## Raw data reading

In [3]:
media_info = pd.read_csv('dataset/media_info.csv')
columns_info = ['id', 'media_type', 'comment_count', 'like_count', 'caption', 'product_type']

media_info = media_info[columns_info]
print(media_info.shape)
media_info = pd.concat([media_info[['id', 'media_type', 'comment_count', 'like_count', 'product_type']],
                       pd.DataFrame(media_info['caption'].apply(ast.literal_eval).tolist())[['text', 'created_at']]],
                       axis=1)
media_info.text = media_info.text.apply(lambda x: x.replace(u"\t", ' ').replace(u"\n", ' '))
media_info.to_excel('excel/media_info.xlsx', index=False)
media_info

(547, 6)


Unnamed: 0,id,media_type,comment_count,like_count,product_type,text,created_at
0,2552627566372576640_6323132732,2,0,151,feed,💉Yessenov University-де университет қызметкерл...,1618740859
1,2552302050930317520_6323132732,8,0,167,carousel_container,📌Yessenov University 14 сәуір күні «Әлеуметтік...,1618478195
2,2551856921623855106_6323132732,2,2,234,igtv,17 наурыз күні Yessenov University студенттері...,1618478607
3,2551051845710673418_6323132732,8,0,127,carousel_container,📌13 сәуір күні Yessenov University ұйымдастыру...,1618329101
4,2551045694403308072_6323132732,1,0,79,feed,📌Yessenov University Білім беру мектебінің ұйы...,1618328367
...,...,...,...,...,...,...,...
542,2084913117751324217_6323132732,2,2,553,igtv,#образование #дети #школа #наука #обучение #п...,1562841855
543,2084744888537924606_6323132732,1,17,321,feed,Құрметті талапкерлер! Арнайы сіздер үшін! Қабы...,1562740979
544,2084231514720862896_6323132732,8,0,365,carousel_container,"Yessenov University-де ""Нұр Отан"" партиясы Ма...",1562679781
545,2081770835984285444_6323132732,1,0,171,feed,Yessenоv University барша қазақстандықтарды ел...,1562386444


In [4]:
import re
def get_hashtags(text):
    return ' '.join(re.findall(r"#(\w+)", str(text)))

media_info['hashtags'] = media_info.text.apply(get_hashtags)
media_info[['id', 'hashtags']].to_excel('excel/instagram_hashtags.xlsx', index=False)

In [4]:
media_info_comments = pd.read_csv('dataset/media_info_comments.csv')[['media_id', 'user_id', 'text',
                                                                      'type', 'created_at', 'comment_like_count']]
media_info_comments.comment_like_count = media_info_comments.comment_like_count.fillna(0)
media_info_comments.text = media_info_comments.text.apply(lambda x: x.replace(u"\t", ' ').replace(u"\n", ' '))
media_info_comments.to_excel('excel/media_info_comments.xlsx', index=False)
media_info_comments

Unnamed: 0,media_id,user_id,text,type,created_at,comment_like_count
0,2551856921623855106_6323132732,5653049971,👏👏👏👏,0,1618434226,0.0
1,2551856921623855106_6323132732,8004212870,😍😍😍😍,0,1618463343,0.0
2,2550773232809730389_6323132732,21717688850,🙌🤲🤲🤲,0,1618300081,0.0
3,2550750258283139041_6323132732,44136745886,"Бауырым,биіктерден көріне бер !!! Бақытты бол!!!",0,1618314233,0.0
4,2550428231701540075_6323132732,7159856619,👏,0,1618254886,0.0
...,...,...,...,...,...,...
7621,2081356494843913014_6323132732,6742136658,@rakhmet_92 сен ба ак киимдеги @qazaq_qylyq @...,0,1564052043,0.0
7622,2081356494843913014_6323132732,1538214058,@raysoul28 ол емес,2,1564052248,0.0
7623,2081356494843913014_6323132732,465619292,"@raysoul28 көрмегелi көп болды, түрд ұмытып ка...",2,1564052313,0.0
7624,2081356494843913014_6323132732,6742136658,@rakhmet_92 со со кормегели коп болд аитшиш ?,2,1564052718,0.0


## Reading translated Data

In [5]:
media_i = pd.read_csv('translated/media_info.txt', sep='\t', encoding='utf8').drop('product_type', axis=1)
media_i

Unnamed: 0,id,media_type,comment_count,media_like_count,media_text,media_created_at
0,2552627566372576640_6323132732,2.0,0,151,💉Есеновский университет проводит добровольную ...,1.618741e+09
1,2552302050930317520_6323132732,8.0,0,167,"📌Ессеновский университет 14 апреля, организова...",1.618478e+09
2,2551856921623855106_6323132732,2.0,2,234,17 марта среди студентов Есеновского университ...,1.618479e+09
3,2551051845710673418_6323132732,8.0,0,127,📌 13 апреля в Есеновском университете прошла о...,1.618329e+09
4,2551045694403308072_6323132732,1.0,0,79,📌 Педагогическая школа Ессеновского университе...,1.618328e+09
...,...,...,...,...,...,...
543,2084913117751324217_6323132732,2.0,2,553,# образование # дети # школа # наука # образов...,1.562842e+09
544,2084744888537924606_6323132732,1.0,17,321,Уважаемые соискатели! Специально для Вас! Прие...,1.562741e+09
545,2084231514720862896_6323132732,8.0,0,365,В Есеновском университете прошла XXXI внеочере...,1.562680e+09
546,2081770835984285444_6323132732,1.0,0,171,Есеновский университет поздравляет всех казахс...,1.562386e+09


In [6]:
media_c = pd.read_csv('translated/media_comments.txt', sep='\t', encoding='utf8')
media_c

Unnamed: 0,media_id,user_id,comment_text,comment_type,comment_created_at,comment_like_count
0,2551856921623855106_6323132732,5653049971,👏👏👏👏,0,1618434226,0
1,2551856921623855106_6323132732,8004212870,😍😍😍😍,0,1618463343,0
2,2550773232809730389_6323132732,21717688850,🙌🤲🤲🤲,0,1618300081,0
3,2550750258283139041_6323132732,44136745886,"Брат, будь на виду с высоты !!! Будь счастлив!!!",0,1618314233,0
4,2550428231701540075_6323132732,7159856619,👏,0,1618254886,0
...,...,...,...,...,...,...
7621,2081356494843913014_6323132732,6742136658,@ rakhmet_92 ты @qazaq_qylyq @ aiganym__12 в б...,0,1564052043,0
7622,2081356494843913014_6323132732,1538214058,@ rayoul28 он не,2,1564052248,0
7623,2081356494843913014_6323132732,465619292,"У @ rayoul28 было много выставок, ты забыл про...",2,1564052313,0
7624,2081356494843913014_6323132732,6742136658,@ rakhmet_92 так что кормегели коп жирный айтиш?,2,1564052718,0


In [7]:
comment_df = pd.concat([media_i.set_index('id').loc[media_c.media_id],
                        media_c.set_index('media_id')], axis=1)
comment_df['media_id'] = comment_df.index
comment_df = comment_df[['media_id', 'media_type', 'comment_count', 'media_like_count',
                        'media_text', 'media_created_at', 'user_id', 'comment_text',
                        'comment_type', 'comment_created_at', 'comment_like_count', ]]

comment_df.media_created_at = comment_df.media_created_at.fillna(0).astype('int64')
comment_df.index = range(comment_df.shape[0])
comment_df

Unnamed: 0,media_id,media_type,comment_count,media_like_count,media_text,media_created_at,user_id,comment_text,comment_type,comment_created_at,comment_like_count
0,2551856921623855106_6323132732,2.0,2,234,17 марта среди студентов Есеновского университ...,1618478607,5653049971,👏👏👏👏,0,1618434226,0
1,2551856921623855106_6323132732,2.0,2,234,17 марта среди студентов Есеновского университ...,1618478607,8004212870,😍😍😍😍,0,1618463343,0
2,2550773232809730389_6323132732,1.0,1,205,Есеновский университет поздравляет всех вас с ...,1618295887,21717688850,🙌🤲🤲🤲,0,1618300081,0
3,2550750258283139041_6323132732,8.0,1,205,📌 12 апреля в Есеновском университете прошла в...,1618293148,44136745886,"Брат, будь на виду с высоты !!! Будь счастлив!!!",0,1618314233,0
4,2550428231701540075_6323132732,8.0,4,332,«2 и 9 апреля студенты волонтерского движения ...,1618254760,7159856619,👏,0,1618254886,0
...,...,...,...,...,...,...,...,...,...,...,...
7621,2081356494843913014_6323132732,2.0,63,1335,Мангистау не случайно называют музеем под откр...,1562337100,6742136658,@ rakhmet_92 ты @qazaq_qylyq @ aiganym__12 в б...,0,1564052043,0
7622,2081356494843913014_6323132732,2.0,63,1335,Мангистау не случайно называют музеем под откр...,1562337100,1538214058,@ rayoul28 он не,2,1564052248,0
7623,2081356494843913014_6323132732,2.0,63,1335,Мангистау не случайно называют музеем под откр...,1562337100,465619292,"У @ rayoul28 было много выставок, ты забыл про...",2,1564052313,0
7624,2081356494843913014_6323132732,2.0,63,1335,Мангистау не случайно называют музеем под откр...,1562337100,6742136658,@ rakhmet_92 так что кормегели коп жирный айтиш?,2,1564052718,0


## Preprocessing

In [8]:
import re
import emoji

def cleaning_data(text):
#     if text.split(' ')[0][0] == "@":
#         text = ' '.join(text.split(" ")[1:])
    text = re.sub(r'^https?:\/\/.*[\r\n]*', ' ', text)
    text = str(text).replace('(<br/>)', '')
    text = text.replace('(<a).*(>).*(</a>)', '')
    text = text.replace('(&amp)', '')
    text = text.replace('(&gt)', '')
    text = text.replace('(&lt)', '')
    text = text.replace('(\xa0)', ' ')
    text = text.replace('-', ' ')
    text = text.replace('(', ' ')
    text = text.replace(')', ' ')
    # text = re.sub('[^А-Я,а-я,Ә,І,Ң,Ғ,Ү,Ұ,Қ,Ө,Һ,ә,і,ə,ң,ғ,ү,ұ,қ,ө,һ]', ' ', str(text).replace('-', ''))
    text = re.sub('_', '', text)
    text = re.sub('\s+', ' ', text)
    text = emoji.emojize(emoji.demojize(text).replace('::', ': :'))
    return str(text).lower().strip()

In [9]:
emoji.demojize('😍😍😍😍')

':smiling_face_with_heart-eyes::smiling_face_with_heart-eyes::smiling_face_with_heart-eyes::smiling_face_with_heart-eyes:'

In [10]:
emoji.emojize(':smiling_face_with_heart-eyes::smiling_face_with_heart-eyes::smiling_face_with_heart-eyes::smiling_face_with_heart-eyes:'.replace('::', ': :'))

'😍 😍 😍 😍'

In [11]:
comment_df['media_text'] = comment_df.media_text.astype(str).apply(cleaning_data)
comment_df['comment_text'] = comment_df.comment_text.astype(str).apply(cleaning_data)
comment_df.head()

Unnamed: 0,media_id,media_type,comment_count,media_like_count,media_text,media_created_at,user_id,comment_text,comment_type,comment_created_at,comment_like_count
0,2551856921623855106_6323132732,2.0,2,234,17 марта среди студентов есеновского университ...,1618478607,5653049971,👏 👏 👏 👏,0,1618434226,0
1,2551856921623855106_6323132732,2.0,2,234,17 марта среди студентов есеновского университ...,1618478607,8004212870,😍 😍 😍 😍,0,1618463343,0
2,2550773232809730389_6323132732,1.0,1,205,есеновский университет поздравляет всех вас с ...,1618295887,21717688850,🙌 🤲 🤲 🤲,0,1618300081,0
3,2550750258283139041_6323132732,8.0,1,205,📌 12 апреля в есеновском университете прошла в...,1618293148,44136745886,"брат, будь на виду с высоты !!! будь счастлив!!!",0,1618314233,0
4,2550428231701540075_6323132732,8.0,4,332,«2 и 9 апреля студенты волонтерского движения ...,1618254760,7159856619,👏,0,1618254886,0


In [12]:
filtired_df = comment_df[comment_df['comment_text'].apply(lambda x: True if len(x.split(' ')) > 0 else False)]
filtired_df

Unnamed: 0,media_id,media_type,comment_count,media_like_count,media_text,media_created_at,user_id,comment_text,comment_type,comment_created_at,comment_like_count
0,2551856921623855106_6323132732,2.0,2,234,17 марта среди студентов есеновского университ...,1618478607,5653049971,👏 👏 👏 👏,0,1618434226,0
1,2551856921623855106_6323132732,2.0,2,234,17 марта среди студентов есеновского университ...,1618478607,8004212870,😍 😍 😍 😍,0,1618463343,0
2,2550773232809730389_6323132732,1.0,1,205,есеновский университет поздравляет всех вас с ...,1618295887,21717688850,🙌 🤲 🤲 🤲,0,1618300081,0
3,2550750258283139041_6323132732,8.0,1,205,📌 12 апреля в есеновском университете прошла в...,1618293148,44136745886,"брат, будь на виду с высоты !!! будь счастлив!!!",0,1618314233,0
4,2550428231701540075_6323132732,8.0,4,332,«2 и 9 апреля студенты волонтерского движения ...,1618254760,7159856619,👏,0,1618254886,0
...,...,...,...,...,...,...,...,...,...,...,...
7621,2081356494843913014_6323132732,2.0,63,1335,мангистау не случайно называют музеем под откр...,1562337100,6742136658,@ rakhmet92 ты @qazaqqylyq @ aiganym12 в белом,0,1564052043,0
7622,2081356494843913014_6323132732,2.0,63,1335,мангистау не случайно называют музеем под откр...,1562337100,1538214058,@ rayoul28 он не,2,1564052248,0
7623,2081356494843913014_6323132732,2.0,63,1335,мангистау не случайно называют музеем под откр...,1562337100,465619292,"у @ rayoul28 было много выставок, ты забыл про...",2,1564052313,0
7624,2081356494843913014_6323132732,2.0,63,1335,мангистау не случайно называют музеем под откр...,1562337100,6742136658,@ rakhmet92 так что кормегели коп жирный айтиш?,2,1564052718,0


In [13]:
from datetime import datetime
filtired_df['post_datetime'] = filtired_df.media_created_at.apply(lambda x: datetime.utcfromtimestamp(x).strftime('%d.%m.%Y %H:%M:%S'))
filtired_df['comment_datetime'] = filtired_df.comment_created_at.apply(lambda x: datetime.utcfromtimestamp(x).strftime('%d.%m.%Y %H:%M:%S'))
filtired_df

Unnamed: 0,media_id,media_type,comment_count,media_like_count,media_text,media_created_at,user_id,comment_text,comment_type,comment_created_at,comment_like_count,post_datetime,comment_datetime
0,2551856921623855106_6323132732,2.0,2,234,17 марта среди студентов есеновского университ...,1618478607,5653049971,👏 👏 👏 👏,0,1618434226,0,15.04.2021 09:23:27,14.04.2021 21:03:46
1,2551856921623855106_6323132732,2.0,2,234,17 марта среди студентов есеновского университ...,1618478607,8004212870,😍 😍 😍 😍,0,1618463343,0,15.04.2021 09:23:27,15.04.2021 05:09:03
2,2550773232809730389_6323132732,1.0,1,205,есеновский университет поздравляет всех вас с ...,1618295887,21717688850,🙌 🤲 🤲 🤲,0,1618300081,0,13.04.2021 06:38:07,13.04.2021 07:48:01
3,2550750258283139041_6323132732,8.0,1,205,📌 12 апреля в есеновском университете прошла в...,1618293148,44136745886,"брат, будь на виду с высоты !!! будь счастлив!!!",0,1618314233,0,13.04.2021 05:52:28,13.04.2021 11:43:53
4,2550428231701540075_6323132732,8.0,4,332,«2 и 9 апреля студенты волонтерского движения ...,1618254760,7159856619,👏,0,1618254886,0,12.04.2021 19:12:40,12.04.2021 19:14:46
...,...,...,...,...,...,...,...,...,...,...,...,...,...
7621,2081356494843913014_6323132732,2.0,63,1335,мангистау не случайно называют музеем под откр...,1562337100,6742136658,@ rakhmet92 ты @qazaqqylyq @ aiganym12 в белом,0,1564052043,0,05.07.2019 14:31:40,25.07.2019 10:54:03
7622,2081356494843913014_6323132732,2.0,63,1335,мангистау не случайно называют музеем под откр...,1562337100,1538214058,@ rayoul28 он не,2,1564052248,0,05.07.2019 14:31:40,25.07.2019 10:57:28
7623,2081356494843913014_6323132732,2.0,63,1335,мангистау не случайно называют музеем под откр...,1562337100,465619292,"у @ rayoul28 было много выставок, ты забыл про...",2,1564052313,0,05.07.2019 14:31:40,25.07.2019 10:58:33
7624,2081356494843913014_6323132732,2.0,63,1335,мангистау не случайно называют музеем под откр...,1562337100,6742136658,@ rakhmet92 так что кормегели коп жирный айтиш?,2,1564052718,0,05.07.2019 14:31:40,25.07.2019 11:05:18


In [14]:
filtired_df.to_excel('excel/insta_comments.xlsx')

## Sentimental model classifier

In [15]:
from dostoevsky.tokenization import RegexTokenizer
from dostoevsky.models import FastTextSocialNetworkModel

tokenizer = RegexTokenizer()
model = FastTextSocialNetworkModel(tokenizer=tokenizer)



In [16]:
results = pd.DataFrame(model.predict(filtired_df.comment_text.astype(str)))
results['media_id'] = filtired_df['media_id'].values
results['media_type'] = filtired_df['media_type'].astype('int64').values
results['comment_count'] = filtired_df['comment_count'].values
results['media_like_count'] = filtired_df['media_like_count'].values
results['media_created_at'] = filtired_df['media_created_at'].values
results['post_text'] = filtired_df['media_text'].astype(str).apply(cleaning_data).values

results['comment_text'] = filtired_df['comment_text'].astype(str).apply(cleaning_data).values
results['comment_type'] = filtired_df['comment_type'].values
results['comment_created_at'] = filtired_df['comment_created_at'].values
results['comment_like_count'] = filtired_df['comment_like_count'].values


results = results[['media_id', 'media_type', 'comment_count', 'media_like_count', 'media_created_at',
                   'post_text', 'comment_text', 'comment_type', 'comment_created_at', 'comment_like_count',
                   'negative', 'positive', 'skip', 'neutral', 'speech', ]]
results['negative_prob'] = (results.negative / results.loc[:,
                                                            ['negative', 'positive',
                                                             'skip', 'neutral', 'speech',]].sum(axis=1)) * 100
results['positive_prob'] = (results.positive / results.loc[:,
                                                            ['negative', 'positive',
                                                             'skip', 'neutral', 'speech',]].sum(axis=1)) * 100
results['negative_boolean'] = results.negative_prob > results.positive_prob
results

Unnamed: 0,media_id,media_type,comment_count,media_like_count,media_created_at,post_text,comment_text,comment_type,comment_created_at,comment_like_count,negative,positive,skip,neutral,speech,negative_prob,positive_prob,negative_boolean
0,2551856921623855106_6323132732,2,2,234,1618478607,17 марта среди студентов есеновского университ...,👏 👏 👏 👏,0,1618434226,0,0.000010,0.977724,0.004620,0.217348,0.000010,0.000834,81.496619,False
1,2551856921623855106_6323132732,2,2,234,1618478607,17 марта среди студентов есеновского университ...,😍 😍 😍 😍,0,1618463343,0,0.000010,0.890304,0.005921,0.000010,0.002991,0.001112,99.006701,False
2,2550773232809730389_6323132732,1,1,205,1618295887,есеновский университет поздравляет всех вас с ...,🙌 🤲 🤲 🤲,0,1618300081,0,0.000010,0.000010,0.003085,1.000010,0.000010,0.000997,0.000997,False
3,2550750258283139041_6323132732,8,1,205,1618293148,📌 12 апреля в есеновском университете прошла в...,"брат, будь на виду с высоты !!! будь счастлив!!!",0,1618314233,0,0.004342,0.484390,0.040856,0.033096,0.414909,0.444102,49.549301,False
4,2550428231701540075_6323132732,8,4,332,1618254760,«2 и 9 апреля студенты волонтерского движения ...,👏,0,1618254886,0,0.000010,0.000010,0.000010,1.000010,0.000010,0.001000,0.001000,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7621,2081356494843913014_6323132732,2,63,1335,1562337100,мангистау не случайно называют музеем под откр...,@ rakhmet92 ты @qazaqqylyq @ aiganym12 в белом,0,1564052043,0,0.014514,0.048868,0.016925,0.988323,0.009423,1.346279,4.532973,False
7622,2081356494843913014_6323132732,2,63,1335,1562337100,мангистау не случайно называют музеем под откр...,@ rayoul28 он не,2,1564052248,0,0.001559,0.002725,0.014074,0.998765,0.000010,0.153251,0.267909,False
7623,2081356494843913014_6323132732,2,63,1335,1562337100,мангистау не случайно называют музеем под откр...,"у @ rayoul28 было много выставок, ты забыл про...",2,1564052313,0,0.007826,0.010024,0.050341,0.983607,0.001711,0.742841,0.951447,False
7624,2081356494843913014_6323132732,2,63,1335,1562337100,мангистау не случайно называют музеем под откр...,@ rakhmet92 так что кормегели коп жирный айтиш?,2,1564052718,0,0.026769,0.003283,0.075868,0.979046,0.001144,2.464694,0.302277,True


In [17]:
toreint = lambda x: int(re.sub('[^0-9]', '', str(x)))

In [18]:
results.media_type = results.media_type.apply(toreint)
results.comment_count = results.comment_count.apply(toreint)
results.media_like_count = results.media_like_count.apply(toreint)
results.media_created_at = results.media_created_at.apply(toreint)
results.comment_type = results.comment_type.apply(toreint)
results.comment_created_at = results.comment_created_at.apply(toreint)
results.comment_like_count = results.comment_like_count.apply(toreint)
results = results.fillna(0)
results

Unnamed: 0,media_id,media_type,comment_count,media_like_count,media_created_at,post_text,comment_text,comment_type,comment_created_at,comment_like_count,negative,positive,skip,neutral,speech,negative_prob,positive_prob,negative_boolean
0,2551856921623855106_6323132732,2,2,234,1618478607,17 марта среди студентов есеновского университ...,👏 👏 👏 👏,0,1618434226,0,0.000010,0.977724,0.004620,0.217348,0.000010,0.000834,81.496619,False
1,2551856921623855106_6323132732,2,2,234,1618478607,17 марта среди студентов есеновского университ...,😍 😍 😍 😍,0,1618463343,0,0.000010,0.890304,0.005921,0.000010,0.002991,0.001112,99.006701,False
2,2550773232809730389_6323132732,1,1,205,1618295887,есеновский университет поздравляет всех вас с ...,🙌 🤲 🤲 🤲,0,1618300081,0,0.000010,0.000010,0.003085,1.000010,0.000010,0.000997,0.000997,False
3,2550750258283139041_6323132732,8,1,205,1618293148,📌 12 апреля в есеновском университете прошла в...,"брат, будь на виду с высоты !!! будь счастлив!!!",0,1618314233,0,0.004342,0.484390,0.040856,0.033096,0.414909,0.444102,49.549301,False
4,2550428231701540075_6323132732,8,4,332,1618254760,«2 и 9 апреля студенты волонтерского движения ...,👏,0,1618254886,0,0.000010,0.000010,0.000010,1.000010,0.000010,0.001000,0.001000,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7621,2081356494843913014_6323132732,2,63,1335,1562337100,мангистау не случайно называют музеем под откр...,@ rakhmet92 ты @qazaqqylyq @ aiganym12 в белом,0,1564052043,0,0.014514,0.048868,0.016925,0.988323,0.009423,1.346279,4.532973,False
7622,2081356494843913014_6323132732,2,63,1335,1562337100,мангистау не случайно называют музеем под откр...,@ rayoul28 он не,2,1564052248,0,0.001559,0.002725,0.014074,0.998765,0.000010,0.153251,0.267909,False
7623,2081356494843913014_6323132732,2,63,1335,1562337100,мангистау не случайно называют музеем под откр...,"у @ rayoul28 было много выставок, ты забыл про...",2,1564052313,0,0.007826,0.010024,0.050341,0.983607,0.001711,0.742841,0.951447,False
7624,2081356494843913014_6323132732,2,63,1335,1562337100,мангистау не случайно называют музеем под откр...,@ rakhmet92 так что кормегели коп жирный айтиш?,2,1564052718,0,0.026769,0.003283,0.075868,0.979046,0.001144,2.464694,0.302277,True


In [19]:
results

Unnamed: 0,media_id,media_type,comment_count,media_like_count,media_created_at,post_text,comment_text,comment_type,comment_created_at,comment_like_count,negative,positive,skip,neutral,speech,negative_prob,positive_prob,negative_boolean
0,2551856921623855106_6323132732,2,2,234,1618478607,17 марта среди студентов есеновского университ...,👏 👏 👏 👏,0,1618434226,0,0.000010,0.977724,0.004620,0.217348,0.000010,0.000834,81.496619,False
1,2551856921623855106_6323132732,2,2,234,1618478607,17 марта среди студентов есеновского университ...,😍 😍 😍 😍,0,1618463343,0,0.000010,0.890304,0.005921,0.000010,0.002991,0.001112,99.006701,False
2,2550773232809730389_6323132732,1,1,205,1618295887,есеновский университет поздравляет всех вас с ...,🙌 🤲 🤲 🤲,0,1618300081,0,0.000010,0.000010,0.003085,1.000010,0.000010,0.000997,0.000997,False
3,2550750258283139041_6323132732,8,1,205,1618293148,📌 12 апреля в есеновском университете прошла в...,"брат, будь на виду с высоты !!! будь счастлив!!!",0,1618314233,0,0.004342,0.484390,0.040856,0.033096,0.414909,0.444102,49.549301,False
4,2550428231701540075_6323132732,8,4,332,1618254760,«2 и 9 апреля студенты волонтерского движения ...,👏,0,1618254886,0,0.000010,0.000010,0.000010,1.000010,0.000010,0.001000,0.001000,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7621,2081356494843913014_6323132732,2,63,1335,1562337100,мангистау не случайно называют музеем под откр...,@ rakhmet92 ты @qazaqqylyq @ aiganym12 в белом,0,1564052043,0,0.014514,0.048868,0.016925,0.988323,0.009423,1.346279,4.532973,False
7622,2081356494843913014_6323132732,2,63,1335,1562337100,мангистау не случайно называют музеем под откр...,@ rayoul28 он не,2,1564052248,0,0.001559,0.002725,0.014074,0.998765,0.000010,0.153251,0.267909,False
7623,2081356494843913014_6323132732,2,63,1335,1562337100,мангистау не случайно называют музеем под откр...,"у @ rayoul28 было много выставок, ты забыл про...",2,1564052313,0,0.007826,0.010024,0.050341,0.983607,0.001711,0.742841,0.951447,False
7624,2081356494843913014_6323132732,2,63,1335,1562337100,мангистау не случайно называют музеем под откр...,@ rakhmet92 так что кормегели коп жирный айтиш?,2,1564052718,0,0.026769,0.003283,0.075868,0.979046,0.001144,2.464694,0.302277,True


In [20]:
results.sort_values('negative_prob')[-100:]

Unnamed: 0,media_id,media_type,comment_count,media_like_count,media_created_at,post_text,comment_text,comment_type,comment_created_at,comment_like_count,negative,positive,skip,neutral,speech,negative_prob,positive_prob,negative_boolean
4531,2373853714173495634_6323132732,1,64,199,1597205488,❗внимание! образовательные гранты акимата манг...,@gulfiyaatshibaeva не создает сайт из за техни...,2,1597396512,0,0.422515,0.047436,0.075868,0.538993,0.008072,38.660524,4.340431,True
4396,2387109747575569389_6323132732,1,25,369,1598785679,абитуриенты казахстанской группы есеновского у...,почему бы тебе не открыть группу?,0,1598892491,3,0.562187,0.000010,0.048868,0.839744,0.000010,38.749617,0.000689,True
1558,2460458648446548922_6323132732,8,86,416,1607529550,«11 декабря в 17:00 ректор есеновского универс...,@ aaaaii94 был на сессии в прошлом году! вы ск...,2,1607613809,0,0.362979,0.087574,0.063725,0.407343,0.013233,38.827357,9.367646,True
5572,2282135138639625971_6323132732,1,15,476,1586271731,как твои карантинные дни? вы развиваете себя? ...,"боже, нет",0,1586279971,0,0.132974,0.022296,0.173298,0.012831,0.000010,38.948567,6.530622,True
4818,2341568656494785092_6323132732,2,33,687,1593356908,давайте придадим вашей ленте немного волшебств...,все будет но не сразу,0,1593369388,0,0.507822,0.006703,0.008857,0.771854,0.000010,39.206608,0.517497,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4748,2349599070278733752_6323132732,1,16,617,1594316361,давайте повысим мозговую активность 🧠 ответы н...,деньги гребень декабрь,0,1594314806,2,0.924152,0.061886,0.042098,0.061886,0.001075,84.699369,5.671907,True
4755,2349599070278733752_6323132732,1,16,617,1594316361,давайте повысим мозговую активность 🧠 ответы н...,деньги гребень декабрь,0,1594316921,1,0.924152,0.061886,0.042098,0.061886,0.001075,84.699369,5.671907,True
5566,2282135138639625971_6323132732,1,15,476,1586271731,как твои карантинные дни? вы развиваете себя? ...,"там, где я скучаю, я совсем не скучаю.",0,1586272626,2,0.968866,0.067557,0.092698,0.000677,0.000010,85.754990,5.979487,True
2528,2399539197338820502_6323132732,2,86,290,1600267590,"а ты кто сегодня? 🙂 кто ты сегодня, давайте ра...",бесстрашные люди,0,1600268773,1,0.899131,0.010997,0.033096,0.073706,0.000010,88.415332,1.081375,True


## Top10 words for posts

In [21]:
from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer("russian")

import stanza
nlp = stanza.Pipeline(lang='ru', processors = "tokenize,lemma", tokenize_batch_size=16)

def stemming(sentences):
    return ' '.join([stemmer.stem(word) for word in sentences.split()])

def lemmatizing(text):
    return ' '.join([j.lemma for i in nlp(text).sentences for j in i.words])

2021-04-22 17:33:26 INFO: Loading these models for language: ru (Russian):
| Processor | Package   |
-------------------------
| tokenize  | syntagrus |
| lemma     | syntagrus |

2021-04-22 17:33:26 INFO: Use device: gpu
2021-04-22 17:33:26 INFO: Loading: tokenize
2021-04-22 17:33:30 INFO: Loading: lemma
2021-04-22 17:33:30 INFO: Done loading processors!


In [None]:
%%time
lemmated = results.drop_duplicates('media_id').post_text.apply(lemmatizing)

In [35]:
from nltk.corpus import stopwords

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer(stop_words=[lemmatizing(word) for word in stopwords.words('russian')]+[str(i) for i in range(200)])
X_tfidf = tfidf.fit_transform(lemmated).toarray()
vocab = tfidf.vocabulary_
reverse_vocab = {v:k for k,v in vocab.items()}

feature_names = tfidf.get_feature_names()
idx = (-X_tfidf).argsort(axis=1)

tfidf_max10 = idx[:, :20]
tfidf_weight = -np.sort(-X_tfidf, axis=1)[:, :20]

df_tfidf = pd.DataFrame([[reverse_vocab.get(item) for item in row] for row in tfidf_max10])
cl_names = ['top_' + str(i+1) for i in range(20)]
df_tfidf.columns = cl_names
df_tfidf['media_id'] = results.drop_duplicates('media_id')['media_id'].values
df_tfidf = df_tfidf.set_index('media_id')
df_tfidf = df_tfidf[cl_names]
df_tfidf[['weight_' + str(i+1) for i in range(20)]] = -np.sort(-X_tfidf, axis=1)[:, :20]
df_tfidf = df_tfidf[np.array([[df_tfidf.columns[i], df_tfidf.columns[i+20]] for i in range(20)]).reshape(20*2)]
df_tfidf

## Clustering

In [101]:
posts_dataframe = results.drop_duplicates('media_id')[['media_id', 'post_text']]
posts_dataframe = posts_dataframe.set_index('media_id')
posts_dataframe

Unnamed: 0_level_0,post_text
media_id,Unnamed: 1_level_1
2551856921623855106_6323132732,17 марта среди студентов есеновского университ...
2550773232809730389_6323132732,есеновский университет поздравляет всех вас с ...
2550750258283139041_6323132732,📌 12 апреля в есеновском университете прошла в...
2550428231701540075_6323132732,«2 и 9 апреля студенты волонтерского движения ...
2550227268201948037_6323132732,есеновский университет поздравляет вас с днем ...
...,...
2086384315387530462_6323132732,предлагаем вашему вниманию очередной выпуск пр...
2085649982255010735_6323132732,добро пожаловать в есеновский университет! 12 ...
2084913117751324217_6323132732,# образование # дети # школа # наука # образов...
2084744888537924606_6323132732,уважаемые соискатели! специально для вас! прие...


In [102]:
train_df = pd.concat([posts_dataframe, results.groupby('media_id').mean().loc[:,['negative', 'positive',
                                                                                                 'skip', 'speech',]]], axis=1)
train_df

Unnamed: 0,post_text,negative,positive,skip,speech
2551856921623855106_6323132732,17 марта среди студентов есеновского университ...,0.000010,0.934014,0.005270,0.001501
2550773232809730389_6323132732,есеновский университет поздравляет всех вас с ...,0.000010,0.000010,0.003085,0.000010
2550750258283139041_6323132732,📌 12 апреля в есеновском университете прошла в...,0.004342,0.484390,0.040856,0.414909
2550428231701540075_6323132732,«2 и 9 апреля студенты волонтерского движения ...,0.012953,0.302760,0.095953,0.002089
2550227268201948037_6323132732,есеновский университет поздравляет вас с днем ...,0.000010,0.777310,0.001075,0.000010
...,...,...,...,...,...
2086384315387530462_6323132732,предлагаем вашему вниманию очередной выпуск пр...,0.022414,0.061812,0.110492,0.093752
2085649982255010735_6323132732,добро пожаловать в есеновский университет! 12 ...,0.005017,0.478316,0.011814,0.000010
2084913117751324217_6323132732,# образование # дети # школа # наука # образов...,0.000388,0.004041,0.446665,0.000010
2084744888537924606_6323132732,уважаемые соискатели! специально для вас! прие...,0.053253,0.009870,0.040726,0.038064


In [103]:
from nltk.corpus import stopwords

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_clus = TfidfVectorizer(stop_words=[stemming(word) for word in stopwords.words('russian')], max_df=0.1, min_df=0.001, )
X_tfidf_clus = tfidf_clus.fit_transform(lemmated).toarray()
print(X_tfidf_clus.shape)

(411, 6468)


In [104]:
from sklearn.cluster import KMeans
from collections import Counter

cluster_count = 19
model = KMeans(n_clusters=cluster_count, random_state=0).fit(np.hstack([X_tfidf_clus, train_df.loc[:, ['negative', 'positive',
                                                                                                 'skip', 'speech',]].values]))
model_prediction = model.predict(np.hstack([X_tfidf_clus, train_df.loc[:, ['negative', 'positive',
                                                                                                 'skip', 'speech',]].values]))
print(Counter(model_prediction).most_common())

[(3, 54), (15, 45), (2, 35), (0, 34), (7, 31), (16, 27), (13, 26), (9, 20), (6, 20), (5, 18), (8, 16), (18, 15), (4, 15), (14, 13), (11, 12), (12, 10), (17, 9), (10, 6), (1, 5)]


In [105]:
train_df['cluster_id'] = model_prediction
train_df.to_excel('excel/insta_cluster_posts.xlsx')

In [106]:
cluster_text = {}
for i in range(cluster_count):
    cluster_text[i] = ' '.join(train_df[train_df.cluster_id == i].post_text.values)

In [107]:
cluster_text.keys()

dict_keys([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18])

In [108]:
tfidf_clus_top = TfidfVectorizer(stop_words=[stemming(word) for word in stopwords.words('russian')]+[str(i) for i in range(200)])
tfidf_clus_top_arr = tfidf_clus_top.fit_transform([lemmatizing(clusses) for clusses in list(cluster_text.values())]).toarray()
vocab = tfidf_clus_top.vocabulary_
reverse_vocab = {v:k for k,v in vocab.items()}

feature_names = tfidf_clus_top.get_feature_names()

In [114]:
idx = (-tfidf_clus_top_arr).argsort(axis=1)

tfidf_max10 = idx[:, :100]
tfidf_weight = -np.sort(-tfidf_clus_top_arr, axis=1)[:, :100]

df_tfidf_c = pd.DataFrame([[reverse_vocab.get(item) for item in row] for row in tfidf_max10]).T
df_tfidf_c.index = ['top_' + str(i+1) for i in range(100)]
df_tfidf_c.columns = ['cluster_' + str(i+1) for i in range(cluster_count)]
df_tfidf_c = df_tfidf_c.T
df_tfidf_c[['weight_' + str(i+1) for i in range(100)]] = tfidf_weight
df_tfidf_c = df_tfidf_c[np.array([[df_tfidf_c.columns[i], df_tfidf_c.columns[i+100]] for i in range(100)]).reshape(100*2)]
df_tfidf_c

Unnamed: 0,top_1,weight_1,top_2,weight_2,top_3,weight_3,top_4,weight_4,top_5,weight_5,...,top_96,weight_96,top_97,weight_97,top_98,weight_98,top_99,weight_99,top_100,weight_100
cluster_1,университет,0.376318,есеновский,0.265636,вклад,0.194467,студент,0.162903,развитие,0.143116,...,формирование,0.04242,тугель,0.041776,завершилый,0.041776,ногатаевный,0.041776,чистота,0.041776
cluster_2,скидкий,0.345105,сбербанкий,0.207063,лицой,0.190872,школа,0.184296,okko,0.172553,...,нурдаулет,0.054535,приятный,0.054535,сериал,0.054535,шахматный,0.054535,проект,0.051125
cluster_3,google,0.277098,meet,0.269806,университет,0.265477,экзамен,0.218762,студент,0.214462,...,обратный,0.036916,перейти,0.03646,поэтому,0.03646,свой,0.036328,центр,0.035985
cluster_4,университет,0.241335,сертификат,0.203734,тон,0.179928,документ,0.162825,быть,0.160513,...,почта,0.04342,тогда,0.042807,отправьтый,0.042807,август,0.042471,гражданин,0.041135
cluster_5,военный,0.525057,университет,0.205788,проект,0.195773,есеновский,0.16463,кафедра,0.163576,...,также,0.031021,рамка,0.031021,технология,0.030971,момент,0.030971,сотрудник,0.030971
cluster_6,меморандум,0.49142,университет,0.280092,ао,0.262661,подписать,0.208869,есеновский,0.192563,...,кадр,0.03426,полиция,0.03426,подразделение,0.03426,казойстана,0.03426,готовить,0.03426
cluster_7,морской,0.306848,хотеть,0.253456,академия,0.229487,университет,0.191609,год,0.152229,...,момент,0.040553,коррупция,0.040553,технический,0.040553,директор,0.040553,комиссия,0.040553
cluster_8,men,0.230199,sultany,0.230199,yessenov,0.227751,arýy,0.194784,наш,0.168012,...,адиль,0.042795,звать,0.042795,рамазан,0.042795,назад,0.042795,хобби,0.042795
cluster_9,президент,0.362085,выборы,0.322865,площадка,0.271046,студент,0.211975,кандидат,0.17563,...,есенгалиев,0.040358,новый,0.039339,ноябрь,0.039052,член,0.039052,надеяться,0.037574
cluster_10,университет,0.311265,есеновский,0.2193,семинар,0.218279,абай,0.135049,быть,0.12643,...,переводчик,0.046726,популяризировать,0.046726,россий,0.046726,образованный,0.046726,гончарный,0.046726


In [33]:
df_tfidf_c.to_excel('excel/insta_cluster_top100weights.xlsx')

In [172]:
last_otchet = results.drop_duplicates('media_id')[['media_id', 'media_type', 'comment_count', 'media_like_count',
                                     'media_created_at', 'post_text', 'negative_prob', 'positive_prob']]
last_otchet = last_otchet.set_index('media_id')
last_otchet

Unnamed: 0_level_0,media_type,comment_count,media_like_count,media_created_at,post_text,negative_prob,positive_prob
media_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2551856921623855106_6323132732,2,2,234,1618478607,17 марта среди студентов есеновского университ...,0.000834,81.496619
2550773232809730389_6323132732,1,1,205,1618295887,есеновский университет поздравляет всех вас с ...,0.000997,0.000997
2550750258283139041_6323132732,8,1,205,1618293148,📌 12 апреля в есеновском университете прошла в...,0.444102,49.549301
2550428231701540075_6323132732,8,4,332,1618254760,«2 и 9 апреля студенты волонтерского движения ...,0.001000,0.001000
2550227268201948037_6323132732,1,1,158,1618230803,есеновский университет поздравляет вас с днем ...,0.000674,52.372318
...,...,...,...,...,...,...,...
2086384315387530462_6323132732,2,17,345,1562943844,предлагаем вашему вниманию очередной выпуск пр...,14.481772,0.738945
2085649982255010735_6323132732,1,2,343,1562848875,добро пожаловать в есеновский университет! 12 ...,0.968042,1.445470
2084913117751324217_6323132732,2,2,553,1562841855,# образование # дети # школа # наука # образов...,0.070265,0.741019
2084744888537924606_6323132732,1,17,321,1562740979,уважаемые соискатели! специально для вас! прие...,3.323011,0.039193


In [174]:
last_otchet['cluster_label'] = train_df.cluster_id
last_otchet['top10keywords'] = df_tfidf.T.apply(lambda x: ', '.join(x))
last_otchet['cluster_top100keywords'] = last_otchet.cluster_label.apply(lambda x: df_tfidf_c.T.apply(lambda x: ', '.join(x))[x])
last_otchet

Unnamed: 0_level_0,media_type,comment_count,media_like_count,media_created_at,post_text,negative_prob,positive_prob,cluster_label,top10keywords,cluster_top100keywords
media_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2551856921623855106_6323132732,2,2,234,1618478607,17 марта среди студентов есеновского университ...,0.000834,81.496619,4,"класс, дело, мастер, семья, акция, помочь, кро...","представитель, обсудить, профессорский, октябр..."
2550773232809730389_6323132732,1,1,205,1618295887,есеновский университет поздравляет всех вас с ...,0.000997,0.000997,14,"расти, единый, намерение, единство, благополуч...","рахмашы, эльжан, надежный, сагидуллин, чингиз,..."
2550750258283139041_6323132732,8,1,205,1618293148,📌 12 апреля в есеновском университете прошла в...,0.444102,49.549301,7,"коррупция, ответ, семья, встреча, формирование...","предоставить, инструмент, демонстрировать, сем..."
2550428231701540075_6323132732,8,4,332,1618254760,«2 и 9 апреля студенты волонтерского движения ...,0.001000,0.001000,13,"км, мусорить, выбрасывать, километр, прибрежны...","мой, юридический, государственный, открытие, т..."
2550227268201948037_6323132732,1,1,158,1618230803,есеновский университет поздравляет вас с днем ...,0.000674,52.372318,4,"желать, увеличиваться, привлекать, человек, по...","представитель, обсудить, профессорский, октябр..."
...,...,...,...,...,...,...,...,...,...,...
2086384315387530462_6323132732,2,17,345,1562943844,предлагаем вашему вниманию очередной выпуск пр...,14.481772,0.738945,12,"достижение, политика, условие, интервью, номер...","лучший, рад, стартый, грант, нажмит, они, обра..."
2085649982255010735_6323132732,1,2,343,1562848875,добро пожаловать в есеновский университет! 12 ...,0.968042,1.445470,3,"культура, студенческий, ждать, их, семья, вид,...","лекция, выбрать, искусственный, интерактив, ин..."
2084913117751324217_6323132732,2,2,553,1562841855,# образование # дети # школа # наука # образов...,0.070265,0.741019,14,"эламлатецин, школа, национальный, знание, куль...","рахмашы, эльжан, надежный, сагидуллин, чингиз,..."
2084744888537924606_6323132732,1,17,321,1562740979,уважаемые соискатели! специально для вас! прие...,3.323011,0.039193,9,"прямой, эфир, соискатель, транслировать, ваш, ...","231, внутри, ттелефон, досан, остальной, перен..."


In [27]:
from datetime import datetime

last_otchet = pd.read_excel('excel/instagram_media.xlsx')
last_otchet.media_created_at = last_otchet.media_created_at.apply(lambda x: datetime.utcfromtimestamp(x).strftime('%d.%m.%Y %H:%M:%S'))
last_otchet

Unnamed: 0,media_id,media_type,comment_count,media_like_count,media_created_at,post_text,negative_prob,positive_prob,cluster_label,top10keywords,cluster_top100keywords
0,2551856921623855106_6323132732,2,2,234,15.04.2021 09:23:27,17 марта среди студентов есеновского университ...,0.000834,81.496619,4,"класс, дело, мастер, семья, акция, помочь, кро...","представитель, обсудить, профессорский, октябр..."
1,2550773232809730389_6323132732,1,1,205,13.04.2021 06:38:07,есеновский университет поздравляет всех вас с ...,0.000997,0.000997,14,"расти, единый, намерение, единство, благополуч...","рахмашы, эльжан, надежный, сагидуллин, чингиз,..."
2,2550750258283139041_6323132732,8,1,205,13.04.2021 05:52:28,📌 12 апреля в есеновском университете прошла в...,0.444102,49.549301,7,"коррупция, ответ, семья, встреча, формирование...","предоставить, инструмент, демонстрировать, сем..."
3,2550428231701540075_6323132732,8,4,332,12.04.2021 19:12:40,«2 и 9 апреля студенты волонтерского движения ...,0.001000,0.001000,13,"км, мусорить, выбрасывать, километр, прибрежны...","мой, юридический, государственный, открытие, т..."
4,2550227268201948037_6323132732,1,1,158,12.04.2021 12:33:23,есеновский университет поздравляет вас с днем ...,0.000674,52.372318,4,"желать, увеличиваться, привлекать, человек, по...","представитель, обсудить, профессорский, октябр..."
...,...,...,...,...,...,...,...,...,...,...,...
406,2086384315387530462_6323132732,2,17,345,12.07.2019 15:04:04,предлагаем вашему вниманию очередной выпуск пр...,14.481772,0.738945,12,"достижение, политика, условие, интервью, номер...","лучший, рад, стартый, грант, нажмит, они, обра..."
407,2085649982255010735_6323132732,1,2,343,11.07.2019 12:41:15,добро пожаловать в есеновский университет! 12 ...,0.968042,1.445470,3,"культура, студенческий, ждать, их, семья, вид,...","лекция, выбрать, искусственный, интерактив, ин..."
408,2084913117751324217_6323132732,2,2,553,11.07.2019 10:44:15,# образование # дети # школа # наука # образов...,0.070265,0.741019,14,"эламлатецин, школа, национальный, знание, куль...","рахмашы, эльжан, надежный, сагидуллин, чингиз,..."
409,2084744888537924606_6323132732,1,17,321,10.07.2019 06:42:59,уважаемые соискатели! специально для вас! прие...,3.323011,0.039193,9,"прямой, эфир, соискатель, транслировать, ваш, ...","231, внутри, ттелефон, досан, остальной, перен..."


In [29]:
last_otchet.to_excel('excel/instagram_media.xlsx')