# Финальный проект
## на тему: Исследование любимой продукции на основе комментариев с магазинов: Золотое яблоко и Иль Де Боте за последний месяц
Исполнители:
- Галка Полина Руслановна
- Шония Екатерина Георгиевна
- Малютина Анна Николаевна
- Кусаинов Роман

## Парсинг данных
Ссылки на источники:
- [Документация VK API](https://dev.vk.com/ru/reference)
- [Документация API wall.getComments](https://dev.vk.com/ru/method/wall.getComments)
- [Документация API wall.get](https://dev.vk.com/ru/method/wall.get)

Код основан на документации ВКонтакте

In [3]:
import requests
import time
from datetime import datetime, timedelta
import pandas as pd

In [4]:
ACCESS_TOKEN = 'bb01e286bb01e286bb01e2860ab81977f2bbb01bb01e286dd647517a5bcfa4df0bccfcd'
VERSION = '5.131'

In [None]:
def get_posts(owner_id, count=100, offset=0, start_time=None, end_time=None):
    url = r'https://api.vk.com/method/wall.get'
    params = {
        'owner_id': owner_id,
        'count': count,
        'offset': offset,
        'access_token': ACCESS_TOKEN,
        'v': VERSION,
        'start_time': start_time,
        'end_time': end_time
    }
    response = requests.get(url, params=params)
    return response.json()

def get_comments(owner_id, post_id, count=100, offset=0):
    url = r'https://api.vk.com/method/wall.getComments'
    params = {
        'owner_id': owner_id,
        'post_id': post_id,
        'count': count,
        'offset': offset,
        'access_token': ACCESS_TOKEN,
        'v': VERSION
    }
    response = requests.get(url, params=params)
    return response.json()

end_time = int(time.time())
start_time = int((datetime.now() - timedelta(days=30)).timestamp())

owner_ids = [-44515433, -10821454]
all_posts = []

for owner_id in owner_ids:
    offset = 0
    while True:
        posts = get_posts(owner_id, offset=offset, start_time=start_time, end_time=end_time)
        if 'response' in posts and len(posts['response']['items']) > 0:
            all_posts.extend(posts['response']['items'])
            offset += 100
        else:
            break

all_comments = []

for post in all_posts:
    post_id = post['id']
    owner_id = post['owner_id']
    offset = 0
    while True:
        comments = get_comments(owner_id, post_id, offset=offset)
        if 'response' in comments and len(comments['response']['items']) > 0:
            all_comments.extend(comments['response']['items'])
            offset += 100
        else:
            break

df_comments = pd.DataFrame(all_comments)

In [None]:
df_comments

## Предобработка данных

Ссылки на источники:
- [Текст ссылки](https://)
- [Текст ссылки](https://)

In [None]:
%pip install pymorphy2

In [None]:
from nltk.corpus import stopwords
import pymorphy2
import nltk
import re

In [None]:
nltk.download('stopwords')
russian_stopwords = stopwords.words("russian")
morph = pymorphy2.MorphAnalyzer()

In [None]:
def preprocess_text(text):
    text = re.sub(r'\[.*?\]', '', text)
    text = re.sub(r'http\S+|www\S+|https\S+', '', text, flags=re.MULTILINE)
    text = re.sub(r'\@\w+|\#','', text)
    text = re.sub(r'\n', ' ', text)
    text = re.sub(r'[^\w\s]', '', text)
    text = text.lower()
    # Токенизация и удаление стоп-слов
    tokens = text.split()
    tokens = [token for token in tokens if token not in russian_stopwords]
    # Приведение к начальной форме
    tokens = [morph.parse(token)[0].normal_form for token in tokens]
    return tokens

df_comments['cleaned_text'] = df_comments['text'].apply(preprocess_text)

## Извлечение ключевых слов и продуктов

Ссылки на источники:
- [Текст ссылки](https://)
- [Текст ссылки](https://)

In [None]:
cosmetic_products = ['крем', 'шампунь', 'помада', 'маска', 'лосьон', 'тонер']

def extract_products(tokens):
    return [token for token in tokens if token in cosmetic_products]

df_comments['products'] = df_comments['cleaned_text'].apply(extract_products)

## Анализ частоты упоминаний

Ссылки на источники:
- [Текст ссылки](https://)
- [Текст ссылки](https://)

In [None]:
from collections import Counter

In [None]:
all_products = [product for sublist in df_comments['products'] for product in sublist]
product_counts = Counter(all_products)
product_counts_df = pd.DataFrame(product_counts.items(), columns=['Product', 'Count'])

## Анализ тональности комментариев

Ссылки на источники:
- [Текст ссылки](https://)
- [Текст ссылки](https://)

In [None]:
%pip install dostoevsky

In [None]:
%%python3 -m dostoevsky download fasttext-social-network-model

In [None]:
from dostoevsky.tokenization import RegexTokenizer
from dostoevsky.models import FastTextSocialNetworkModel

In [None]:
tokenizer = RegexTokenizer()
model = FastTextSocialNetworkModel(tokenizer)

## Визуализация результатов

Ссылки на источники:
- [Текст ссылки](https://)
- [Текст ссылки](https://)

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.figure(figsize=(10, 6))
product_counts_df = product_counts_df.sort_values(by='Count', ascending=False)
plt.bar(product_counts_df['Product'], product_counts_df['Count'])
plt.xlabel('Products')
plt.ylabel('Count')
plt.title('Frequency of Cosmetic Products Mentions')
plt.xticks(rotation=45)
plt.show()