In [15]:
from gensim.models import Word2Vec, Doc2Vec
from gensim.models.doc2vec import TaggedDocument


sentences = [["cat", "say", "meow"], ["dog", "say", "woof"]]
word2vec_model = Word2Vec(sentences, min_count=1)


vector = word2vec_model.wv['dog']
print("Word2Vec model:\n", vector)


documents = [TaggedDocument(doc, [i]) for i, doc in enumerate(sentences)]
doc2vec_model = Doc2Vec(documents, vector_size=5, window=2, min_count=1, workers=4)


vector = doc2vec_model.infer_vector(["cat", "say", "meow"])
print("\nDoc2Vec model:\n", vector)

Word2Vec model:
 [ 9.4563962e-05  3.0773198e-03 -6.8126451e-03 -1.3754654e-03
  7.6685809e-03  7.3464094e-03 -3.6732971e-03  2.6427018e-03
 -8.3171297e-03  6.2054861e-03 -4.6373224e-03 -3.1641065e-03
  9.3113566e-03  8.7338570e-04  7.4907029e-03 -6.0740625e-03
  5.1605068e-03  9.9228229e-03 -8.4573915e-03 -5.1356913e-03
 -7.0648370e-03 -4.8626517e-03 -3.7785638e-03 -8.5361991e-03
  7.9556061e-03 -4.8439382e-03  8.4236134e-03  5.2625705e-03
 -6.5500261e-03  3.9578713e-03  5.4701497e-03 -7.4265362e-03
 -7.4057197e-03 -2.4752307e-03 -8.6257253e-03 -1.5815723e-03
 -4.0343284e-04  3.2996845e-03  1.4418805e-03 -8.8142155e-04
 -5.5940580e-03  1.7303658e-03 -8.9737179e-04  6.7936908e-03
  3.9735902e-03  4.5294715e-03  1.4343059e-03 -2.6998555e-03
 -4.3668128e-03 -1.0320747e-03  1.4370275e-03 -2.6460087e-03
 -7.0737829e-03 -7.8053069e-03 -9.1217868e-03 -5.9351693e-03
 -1.8474245e-03 -4.3238713e-03 -6.4606704e-03 -3.7173224e-03
  4.2891586e-03 -3.7390434e-03  8.3781751e-03  1.5339935e-03
 -7.242

In [1]:
import pandas as pd
from bs4 import BeautifulSoup
from enum import Enum
from typing import List, Iterable, Optional, Dict
import demoji
# from transliterate import translit

In [2]:
df = pd.read_csv("data.csv")

In [61]:
class ExtraData(Enum):
    plus = "Плюсы, отмеченные автором"
    minus = "Минусы, отмеченные автором"
    autor_review = "оценка автора"
    all_review = "оценка средневзвешенная по всем ревью"

def parce_short_structured_description(data, get: ExtraData=ExtraData.plus):
    result = {ExtraData.plus: None, ExtraData.minus: None, ExtraData.autor_review: {}, ExtraData.all_review: {}}
    soup = BeautifulSoup(data, "html.parser")
    features = soup.find_all('div', class_="ReviewProsAndCons__features")[1]
    for feature in features.find_all('div', class_="ReviewProsAndCons__summary__text"):
        if feature.find('svg', class_="ReviewProsAndCons__summary__icon_plus"):
            result[ExtraData.plus] = feature.text
            continue
        if feature.find('svg', class_="ReviewProsAndCons__summary__icon_minus"):
            result[ExtraData.minus] = feature.text
            continue
    
    autor_review = soup.find_all("div", class_="ReviewProsAndCons__summary__content")[0]
    autor_review = autor_review.find_all('li', class_="ReviewProsAndCons__summary__item")
    for mark in autor_review:
        rewiew_category = mark.find("span", class_="ReviewProsAndCons__summary__name").text
        rewier_mark = mark.find("span", class_="ReviewProsAndCons__summary__value").text
        result[ExtraData.autor_review][rewiew_category] = rewier_mark

    all_review = soup.find_all("div", class_="ReviewProsAndCons__summary__content")[1]
    all_review = all_review.find_all('li', class_="ReviewProsAndCons__summary__item")
    for mark in all_review:
        rewiew_category = mark.find("span", class_="ReviewProsAndCons__summary__name").text
        rewier_mark = mark.find("span", class_="ReviewProsAndCons__summary__value").text
        result[ExtraData.all_review][rewiew_category] = rewier_mark
    return result[get]


df["short_structured_description"].apply(parce_short_structured_description, get=ExtraData.all_review)

0      {'Внешний вид': '5,0', 'Комфорт': '4,6', 'Безо...
1      {'Внешний вид': '5,0', 'Комфорт': '4,6', 'Безо...
2      {'Внешний вид': '5,0', 'Комфорт': '4,6', 'Безо...
3      {'Внешний вид': '5,0', 'Комфорт': '4,6', 'Безо...
4      {'Внешний вид': '5,0', 'Комфорт': '4,6', 'Безо...
                             ...                        
480    {'Внешний вид': '5', 'Комфорт': '4,5', 'Безопа...
481    {'Внешний вид': '5', 'Комфорт': '4,5', 'Безопа...
482    {'Внешний вид': '5', 'Комфорт': '4,5', 'Безопа...
483    {'Внешний вид': '5', 'Комфорт': '4,5', 'Безопа...
484    {'Внешний вид': '5', 'Комфорт': '4,5', 'Безопа...
Name: short_structured_description, Length: 485, dtype: object

In [62]:
def avg(x: List[float]) -> Optional[float]:
    x = list(x)
    if len(x) == 0:
        return None
    return round(sum(x) / len(x), 2) 

def to_int(x: Iterable[str]) -> List[float]:
    result = []
    for i in x:
        try:
            if "," in i:
                i = i.replace(",", '.')
            i = float(i)
        except ValueError as e:
            continue
        result += [i]
    return result 

df[ExtraData.plus.value] = df["short_structured_description"].apply(parce_short_structured_description, get=ExtraData.plus)
df[ExtraData.minus.value] = df["short_structured_description"].apply(parce_short_structured_description, get=ExtraData.minus)
df[ExtraData.autor_review.value] = df["short_structured_description"].apply(parce_short_structured_description, get=ExtraData.autor_review)
df[ExtraData.all_review.value] = df["short_structured_description"].apply(parce_short_structured_description, get=ExtraData.all_review)
df["срелняя по всем категориям оценивания оценка автора"] = df["short_structured_description"].apply(parce_short_structured_description, get=ExtraData.autor_review).apply(lambda x: avg(to_int(x.values())))
df["срелняя по всем категориям оценивания оценка средневзвешенная по всем ревью"] = df["short_structured_description"].apply(parce_short_structured_description, get=ExtraData.all_review).apply(lambda x: avg(to_int(x.values())))

In [63]:
class UserInfo(Enum):
    user_info_year = "год, когда ревьюер создал аккаунт"
    nick = "ник\имя ревьюера"
    link = "ссылка на страницу пользователя"

def parce_user_info(data, get: UserInfo=UserInfo):
    result = {UserInfo.user_info_year: None, UserInfo.nick: None, UserInfo.link: None}
    soup = BeautifulSoup(data, "html.parser")
    result[UserInfo.user_info_year] = soup.find("div", class_="Review__userInfoYear").text
    try:
        user_info = soup.find("a", class_="Link")
        result[UserInfo.nick] = user_info.text
        result[UserInfo.link] = user_info.get("href")
    except AttributeError as e:
        pass
    return result[get]


df["user_info"].apply(parce_user_info, get=UserInfo.nick)

0                  Алексей
1                  Дмитрий
2      Коричневый грузовик
3            KobayashiMaru
4                  Дмитрий
              ...         
480                 Николь
481        Александр Шошин
482                Анзорик
483     Василевский Никита
484                  Ольга
Name: user_info, Length: 485, dtype: object

In [64]:
df[UserInfo.user_info_year.value] = df["user_info"].apply(parce_user_info, get=UserInfo.user_info_year)
df[UserInfo.nick.value] = df["user_info"].apply(parce_user_info, get=UserInfo.nick)
df[UserInfo.link.value] = df["user_info"].apply(parce_user_info, get=UserInfo.link)

In [65]:
df.drop(columns=['short_structured_description', 'user_info'], inplace = True)
df.rename(columns={"Unnamed: 0":"№"}, inplace=True)

In [75]:
all_emijis = demoji.findall(" ".join(df["main_text"]))

In [76]:
all_emijis

{'🚫': 'prohibited',
 '🚀': 'rocket',
 '🤣': 'rolling on the floor laughing',
 '👎': 'thumbs down',
 '😏': 'smirking face',
 '💯': 'hundred points',
 '😀': 'grinning face',
 '💣': 'bomb',
 '👍': 'thumbs up',
 '✌️': 'victory hand',
 '☺️': 'smiling face',
 '😂': 'face with tears of joy',
 '🍋': 'lemon',
 '😭': 'loudly crying face',
 '😄': 'grinning face with smiling eyes',
 '🔥': 'fire',
 '😎': 'smiling face with sunglasses',
 '😆': 'grinning squinting face',
 '😜': 'winking face with tongue',
 '😁': 'beaming face with smiling eyes',
 '😳': 'flushed face',
 '👏': 'clapping hands',
 '😉': 'winking face',
 '👍🏻': 'thumbs up: light skin tone',
 '🤭': 'face with hand over mouth',
 '😢': 'crying face',
 '🚕': 'taxi',
 '👌': 'OK hand',
 '😇': 'smiling face with halo',
 '🤦🏽\u200d♀️': 'woman facepalming: medium skin tone',
 '😅': 'grinning face with sweat',
 '🤔': 'thinking face'}

In [82]:
emijis_change = {
 '🚫': "запрещенно",
 '🚀': "ракета",
 '🤣': "смешно до слез",
 '👎': "отстой",
 '😏': "ухмылка",
 '💯': "сто баллов",
 '😀': "ухмылка",
 '💣': "бомба",
 '👍': "круто",
 '✌️': "клас",
 '☺️': "улыбка",
 '😂': "радостно",
 '🍋': "лемон",
 '😭': "грустно",
 '😄': "смешно",
 '🔥': "клас",
 '😎': "круто",
 '😆': "смешно",
 '😜': '',
 '😁': "улыбка",
 '😳': "странно",
 '👏': "браво",
 '😉': '',
 '👍🏻': "хорошо",
 '🤭': "забавно",
 '😢': "грустно",
 '🚕':  "такси",
 '👌': "хорошо",
 '😇': "улыбка",
 '🤦🏽\u200d♀️': "глупость",
 '😅': 'grinning face with sweat',
 '🤔': 'thinking face'}

In [97]:
def replace_emoji(s:str, replace_map: Dict[str, str]) -> str:
    result = ""
    emojis = set(replace_map.keys())
    for char in s:
        if char in emojis:
            result += " " + replace_map[char] + " "
        else:
            result += char
    result = result.replace("  ", " ")
    return result

# df["main_text"].apply(replace_emoji, replace_map=emijis_change).loc[12]

In [96]:
df["main_text_without_emoji"] =  df["main_text"].apply(replace_emoji, replace_map=emijis_change)

In [91]:
df["main_text"].loc[12]

'Тачка огонь 🚀💣. Дизайнер постарался. За 7 дней одни восхищения, с каждым днём все новые и новые. 👏👏👏Одно только раздражает, в заднюю полку поставлен сабвуфер Bose (в железо), а сверху накрыт пластиковой полкой которая капец как гремит. Зачем поставили систему босс, если слушать с такой полкой невозможно😆😆😆. Это за 2,15₽ 🤭 временно подлечил вставив между задним стеклом и полкой свернутое маленькое полотенце 😂🤣😂После мойки и протирки, при езде из щелей польётся вода. Много щелей из за декораций. Для дилетантов из коментов. 1.  Расход по пустому городу ехав по правилам 7.2л. (На 92 экто!)2. Одноразовый движок. Говорить рано, 2,5 движка абсолютно новый, как и коробка 8 ступая. 3 Движка 2.5, топливо предписано не ниже 91. Разницы с 95, пока не ощутил. 4. Подвеска, да жёстче Тойоты, но жесткость скованая, более в спорт, как то не особо замечаешь за минус.  Клиренс сойдёт, ещё не разу днищем не задел. '

In [99]:
df.to_excel('data2.xlsx', index = False)

In [11]:
df[["mark", "model"]].drop_duplicates().values.tolist()

[['Kia', 'K5'],
 ['Kia', 'Stinger'],
 ['Toyota', 'Corolla'],
 ['Toyota', 'Camry'],
 ['Skoda', 'Octavia'],
 ['Skoda', 'Superb'],
 ['Volkswagen', 'Passat (North America and China)'],
 ['Honda', 'Accord'],
 ['Audi', 'A3'],
 ['Hyundai', 'Elantra'],
 ['Mazda', '6'],
 ['JAC', 'J7'],
 ['OMODA', 'S5'],
 ['Chery', 'Arrizo 8'],
 ['Changan', 'UNI-V']]

In [23]:
df3 = pd.read_csv("data3.csv")

In [22]:
df2 = pd.read_csv("data2.csv")

In [25]:
df1 = pd.read_excel("data2.xlsx")

In [29]:
# xlwriter = pd.ExcelWriter('output.xlsx')
# df1.to_excel(xlwriter, sheet_name='автору') 
# df2.to_excel(xlwriter,sheet_name='дром')
# df3.to_excel(xlwriter,sheet_name='авито')
# xlwriter.close()