In [1]:
# pip install pymorphy2 >> None

In [2]:
import pandas as pd
import os
import re
import pymorphy2
import nltk
from nltk.corpus import stopwords
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)

In [3]:
# задаем директорию
file_path = '../datasets/'

In [4]:
# открываем файлы с данными
posts = pd.read_csv(os.path.join(file_path, 'posts.csv'), index_col=0)
profiles = pd.read_csv(os.path.join(file_path, 'profiles.csv'), index_col=0)

In [5]:
# открываем датафрейм с постами
posts.head(2)

Unnamed: 0,user_id,text,likes,comments,reposts
0,ali-wodan,Кстати говоря. Теперь подкаст Миражи доступен в соцсети Вконтакте: https://lnkd.in/gKkrJX9Я наконец разобрался как туда прикрутить RSS :-) #podcast #миражи,1,0,0
1,ali-wodan,I’m #hiring. Know anyone who might be interested?,1,0,0


In [6]:
# открываем датафрейм с информацией о пользователях
profiles.head(2)

Unnamed: 0,id,user_name,user_head,user_work,user_position,user_tags,user_location,user_viewers,user_contacts,user_common_info
0,ali-wodan,Ali Wodan,Head of Design,Performix,Head Of Design,"podcast, it","Москва, Московская область, Россия",2 391,500+,"I am a digital product design lead. I've been designing digital systems for years. Teams creating, management, design process building, user research, analytics etc. it's all that i like to do. Also I am into psychology, music, philosophy."
1,ikotow,Игорь Котов,Директор по производству – Технократия,Технократия,Технократия,"it, обучение, менеджмент, технологии, производство","Казань, Республика Татарстан, Россия",340,338,Making IT production great again! Создатель сервиса для управления ресурсами: Resourcer.appМой telegram-канал: https://t.me/pastikotow


In [7]:
# переименуем столбец text в post для лучшего отражения содержимого
posts = posts.rename(columns={'text': 'post'})

**Предобработка данных**

In [8]:
# функция удаления эмодзи
def remove_emojis(text):
    emoji_pattern = re.compile("["
                               u"\U0001F600-\U0001F64F"  # смайлики
                               u"\U0001F300-\U0001F5FF"  # символы и пиктограммы
                               u"\U0001F680-\U0001F6FF"  # транспорт и символы на карте
                               u"\U0001F1E0-\U0001F1FF"  # флаги
                               u"\U00002500-\U00002BEF"  # китайские символы
                               # другие разные символы
                               u"\U00002702-\U000027B0"
                               u"\U00002702-\U000027B0"
                               u"\U000024C2-\U0001F251"
                               u"\U0001f926-\U0001f937"
                               u"\U00010000-\U0010ffff"
                               u"\u2640-\u2642" 
                               u"\u2600-\u2B55"
                               u"\u200d"
                               u"\u23cf"
                               u"\u23e9"
                               u"\u231a"
                               u"\ufe0f"  
                               u"\u3030"
                               "]+", flags=re.UNICODE)
    # Удаляем эмодзи, используя паттерны
    text_without_emojis = emoji_pattern.sub(r'', text)
    return text_without_emojis

# удаляем эмодзи из постов
posts['post'] = posts['post'].apply(lambda x: remove_emojis(x) if pd.notnull(x) else x)

In [9]:
# удалим посты на украинском языке

# определяем шаблон для украинских символов (по специфичным для данного языка символам)
ukrainian_pattern = r'[ЄєІіЇїҐґ]'

# создаем маску, указывающую строки, в которых столбец "post" содержит текст на украинском языке
mask = posts['post'].str.contains(ukrainian_pattern, regex=True, na=False)

# сохраняем в датафрейме только строки, в которых маска имеет значение False
posts = posts[~mask]

# определяем шаблон для украинских символов
# ukrainian_pattern = r'[ЄєІіЇїҐґ]'

# # сохраняем в датафрейме только те строки, в которых столбец "post" не содержит текста на украинском языке
# posts = posts[~posts['post'].str.contains(ukrainian_pattern, regex=True, na=False)]

In [10]:
def add_space_after_link_before_russian_and_hashtag(text):
    # Ищем ключевые слова "https" или "http", за которыми следуют ссылки
    key_https = r'(https?://\S+?)([А-Яа-яЁё]|(?=\s)|(?=#))'
    
    # Для расстановки пробела
    replacement = r'\1 \2'
    
    return re.sub(key_https, replacement, text)

def add_space_after_link_after_english(text):
    # Ищем ключевое слово "https" после английской буквы (до ссылки)
    key_https = r'(?<=[A-Za-z])https'
    
    # Для расстановки пробела
    replacement = r' https'
    
    return re.sub(key_https, replacement, text)

In [11]:
# Расставим пробелы после ссылки перед русской буквы и хэштега
posts['post'] = posts['post'].apply(add_space_after_link_before_russian_and_hashtag)

# Расставим пробелы перед ссылкой после английских букв
posts['post'] = posts['post'].apply(add_space_after_link_after_english)

In [12]:
# Проверим
posts.loc[posts['post'].str.contains('http'), 'post'].head(2)

0                                                                                                                                                                                                                                                                                                                                               Кстати говоря. Теперь подкаст Миражи доступен в соцсети Вконтакте: https://lnkd.in/gKkrJX9 Я наконец разобрался как туда прикрутить RSS :-) #podcast #миражи
2    Хэй честной народ! Ищу векторного иллюстратора на проект, с возможным длительным сотрудничеством по итогу. Можно удаленно. Уровень иллюстраций не хуже чем в примере https://lnkd.in/gkrvhxY Репост, пожалуйста)Если ты умеешь так рисовать, напиши мне в личку :-)Hey! I am looking for an Illustrator who can help us with a project! You need to have skills like in the example below or upper. Text me to discuss prices and due :-)#вакансия #vacancy #illustration #иллюстрация #project #проект
Name: post, dt

In [13]:
# Проверим
posts.loc[posts['post'].str.contains('http'), 'post'].tail(2)

8585                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  Today I published my first tech article. Check it out https://lnkd.in/gyW9TSw  . Leave comment below your thoughts about it. #reactnative #responsivedesign #javascript
8597    Данные в макетах - 101. Интерфейс 

In [14]:
posts.head()

Unnamed: 0,user_id,post,likes,comments,reposts
0,ali-wodan,Кстати говоря. Теперь подкаст Миражи доступен в соцсети Вконтакте: https://lnkd.in/gKkrJX9 Я наконец разобрался как туда прикрутить RSS :-) #podcast #миражи,1,0,0
1,ali-wodan,I’m #hiring. Know anyone who might be interested?,1,0,0
2,ali-wodan,"Хэй честной народ! Ищу векторного иллюстратора на проект, с возможным длительным сотрудничеством по итогу. Можно удаленно. Уровень иллюстраций не хуже чем в примере https://lnkd.in/gkrvhxY Репост, пожалуйста)Если ты умеешь так рисовать, напиши мне в личку :-)Hey! I am looking for an Illustrator who can help us with a project! You need to have skills like in the example below or upper. Text me to discuss prices and due :-)#вакансия #vacancy #illustration #иллюстрация #project #проект",6,0,0
3,ali-wodan,"Новый пост подкаста ""Миражи"" на всех платформах:В аудио: https://lnkd.in/giWuSVN В инстаграме: https://lnkd.in/gbV6yxK Н #automotive # # #cars #а патреоне: https://lnkd.in/gfShqTU #саморазвитие #психология #психологиячеловека #психологияжизни #психологияличности #личностныйрост #подкаст #подкастмиражи #маркетинг #осознанность #мысли #мысливслух #установки #влияние #подсознаниеИспользованные звуки, музыка и картинки:Аудиоцитата из фильма ""Формула любви"" Марка ЗахароваJardins du Luxembourg by Jahzzar is licensed under a Attribution-ShareAlike 3.0 International License.prisoner by Luis Prado from the Noun Project",1,0,0
4,ali-wodan,"Подкаст Миражи, Эпизод 13Ошибка невозвратных затратpodcast.ru/1539345144#подкаст #podcast #it #podcasts #psychology #психология #miragespodcast",2,0,0


In [15]:
# функция лемматизации текста
morph = pymorphy2.MorphAnalyzer()
def lemmatize_text(text):
    lemmatized_words = [morph.parse(word)[0].normal_form for word in text.split()]
    return ' '.join(lemmatized_words)

# лемматизируем посты
posts['post_lemmatized'] = posts['post'].apply(lemmatize_text)

In [16]:
# удаляем слова, которые идут после хэш-тэга
posts['post_lemmatized'] = posts['post_lemmatized'].apply(lambda x: re.sub(r'#[^\s]+', '', x))

In [17]:
# производим замену дефиса на пробел
posts["post_lemmatized"] = posts["post_lemmatized"].str.replace("-", " ")

In [18]:
# удаляем лишние текстовые символы (те, которые не состоят из букв русского алфавита)

# только русские буквы и пробелы
posts['post_lemmatized'] = posts['post_lemmatized'].str.replace('[^а-яА-ЯёЁ\s]', '', regex=True) 

# только русские, английские буквы и пробелы
# posts['post_lemmatized'] = posts['post_lemmatized'].apply(lambda x: re.sub(r'[^а-яА-ЯёЁa-zA-Z\s]', ' ', x))

# Шаблон '\W' в методе str.replace() представляет любой символ, не состоящий из слов, в т.ч. пробелы.
# Шаблон '[^\w\s]' пробелы оставляет, '[^\w\s\d]' + цифры

In [19]:
# скачиваем стоп-слова 
nltk.download('stopwords')
stop_words = set(stopwords.words('russian'))

# еще один список от bukvarix.com - список стоп-слов Яндекс Wordstat - (этот список можно дополнить/изменить)
file_path_words = os.path.join(file_path, 'stop_words.txt')
with open(file_path_words, 'r', encoding='utf-8') as file:
    stop_words_buk = file.read()

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Papin\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [20]:
# удаляем стоп-слова и слова-паразиты
posts['post_lemmatized'] = posts['post_lemmatized'].apply(lambda x: ' '.join([word for word in x.split() if word not in stop_words]))
posts['post_lemmatized'] = posts['post_lemmatized'].apply(lambda x: ' '.join([word for word in x.split() if word.lower() not in stop_words_buk]))

In [21]:
'''если НЕ оставляем в постах английские слова'''
# определяем шаблон регулярного выражения для русских букв
pattern = '[^а-яА-ЯёЁ]'
# создаем маску, чтобы проверить, содержит ли каждая ячейка русские буквы
mask = posts['post_lemmatized'].str.contains(pattern, regex=True)
# фильтруем датафрейм, используя маску
posts = posts[mask]

# '''если оставляем в постах английские слова'''
# pattern = '[^а-яА-ЯёЁ]'
# mask = posts['post_lemmatized'].str.contains(pattern, regex=True)
# posts = posts[mask]

# english_letters_mask = posts['post_lemmatized'].str.match(r'^[a-zA-Z\s]+$')
# posts = posts[~english_letters_mask]

In [22]:
posts.head()

Unnamed: 0,user_id,post,likes,comments,reposts,post_lemmatized
0,ali-wodan,Кстати говоря. Теперь подкаст Миражи доступен в соцсети Вконтакте: https://lnkd.in/gKkrJX9 Я наконец разобрался как туда прикрутить RSS :-) #podcast #миражи,1,0,0,кстати говоря подкаст мираж доступный соцсеть вконтакте разобраться туда прикрутить
2,ali-wodan,"Хэй честной народ! Ищу векторного иллюстратора на проект, с возможным длительным сотрудничеством по итогу. Можно удаленно. Уровень иллюстраций не хуже чем в примере https://lnkd.in/gkrvhxY Репост, пожалуйста)Если ты умеешь так рисовать, напиши мне в личку :-)Hey! I am looking for an Illustrator who can help us with a project! You need to have skills like in the example below or upper. Text me to discuss prices and due :-)#вакансия #vacancy #illustration #иллюстрация #project #проект",6,0,0,хэй честной народ искать векторный иллюстратор проект возможный длительный сотрудничество итогу удаленно уровень иллюстрация плохой пример репост пожалуйстаести уметь рисовать написать личка
3,ali-wodan,"Новый пост подкаста ""Миражи"" на всех платформах:В аудио: https://lnkd.in/giWuSVN В инстаграме: https://lnkd.in/gbV6yxK Н #automotive # # #cars #а патреоне: https://lnkd.in/gfShqTU #саморазвитие #психология #психологиячеловека #психологияжизни #психологияличности #личностныйрост #подкаст #подкастмиражи #маркетинг #осознанность #мысли #мысливслух #установки #влияние #подсознаниеИспользованные звуки, музыка и картинки:Аудиоцитата из фильма ""Формула любви"" Марка ЗахароваJardins du Luxembourg by Jahzzar is licensed under a Attribution-ShareAlike 3.0 International License.prisoner by Luis Prado from the Noun Project",1,0,0,новый пост подкаст миражи платформахть аудио инстаграме патреоне звуки музыка картинкиаудиоцитат фильм формула любви марк захарова
4,ali-wodan,"Подкаст Миражи, Эпизод 13Ошибка невозвратных затратpodcast.ru/1539345144#подкаст #podcast #it #podcasts #psychology #психология #miragespodcast",2,0,0,подкаст миражи эпизод ошибка невозвратный затрат
5,ali-wodan,Новый эпизод об эффекте ИКЕА на всех платформах podcast.ru/1539345144,1,0,0,новый эпизод эффект икеа платформа


In [23]:
# Удаляем ключевое слово https, потому что они не могут преобразовать в векторизацию текстов, т.к. нет смысловых нагрузков
def remove_https_before_space(text):
    # Ищем ключевое слово "https" за которым следует любой непробельный символ до пробела
    key_https = r"(https)(\S*\s)"
    
    # Находим все соответствия ключевому слову "https" и словам после него до пробела
    matches = re.findall(key_https, text)
    
    # Удаляем найденные слова
    for match in matches:
        word = match[1]
        text = text.replace('https' + word, "")
    
    return text.strip()

In [24]:
# удаляем слова, которые идут по ключевому слову https
posts['post_lemmatized'] = posts['post_lemmatized'].apply(remove_https_before_space)

In [25]:
posts.sample(20)

Unnamed: 0,user_id,post,likes,comments,reposts,post_lemmatized
1115,enjirouz,Чем различается работа на удалёнке с офисной работой? Разбираемся в новом видео: https://lnkd.in/dtgNxPa #ityoutubersru #удаленка #войтивайти #разработка #работа,1,1,0,различаться работа удалёнка офисный работой разбираться новый видео
897,drazd,"Рассказали про наши успехи и новые разработки, которые совсем скоро выйдут на конференции «Гиперавтоматизация-2023». Конференцию проводили «Открытые системы», которые на сегодняшний день проводят мероприятия с самым сочным контентом из мира RPA, который мало где еще услышишь и увидишь. Отдельно важно то, что все вендоры, несмотря на довольно сильную конкуренцию, остаются людьми с большой душой и всегда готовы к дружескому диалогу за чашечкой кофе. Это дает уверенность в будущем нашего сегмента на IT-рынке, так как только в такой позитивной обстановке можно принести действительно нужные бизнесу технологии в массы. #rpa #pix #pixrobotics #osp #гиперавтоматизация #открытыесистемы",10,2,0,рассказать успех новый разработки скоро выйти конференция гиперавтоматизация конференция проводить открытый системы сегодняшний день проводить мероприятие самый сочный контент мир мало ещё услышать увидишь отдельно важно всё вендоры несмотря довольно сильный конкуренцию оставаться человек большой душа готовый дружеский диалог чашечка кофе давать уверенность будущее сегмент рынке позитивный обстановка принести действительно нужный бизнес технология массы
5954,ivan-mushavets,David Lolaev #Отзывы с благодарностью Благодарю за отличную командную работу #Отличная_командная_работа,0,0,0,благодарность благодарить отличный командный работа
5945,ivan-mushavets,"Ещё один проект Haiku, которым мы гордимся: СберКласс.Это современная цифровая платформа для школы. СберКласс учитывает потребности каждого учителя и класса, позволяет выстраивать персонализированные траектории обучения, планировать уроки, использовать разные способы проверки заданий, следить за прогрессом учеников и многое другое Мы подключились к проекту летом 2020-го. Изначально команда занималась разработкой игровых модулей платформы в сотрудничестве с геймдизайнерами СБО. В платформу вошли гуманитарные и точные науки: география, математика, история и физика.Впоследствии мы расширили команду на проекте, и она подключилась к разработке ядра платформы. Наша команда занималась конструктором и плеером контента. Мы разработали тренажеры (виджеты), которыми может пользоваться учитель, и плеер, которым пользуются ученики.На тот момент команда Haiku состояла из 15-ти человек. Получив отличные результаты, СберОбр оставил заявку на формирование ещё двух команд под нашим руководством – Дашборд и Мобильная разработка. Мы разработали дашборды –систему отчётов и визуальных графиков, которые отражают суть процесса обучения и отображаются на главной странице платформы.В сжатые сроки с нуля сделали мобильные приложения для ios&android, которые дублировали функционал сайта. На максимуме в СберКлассе от Haiku работали 3 команды, всего около 35-ти человек.Сейчас СберКласс применяется в общеобразовательных школах и проекте Хорошкола, используется в ведущих школах РФ (всего на платформе более 100к пользователей). Сберкласс доступен из любой точки мира и позволяет ученику обучаться и двигаться вперед, где бы он ни находился. Учиться интереснее благодаря персонализированной модели образования — игровым механикам, интерактивным тренажерам, соревновательной статистике и подборке предметов, которые основаны на научном подходе Frontend: JavaScript & TypeScript, React, Effector, Styled Components, Tailwind, Immer, Lodash, BitBucket, Jira, Confluence, FigmaBackend: Java Core, Collections, Concurrency; Spring (Core, Data, MVC, Security); SQL (PostgreSQL/MySQL); Apache Kafka; MongoDB; Jira, Confluence, BitBucketMobile: TypeScript, React Native, React Hooks, Effector, GQL (Apollo), Reanimated 2, React Navigation, Storybook, DetoxQA Mobile: Adb, Xcode, Fiddler. QAA Mobile: JavaScript & TypeScript, Jest, BitBucketСайт проекта: https://sberclass.ru #fintech #edtech #ecommerce #blockchain #softwaredevelopment #web3 #mobileapps",37,0,12,ещё проект гордимся сберклассэтый современный цифровой платформа школы сберкласс учитывать потребность каждый учитель класса позволять выстраивать персонализировать траектория обучения планировать уроки использовать разный способ проверка заданий следить прогресс ученик многое подключиться проект лето изначально команда заниматься разработка игровой модуль платформа сотрудничество геймдизайнер сбо платформа войти гуманитарный точный науки география математика история физикавпоследствие расширить команда проекте подключиться разработка ядро платформы команда заниматься конструктор плеер контента разработать тренажёр виджеты пользоваться учитель плеер пользоваться ученикиич момент команда состоять человек получить отличный результаты сберобразец оставить заявка формирование ещё команда руководство дашборд мобильный разработка разработать дашборд система отчёт визуальный графиков отражать процесс обучение отображаться главный страница платформыть сжатый срок нуль сделать мобильный приложение дублировать функционал сайта максимум сберкласс работать команды около человексейчас сберкласс применяться общеобразовательный школа проект хорошкола использоваться ведущий школа рф платформа пользователей сберкласс доступный любой точка мир позволять ученик обучаться двигаться вперед находился учиться интересный благодаря персонализировать модель образование игровой механикам интерактивный тренажерам соревновательный статистика подборка предметов основать научный подход сайт проекта
910,drazd,"Сегодня, 9 февраля 2023 года, исполняется 100 лет гражданской авиации России! Вся моя семья так или иначе всегда была связана с авиацией. Сам я с 2007 по 2012 учился в университете, и с 2009 по 2013 работал в научно-исследовательском институте Гражданской Авиации (НЦ10, МЛГВС - Мониторинг летной годности воздушных судов). К сожалению, жизнь сложилась так, что с 2013 года я ушел из авиации. Надеюсь, в будущем мой накопленный опыт и навыки пригодятся и в гражданской авиации, но сегодня я могу только поздравить всех своих бывших коллег и прочих причастных с этим великим днем! #авиация #авиацияроссии #деньгражданскойавиации #россия #самолеты #мс21 #aviation #civilaviation #mc21",10,0,0,сегодня февраль года исполняться год гражданский авиация россии семья иначе связать авиацией учиться университете работать научно исследовательский институт гражданский авиация нц млгвс мониторинг лётный годность воздушный судов сожалению жизнь сложиться год уйти авиации надеюсь будущее накопить опыт навык пригодиться гражданский авиации сегодня поздравить бывший коллега прочий причастный великий днем
2398,nikolay-schwartz,"Как вы считаете, стоит ли эксперту работать в данной компании дальше? и Чем это ему грозит?",0,0,0,считаете стоить эксперт работать дать компания дальше грозит
868,designeragaltsova,"Здравствуйте! Если вы только начали отслеживать меня, то вот о чем я пишу: #design, #game, #3d и #illustration.Сообщите мне, какая тема вас интересует больше всего!",0,0,0,здравствуйте начать отслеживать пишу тема интересовать большой
2649,kokot-dmytro,"I’m #hiring for an open role. Know anyone who would be a good fit? #dotnet В поисках #csharp талантов на bigdata Облака, кубер, clickhouse и многое другое",3,0,0,поиск талант облака кубер многое
8571,jasurkurbanov,"Привет! Я рассматриваю вакансии front-end разработчика — лучше всего умею разрабатывать на React, но мне любопытно поработать и с другими JavaScript-инструментами.Умею фокусироваться в условиях неопределённости и помогать сфокусироваться другим, а также делиться опытом и знаниями. Пишу понятный код и постепенно повышаю понятность кодовой базы на проекте.В профиле больше информации обо мне.#OpenToWork #JavaScript #Frontend #React",4,0,0,привет рассматривать вакансия разработчик хороший уметь разрабатывать любопытно поработать инструментамиуметь фокусироваться условие неопределённость помогать сфокусироваться другим также делиться опыт знаниями писать понятный код постепенно повышать понятность кодовый база проектеть профиль большой информация
780,melekes,Находки в сети за октябрь,0,0,0,находка сеть октябрь


In [26]:
posts.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2118 entries, 0 to 8597
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   user_id          2118 non-null   object
 1   post             2118 non-null   object
 2   likes            2118 non-null   object
 3   comments         2118 non-null   int64 
 4   reposts          2118 non-null   int64 
 5   post_lemmatized  2118 non-null   object
dtypes: int64(2), object(4)
memory usage: 115.8+ KB


Объединяем датафреймы

In [27]:
# переименуем столбец id в user_id в датафрейме profiles, для последующего объединения с posts
profiles = profiles.rename(columns={'id': 'user_id'})

In [28]:
# объединяем датафреймы
df = pd.merge(posts, profiles, on='user_id')

In [29]:
# удаляем лишние столбцы
#df = df.drop(columns=['Unnamed: 0_x', 'Unnamed: 0_y'], axis=1)

In [30]:
# удаляем дубликаты
df.drop_duplicates(inplace=True)

In [31]:
# удаляем из столбца likes точки, запятые и пробелы
df["likes"] = df["likes"].replace(r'\.|\,|\s', '', regex=True)

# меняем тип данных сотлбца likes на integer
df["likes"] = df["likes"].astype("int64")

In [32]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2109 entries, 0 to 2117
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   user_id           2109 non-null   object
 1   post              2109 non-null   object
 2   likes             2109 non-null   int64 
 3   comments          2109 non-null   int64 
 4   reposts           2109 non-null   int64 
 5   post_lemmatized   2109 non-null   object
 6   user_name         2109 non-null   object
 7   user_head         2109 non-null   object
 8   user_work         2020 non-null   object
 9   user_position     2109 non-null   object
 10  user_tags         401 non-null    object
 11  user_location     2102 non-null   object
 12  user_viewers      2109 non-null   object
 13  user_contacts     2109 non-null   object
 14  user_common_info  1917 non-null   object
dtypes: int64(3), object(12)
memory usage: 263.6+ KB


In [33]:
# Сохраняем датафрейм
df.to_csv(os.path.join(file_path, 'linkedin.csv'))

# Сохраняем датафрейм лемматизации
df[['user_id', 'post_lemmatized']].to_csv(os.path.join(file_path, 'post_lemmatized.csv'))