In [45]:
import requests
import pandas as pd
import time
import re
from bs4 import BeautifulSoup

In [56]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

In [22]:
df = pd.read_json('news_data_new.json', lines=True)

In [26]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11490 entries, 0 to 11489
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   title        11490 non-null  object
 1   description  11490 non-null  object
 2   publishedAt  11490 non-null  object
dtypes: object(3)
memory usage: 269.4+ KB


In [38]:
def clean_text(text: str) -> str:
    text = text.lower()
    text = re.sub(r'<.*?>', '', text)
    text = re.sub(r'http\S+|www\S+|https\S+', '', text, flags=re.MULTILINE)
    text = text.strip()
    return text

In [42]:
df['cleaned_description'] = df['description'].apply(clean_text)
df['cleaned_title'] = df['title'].apply(clean_text)

In [44]:
df

Unnamed: 0,title,description,publishedAt,cleaned_description,cleaned_title
0,Кредит с большого бодуна,К концу длинных новогодних праздников многие о...,9/1/2012,к концу длинных новогодних праздников многие о...,кредит с большого бодуна
1,Право на пиратство могут оставить,История с «налогом на болванки» не утихает. На...,10/1/2012,история с «налогом на болванки» не утихает. на...,право на пиратство могут оставить
2,Кровь износа,"Трагедия, случившаяся на новогодних каникулах ...",10/1/2012,"трагедия, случившаяся на новогодних каникулах ...",кровь износа
3,Владимир Путин: «Взяли и вдули!»,Нигде еще так не игнорировали требование прави...,10/1/2012,нигде еще так не игнорировали требование прави...,владимир путин: «взяли и вдули!»
4,Италия поможет вывести Европу из кризиса,В Берлине 11 января состоялась встреча канцлер...,11/1/2012,в берлине 11 января состоялась встреча канцлер...,италия поможет вывести европу из кризиса
...,...,...,...,...,...
11485,Долги по квартире на шее: в России заметно выр...,За первые пять месяцев 2024 года объем жилищны...,2/9/2024,за первые пять месяцев 2024 года объем жилищны...,долги по квартире на шее: в россии заметно выр...
11486,Эксперты указали на риски от открытия филиалов...,В России с 1 сентября власти разрешили открыва...,2/9/2024,в россии с 1 сентября власти разрешили открыва...,эксперты указали на риски от открытия филиалов...
11487,"Эксперты узнали, где возвели больше всего ново...",В минувшем августе в России заметно упали темп...,3/9/2024,в минувшем августе в россии заметно упали темп...,"эксперты узнали, где возвели больше всего ново..."
11488,Названа сумма набранных россиянами микрокредит...,500 миллиардов рублей — на такую сумму россиян...,3/9/2024,500 миллиардов рублей — на такую сумму россиян...,названа сумма набранных россиянами микрокредит...


In [50]:
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('punkt_tab')
stop_words = set(stopwords.words('russian'))

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/alexanderknyshov/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/alexanderknyshov/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     /Users/alexanderknyshov/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


In [51]:
def tokenize_and_remove_stopwords(text: str) -> list:
    tokens = word_tokenize(text)
    tokens = [word for word in tokens if word not in stop_words]
    return tokens

In [52]:
df['tokens_title'] = df['cleaned_title'].apply(tokenize_and_remove_stopwords)
df['tokens_description'] = df['cleaned_description'].apply(tokenize_and_remove_stopwords)

In [57]:
nltk.download('wordnet')
nltk.download('omw-1.4')
lemmatizer = WordNetLemmatizer()

def lemmatize_tokens(tokens):
    return [lemmatizer.lemmatize(token) for token in tokens]

df['lemmatized_title'] = df['tokens_title'].apply(lemmatize_tokens)
df['lemmatized_description'] = df['tokens_description'].apply(lemmatize_tokens)

[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/alexanderknyshov/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     /Users/alexanderknyshov/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


In [62]:
df['lemmatized_description'][0]

['концу',
 'длинных',
 'новогодних',
 'праздников',
 'многие',
 'оказываются',
 'буквально',
 'копейки',
 ':',
 'потрачено',
 'веселье',
 '.',
 'зарплаты',
 'полмесяца',
 ',',
 'долг',
 'никто',
 'дает',
 ':',
 'друзья',
 'сами',
 'денег',
 'сидят',
 '.',
 'поможет',
 'микрокредит',
 '.',
 'раньше',
 'микрофинансированием',
 'занимались',
 'ростовщики',
 ',',
 'выгодное',
 'дело',
 'взялись',
 'банки',
 '.']

In [60]:
df.to_json('financial_news_lemmatized.json', orient='records', lines=True, force_ascii=False)