In [5]:
import pandas as pd
import numpy as np

In [7]:
df = pd.read_excel('migration_data.xlsx') # загружаем данные из excel файла

In [9]:
df.head()

Unnamed: 0,Column1,href,title,alt_title,date,text,source,target
0,0.0,https://ria.ru/20231114/sud-1909322988.html,"Экс-полицейский из Москвы получил 8,5 года кол...",,2023-11-14 11:43:00,"МОСКВА, 14 ноя – РИА Новости. Суд в Москве пр...",Риа Новости,1
1,1.0,https://ria.ru/20231116/konkurs-1909724633.html,В Буэнос-Айресе продолжается этап роуд-шоу кон...,,2023-11-16 03:34:00,"БУЭНОС-АЙРЕС, 16 ноя — РИА Новости. Творческо...",Риа Новости,0
2,2.0,https://realty.ria.ru/20231116/turtsiya-190981...,Россияне лидируют среди иностранных покупателе...,,2023-11-16 13:35:00,"СТАМБУЛ, 16 ноя - РИА Новости. Россияне 19-й ...",Риа Новости,0
3,3.0,https://ria.ru/20231116/liepa-1909865840.html,Балерина Лиепа отреагировала на угрозу лишить ...,,2023-11-16 16:05:00,"МОСКВА, 16 ноя - РИА Новости. Балерина Илзе Л...",Риа Новости,0
4,4.0,https://ria.ru/20231116/migranty-1909866794.html,"Эстония обвинила Россию в том, что она не заде...",,2023-11-16 16:09:00,"ХЕЛЬСИНКИ, 16 ноя - РИА Новости. Министр внут...",Риа Новости,0


In [11]:
df.target.value_counts() # 647 новости нас интересуют

target
0    1727
1     647
Name: count, dtype: int64

In [115]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2374 entries, 0 to 2373
Data columns (total 8 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   Column1    2372 non-null   float64       
 1   href       2374 non-null   object        
 2   title      1507 non-null   object        
 3   alt_title  966 non-null    object        
 4   date       2371 non-null   datetime64[ns]
 5   text       2371 non-null   object        
 6   source     2371 non-null   object        
 7   target     2374 non-null   int64         
dtypes: datetime64[ns](1), float64(1), int64(1), object(5)
memory usage: 148.5+ KB


In [27]:
train_df = df[['text', 'target']].dropna()

In [29]:
train_df_migration = train_df[train_df.target == 1] # все интересующие новости мы собрали в датафрейме train_df_migration

In [31]:
train_df_migration.head()

Unnamed: 0,text,target
0,"МОСКВА, 14 ноя – РИА Новости. Суд в Москве пр...",1
40,"КРАСНОДАР, 22 ноя - РИА Новости. Следователи ...",1
44,"С.-ПЕТЕРБУРГ, 21 ноя – РИА Новости. Более 150...",1
53,"НИЖНИЙ НОВГОРОД, 24 ноя - РИА Новости. Промыш...",1
59,Самое критичное отношение к иностранным мигран...,1


In [15]:
import spacy

In [17]:
# подключаем библиотеку для обработки текстов на русском языке и создаем русскоязычную модель, 
# сначала ее нужно скачать

NLP_MODEL = spacy.load('ru_core_news_md') 

In [35]:
# подключаем СТОП слова для исключения из текста новостей 
spacy_stopwords = spacy.lang.ru.stop_words.STOP_WORDS
new_stop_words = ['риа', 'москва', 'россия', 'новость', 'год', 'мвд', 'пресс', 'служба', 'человек', 'миграция', 'мигрант', 'миграционный' ] # наши стоп слова для этой предметной области
spacy_stopwords.update(new_stop_words)

In [37]:
#функция для предобработки текста новости - лемматизация и удаление стоп слов
import string
def clean_str(sent) -> str:
    doc = NLP_MODEL(sent)
    filter_str = [word.lemma_.lower() for word in doc if ((word.text not in string.punctuation) 
                                                          and (word.lemma_.lower() not in spacy_stopwords) 
                                                          and (len(word.text) > 2))]
    filter_str = ' '.join(filter_str)
    return(filter_str)

In [39]:
# предобработка новостей и сохранение их в столбец clean_text; занимает несколько минут
train_df_migration['clean_text'] = train_df_migration['text'].apply(clean_str)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  train_df_migration['clean_text'] = train_df_migration['text'].apply(clean_str)


In [41]:
# просмотр результата

train_df_migration['clean_text'] 

0       ноя суд приговорить 8,5 колония бывший полицей...
40      краснодар ноя следователь возбудить уголовный ...
44      с.-петербург ноя 150 иностранный гражданин про...
53      нижний новгород ноя промышленность мордовия по...
59      критичный отношение иностранный москвич общеиз...
                              ...                        
2366    появиться отдельный статья санкция незаконный ...
2368    депутат подготовить поправка законопроект прав...
2370    госдума внести законопроект направить совершен...
2372    значительный рост преступность иностранец лицо...
2373    минэкономразвития подготовить законопроект пре...
Name: clean_text, Length: 647, dtype: object

In [43]:
#для тематического моделирования нужна спецаиальная структура данных список предложений из списка слов
X = [x.split() for x in train_df_migration['clean_text'].to_list()] 

In [47]:
# первые 10 слов из первой новости
X[0][:10]

['ноя',
 'суд',
 'приговорить',
 '8,5',
 'колония',
 'бывший',
 'полицейский',
 'дело',
 'получение',
 'взятка']

In [49]:
# подключаем библиотеку для тематического моделирования
# можешь почитать здесь https://habr.com/ru/companies/otus/articles/757010/
import gensim
from gensim import corpora

# Создаем словарь
dictionary = corpora.Dictionary(X)

# Определяем корпус слов
corpus = [dictionary.doc2bow(text) for text in X]

# создаем модель Латентное размещение Дирихле (LDA) 
# в перемнной num_topics количество тем, на которые нужно разбить новости
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics=7, id2word=dictionary, passes=5)

# Сохраним темы и слова
topics = ldamodel.print_topics(num_words=15)

In [51]:
# вот такие темы получились
topics

[(0,
  '0.013*"гражданин" + 0.008*"иностранец" + 0.007*"страна" + 0.007*"иностранный" + 0.007*"трудовой" + 0.006*"документ" + 0.006*"тысяча" + 0.005*"российский" + 0.005*"пребывание" + 0.005*"лицо" + 0.005*"миллион" + 0.005*"работа" + 0.005*"организация" + 0.004*"территория" + 0.004*"число"'),
 (1,
  '0.019*"незаконный" + 0.012*"организация" + 0.010*"дело" + 0.010*"гражданин" + 0.010*"уголовный" + 0.009*"преступление" + 0.007*"иностранец" + 0.007*"статья" + 0.006*"иностранный" + 0.006*"группа" + 0.006*"сообщить" + 0.006*"область" + 0.006*"сотрудник" + 0.006*"управление" + 0.006*"задержать"'),
 (2,
  '0.008*"вопрос" + 0.007*"работа" + 0.006*"страна" + 0.006*"трудовой" + 0.005*"сообщить" + 0.005*"тысяча" + 0.005*"отметить" + 0.005*"сказать" + 0.005*"число" + 0.004*"область" + 0.004*"гражданин" + 0.004*"регион" + 0.004*"дело" + 0.004*"слово" + 0.004*"заявить"'),
 (3,
  '0.010*"законопроект" + 0.009*"госдума" + 0.009*"политика" + 0.008*"незаконный" + 0.008*"документ" + 0.006*"сфера" + 0.00

In [191]:
# функция для выделение основной темы и сохранения в датафрейм

def get_topic_details(ldamodel, corpus):    
    topic_details = []
    for row in ldamodel[corpus]: 
        new_row = sorted(row, key=lambda x: (x[1]), reverse=True)    
        topic_details.append([new_row[0][0], new_row[0][1]])    
    topic_details_df = pd.DataFrame(topic_details, columns =['Dominant_Topic', '% Score'] )
    topic_details_df.columns = ['main_topic', 'score']
    return topic_details_df
    
# Добавление оригинального текста к рачитанным данным


contents = pd.DataFrame({'clean_text':X, 'text_article': train_df_migration.text.to_list()})
topic_details = pd.concat([get_topic_details(ldamodel, corpus), contents], axis=1)

print(topic_details.head())

   main_topic     score                                         clean_text  \
0           3  0.989770  [ноя, суд, приговорить, 8,5, колония, бывший, ...   
1           2  0.673793  [краснодар, ноя, следователь, возбудить, уголо...   
2           4  0.841312  [с.-петербург, ноя, 150, иностранный, граждани...   
3           5  0.813656  [нижний, новгород, ноя, промышленность, мордов...   
4           2  0.998364  [критичный, отношение, иностранный, москвич, о...   

                                        text_article  
0  МОСКВА, 14 ноя – РИА Новости.  Суд в Москве пр...  
1  КРАСНОДАР, 22 ноя - РИА Новости.  Следователи ...  
2  С.-ПЕТЕРБУРГ, 21 ноя – РИА Новости.  Более 150...  
3  НИЖНИЙ НОВГОРОД, 24 ноя - РИА Новости.  Промыш...  
4  Самое критичное отношение к иностранным мигран...  


In [197]:
# сохранение в excel файл
topic_details.to_excel('migration_topic_detection.xlsx')

In [185]:
topic_details['Dominant_Topic'].value_counts()

Dominant_Topic
3    172
4    150
2     81
1     78
6     75
5     65
0     26
Name: count, dtype: int64

In [183]:
topic_details[topic_details['Dominant_Topic'] == 1]

Unnamed: 0,Dominant_Topic,% Score,Original text,text_article
24,1,0.989758,"[дек, гражданин, индия, стремиться, оставаться...","МОСКВА, 19 дек – РИА Новости. Граждане Индии ..."
48,1,0.992250,"[мар, 4,5, собственный, жильё, сообщить, уполн...","МОСКВА, 4 мар - РИА Новости. Менее 4,5% мигра..."
49,1,0.943225,"[симферополь, мар, депутат, госдума, крымский,...","СИМФЕРОПОЛЬ, 24 мар - РИА Новости. Депутат Го..."
51,1,0.995998,"[мар, призывать, погромам, самосуд, теракт, кр...","МОСКВА, 25 мар - РИА Новости. Люди, которые п..."
54,1,0.589926,"[мар, действие, краткосрочный, трудовой, догов...","МОСКВА, 26 мар - РИА Новости. Действие кратко..."
...,...,...,...,...
606,1,0.989994,"[правительство, приостановить, реализация, пил...",Правительство приостановило реализацию пилотно...
615,1,0.575162,"[госдума, внести, законопроект, предлагаться, ...","В Госдуму внесен законопроект , которым предла..."
621,1,0.592474,"[ребёнок, пройти, тестирование, направить, обу...","Если ребенок не пройдет тестирование, то его н..."
639,1,0.665829,"[инициатива, разместить, официальный, сайт, па...",Такая инициатива размещена на официальном сайт...


In [101]:
temp = ldamodel.get_document_topics(corpus, per_word_topics=True)

In [None]:
for d in doc:
    bow = dictionary.doc2bow(d.split())
    t = lda.get_document_topics(bow)

In [91]:
topics

[(0,
  '0.011*"страна" + 0.010*"мигрант" + 0.010*"миграция" + 0.009*"трудовой" + 0.005*"российский" + 0.005*"слово" + 0.005*"президент" + 0.004*"гражданин" + 0.004*"работа" + 0.004*"проблема" + 0.004*"заявить" + 0.004*"миграционный" + 0.004*"путин" + 0.004*"рабочий" + 0.003*"труд"'),
 (1,
  '0.015*"гражданство" + 0.014*"гражданин" + 0.011*"миграция" + 0.008*"российский" + 0.008*"незаконный" + 0.006*"иностранный" + 0.006*"получить" + 0.006*"страна" + 0.005*"иностранец" + 0.005*"организация" + 0.005*"документ" + 0.005*"получение" + 0.005*"мигрант" + 0.005*"территория" + 0.004*"суд"'),
 (2,
  '0.017*"миграция" + 0.016*"незаконный" + 0.011*"дело" + 0.009*"организация" + 0.009*"гражданин" + 0.009*"мигрант" + 0.008*"уголовный" + 0.008*"иностранец" + 0.007*"тысяча" + 0.006*"сотрудник" + 0.006*"область" + 0.006*"иностранный" + 0.006*"сообщить" + 0.006*"задержать" + 0.006*"полиция"'),
 (3,
  '0.016*"миграция" + 0.016*"законопроект" + 0.015*"госдума" + 0.013*"незаконный" + 0.011*"преступление" +

In [93]:
import pyLDAvis
import pyLDAvis.gensim_models as gensimvis
lda_display = gensimvis.prepare(ldamodel, corpus, dictionary, sort_topics=True)
pyLDAvis.display(lda_display)

In [None]:
#Ответ нейросети на наши данные
'''Ты эксперт в сфере миграционной политики. 
Тебе приходят данные из анализа новостей по миграции в виде набора фраз, 
полученных с помощью алгоритмов тематического моделирования. Из набора фраз выдели предметную область. 
Выделенные слова:  '0.016*"преступление" + 0.013*"незаконный" + 0.012*"миграция" + 0.012*"законопроект" + 0.011*"документ" + 
0.010*"организация" + 0.009*"гражданство" + 0.009*"совершение" + 0.008*"госдума" + 0.008*"тяжкий" + 
0.007*"российский" + 0.007*"гражданин" + 0.007*"лицо" + 0.006*"наказание" + 0.006*"лишение"
'''
'''
На основе предоставленных фраз, можно выделить несколько ключевых предметных областей, связанных с миграционной политикой:

Незаконная миграция: Упоминания слов "незаконный", "миграция", "преступление" и "наказание" указывают на обсуждение вопросов, связанных с правонарушениями в сфере миграции и последствиями для мигрантов.

Законодательство: Слова "законопроект", "документ", "госдума" указывают на процесс разработки и принятия законов, касающихся миграционной политики. Это может включать новые инициативы или изменения в существующих законах.

Гражданство: Упоминания "гражданство", "гражданин" и "лицо" могут свидетельствовать о вопросах, связанных с получением гражданства, правами граждан и статусом мигрантов.

Организации: Слово "организация" может указывать на роль различных организаций (государственных и неправительственных) в вопросах миграции, включая помощь мигрантам и защиту их прав.

Тяжкие преступления: Упоминание слова "тяжкий" может указывать на обсуждение серьезных правонарушений, связанных с миграцией, и их последствия для мигрантов и общества.

Таким образом, предметная область включает в себя аспекты незаконной миграции, законодательные инициативы, вопросы гражданства и роль организаций в миграционной политике, а также проблемы, связанные с тяжкими преступлениями в этой сфере.

'''

In [None]:
На основе предоставленных фраз, можно выделить несколько ключевых тем, связанных с миграционной политикой. Вот основные предметные области, которые можно выделить:

Гражданство и миграция: Упоминания слов "гражданин", "миграция", "иностранный", "иностранец" и "мигрант" указывают на обсуждение вопросов, связанных с правами и статусом граждан, а также с процессами миграции.

Незаконная миграция: Слово "незаконный" подразумевает наличие дискуссий о нелегальной миграции, ее последствиях и мерах, принимаемых для ее контроля.

Правовые аспекты: Упоминания слов "суд", "дело" и "управление" указывают на наличие правовых вопросов, связанных с миграцией, включая судебные разбирательства и управление миграционными процессами.

Организации и управление: Слова "организация" и "управление" могут указывать на роль различных организаций (государственных и неправительственных) в вопросах миграции и их влияние на миграционную политику.

Статистика и данные: Упоминание слова "тысяча" может свидетельствовать о наличии статистических данных, связанных с миграцией, например, о количестве мигрантов или случаях незаконной миграции.

Пребывание и территория: Слова "пребывание" и "территория" указывают на вопросы, связанные с правом на пребывание мигрантов на определенной территории и их интеграцией в общество.

Эти предметные области могут служить основой для дальнейшего анализа и исследования миграционной политики, а также для разработки рекомендаций по улучшению существующих практик.