<a href="https://colab.research.google.com/github/VarvarKs/Python_for_CL/blob/main/Neologism_detected.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Подготовим данные

In [None]:
import pandas as pd
from tqdm import tqdm

# файл включает слова, которые не внесены в словарь ОРФО
data = pd.read_csv("/content/drive/MyDrive/NLP_spring2023/words_230524.txt", sep='\t', encoding='utf-16')
data.head()

Unnamed: 0,N,Log,W,Dict_UD,dict.opcorpora,wiki_freq
0,367.0,-3.817249,хз,,,24.0
1,488.0,-3.909896,чо,NOUN an,"PRCL Infr,Dist",351.0
2,538.0,-3.939917,зп,,,18.0
3,540.0,-3.940406,пикабу,,,
4,579.0,-3.963836,как-будто,,,19.0


In [None]:
data['W'].isna().any()

True

In [None]:
vocab = set(data['W'].dropna())
print(len(vocab), list(vocab)[:10], sep='\n')

168936
['десенов', 'биглион', 'гуайдо', 'мухменкова', 'дебова', 'байбикова', 'финдляндии', 'вахмянина', 'кожанчиков', 'николашев']



!!! ***Нужно договориться о названиях тегов для бинарной классификации: N - normal, NER, O - other than normal, errOr***
Осталось привести весь NER-tag к общему виду для бинарной классификации

# Тестируем NER 

[Здесь](https://t.me/natural_language_processing) набралась идей. 


1.   Spacy
2.   DeepPavlov
3.   pullenti
4.   stanza
5.   Natasha
6.   [Проект RuNNE](https://github.com/bond005/runne_contrastive_ner)
  

Говорят, пункты 1-3 так себе работают из коробки. Про п.4 ничего не слышала раньше. П.5 решает проблему Nested named entity recognition -- для моей задачи не так актуально.

## Spacy NER

In [None]:
import spacy
! python -m spacy download ru_core_news_sm

In [None]:
nlp = spacy.load("ru_core_news_sm")
text = 'серпуховчаночка'
doc = nlp(text)

for ent in doc.ents:
  print(ent.label_)

In [None]:
nlp = spacy.load("ru_core_news_sm")

ent_dict = {'word': ['entity']}
#тут на NA не проверила
for word in tqdm(list(vocab)):
  if type(word) is not str:
    continue
  else:
    doc = nlp(word)
    for ent in doc.ents:
      ent_dict[ent.text] = [ent.label_]

df = pd.DataFrame.from_dict(ent_dict, orient='index')
print(df)

In [None]:
df[1:].sort_index(inplace=True)
df.to_csv("/content/drive/MyDrive/NLP_spring2023/spacy_ner230524.txt", encoding='utf-8', sep="\t", index=True, header=False)

In [None]:
spacy_df = pd.read_csv('/content/drive/MyDrive/NLP_spring2023/spacy_ner230524.txt', sep='\t')
spacy_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30585 entries, 0 to 30584
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   word    30585 non-null  object
 1   entity  30585 non-null  object
dtypes: object(2)
memory usage: 478.0+ KB


In [None]:
spacy_words = set(spacy_df['word'])
spacy_ner = (spacy_df['word'], spacy_df['entity'])
spacy_ner_df = pd.DataFrame(spacy_ner)
spacy_ner_df = spacy_ner_df.T
spacy_ner_df.head()

Unnamed: 0,word,entity
0,шаипова,PER
1,капайкин,PER
2,труфкакин,PER
3,смученкова,PER
4,шибрина,PER


In [None]:
leftover = []
for word in vocab:
  if word not in spacy_words:
    leftover.append((word, 'O'))
spacy_lo_df = pd.DataFrame(leftover)
spacy_lo_df = spacy_lo_df.rename(columns ={0: 'word', 1: 'entity'})
spacy_lo_df.shape

(138374, 2)

In [None]:
from sklearn.utils import shuffle

spacy_total_df = pd.concat([spacy_lo_df, spacy_ner_df])
spacy_total_df = shuffle(spacy_total_df)
spacy_total_df.head()
#spacy_total_df.to_csv("/content/drive/MyDrive/NLP_spring2023/spacy_total230524.txt", encoding='utf-8', sep="\t", index=False, header=True)

Unnamed: 0,word,entity
8648,ноль-семьдесят,O
132525,присандалить,O
130609,едганов,O
5949,хрдиректоров,PER
126856,шеринговой,O


In [None]:
print(f"NER results:\
        entities:{spacy_total_df.shape[0] - spacy_total_df.loc[spacy_total_df['entity'] == 'O'].shape[0]}\
        non-recognized words:{spacy_total_df.loc[spacy_total_df['entity'] == 'O'].shape[0]}")

NER results:        entities:30585        non-recognized words:138374


Уже сейчас видно, что многие фамилии проигнорированы)

`!!!! распредление, визуал (для R)`

## [DeepPavlov NER ](https://docs.deeppavlov.ai/en/master/features/models/NER.html)



In [None]:
!pip install -q deeppavlov
!python -m deeppavlov install ner_ontonotes_bert_torch


In [None]:
from deeppavlov import build_model

ner_model = build_model('ner_ontonotes_bert_torch', download=True, install=True)

In [None]:
ner_model(['серпуховчаночка'])

In [None]:
vocab_list = list(vocab)
ent_dict = {'word': ['entity']}

for i in tqdm(range(len(vocab_list))):
  n = ner_model([vocab_list[i]])
  n = [l[0] for l in n]
  ent_dict[n[0][0]] = [n[1][0]]
ent_dict
df = pd.DataFrame.from_dict(ent_dict, orient='index')
df

In [None]:
df[1:].sort_index(inplace=True)
df.to_csv("/content/drive/MyDrive/NLP_spring2023/deeppavlov_ner230524.txt", encoding='utf-8', sep="\t", index=True, header=False)

In [None]:
deepp_df = pd.read_csv('/content/drive/MyDrive/NLP_spring2023/deeppavlov_ner230524.txt', sep='\t')
print(f"NER results:\
        entities: {deepp_df.shape[0] - deepp_df.loc[deepp_df['entity'] == 'O'].shape[0]}\
        non-recognized words: {deepp_df.loc[deepp_df['entity'] == 'O'].shape[0]}")

NER results:        entities: 104365        non-recognized words: 62800


`!!!! распредление, визуал (для R)`

## [Natasha](https://github.com/natasha/natasha)

In [None]:
! pip install natasha

In [None]:
from natasha import (
    Segmenter,
    MorphVocab,
    
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,
    
    PER,
    NamesExtractor,
    DatesExtractor,
    MoneyExtractor,
    AddrExtractor,

    Doc
)

segmenter = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

names_extractor = NamesExtractor(morph_vocab)
dates_extractor = DatesExtractor(morph_vocab)
money_extractor = MoneyExtractor(morph_vocab)
addr_extractor = AddrExtractor(morph_vocab)

In [None]:
ent_dict = {'word': ['entity']}

for word in tqdm(list(vocab)):
  text = word
  doc =(Doc(text))
  doc.segment(segmenter)
  doc.tag_ner(ner_tagger)
  if doc.spans:
    ent_dict[text] = [list(doc.spans[0])[2]]

df = pd.DataFrame.from_dict(ent_dict, orient='index')
print(df)

In [None]:
text = 'Мария'
doc =(Doc(text))
doc.segment(segmenter)
doc.tag_ner(ner_tagger)
list(doc.spans[0])[2]


## Остальные



*   [pullenti](https://www.pullenti.ru/Document)

Отдельная [версия](https://github.com/pullenti/pullenti-wrapper) под питон не обновляется. Это вообще что-то совсем сложное -- трогать его не буду

*   stanza

Ничего вообще толкового не определяет

*   


## Вывод

DeepPavlov NER выделил намного больше сущностей. Выбираем его? (проверить на ложные срабатывания)

Норм слов + О 

# Бейзлайн


*   ансамбли
*   knn
*   наивный Байес



Возможно стоит добавать сленг, другие слова (и NER, и нет), возможно, рандомным куском из того же файла взять слова, которые ОРФО знает. Нужно подумать о пропорциях.

# Используем ChatGPT для доразметки данных

In [None]:
!pip install openai
!pip install pip install python-dotenv

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting openai
  Downloading openai-0.27.7-py3-none-any.whl (71 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m72.0/72.0 kB[0m [31m3.6 MB/s[0m eta [36m0:00:00[0m
Collecting aiohttp (from openai)
  Downloading aiohttp-3.8.4-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.0/1.0 MB[0m [31m33.0 MB/s[0m eta [36m0:00:00[0m
Collecting multidict<7.0,>=4.5 (from aiohttp->openai)
  Downloading multidict-6.0.4-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (114 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m114.5/114.5 kB[0m [31m11.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting async-timeout<5.0,>=4.0.0a3 (from aiohttp->openai)
  Downloading async_timeout-4.0.2-py3-none-any.whl (5.8 kB)
Collecting yarl<2.0,>=1.0 (from aiohttp->openai)
  Downloadin

In [None]:
import openai
import os

from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv())
openai.api_key  = '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'

In [None]:
def get_completion(prompt, model="gpt-3.5-turbo"):
    messages = [{"role": "user", "content": prompt}]
    response = openai.ChatCompletion.create(
        model=model,
        messages=messages,
        temperature=0, # this is the degree of randomness of the model's output
    )
    return response.choices[0].message["content"]

In [None]:
prompt = f"""
Придумай 5 аллегорий, как рассказать, что я люблю своего мужа.
"""
response = get_completion(prompt)
print(response)

1. Мой муж - это маяк, который направляет меня в темноте и помогает мне избежать сильных волн жизни.
2. Мой муж - это мой крепкий дуб, который защищает меня от жизненных бурь и дает мне опору.
3. Мой муж - это мой любимый пазл, который дополняет меня и помогает мне стать лучшей версией себя.
4. Мой муж - это мой надежный компас, который помогает мне ориентироваться в жизни и принимать правильные решения.
5. Мой муж - это мой сладкий мед, который делает мою жизнь более приятной и сладкой.
