### Лингвистическая часть

Для выполнения этих заданий выберите два любых достаточно длинных текста (.txt) на русском и на любом другом (для которого есть парсеры) языке; если возьмете текст и его перевод, будет отлично.

#### Задача 4. 

Просмотрите оба выбранных текста. Удостоверьтесь, что тексты чистые, если же в них есть какой-то мусор: хештеги, затесавшиеся при OCR символы и подобное, почистите с помощью регулярных выражений. 

Проведите первичный статистический анализ: разбейте тексты на предложения и на токены, посчитайте относительное количество того и другого, сопоставьте. Если ваши тексты параллельные, какой длиннее? В каком тексте средняя длина предложения больше? Почему? В каком тексте выше лексическое разнообразие? 

Таким образом, вам необходимо узнать следующие вещи:

- количество предложений (относительное и абсолютное)
- количество токенов (относительное и абсолютное)
- средняя длина предложения (среднее количество слов в предложении)
- соотношение "уникальные токены / все токены"
- (опционально) соотношение знаков пунктуации и слов

In [130]:
prus = "/content/portrait_rus.txt"
prus = open(prus, "r")
prus = prus.read()
prus

peng = "/content/portrait_eng.txt"
peng = open(peng, "r")
peng = peng.read()
peng

'The studio was filled with the rich odour of roses, and when the light summer wind stirred amidst the trees of the garden, there came through the open door the heavy scent of the lilac, or the more delicate perfume of the pink-flowering thorn.\n\nFrom the corner of the divan of Persian saddle-bags on which he was lying, smoking, as was his custom, innumerable cigarettes, Lord Henry Wotton could just catch the gleam of the honey-sweet and honey-coloured blossoms of a laburnum, whose tremulous branches seemed hardly able to bear the burden of a beauty so flamelike as theirs; and now and then the fantastic shadows of birds in flight flitted across the long tussore-silk curtains that were stretched in front of the huge window, producing a kind of momentary Japanese effect, and making him think of those pallid, jade-faced painters of Tokyo who, through the medium of an art that is necessarily immobile, seek to convey the sense of swiftness and motion. The sullen murmur of the bees shoulder

In [123]:
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [125]:
from nltk import sent_tokenize
peng_tok_sent = sent_tokenize(peng)
peng_tok_sent

['The studio was filled with the rich odour of roses and when the light summer wind stirred amidst the trees of the garden there came through the open door the heavy scent of the lilac or the more delicate perfume of the pinkflowering thorn From the corner of the divan of Persian saddlebags on which he was lying smoking as was his custom innumerable cigarettes Lord Henry Wotton could just catch the gleam of the honeysweet and honeycoloured blossoms of a laburnum whose tremulous branches seemed hardly able to bear the burden of a beauty so flamelike as theirs and now and then the fantastic shadows of birds in flight flitted across the long tussoresilk curtains that were stretched in front of the huge window producing a kind of momentary Japanese effect and making him think of those pallid jadefaced painters of Tokyo who through the medium of an art that is necessarily immobile seek to convey the sense of swiftness and motion The sullen murmur of the bees shouldering their way through th

In [138]:
from nltk.tokenize.punkt import REASON_DEFAULT_DECISION
import string
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize

def primary_statistical_analysis(prus, peng):
    try:
  
        rus_sentences = sent_tokenize(prus)
        eng_sentences = sent_tokenize(peng)
        rus_words = word_tokenize(prus)
        eng_words = word_tokenize(peng)
        
        rus_num_sentences = len(rus_sentences)
        eng_num_sentences = len(eng_sentences)
        rus_num_tokens = len(rus_words)
        eng_num_tokens = len(eng_words)
        
        rus_rel_num_sentences = rus_num_sentences / (rus_num_sentences + eng_num_sentences)
        eng_rel_num_sentences = eng_num_sentences / (rus_num_sentences + eng_num_sentences)
        rus_rel_num_tokens = rus_num_tokens / (rus_num_tokens + eng_num_tokens)
        eng_rel_num_tokens = eng_num_tokens / (rus_num_tokens + eng_num_tokens)
        
        rus_avg_sentence_length = rus_num_tokens / rus_num_sentences
        eng_avg_sentence_length = eng_num_tokens / eng_num_sentences
        
        rus_unique_tokens = set(rus_words)
        eng_unique_tokens = set(eng_words)
        rus_ratio_unique_tokens = len(rus_unique_tokens) / rus_num_tokens
        eng_ratio_unique_tokens = len(eng_unique_tokens) / eng_num_tokens
        
        rus_punctuation_marks = [word for word in rus_words if word in string.punctuation]
        eng_punctuation_marks = [word for word in eng_words if word in string.punctuation]
        rus_ratio_punctuation_marks = len(rus_punctuation_marks) / rus_num_tokens
        eng_ratio_punctuation_marks = len(eng_punctuation_marks) / eng_num_tokens
        
        results = {
            "rus_num_sentences": rus_num_sentences,
            "eng_num_sentences": eng_num_sentences,
            "rus_num_tokens": rus_num_tokens,
            "eng_num_tokens": eng_num_tokens,
            "rus_rel_num_sentences": rus_rel_num_sentences,
            "eng_rel_num_sentences": eng_rel_num_sentences,
            "rus_rel_num_tokens": rus_rel_num_tokens,
            "eng_rel_num_tokens": eng_rel_num_tokens,
            "rus_avg_sentence_length": rus_avg_sentence_length,
            "eng_avg_sentence_length": eng_avg_sentence_length,
            "rus_ratio_unique_tokens": rus_ratio_unique_tokens,
            "eng_ratio_unique_tokens": eng_ratio_unique_tokens,
            "rus_ratio_punctuation_marks": rus_ratio_punctuation_marks,
            "eng_ratio_punctuation_marks": eng_ratio_punctuation_marks
        }
        
        return results
    except Exception as e:
        print(f"Error: {e}")
        return ""

results_for_texts = primary_statistical_analysis(prus, peng)


print(results_for_texts)          

{'rus_num_sentences': 43, 'eng_num_sentences': 37, 'rus_num_tokens': 947, 'eng_num_tokens': 1026, 'rus_rel_num_sentences': 0.5375, 'eng_rel_num_sentences': 0.4625, 'rus_rel_num_tokens': 0.4799797263051191, 'eng_rel_num_tokens': 0.5200202736948809, 'rus_avg_sentence_length': 22.023255813953487, 'eng_avg_sentence_length': 27.72972972972973, 'rus_ratio_unique_tokens': 0.5533262935586061, 'eng_ratio_unique_tokens': 0.4337231968810916, 'rus_ratio_punctuation_marks': 0.18373812038014783, 'eng_ratio_punctuation_marks': 0.1111111111111111}


#### Задача 5. 

Сделайте морфосинтаксические разборы ваших текстов в формате UD, запишите .conllu-файлы. 

In [143]:
!pip install spacy_udpipe

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting spacy_udpipe
  Downloading spacy_udpipe-1.0.0-py3-none-any.whl (11 kB)
Collecting ufal.udpipe>=1.2.0 (from spacy_udpipe)
  Downloading ufal.udpipe-1.3.0.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (936 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m937.0/937.0 kB[0m [31m13.5 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: ufal.udpipe, spacy_udpipe
Successfully installed spacy_udpipe-1.0.0 ufal.udpipe-1.3.0.1


In [148]:
!pip install corpy
!pip install pymorphy2

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.5/55.5 kB[0m [31m2.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting dawg-python>=0.7.1 (from pymorphy2)
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Collecting pymorphy2-dicts-ru<3.0,>=2.4 (from pymorphy2)
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.2/8.2 MB[0m [31m57.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting docopt>=0.6 (from pymorphy2)
  Downloading docopt-0.6.2.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: docopt
  Building wheel for docopt (setup.py) ... [?

In [149]:
import spacy_udpipe
spacy_udpipe.download('en') 
import pymorphy2

morph = pymorphy2.MorphAnalyzer()
parse = morph.parse('skilfully')
parse


Already downloaded a model for the 'en' language


[Parse(word='skilfully', tag=OpencorporaTag('LATN'), normal_form='skilfully', score=1.0, methods_stack=((LatinAnalyzer(score=0.9), 'skilfully'),))]

In [151]:
parse = morph.parse('написанных')
t = parse[0].tag 
print(f'Часть речи: {t.POS}')
print(f'Одушевленность: {t.animacy}\nПадеж: {t.case}\nРод: {t.gender}\nНаклонение: {t.mood}\
\nЧисло: {t.number}\nЛицо: {t.person}\nВремя: {t.tense}\nПереходность: {t.transitivity}\nЗалог: {t.voice}')

Часть речи: PRTF
Одушевленность: None
Падеж: gent
Род: None
Наклонение: None
Число: plur
Лицо: None
Время: past
Переходность: tran
Залог: pssv


#### Задача 6. 

Посчитайте статистику по частям речи, сопоставьте: можно напечатать две таблички с процентами по частям речи. 

In [136]:
import nltk
nltk.download('stopwords')
nltk.download('wordnet')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [139]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.probability import FreqDist
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk import pos_tag

def compare_parts_of_speech(prus, peng):
    try:
        tokens1 = word_tokenize(prus)
        tokens2 = word_tokenize(peng)
        
        stop_words1 = set(stopwords.words('russian'))
        stop_words2 = set(stopwords.words('english'))
        filtered_tokens1 = [word for word in tokens1 if word.lower() not in stop_words1]
        filtered_tokens2 = [word for word in tokens2 if word.lower() not in stop_words2]
        
        lemmatizer = WordNetLemmatizer()
        lemmatized_tokens1 = [lemmatizer.lemmatize(word) for word in filtered_tokens1]
        lemmatized_tokens2 = [lemmatizer.lemmatize(word) for word in filtered_tokens2]
        
        pos1 = pos_tag(lemmatized_tokens1)
        pos2 = pos_tag(lemmatized_tokens2)
        
        freq_dist1 = FreqDist(tag for (word, tag) in pos1)
        freq_dist2 = FreqDist(tag for (word, tag) in pos2)
        
        total_words1 = len(lemmatized_tokens1)
        total_words2 = len(lemmatized_tokens2)
        

        print("Русский текст:")
        print("{:<10} {:<10} {:<10}".format('POS', 'Count', 'Percentage'))
        print("-" * 30)
        for tag, count in freq_dist1.items():
            percentage = (count / total_words1) * 100
            print("{:<10} {:<10} {:<10.2f}".format(tag, count, percentage))
        print("\n")
        
        print("Английский текст:")
        print("{:<10} {:<10} {:<10}".format('POS', 'Count', 'Percentage'))
        print("-" * 30)
        for tag, count in freq_dist2.items():
            percentage = (count / total_words2) * 100
            print("{:<10} {:<10} {:<10.2f}".format(tag, count, percentage))
        print("\n")
        
    except Exception as e:
        # Log the error
        print(f"Error: {e}")


resu = compare_parts_of_speech(prus, peng)


print(resu)   

Русский текст:
POS        Count      Percentage
------------------------------
JJ         40         5.86      
NNP        379        55.49     
,          118        17.28     
.          43         6.30      
VB         18         2.64      
NN         35         5.12      
:          7          1.02      
CC         4          0.59      
(          2          0.29      
)          2          0.29      
FW         30         4.39      
CD         2          0.29      
VBD        1          0.15      
UH         2          0.29      


Английский текст:
POS        Count      Percentage
------------------------------
NN         150        26.64     
VBD        30         5.33      
JJ         102        18.12     
,          73         12.97     
.          37         6.57      
NNP        41         7.28      
MD         6          1.07      
VB         12         2.13      
WP$        4          0.71      
RB         41         7.28      
:          4          0.71      
VBN        9

#### Задача 7. 

Посчитайте, какое соотношение токенов по частям речи имеет совпадающие со словоформой леммы (т.е., в скольких случаях токены с частью речи VERB, например, имели словарную форму: и сам токен, и лемма одинаковые). Что вы можете сказать о выбранных вами языках на основании этих данных? Ожидаются две таблички с процентами несовпадающих по лемме и токену слов для каждой части речи. 

In [None]:
# your code here

#### Задача 8. 

Посчитайте медианную длину предложения для ваших текстов (медиана - это если взять все длины всех ваших предложений, упорядочить их от маленького к большому и выбрать то число, которое оказалось посередине, а если чисел четное количество, то взять среднее арифметическое двух чисел посередине. Например, если у вас пять предложений длинами 1, 2, 6, 7, 8, то медиана - 6, а если шесть предложений длинами 1, 1, 7, 9, 10, 11, то медиана - (7 + 9) / 2 = 8). Возьмите любые два предложения (одно русское и второе на другом языке) и постройте для них деревья зависимостей. Изучите связи зависимостей (deprel) и вершины: согласны ли вы с разбором?

In [None]:
# your code here

#### Задача 9. 

Посчитайте частотные списки токенов для каждой категории связей зависимостей (т.е., нужно выделить все токены в тексте, которые получали, например, ярлык amod, и посчитать их частоты). Выведите по первые три самых частотных токена для каждой категории (punct можно не выводить). 

In [None]:
# your code here

#### Задача 10. 

Некоторые предлоги в русском языке могут управлять разными падежами (например, "я еду в Лондон" vs "я живу в Лондоне"). Давайте проанализируем эти предлоги и их падежи. Необходимо:

- составить список таких предлогов (РГ-80 вам в помощь)
- взять достаточно большой текст (можно большое художественное произведение)
- сделать морфоразбор этого текста (лучше не pymorphy)
- Посчитать, как часто и какие падежи встречаются у слова, идущего после предлога.

Примечания: во-первых, имейте в виду, что иногда после предлога могут идти самые неожиданные вещи: "я что, должен ехать на, черт побери, северный полюс?". Во-вторых, неплохо бы учитывать отсутствие пунктуации (конечно, в норме, как нам кажется, предлог обязательно требует зависимое, но! "да иди ты на!") Эти штуки можно отсеять, если просто учитывать только заранее определенные падежи, а не считать все, какие встретились (так и None можно огрести).

Если будете использовать RNNMorph, возможно, понадобится регулярное выражение и немного терпения.

In [None]:
# your code here