In [1]:
import pandas as pd
import numpy as np

# Подгружаем библеотеку для чтения субтитров
import pysrt
# Подгружаем библеотеку для получения списка специальных символов
import string
# Подгружаем библеотеки для выделения слов из текста
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
# Подгружаем библиотеку для преобразования слов в их исходное значение (к корню)
from nltk.stem import WordNetLemmatizer

In [2]:
# Функции используемые в проекте

# 1
# Функция для загрузки данных, хранящих информацию об уровнях английского
def eng_levels(file):
    
    # загрузим данные
    try:
        data_levels = pd.read_excel(file, usecols=['A1_lite', 'A2_lite', 'B1_lite', 'B2_lite', 'B2_hard', 'C1_hard'])
        
    except:
        print('Проблема с данными, попробуйте снова.')
    
    return data_levels

# 2
# Функция для формирования общего массива слов из фремов с уровнями английского
def united_words(*args):
    
    united = []
    
    # запустим обработку фреймов с учетом, того что их может быть много
    for arg in args:        
        for column in arg.columns:
            # пройдемся циклом по всем элементам из столбцов до появления пропусков
            for word in (np.array(arg[arg[column].isna() == False][column])):
                united.append(word)

    return united

# 3
# Функция для удаления лишних символов
def remove_symbol(text, symbols_to_delete):
    for symbol in symbols_to_delete:
        text = text.replace(str(symbol), '')
    return text

# 4
# Функция для разделения текста по словам с удалением стоп-слов
def transform_text(text):
    
    # разделяем текст по словам (токенам)
    word_tokens = word_tokenize(text)
    # приводим слова к изначальной форме
    lemmatizer = WordNetLemmatizer()
    lemmas = [lemmatizer.lemmatize(word, pos ='v') for word in word_tokens]
    
    return lemmas

# 5
# Функция для чтения субтитров и преобразования их в удобный для обработки вид
def subs_transform(file):
    
    # чтение субтитров из файла
    subs = pysrt.open(file, encoding='iso-8859-1')

    # объединим субтитры в один единый текст
    subs_union = "".join([str(sub) for sub in subs])

    # уберём все лишние символы, такие как цифры и специальные символы вместе со знаком перевода строки
    subs_union = remove_symbol(subs_union, DIGITS + PUNCTUATIONS)

    # переведём всё в нижний регистр
    subs_union = subs_union.lower()
    
    # преобразуем текст субтитров в список слов
    subs_union = transform_text(subs_union)
    
    return subs_union

# 6
# Функция для масштабирования частоты появления слов
def freq_word_scal(subs, freq_word_subs):
        '''
        Данная функция необходима, для того избавится от проблемы больших и маленьких текстов.
        Имеется ввиду следующее, если фильм длинной около 3 часов, то количество слов в субтитрах 
        будет существенно больше чем в фильме длинной час. Для этого, будем находить долю частоты
        появления конкретного слова от общего числа слов в тексте. 
        '''
        # найдём общее количество слов в субтитрах
        count_words = len(subs)
        
        # запустим цикл по словарю частот слов, получая доли от общего числа слов в субтитрах
        for key in freq_word_subs.keys():
            freq_word_subs[key] = freq_word_subs[key] / count_words
            
        return freq_word_subs
    
# 7
# Функция для подсчета частоты повторения слов
def frequency_word(list_word_from_text, list_word_by_levels):
    
    # объявим словарь, который будет собирать частоты появления слов
    freq_words = {}
    
    # запускаем цикл по словам из списка уникальных значений, на основе которых, 
    # выстраиваются уровни владения языком (уровневый список)
    for level_word in list_word_by_levels:
        # для удобства, вначале будем присваивать ноль для базового значения частот слов
        freq_words[level_word] = 0
        # запускаем цикл по словам из списка текста
        for text_word in list_word_from_text:
            # подсчёт частот производится на основе равенства слов из уровнего списка со словами из текста
            if(level_word == text_word):
                freq_words[level_word] += 1
                
    # произведём масштабирование частот слов
    freq_words = freq_word_scal(list_word_from_text, freq_words)
                
    return freq_words

In [3]:
# перечень используемых в проекте констант

# Цифры
DIGITS = ''.join([str(digit) for digit in range(10)])

# Знаки препинания и символ перевода строки
PUNCTUATIONS = string.punctuation + '\n'


In [4]:
# загрузим данные по уровням для английского языка 
english_levels = eng_levels('British_levels.xlsx')
display(english_levels.head(5))

# загрузим данные по уровням для американского языка 
americ_levels = eng_levels('American_levels.xlsx')
display(americ_levels.head(5))

Unnamed: 0,A1_lite,A2_lite,B1_lite,B2_lite,B2_hard,C1_hard
0,a,ability,academic,abandon,absorb,acceptance
1,an,able,access,absolute,abstract,accessible
2,about,abroad,accommodation,academic,accent,accomplishment
3,above,accept,account,acceptable,accidentally,accordance
4,across,accident,achievement,accompany,accommodate,accordingly


Unnamed: 0,A1_lite,A2_lite,B1_lite,B2_lite,B2_hard,C1_hard
0,action,ability,absolutely,abandon,absorb,abolish
1,activity,able,academic,abroad,abstract,abortion
2,actor,accept,access,absolute,accent,absence
3,actress,accident,account,acceptable,accidentally,absent
4,add,according to,achievement,accompany,accommodate,absurd


In [5]:
# Соберём единый массив, который будет содержать все уникальные слова
united = pd.Series(united_words(english_levels, americ_levels)).unique()

In [6]:
subs = subs_transform('English_scores/Subtitles_all/Subtitles/10_Cloverfield_lane(2016).srt')
print(subs)

['font', 'colorffffbfixed', 'sync', 'by', 'bozxphd', 'enjoy', 'the', 'flickbfont', 'clang', 'drawer', 'close', 'inaudible', 'cell', 'phone', 'ring', 'ben', 'on', 'phone', 'imichellebrplease', 'dont', 'hang', 'upi', 'ijust', 'talk', 'to', 'me', 'okaybri', 'cant', 'believe', 'you', 'just', 'lefti', 'imichellei', 'icome', 'backi', 'iplease', 'say', 'somethingi', 'imichelle', 'talk', 'to', 'mei', 'ilook', 'we', 'have', 'an', 'argumentbrcouples', 'fighti', 'ithat', 'be', 'no', 'reasonbrto', 'just', 'leave', 'everything', 'behindi', 'irunning', 'away', 'isnt', 'gon', 'na', 'help', 'it', 'anybrmichelle', 'pleasei', 'dialtone', 'newscaster', 'more', 'detail', 'on', 'that', 'ielsewhere', 'todaybrpower', 'have', 'still', 'not', 'be', 'restoredi', 'ito', 'many', 'cities', 'on', 'the', 'southern', 'seaboardi', 'iin', 'the', 'wake', 'ofbrthis', 'afternoons', 'widespread', 'blackouti', 'iwhile', 'there', 'have', 'beenbrsome', 'inclement', 'weather', 'in', 'the', 'regioni', 'ithe', 'problem', 'seem',

In [7]:
print(frequency_word(subs, united))

