**ОПРЕДЕЛЕНИЕ УРОВНЯ СЛОЖНОСТИ АНГЛОЯЗЫЧНЫХ ФИЛЬМОВ**

Задача: разработать модель машинного обучения, которая позволит по анлаизу субтитров оценить уровень сложности англоязычного фильма

Заказчиком предоставлены следующие материалы:
  - Файлы с субтитрами англоязычных фильмов, рассортированные по уровням сложности, согласно шкале CEFR: A1, A2, B1, B2, C1, C2. Каждый файл имеет формат .srt
  - Файл в формате excel, сдержащий наименование англоязычных фильмов с уже известным уровнем сложности.
  - Словари: Американский на 3000 слов и на 5000 слов, Оксфордский на 3000 слов и на 5000 слов в формате pdf. В данных словарях для каждого уровня сложности из системы CEFR прописан набор слова.

В процессе работы нам необходимо:

- провести анализ предоставленного заказчиком материала
- подготовить материал для машинного обучения
- создать и обучить несколькоих моделей, предсказывающих уровень сложности субтитров
- определить оптимальную модель на основании выбранной для анализа метрики
- создать приложение на плтаформе streamlit для демонстрации работы модели


**ИМПОРТИРУЕМ НЕОБХОДИМЫЕ ДЛЯ РАБОТЫ БИБЛИОТЕКИ**

In [193]:
pip install pysrt

Note: you may need to restart the kernel to use updated packages.


In [194]:
pip install PyPDF2

Note: you may need to restart the kernel to use updated packages.


In [195]:
pip install nltk

Note: you may need to restart the kernel to use updated packages.


In [196]:
pip install catboost




In [197]:
pip install lightgbm

Note: you may need to restart the kernel to use updated packages.


In [244]:
import glob
import os
import os.path
import pandas as pd
import numpy as np
import pysrt
import re
import chardet
import string
import pymorphy2
import seaborn as sns

import numpy as np
from numpy.random import RandomState

import matplotlib.pyplot as plt 

import nltk
nltk.download('stopwords')
nltk.download('punkt')
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

import catboost as cb
from catboost import CatBoostClassifier, Pool

import pickle
from pickle import dump,load

import warnings
warnings.filterwarnings('ignore')
pd.options.mode.chained_assignment = None # для игнорирования предупреждения
# уберем ограничения на количество выводимых столбцов, что бы просмотреть все столбцы
pd.set_option('display.max_columns', None)


from PyPDF2 import PdfReader
from functools import reduce
from joblib import dump

from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.metrics import f1_score
from sklearn.model_selection import GridSearchCV


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\zst\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\zst\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


**РАЗБЕРЕМ НАБОР ФАЙЛОВ Subtitles_all**
______________________________________________________________________________________________________________________

In [199]:
# Введем константы для указания путей к файлам
PATH_SUBTITLES_ALL = "./English_level/English_level/English_scores/Subtitles_all" 
MOV_LAB_PATH = "./English_level/English_level/English_scores/movies_labels.xlsx"
DICTIONARY = "./English_level/English_level/Oxford_CEFR_level/dictionary.xlsx"

In [200]:
# функция очистки субтитров от лишних символов:

# Константы:
HTML = r'<.*?>' # html тэги меняем на пробел
TAG = r'{.*?}' # тэги меняем на пробел
COMMENTS = r'[\(\[][A-Za-z ]+[\)\]]' # комменты в скобках меняем на пробел
UPPER = r'[[A-Za-z ]+[\:\]]' # указания на того кто говорит (BOBBY:)
LETTERS = r'[^a-zA-Z\'.,!? ]' # все что не буквы меняем на пробел 
SPACES = r'([ ])\1+' # повторяющиеся пробелы меняем на один пробел
DOTS = r'[\.]+' # многоточие меняем на точку
SYMB = r"[^\w\d'\s]" # знаки препинания кроме апострофа

def clean_subs(sentence):
    sentence = re.sub(r'\n',' ', sentence)
    sentence = re.sub(HTML, ' ', sentence) # html тэги меняем на пробел
    sentence = re.sub(TAG, ' ', sentence) # тэги меняем на пробел
    sentence = re.sub(COMMENTS, ' ', sentence) # комменты в скобках меняем на пробел
    sentence = re.sub(UPPER, ' ', sentence) # указания на того кто говорит (BOBBY:)
    sentence = re.sub(LETTERS, ' ', sentence) # все что не буквы меняем на пробел
    sentence = re.sub(DOTS, r'.', sentence) # многоточие меняем на точку
    sentence = re.sub(SPACES, r'\1', sentence) # повторяющиеся пробелы меняем на один пробел
    sentence = re.sub(SYMB, '', sentence) # знаки препинания кроме апострофа на пустую строку
    sentence = re.sub('www', '', sentence) # кое-где остаётся www, то же меняем на пустую строку
    sentence = re.sub(r'(\ufeff)?\d+\t?\d{1,2}:\d{1,2}:\d{1,2},\d{1,5}\t?\d{1,3}:\d{1,2}:\d{1,2},\d{1,5}\t?', '', sentence) # Удаление временной метки
    sentence = sentence.lstrip() # обрезка пробелов в начале и в конце
    sentence = sentence.encode('ascii', 'ignore').decode() # удаляем все что не ascii символы   
    sentence = sentence.lower() # текст в нижний регистр     
    return sentence
# функция чтения субтитров в файле
def read_sub(subs):
    text = []
    for i in subs:
        sentence = clean_subs(i.text_without_tags)
        text.append(sentence)
    return ' '.join(text)
# функция чтения файлов из общего каталога
def read_file (dirname, filename):
    fullpath = os.path.join (dirname, filename)
  
    try:
        enc = chardet.detect(open(fullpath, "rb").read())['encoding']
        subs = pysrt.open(fullpath, enc)
    except Exception as e: 
        print(e)
        print('файл не читается', fullpath, filename)
        return False
    return read_sub(subs)

In [201]:
# считываем файлы субтитров:
files = []
title = []
level = []
for dirpath, _, filenames in os.walk(PATH_SUBTITLES_ALL):   
    for file in filenames:
        title.append(file.replace('.srt', ''))
        level.append(os.path.basename(dirpath))
        result = read_file(dirpath, file) 
        files.append(result)
       
        
# создаем датафрем:
data = pd.DataFrame({'movie':title, 'subtitels':files, 'level':level})  

#выведем первые 10 строк датафрейма и информацию о датасете:
data.head(10)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 279 entries, 0 to 278
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   movie      279 non-null    object
 1   subtitels  279 non-null    object
 2   level      279 non-null    object
dtypes: object(3)
memory usage: 6.7+ KB


***РАЗБЕРЕМ ДОКУМЕНТ Movies_Lables***
_________________________________________________________________________________________________________________________

Скачаем и переведем в датасет экселевский файл с наименованием фильмов и указанием уровня сложности данного фильма:

In [202]:
movies_labels = pd.read_excel(MOV_LAB_PATH)
# Откорректируем названия столбцов для удобства дальнейшей работы с ними:
movies_labels.columns = movies_labels.columns.str.lower()

movies_labels.head(15)

Unnamed: 0,id,movie,level
0,0,10_Cloverfield_lane(2016),B1
1,1,10_things_I_hate_about_you(1999),B1
2,2,A_knights_tale(2001),B2
3,3,A_star_is_born(2018),B2
4,4,Aladdin(1992),A2/A2+
5,5,All_dogs_go_to_heaven(1989),A2/A2+
6,6,An_American_tail(1986),A2/A2+
7,7,Babe(1995),A2/A2+
8,8,Back_to_the_future(1985),A2/A2+
9,9,Banking_On_Bitcoin(2016),C1


In [203]:
# посмотрим на наличие полных дубликатов:
print('Количество дубликатов в наборе данных:', movies_labels.duplicated().sum())

Количество дубликатов в наборе данных: 0


In [204]:
# удалим колонку id:
movies_labels.drop(['id'], axis=1, inplace=True)

In [205]:
# посмотрим на наличие дубликатов без колонки id:
print('Количество дубликатов в наборе данных:', movies_labels.duplicated().sum())

Количество дубликатов в наборе данных: 2


In [206]:
# Удалим дубликаты:
movies_labels.drop_duplicates(inplace=True)
print('Количество дубликатов в наборе данных после удаления:', movies_labels.duplicated().sum())

Количество дубликатов в наборе данных после удаления: 0


In [207]:
# Посмотрим на уникальные значения столбца Level:
movies_labels['level'].value_counts()

B2            101
B1             53
C1             40
A2/A2+         26
B1, B2          8
A2              6
A2/A2+, B1      5
Name: level, dtype: int64

Как мы видем, некоторые фильмы имеют двойное или даже тройное обочначение уровня фильма. Заменим такие значения на максимальные по уровню сложности:

In [208]:
movies_labels['level'] = movies_labels['level'].replace('A2/A2+','A2').replace ('B1, B2','B1').replace ('A2/A2+, B1','B1')

In [209]:
movies_labels.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 239 entries, 0 to 240
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   movie   239 non-null    object
 1   level   239 non-null    object
dtypes: object(2)
memory usage: 5.6+ KB


In [210]:
movies_labels.head(10)

Unnamed: 0,movie,level
0,10_Cloverfield_lane(2016),B1
1,10_things_I_hate_about_you(1999),B1
2,A_knights_tale(2001),B2
3,A_star_is_born(2018),B2
4,Aladdin(1992),A2
5,All_dogs_go_to_heaven(1989),A2
6,An_American_tail(1986),A2
7,Babe(1995),A2
8,Back_to_the_future(1985),A2
9,Banking_On_Bitcoin(2016),C1


**ОБЪЕДИНИМ ДВА ДАТАСЕТА, РАССМОТРЕННЫХ РАНЕЕ В ОДИН:** 

In [211]:
dfs = [data, movies_labels]
#merge all DataFrames into one
final_df = reduce(lambda left,right: pd.merge(left,right,on=['movie','level'],
 how='outer'), dfs)#.fillna('none')
final_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 396 entries, 0 to 395
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   movie      396 non-null    object
 1   subtitels  279 non-null    object
 2   level      396 non-null    object
dtypes: object(3)
memory usage: 12.4+ KB


In [212]:
final_df.head(90)

Unnamed: 0,movie,subtitels,level
0,The Walking Dead-S01E01-Days Gone Bye.English,little girl i'm a policeman little gir...,A2
1,The Walking Dead-S01E02-Guts.English,mom right here any luck how do we tell if th...,A2
2,The Walking Dead-S01E03-Tell It To The Frogs.E...,that's right you heard me bitch you got a pro...,A2
3,The Walking Dead-S01E04-Vatos.English,what nothing it's not nothing it's always som...,A2
4,The Walking Dead-S01E05-Wildfire.English,walkie talkie squawks morgan i don't know if y...,A2
...,...,...,...
85,Suits.Episode 8- Mea Culpa,so we started this thing i was just doing it t...,B2
86,Suits.Episode 9- Uninvited Guests,pursuant to section b of the bylaws i am placi...,B2
87,Suits.S01E01.1080p.BluRay.AAC5.1.x265-DTG.02.EN,gerald tate's here he wants to know what's hap...,B2
88,Suits.S01E02.1080p.BluRay.AAC5.1.x265-DTG.02.EN,uh what is that three in a row that would be f...,B2


Обработаем полученные данные в столбцах:
 - уберем в колонке level значение, не являющее вровнем (Subtitles)
 - удалим строки с NAN в колонке subtitels
 - проверем колонку movie на наличие скрытых дубликатов, приведя наименования немного в порядок

In [213]:
# смотрим уникальные значения колонки level:
sorted(final_df['level'].unique())

['A2', 'B1', 'B2', 'C1', 'Subtitles']

In [214]:
final_df['level'].value_counts()

B2           141
Subtitles    116
B1            67
C1            40
A2            32
Name: level, dtype: int64

In [215]:
# удаляем фильмы, уровень которых опеределен как Subtitles
final_df = final_df[final_df['level'] != "Subtitles"]
final_df['level'].value_counts()

B2    141
B1     67
C1     40
A2     32
Name: level, dtype: int64

In [216]:
final_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 280 entries, 0 to 395
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   movie      280 non-null    object
 1   subtitels  163 non-null    object
 2   level      280 non-null    object
dtypes: object(3)
memory usage: 8.8+ KB


In [217]:
# Рассмотрим строки в котрых отсутсвуют субтитры.
final_df.loc[final_df['subtitels'].isna() ==True]

Unnamed: 0,movie,subtitels,level
279,10_Cloverfield_lane(2016),,B1
280,10_things_I_hate_about_you(1999),,B1
281,A_knights_tale(2001),,B2
282,A_star_is_born(2018),,B2
283,Aladdin(1992),,A2
...,...,...,...
391,Matilda(2022),,C1
392,Bullet train,,B1
393,Thor: love and thunder,,B2
394,Lightyear,,B2


In [218]:
#удаляем строки с отсутствующими субтитрами и смотрим на оствшийся датасет
#final_df = final_df.dropna(axis='index', how='any', subset=['subtitels']).reset_index(drop=True)
final_df = final_df.dropna(axis='index', subset=['subtitels']).reset_index(drop=True)
final_df.head(20)
final_df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 163 entries, 0 to 162
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   movie      163 non-null    object
 1   subtitels  163 non-null    object
 2   level      163 non-null    object
dtypes: object(3)
memory usage: 3.9+ KB


In [219]:
# рассмотри колонку с наименование фильмов и слегка приведем ее в порядок при необходимости:
sorted(final_df['movie'].unique())

['AmericanBeauty1999.BRRip',
 "Angela's.Christmas.2018.WEBRip.Netflix",
 'Angelas.Christmas.Wish.2020',
 'Collateral.Beauty.2016.720p.BRRip.x264.AAC-ETRG',
 'Crazy4TV.com - Suits.S06E01.720p.BluRay.x265.HEVC.Crazy4ad',
 'Crazy4TV.com - Suits.S06E02.720p.BluRay.x265.HEVC.Crazy4ad',
 'Crazy4TV.com - Suits.S06E03.720p.BluRay.x265.HEVC.Crazy4ad',
 'Crazy4TV.com - Suits.S06E04.720p.BluRay.x265.HEVC.Crazy4ad',
 'Crazy4TV.com - Suits.S06E05.720p.BluRay.x265.HEVC.Crazy4ad',
 'Crazy4TV.com - Suits.S06E06.720p.BluRay.x265.HEVC.Crazy4ad',
 'Crazy4TV.com - Suits.S06E07.720p.BluRay.x265.HEVC.Crazy4ad',
 'Crazy4TV.com - Suits.S06E08.720p.BluRay.x265.HEVC.Crazy4ad',
 'Crazy4TV.com - Suits.S06E09.720p.BluRay.x265.HEVC.Crazy4ad',
 'Crazy4TV.com - Suits.S06E10.720p.BluRay.x265.HEVC.Crazy4ad',
 'Crazy4TV.com - Suits.S06E11.720p.BluRay.x265.HEVC.Crazy4ad',
 'Crazy4TV.com - Suits.S06E12.720p.BluRay.x265.HEVC.Crazy4ad',
 'Crazy4TV.com - Suits.S06E13.720p.BluRay.x265.HEVC.Crazy4ad',
 'Crazy4TV.com - Suits.S0

In [220]:
# посмотрим на наличие полных дубликатов:
print('Количество дубликатов:', final_df.duplicated().sum())

Количество дубликатов: 0


Полных дубликатов нет, но присутствуют названия, к которым можно было бы предраться и удалить в виду того, что отличаются они скорее всего лишь форматом воспроизведения. Но тогда у нас будет совсем маленький датасет для обучения модели. 

**СЛОВАРИ**

Заказчиком было предоставлено несколько словарей с разбиением слов по уровнем сложности английского языка.
Предварительно словари были переведены из pdf формата в exel И объединены.

Считаем полученный словарь и сформируем из него датасет.

У нас по два словаря:
Американский на 3000 слов и на 5000 слов 
Оксфордский на 3000 слов и на 5000 слов

Сделаем замену наименований словарей на просто USA и Oxford
Отсортируем данные по кадому из словарей и найдем дубликаты.
Будем оставлять каждый первый (ориентируемся, что если слово есть и в легком и в сложном уровне, то скорее всего студент его уже знает и изучил все семантические значения, как только узнал слово, т.е. с первого уровня.


In [221]:
# считываем словарь и создаём дополнительный объект
df_words = pd.read_excel(DICTIONARY)
df_words.head()


Unnamed: 0,level,word,comment,semantic,file
0,A1,a,,indefinite article,American_Oxford_3000_by_CEFR_level.pdf
1,A1,an,,indefinite article,American_Oxford_3000_by_CEFR_level.pdf
2,A1,about,,"prep., adv.",American_Oxford_3000_by_CEFR_level.pdf
3,A1,above,,"prep., adv.",American_Oxford_3000_by_CEFR_level.pdf
4,A1,across,,"prep., adv.",American_Oxford_3000_by_CEFR_level.pdf


In [222]:
df_words.head()

Unnamed: 0,level,word,comment,semantic,file
0,A1,a,,indefinite article,American_Oxford_3000_by_CEFR_level.pdf
1,A1,an,,indefinite article,American_Oxford_3000_by_CEFR_level.pdf
2,A1,about,,"prep., adv.",American_Oxford_3000_by_CEFR_level.pdf
3,A1,above,,"prep., adv.",American_Oxford_3000_by_CEFR_level.pdf
4,A1,across,,"prep., adv.",American_Oxford_3000_by_CEFR_level.pdf


In [223]:
file_replace = {'American_Oxford_3000_by_CEFR_level.pdf':'USA', 'American_Oxford_5000_by_CEFR_level.pdf':'USA', 'The_Oxford_3000_by_CEFR_level.pdf':'Oxford',
'The_Oxford_5000_by_CEFR_level.pdf':'Oxford'}
df_words['file'] = df_words['file'].replace(file_replace, regex=True)
sorted(df_words['file'].unique())

['Oxford', 'USA']

In [224]:
df_words.head()

Unnamed: 0,level,word,comment,semantic,file
0,A1,a,,indefinite article,USA
1,A1,an,,indefinite article,USA
2,A1,about,,"prep., adv.",USA
3,A1,above,,"prep., adv.",USA
4,A1,across,,"prep., adv.",USA


In [225]:
# отсортируем слова и посмотрим сколько слов какого уровня у нас есть:
df_words = df_words.sort_values(by=['word', 'level'], ascending=True)
df_words = df_words.drop_duplicates(subset=['word'], keep='last')
df_words.head()
df_words.groupby('level').agg({'word':'count'}) 


Unnamed: 0_level_0,word
level,Unnamed: 1_level_1
A1,761
A2,767
B1,775
B2,1471
C1,1455


In [226]:
#Сохраним словарь:
with open("./df_words","wb") as fid_0: 
    dump(df_words,fid_0)

In [227]:
#Нормализация субтитров основного рабочего файла:
# Проведем токенизацию субтитров
# далее уберем все стоп-слова
# Проведем лемантизацию и далее найдем частоту

In [228]:

english_stopwords = stopwords.words('english')


def tokenize(column):    
    tokens = nltk.word_tokenize(column)
    return [w for w in tokens if w.isalpha()] 

prep_text = [tokenize(text) for text in final_df['subtitels'].astype('str')]

final_df['subs_prep'] = prep_text
final_df.head()


Unnamed: 0,movie,subtitels,level,subs_prep
0,The Walking Dead-S01E01-Days Gone Bye.English,little girl i'm a policeman little gir...,A2,"[little, girl, i, a, policeman, little, girl, ..."
1,The Walking Dead-S01E02-Guts.English,mom right here any luck how do we tell if th...,A2,"[mom, right, here, any, luck, how, do, we, tel..."
2,The Walking Dead-S01E03-Tell It To The Frogs.E...,that's right you heard me bitch you got a pro...,A2,"[that, right, you, heard, me, bitch, you, got,..."
3,The Walking Dead-S01E04-Vatos.English,what nothing it's not nothing it's always som...,A2,"[what, nothing, it, not, nothing, it, always, ..."
4,The Walking Dead-S01E05-Wildfire.English,walkie talkie squawks morgan i don't know if y...,A2,"[walkie, talkie, squawks, morgan, i, do, know,..."


In [229]:
def token_stopwords(text):
    tokens_without_sw = [word for word in text if not word in english_stopwords] 
    return tokens_without_sw

In [230]:
# выполняем нормализацию данных
final_df['subs_nomal'] = final_df['subs_prep'].apply(token_stopwords)

final_df.head()

Unnamed: 0,movie,subtitels,level,subs_prep,subs_nomal
0,The Walking Dead-S01E01-Days Gone Bye.English,little girl i'm a policeman little gir...,A2,"[little, girl, i, a, policeman, little, girl, ...","[little, girl, policeman, little, girl, afraid..."
1,The Walking Dead-S01E02-Guts.English,mom right here any luck how do we tell if th...,A2,"[mom, right, here, any, luck, how, do, we, tel...","[mom, right, luck, tell, poison, uh, one, sure..."
2,The Walking Dead-S01E03-Tell It To The Frogs.E...,that's right you heard me bitch you got a pro...,A2,"[that, right, you, heard, me, bitch, you, got,...","[right, heard, bitch, got, problem, bring, man..."
3,The Walking Dead-S01E04-Vatos.English,what nothing it's not nothing it's always som...,A2,"[what, nothing, it, not, nothing, it, always, ...","[nothing, nothing, always, something, dad, tea..."
4,The Walking Dead-S01E05-Wildfire.English,walkie talkie squawks morgan i don't know if y...,A2,"[walkie, talkie, squawks, morgan, i, do, know,...","[walkie, talkie, squawks, morgan, know, know, ..."


In [231]:
dict_words = {}
# создаём новые колонки по уровням в основном датасете:
for level in df_words['level'].unique():
    final_df[level] = 0
    
    dict_words[level] = df_words.loc[df_words['level'] == level, 'word'].values
    
final_df.head()

Unnamed: 0,movie,subtitels,level,subs_prep,subs_nomal,B2,A1,B1,A2,C1
0,The Walking Dead-S01E01-Days Gone Bye.English,little girl i'm a policeman little gir...,A2,"[little, girl, i, a, policeman, little, girl, ...","[little, girl, policeman, little, girl, afraid...",0,0,0,0,0
1,The Walking Dead-S01E02-Guts.English,mom right here any luck how do we tell if th...,A2,"[mom, right, here, any, luck, how, do, we, tel...","[mom, right, luck, tell, poison, uh, one, sure...",0,0,0,0,0
2,The Walking Dead-S01E03-Tell It To The Frogs.E...,that's right you heard me bitch you got a pro...,A2,"[that, right, you, heard, me, bitch, you, got,...","[right, heard, bitch, got, problem, bring, man...",0,0,0,0,0
3,The Walking Dead-S01E04-Vatos.English,what nothing it's not nothing it's always som...,A2,"[what, nothing, it, not, nothing, it, always, ...","[nothing, nothing, always, something, dad, tea...",0,0,0,0,0
4,The Walking Dead-S01E05-Wildfire.English,walkie talkie squawks morgan i don't know if y...,A2,"[walkie, talkie, squawks, morgan, i, do, know,...","[walkie, talkie, squawks, morgan, know, know, ...",0,0,0,0,0


In [232]:
# Устанавливаем доли слов определённых категорий в фильме, используя словарь с указанием уровня:
def level_words(row):     
    words = row['subs_lemm']
        
    for level in df_words['level'].unique():
        row[level] = len([word for word in words if word.lower() in dict_words[level]]) / len(words)
    return row

In [233]:
# Лемантизация:
morph = pymorphy2.MorphAnalyzer()
lemm_texts_list_1 =[]
lemm_texts_list_2 = []
for text in final_df['subs_nomal']:
    text_lem = [morph.parse(word)[0].normal_form for word in text]
    if len(text_lem) <= 1:
        lemm_texts_list_1.append('')
        lemm_texts_list_2.append('')
        continue
    lemm_texts_list_1.append(text_lem)
    lemm_texts_list_2.append(' '.join(text_lem))
final_df['subs_lemm']= lemm_texts_list_1
final_df = final_df[final_df['subs_lemm']!='']
final_df = final_df.apply(level_words, axis=1)
final_df['sub_for_ml']= lemm_texts_list_2
final_df = final_df[final_df['sub_for_ml']!='']
final_df.head()

Unnamed: 0,movie,subtitels,level,subs_prep,subs_nomal,B2,A1,B1,A2,C1,subs_lemm,sub_for_ml
0,The Walking Dead-S01E01-Days Gone Bye.English,little girl i'm a policeman little gir...,A2,"[little, girl, i, a, policeman, little, girl, ...","[little, girl, policeman, little, girl, afraid...",0.07707,0.382166,0.065605,0.141401,0.029299,"[little, girl, policeman, little, girl, afraid...",little girl policeman little girl afraid okay ...
1,The Walking Dead-S01E02-Guts.English,mom right here any luck how do we tell if th...,A2,"[mom, right, here, any, luck, how, do, we, tel...","[mom, right, luck, tell, poison, uh, one, sure...",0.087417,0.364901,0.080795,0.123841,0.022517,"[mom, right, luck, tell, poison, uh, one, sure...",mom right luck tell poison uh one sure way kno...
2,The Walking Dead-S01E03-Tell It To The Frogs.E...,that's right you heard me bitch you got a pro...,A2,"[that, right, you, heard, me, bitch, you, got,...","[right, heard, bitch, got, problem, bring, man...",0.080671,0.356207,0.053955,0.122053,0.029859,"[right, heard, bitch, got, problem, bring, man...",right heard bitch got problem bring man enough...
3,The Walking Dead-S01E04-Vatos.English,what nothing it's not nothing it's always som...,A2,"[what, nothing, it, not, nothing, it, always, ...","[nothing, nothing, always, something, dad, tea...",0.079605,0.350959,0.073213,0.12086,0.017432,"[nothing, nothing, always, something, dad, tea...",nothing nothing always something dad teach tie...
4,The Walking Dead-S01E05-Wildfire.English,walkie talkie squawks morgan i don't know if y...,A2,"[walkie, talkie, squawks, morgan, i, do, know,...","[walkie, talkie, squawks, morgan, know, know, ...",0.080634,0.36933,0.092153,0.12599,0.026638,"[walkie, talkie, squawks, morgan, know, know, ...",walkie talkie squawks morgan know know hear ma...


**ПОДГОТОВКА ДАННЫХ ДЛЯ ОБУЧЕНИЯ МОДЕЛЕЙ**

In [234]:
#final_df['sub_for_ml'] = final_df['sub_for_ml'].astype('str')
features = final_df[['sub_for_ml', 'A1', 'A2', 'B1', 'B2', 'C1']]
target = final_df['level']

features_train, features_valid, target_train, target_valid = train_test_split(features, target, test_size=0.25, random_state=12345, shuffle=True)

# размеры выборок
print(f'Обучающая выборка:', features_train.shape[0])
print(f'Валидационная выборка:', features_valid.shape[0])
target_train.head()

Обучающая выборка: 122
Валидационная выборка: 41


71     B2
104    B2
68     B2
154    C1
120    B2
Name: level, dtype: object

In [235]:
features_train_vec = features_train.copy()
features_valid_vec = features_valid.copy()
# Масштабируем количественные признаки и применим векторизацию к тексту:
numeric = ['A1', 'A2', 'B1', 'B2', 'C1']

scaler = StandardScaler()
scaler.fit(features_train_vec[numeric])

features_train_vec[numeric] = scaler.transform(features_train_vec[numeric])
features_valid_vec[numeric] = scaler.transform(features_valid_vec[numeric])


# посмотрим, что получилось
features_train_vec.head()

Unnamed: 0,sub_for_ml,A1,A2,B1,B2,C1
71,amazing woman ever met think rachel elizabeth ...,0.738726,-0.567726,-1.118052,-0.744066,0.318372
104,suing entire firm fraud never saw thing life d...,-0.043931,-0.667788,-0.431354,0.686724,1.049768
68,paramount news brings special coverage princes...,1.29607,0.681081,1.345819,-1.049212,0.500117
154,previously suits guilty bribing foreign govern...,-0.019008,-0.545521,0.391896,-0.044058,0.588139
120,come put table okay go yeah take wrap hey hell...,1.967389,-0.313581,-1.045802,-1.910925,0.314997


In [236]:
tfidf_vectorizer = TfidfVectorizer()

column_transformer = ColumnTransformer([('vect1', tfidf_vectorizer, 'sub_for_ml')], remainder='passthrough')

features_train_vec = column_transformer.fit_transform(features_train_vec)
features_valid_vec = column_transformer.transform(features_valid_vec)


**ОБУЧЕНИЕ МОДЕЛЕЙ**

In [237]:
#Логистическая регресси
model_LR = LogisticRegression(n_jobs=3,C=1e5, solver='saga', 
                                           multi_class='multinomial',
                                           max_iter=1000,
                                           random_state=42)
model_LR.fit(features_train_vec, target_train)
pred = model_LR .predict(features_valid_vec)
print(f"F1 Score: {f1_score(target_valid, pred, average='weighted')}")


F1 Score: 0.8426817881624195


In [238]:
# модель CatBoostClassifier
def fit_model(train_pool, test_pool, **kwargs):
    model = CatBoostClassifier(task_type='CPU', iterations = 5000,
                               eval_metric='TotalF1', od_type='Iter', 
                               od_wait=500, **kwargs)
    
    return model.fit(train_pool, eval_set=test_pool, 
                     verbose=100, plot=True, 
                     use_best_model=True)

In [239]:
train_pool = Pool(data=features_train, label=target_train, 
                  text_features=['sub_for_ml'])
valid_pool = Pool(data=features_valid, label=target_valid, 
                  text_features=['sub_for_ml'])

In [240]:
model = fit_model(train_pool, valid_pool, learning_rate=0.35,
                  dictionaries = [{
                      'dictionary_id':'Word',
                      'max_dictionary_size': '50000'
                  }],
                 feature_calcers = ['BoW:top_tokens_count=10000'])

MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

0:	learn: 0.7705820	test: 0.7264808	best: 0.7264808 (0)	total: 1.57s	remaining: 2h 11m 1s
100:	learn: 1.0000000	test: 0.8387050	best: 0.8387050 (50)	total: 1m 27s	remaining: 1h 11m 3s
200:	learn: 1.0000000	test: 0.8387050	best: 0.8387050 (50)	total: 2m 53s	remaining: 1h 8m 59s
300:	learn: 1.0000000	test: 0.8648638	best: 0.8648638 (204)	total: 4m 20s	remaining: 1h 7m 49s
400:	learn: 1.0000000	test: 0.8648638	best: 0.8648638 (204)	total: 5m 46s	remaining: 1h 6m 15s
500:	learn: 1.0000000	test: 0.8648638	best: 0.8648638 (204)	total: 7m 12s	remaining: 1h 4m 42s
600:	learn: 1.0000000	test: 0.8648638	best: 0.8648638 (204)	total: 8m 38s	remaining: 1h 3m 13s
700:	learn: 1.0000000	test: 0.8648638	best: 0.8648638 (204)	total: 10m 3s	remaining: 1h 1m 42s
Stopped by overfitting detector  (500 iterations wait)

bestTest = 0.8648637947
bestIteration = 204

Shrink model to first 205 iterations.


Вторая модель дала лучшую метрику, будем в дальнейшем использовать ее для работы

In [241]:
pred_test = model.predict(features_valid)
print(pred_test)

[['B2']
 ['B2']
 ['B2']
 ['C1']
 ['B2']
 ['B2']
 ['B2']
 ['B2']
 ['B2']
 ['C1']
 ['C1']
 ['B2']
 ['B2']
 ['B2']
 ['B2']
 ['B2']
 ['C1']
 ['B2']
 ['B2']
 ['B2']
 ['B2']
 ['B1']
 ['B2']
 ['A2']
 ['B1']
 ['C1']
 ['B2']
 ['B2']
 ['B2']
 ['B2']
 ['B2']
 ['C1']
 ['B2']
 ['B2']
 ['C1']
 ['A2']
 ['B2']
 ['B2']
 ['B2']
 ['B2']
 ['B2']]


In [242]:
#важные признаки, которые выделила модель
importances = model.feature_importances_
len(importances)
feature_list = list(features_valid.columns)
feature_results = pd.DataFrame({'feature': feature_list,'importance': importances})
feature_results = feature_results.sort_values('importance',ascending = False).reset_index(drop=True)

print(feature_results)

      feature  importance
0  sub_for_ml   99.930776
1          A1    0.029118
2          C1    0.022457
3          B2    0.011182
4          A2    0.006466
5          B1    0.000000


Итак, большей частью модель использовала субтитры и совсем немного долевое распределение слов по уровням

In [247]:
#Сохраним данную модель с наилучшими параметрами для дальнейшего использования:
import pickle
from pickle import dump,load
with open("./model_finish","wb") as fid: 
    dump(model,fid)
with open("./scaler","wb") as fid_1: 
    dump(scaler,fid_1)
with open("./column_transformer","wb") as fid_1: 
    dump(column_transformer,fid_1)

**ВЫВОДЫ:**
    На основании полученных метрик F1 для дальнейшей работы будем использовать модель CatBoostClassifier. Именно ее сохраним и представим заказчику через платформу Streamlit. Данная модель предсказывает уровень сложности фильмов на основе анализа субтитров и долей присутсвия слов различных категорий слов из словаря в субтитрах фильмов