# Datasets preparation

In this notebook I'm going to prepare datasets for storing in their own repository.

## Imports

In [1]:
import os
from pathlib import Path

import pandas as pd

In [2]:
SEED = 42

## Paths

In [3]:
RELATIVE_PATH = os.path.join("../../../", "data")
INFO_PATH = os.path.join(RELATIVE_PATH, "1_anonymized_data")
CLEANED_REVIEWS_PATH = os.path.join(RELATIVE_PATH, "2_cleaned_reviews")
CLEANED_DATASETS_PATH = os.path.join(RELATIVE_PATH, "2_cleaned_datasets")

In [4]:
Path(CLEANED_DATASETS_PATH).mkdir(parents=True, exist_ok=True)

## Data

### Loading reviews

In [5]:
reviews = pd.read_parquet(os.path.join(CLEANED_REVIEWS_PATH, "reviews.parquet"))
reviews.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 206537 entries, 0 to 206536
Data columns (total 9 columns):
 #   Column        Non-Null Count   Dtype         
---  ------        --------------   -----         
 0   show_id       206537 non-null  int64         
 1   user_id       206537 non-null  int64         
 2   type          206537 non-null  category      
 3   datetime      206537 non-null  datetime64[ns]
 4   sentiment     206537 non-null  category      
 5   subtitle      173664 non-null  object        
 6   review        206537 non-null  object        
 7   review_score  206537 non-null  int64         
 8   score         129216 non-null  float64       
dtypes: category(2), datetime64[ns](1), float64(1), int64(3), object(2)
memory usage: 11.4+ MB


### Loading movies info

In [6]:
movies_info = pd.read_parquet(os.path.join(INFO_PATH, "movies_info.parquet"))
movies_info.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 984 entries, 0 to 983
Data columns (total 43 columns):
 #   Column                             Non-Null Count  Dtype 
---  ------                             --------------  ----- 
 0   id                                 984 non-null    int64 
 1   russian_title                      984 non-null    object
 2   original_title                     984 non-null    object
 3   actors                             984 non-null    object
 4   voice_actors                       984 non-null    object
 5   year                               984 non-null    object
 6   country                            984 non-null    object
 7   genre                              984 non-null    object
 8   slogan                             984 non-null    object
 9   director                           984 non-null    object
 10  scriptwriter                       984 non-null    object
 11  producer                           984 non-null    object
 12  operator

### Loading series info

In [7]:
series_info = pd.read_parquet(os.path.join(INFO_PATH, "series_info.parquet"))
series_info.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 980 entries, 0 to 979
Data columns (total 40 columns):
 #   Column                             Non-Null Count  Dtype 
---  ------                             --------------  ----- 
 0   id                                 980 non-null    int64 
 1   russian_title                      980 non-null    object
 2   original_title                     980 non-null    object
 3   actors                             980 non-null    object
 4   voice_actors                       980 non-null    object
 5   year                               980 non-null    object
 6   country                            980 non-null    object
 7   genre                              980 non-null    object
 8   slogan                             980 non-null    object
 9   director                           980 non-null    object
 10  scriptwriter                       980 non-null    object
 11  producer                           980 non-null    object
 12  operator

### Datasets overview

In [8]:
reviews.sample(n=10)

Unnamed: 0,show_id,user_id,type,datetime,sentiment,subtitle,review,review_score,score
25928,380,17872,movie,2014-03-11 14:14:00,positive,"Иногда мне кажется, что в борьбе за жизнь у ме...","Что делать, когда жизнь подкидывает неожиданно...",4,10.0
150461,1055,6676,movie,2017-11-05 13:01:00,positive,То что я люблю!,"Не передать словами, как сильно я люблю подобн...",2,
50087,1166,9588,movie,2020-02-21 00:11:00,positive,Лучший из худших,Мои ожидания от этого фильма не оправдались.<p...,3,
191497,880,52793,series,2018-07-02 14:47:00,positive,Шедевр,"Это лучшее кино про космос на мой взгляд, что ...",28,10.0
183725,362,45697,series,2008-05-05 03:48:00,positive,,"Пожалуй, под поверхностным взглядом мультфильм...",10,
14169,1186,40836,movie,2020-10-02 13:18:00,positive,Возвращение большого кино,Эпоха Марвел и Дисней давно наводит гипноз с и...,-1,8.0
53944,677,25165,movie,2013-03-12 17:41:00,positive,Who was that nigger?,"Квентин Тарантино после двух в целом хороших, ...",-8,
164141,13,18887,movie,2011-08-05 07:25:00,positive,А начиналось всё...,"Прошло семнадцать лет, и только сейчас я решил...",11,
147365,596,24164,movie,2015-01-20 22:45:00,positive,'Она кажется такой... дружелюбной...',"«Он раскрыл глаза, надеясь увидать, чем кончил...",23,9.0
166209,531,14065,movie,2015-05-17 18:30:00,positive,"Макс, машины и мадам.",30 лет! Вы можете в это поверить? 30 лет прошл...,2,10.0


In [9]:
movies_info.sample(n=10, random_state=SEED)

Unnamed: 0,id,russian_title,original_title,actors,voice_actors,year,country,genre,slogan,director,...,rating_kinopoisk,rating_count_kinopoisk,rating_imdb,rating_count_imdb,synopsis,world_critics_percentage,world_critics_star_value,world_critics_number_of_reviews,russian_critics_percentage,russian_critics_number_of_reviews
613,12,Амели (2001),Le Fabuleux destin d'Amélie Poulain,"[Одри Тоту, Матьё Кассовиц, Рюфюс, Лорелла Кра...","[Александра Фатхи, Евгений Иванов, Юрий Лазаре...",2001,"Франция, Германия","мелодрама, комедия",«Она изменит вашу жизнь»,Жан-Пьер Жёне,...,8.0,273 820 оценок,IMDb: 8.30,741 208 оценок,"Знаете ли вы, что все события, происходящие в ...",89%,8.1,185 оценок,100%,8 оценок
451,129,Шоу Трумана (1998),The Truman Show,"[Джим Керри, Лора Линни, Ноа Эммерих, Наташа М...","[Александр Матвеев, Ирина Киреева, Пётр Иващен...",1998,США,"драма, комедия",«Он в прямом эфире и даже не подозревает...»,Питер Уир,...,8.3,405 527 оценок,IMDb: 8.20,1 028 992 оценки,"Представьте себе, что вы вдруг начинаете поним...",95%,8.4,134 оценки,,
731,311,Шоа (1985),Shoah,"[Симон Сребник, Майкл Подчлебник, Мотке Зайдль...",[],1985,"Франция, Великобритания","документальный, военный, история",,Клод Ланзманн,...,8.0,2 936 оценок,IMDb: 8.70,9 350 оценок,"Документальный фильм, рассказывающий о массово...",100%,9.2,37 оценок,100%,3 оценки
436,403,Хоббит: Нежданное путешествие (2012),The Hobbit: An Unexpected Journey,"[Мартин Фриман, Иэн Маккеллен, Ричард Армитедж...","[Илья Хвостиков, Василий Бочкарев, Игорь Балал...",2012,"Новая Зеландия, США","фэнтези, приключения, боевик",«From the smallest beginnings come the greates...,Питер Джексон,...,8.1,444 968 оценок,IMDb: 7.80,800 956 оценок,Хоббит Бильбо Бэггинс пускается в грандиозный ...,64%,6.5,305 оценок,90%,30 оценок
275,1223,Кроваво-красное небо (2021),Blood Red Sky,"[Пери Баумайстер, Карл Антон Кох, Александр Ше...","[Татьяна Шитова, Фёдор Парамонов, Олег Новиков]",2021,"Германия, США","ужасы, триллер, боевик",,Петер Торварт,...,6.2,15 678 оценок,IMDb: 6.10,45 493 оценки,"Надя с восьмилетним сыном летит в Штаты, где е...",80%,6.5,30 оценок,60%,5 оценок
582,689,Философы: Урок выживания (2013),After the Dark,"[Софи Лоу, Джеймс Д’Арси, Риз Уэйкфилд, Дэрил ...","[Виктория Войнич-Слуцкая, Дмитрий Стрелков, Ва...",2013,"США, Индонезия","драма, фэнтези, история","«Умереть, чтобы выжить»",Джон Хаддлс,...,5.8,58 176 оценок,IMDb: 5.60,22 295 оценок,В международной школе в Джакарте таинственный ...,67%,5.6,15 оценок,–,2 оценки
707,1562,Последняя дуэль (2021),The Last Duel,"[Мэтт Дэймон, Адам Драйвер, Джоди Комер, Харри...","[Олег Фёдоров, Александр Койгеров, Елизавета З...",2021,"Великобритания, США","история, драма",«The true story of a woman who defied a nation...,Ридли Скотт,...,7.4,69 224 оценки,IMDb: 7.40,138 347 оценок,"Франция, конец XIV века. Отношения между рыцар...",85%,7.3,281 оценка,93%,14 оценок
299,1496,Девятаев (2021),,"[Павел Прилучный, Павел Чинарёв, Евгений Серзи...",[],2021,Россия,"военный, биография, боевик, история, драма",«Уйдем по небу!»,"Тимур Бекмамбетов, Сергей Трофимов",...,6.3,55 938 оценок,IMDb: 5.60,486 оценок,Лето 1944 года. Советские войска ведут наступл...,,,,,
718,1699,Время (2021),Old,"[Гаэль Гарсиа Берналь, Вики Крипс, Руфус Сьюэл...","[Александр Коврижных, Юлия Яблонская, Василий ...",2021,"США, Япония","триллер, драма, фантастика",«Жизнь — лишь вопрос времени»,М. Найт Шьямалан,...,6.4,220 339 оценок,IMDb: 5.80,93 365 оценок,"Отправившись в отпуск на тропический остров, с...",50%,5.6,332 оценки,33%,12 оценок
494,516,"Человек, который изменил всё (2011)",Moneyball,"[Брэд Питт, Джона Хилл, Филип Сеймур Хоффман, ...","[Всеволод Кузнецов, Диомид Виноградов, Алексан...",2011,США,"биография, спорт, драма",«А что в жизни сделал ты?»,Беннетт Миллер,...,7.7,143 275 оценок,IMDb: 7.60,409 846 оценок,"Фильм по книге Майкла M. Льюиса, изданной в 20...",94%,8.0,268 оценок,100%,7 оценок


In [10]:
series_info.sample(n=10, random_state=SEED)

Unnamed: 0,id,russian_title,original_title,actors,voice_actors,year,country,genre,slogan,director,...,rating_kinopoisk,rating_count_kinopoisk,rating_imdb,rating_count_imdb,synopsis,world_critics_percentage,world_critics_star_value,world_critics_number_of_reviews,russian_critics_percentage,russian_critics_number_of_reviews
788,1728,Будет больно (сериал 2022 – ...),This Is Going to Hurt,"[Бен Уишоу, Амбика Мод, Рори Флек-Бирн, Мишель...",[],2022 (1 сезон),Великобритания,"драма, комедия",,"Люси Форбс, Том Кингсли",...,8.1,79 312 оценок,IMDb: 8.50,7 024 оценки,"Будни Адама, ординатора родильного отделения г...",,,,,
440,827,Романовы (сериал 2013),,"[Андрей Шибаршин, Александр Горелов, Елена Але...",[],2013 (1 сезон),Россия,"документальный, история",«История российской династии»,Максим Беспалый,...,8.9,78 973 оценки,IMDb: 8.30,331 оценка,"Уникальный по форме проект, приуроченным к 40...",,,,,
139,397,Анатомия страсти (сериал 2005),Grey's Anatomy,"[Эллен Помпео, Шандра Уилсон, Джеймс Пикенс мл...","[Татьяна Шитова, Мария Овчинникова, Александр ...",2005 (18 сезонов),США,"драма, мелодрама",«Operations. Relations. Complications»,"Роб Корн, Кевин МакКидд, Дебби Аллен, ...",...,8.2,102 287 оценок,IMDb: 7.60,293 539 оценок,В центре событий — молодая женщина-хирург Мере...,,,,,
695,1834,1883 (сериал 2021 – ...),,"[Сэм Эллиотт, Тим Макгроу, Фэйт Хилл, Изабель ...",[],2021 (1 сезон),США,"драма, вестерн",,"Бен Ричардсон, Кристина Ворос, Тейлор Шеридан",...,7.9,4 343 оценки,IMDb: 8.80,51 474 оценки,XIX век. Семья Даттон пытается спастись от нищ...,,,,,
66,868,Щенячий патруль (сериал 2013 – 2021),PAW Patrol,"[Рон Пардо, Каллан Холли, Деван Коэн, Сэм Брау...","[Андрей Гриневич, Ольга Шорохова, Алёна Созино...",2013 (8 сезонов),"США, Канада","мультфильм, комедия, приключения, семейный, сп...",,"Чарльз Е. Бастьен, Джэми Уитни",...,7.2,157 119 оценок,IMDb: 6.10,3 095 оценок,"Зик Райдер – озорной десятилетний мальчик, тал...",,,,,
852,1511,Пентаверат (мини–сериал 2022),The Pentaverate,"[Майк Майерс, Лидия Уэст, Джереми Айронс, Мари...",[],2022 (1 сезон),США,комедия,«Must Never Be Exposed»,Тим Киркби,...,,,IMDb: 6.10,4 578 оценок,"«Пентаверат» — это секретное общество, состоящ...",,,,,
405,1627,Дочь посла (сериал 2019 – 2021),Sefirin Kizi,"[Энгин Акюрек, Erdal Küçükkömürcü, Гонджа Джил...",[],2019 (2 сезона),Турция,драма,,Эмре Кабакушак,...,6.6,6 414 оценок,IMDb: 5.70,2 223 оценки,Молодые люди Санджар и Нарэ безумно полюбили д...,,,,,
736,788,Хэппи (сериал 2017 – 2019),Happy!,"[Кристофер Мелони, Ричи Костер, Лили Мирожник,...","[Александр Новиков, Антон Савенков, Анна Кисел...",2017 (2 сезона),США,"фэнтези, боевик, триллер, комедия, криминал, д...",«Say Hello to His Little Friend»,"Брайан Тейлор, Уэйн Йип, Марианна Пока, ...",...,7.6,14 103 оценки,IMDb: 8.10,37 838 оценок,"Ник Сакс, вечно пьяный бывший полицейский, ста...",,,,,
457,900,Больница Никербокер (сериал 2014 – 2015),The Knick,"[Андре Холланд, Клайв Оуэн, Джереми Бобб, Джул...",[],2014 (3 сезона),США,"драма, история",«Modern medicine had to start somewhere»,"Стивен Содерберг, Барри Дженкинс",...,8.4,36 863 оценки,IMDb: 8.50,47 745 оценок,Доктор Джон Тэкери работает хирургом в нью-йор...,,,,,
307,1842,Пронзительно громко (сериал 2022 – ...),Roar,"[Исса Рэй, Николь Кидман, Бетти Гилпин, Синтия...","[Виктория Зайцева, Светлана Кузнецова, Анна Сл...",2022 (1 сезон),США,"драма, комедия, фэнтези, детектив",,"Ким Со-ён, Аня Адамс, Лиз Флэхайв, ...",...,5.9,386 оценок,IMDb: 5.30,1 688 оценок,Восемь феминистских историй с неожиданными взг...,,,,,


## Processing

In [29]:
set(series_info.columns).issubset(set(movies_info.columns))

True

We know that the columns in `series_info` dataframe are the subset of columns from the `movies_info` dataframe.

In [31]:
set(movies_info.columns) - set(series_info.columns)

{'marketing', 'rerelease', 'viewers'}

`movies_info` dataframe has 3 additional columns: `marketing`, `rerelease` and `viewers`.

Let's merge two dataframes together.

In [32]:
movies_info.insert(1, "type", "movie")
series_info.insert(1, "type", "series")

In [39]:
info = pd.concat([movies_info, series_info])

## Saving

### Reviews

For dataset with reviews I'm going to save two versions: short (only `sentiment`, `review` and `show_id` for stratification) and full (all columns).

In [21]:
reviews[["show_id", "sentiment", "review"]].to_parquet(
    os.path.join(CLEANED_DATASETS_PATH, "reviews_short.parquet"), index=False
)

In [13]:
reviews.to_parquet(
    os.path.join(CLEANED_DATASETS_PATH, "reviews_full.parquet"), index=False
)

### Info

In [40]:
info.to_parquet(os.path.join(CLEANED_DATASETS_PATH, "info.parquet"), index=False)