# Data anonymization

The goal of this ...

## Imports

In [24]:
import numpy as np
import pandas as pd

In [2]:
SEED = 42

## Data

### Loading data

In [139]:
movies_reviews_df = pd.read_parquet("../../data/movies_reviews.parquet")
movies_reviews_df.shape

(171094, 8)

In [140]:
series_reviews_df = pd.read_parquet("../../data/series_reviews.parquet")
series_reviews_df.shape

(35643, 8)

In [141]:
movies_info_df = pd.read_parquet("../../data/movies_info.parquet")
movies_info_df.shape

(984, 43)

In [142]:
series_info_df = pd.read_parquet("../../data/series_info.parquet")
series_info_df.shape

(978, 43)

## Looking at data

### Info

In [143]:
movies_info_df.head()

Unnamed: 0,id,russian_title,original_title,actors,voice_actors,year,country,genre,slogan,director,...,rating_kinopoisk,rating_count_kinopoisk,rating_imdb,rating_count_imdb,synopsis,world_critics_percentage,world_critics_star_value,world_critics_number_of_reviews,russian_critics_percentage,russian_critics_number_of_reviews
0,535341,1+1 (2011),Intouchables,"[Франсуа Клюзе, Омар Си, Анн Ле Ни, Одри Флеро...","[Владимир Зайцев, Илья Исаев, Елена Соловьева,...",2011,Франция,"драма, комедия, биография",«Sometimes you have to reach into someone else...,"Оливье Накаш, Эрик Толедано",...,8.8,1 392 175 оценок,IMDb: 8.50,825 895 оценок,"Пострадав в результате несчастного случая, бог...",75%,6.8,130 оценок,100%,12 оценок
1,11130,10 причин моей ненависти (1999),10 Things I Hate About You,"[Хит Леджер, Джулия Стайлз, Джозеф Гордон-Леви...",[],1999,США,"драма, мелодрама, комедия","«I pine, I perish!»",Джил Джангер,...,7.8,118 427 оценок,IMDb: 7.30,328 973 оценки,Строгий отец поставил условие: Бьянка пойдет н...,70%,6.2,79 оценок,,
2,606646,12 лет рабства (2013),12 Years a Slave,"[Чиветель Эджиофор, Майкл Фассбендер, Лупита Н...","[Денис Беспалый, Илья Исаев, Вероника Саркисов...",2013,"США, Великобритания","драма, биография, история",«The extraordinary true story of Solomon Northup»,Стив МакКуин,...,7.7,221 399 оценок,IMDb: 8.10,684 062 оценки,Соломон Нортап был женатым и образованным мужч...,95%,8.9,376 оценок,89%,27 оценок
3,502,12 обезьян (1995),Twelve Monkeys,"[Брюс Уиллис, Мэделин Стоу, Брэд Питт, Кристоф...","[Алексей Иващенко, Марианна Шульц, Всеволод Ку...",1995,США,"фантастика, триллер, детектив",«Когда будущее становится историей»,Терри Гиллиам,...,7.8,139 294 оценки,IMDb: 8.00,607 807 оценок,"2035 год... Чудовищный, неизлечимый вирус унич...",88%,7.6,74 оценки,,
4,346,12 разгневанных мужчин (1956),12 Angry Men,"[Генри Фонда, Мартин Болсам, Ли Дж. Кобб, Джоз...","[Борис Кордунов, Олег Голубицкий, Михаил Погор...",1956,США,"драма, детектив, криминал",«they have twelve scraps of paper... twelve ch...,Сидни Люмет,...,8.5,114 157 оценок,IMDb: 9.00,762 170 оценок,"Юношу обвиняют в убийстве собственного отца, е...",100%,9.1,58 оценок,–,1 оценка


For info datasets we are OK.

### Reviews

In [144]:
movies_reviews_df.head()

Unnamed: 0,show_id,username,datetime,sentiment,subtitle,review_body,usefulness_ratio,direct_link
0,277328,ilbarskov - 5279,16 февраля 2022 11:21,good,Достойное зрелище!,"Варкрафт снял отличный режиссёр Данкан Джонс, ...",0 / 1,https://www.kinopoisk.ru/user/39222536/comment...
1,277328,Егор Стрелецкий - 6855,09 ноября 2021 11:47,good,"«Ломать, колотить»",По странному стечению обстоятельств Варкрафт н...,2 / 5,https://www.kinopoisk.ru/user/90478727/comment...
2,277328,LapinPetrr,21 октября 2021 12:05,good,Лок`Тар огар!,"Когда-то Blizzard была прекрасной компанией, к...",2 / 3,https://www.kinopoisk.ru/user/66435781/comment...
3,277328,vEnomanka,22 сентября 2021 23:58,bad,Маляры из студии Близзард,Среди отрицательных рецензий много критики сце...,6 / 16,https://www.kinopoisk.ru/user/3351738/comment/...
4,277328,Cooper_HD,08 июля 2021 01:06,good,Непонятый новый мир!,Долго я обходил данную площадку в составлении ...,4 / 6,https://www.kinopoisk.ru/user/4348938/comment/...


For reviews dataset we have to map usernames to user IDs and drop direct link column.  

### Working with usernames

#### Reading

Let's read all usernames under which users left their reviews for both movies and series

In [145]:
movies_reviews_users = movies_reviews_df["username"].values
series_reviews_users = series_reviews_df["username"].values
len(movies_reviews_users), len(series_reviews_users)

(171094, 35643)

#### Merging

Let's merge them, drop duplicates and sort them

In [146]:
users = sorted(list(set(np.concatenate((movies_reviews_users, series_reviews_users)))))
len(users)

69166

#### Checking

In [147]:
users[::1000]

['',
 '\narthurkaf\n',
 '-Barsuk-',
 'Adomaltin',
 'Alice Cosmo',
 'Ann672',
 'Astrid-Flora',
 'Bladezer Lockers Man',
 'Child of Lonely Star',
 'Dania_Lux',
 'DikCinema',
 'Eh_sasha_sasha',
 'FKNSS',
 'Galateya7',
 'Hank Betelgeuse',
 'Imni',
 'Jimenes',
 'KateMoseeva',
 'Krimbley',
 'Leo Naphta',
 'LsySugar',
 'Marina Lemann',
 'Mikhail Khorpyakov',
 'MsOlya',
 'NewTom2015',
 'Omoroge',
 'Pollyyuhan',
 'Reina_del_crepusculo',
 'SUPERNATURALFOREVER',
 'Shakesbeer',
 'Sophie Pashkina',
 'TOX_SIN',
 'TonyAmigos',
 'Vedimir',
 'WildesTier',
 'Zuzuka_zEro',
 'alex_cheredov',
 'antonpan',
 'benjoker',
 'cinema-life-man',
 'densmr',
 'elen_pogodina',
 'fona_t',
 'habhaus',
 'irina2446urakova',
 'katrinaklimina',
 'kritik16',
 'lisnyak.polina',
 'markkil2012',
 'molora',
 'nick_v',
 'p4ggiswon@gmail.com',
 'quoze',
 'samoylovmichael',
 'skvair',
 'sweet_bait',
 'twitter:Anika_tv',
 'vk-20027013:Максим Сопильняк',
 'yammyspot',
 'Александр Толомоненко',
 'Арсений93',
 'Волчица Воды',
 'Дмитри

Empty string is something we want to avoid - let's look at the data

In [148]:
movies_reviews_df[movies_reviews_df["username"] == ""]

Unnamed: 0,show_id,username,datetime,sentiment,subtitle,review_body,usefulness_ratio,direct_link
766,535341,,13 июля 2012 18:23,good,«Вот сколько ты стоишь в мире искусства».,"Так сказать из Парижа с любовью, французский к...",13 / 5,https://www.kinopoisk.ru/user/428435/comment/1...
1060,11130,,15 ноября 2009 16:04,good,"Твою причёску ненавижу, и то, как говоришь со ...","Когда впервые увидела этот фильм, сначала поду...",27 / 4,https://www.kinopoisk.ru/user/496916/comment/6...
21988,252626,,14 ноября 2009 14:17,good,Большое приключение,Фильм-шедевр. Спасибо большое Шону Пенну за эт...,15 / 6,https://www.kinopoisk.ru/user/496916/comment/6...
40341,232785,,16 сентября 2012 20:39,good,Возможно все.,"Этот фильм один из тех, в которых до последней...",8 / 2,https://www.kinopoisk.ru/user/428435/comment/1...
47502,3561,,26 ноября 2009 11:07,good,"Она вернулась в его жизнь, как пламя, которое ...",Фильм `Дневник памяти` снят по сюжету одноимен...,24 / 4,https://www.kinopoisk.ru/user/496916/comment/6...
51007,280932,,28 июля 2009 03:08,neutral,,"Первые ощущения после просмотра: жизненно, при...",10 / 2,https://www.kinopoisk.ru/user/205364/comment/5...
61069,276376,,13 октября 2008 01:31,neutral,Невероятные приключения американцев в Париже,В последнее время нечасто смотрю боевики в чис...,17 / 14,https://www.kinopoisk.ru/user/205364/comment/2...
76032,351,,24 августа 2008 18:33,good,,"Трогательное, смешное, подчас шокирующее путеш...",18 / 14,https://www.kinopoisk.ru/user/176754/comment/2...
80977,389,,10 ноября 2009 15:17,good,Наемный убийца и маленькая девочка,Фильм Люка Бессона вышел в далеком 1994 году. ...,19 / 8,https://www.kinopoisk.ru/user/496916/comment/6...
81906,739,,18 октября 2008 01:42,bad,,"Как ни печально, совершенно мерзкий, бездушный...",53 / 82,https://www.kinopoisk.ru/user/205364/comment/2...


We can see that, actually, we have column `direct_link` with link to the comment and this link contains the `user_id`. Different users happen to have empty usernames.  
It will be easier to use actual `user_id`'s than generate them ourselves - we just need to find out how to extract `user_id`'s from links.

#### Extracting `user_id`'s

Some reviews doesn't have direct link:

In [149]:
movies_reviews_df["direct_link"].value_counts()

                                                          6734
https://www.kinopoisk.ru/user/1939008/comment/1449048/       2
https://www.kinopoisk.ru/user/1940813/comment/1449009/       2
https://www.kinopoisk.ru/user/975381/comment/1442974/        2
https://www.kinopoisk.ru/user/278280/comment/1440106/        2
                                                          ... 
https://www.kinopoisk.ru/user/2009568/comment/2612773/       1
https://www.kinopoisk.ru/user/5409448/comment/2599615/       1
https://www.kinopoisk.ru/user/6828711/comment/2569361/       1
https://www.kinopoisk.ru/user/668720/comment/2560131/        1
https://www.kinopoisk.ru/user/1414072/comment/2128039/       1
Name: direct_link, Length: 163988, dtype: int64

So, in this case, it will be easier to replace empty usernames with actual `user_id`'s and then encode usernames to new user IDs.  
This way we will restore information for empty usernames (for building recommendation system).

In [150]:
movies_reviews_df.loc[movies_reviews_df["username"] == "", "username"] = [
    link.split("/")[4]
    for link in movies_reviews_df[movies_reviews_df["username"] == ""][
        "direct_link"
    ].values
]

Let's do the same for series reviews

In [151]:
series_reviews_df[series_reviews_df["username"] == ""]

Unnamed: 0,show_id,username,datetime,sentiment,subtitle,review_body,usefulness_ratio,direct_link
7467,161268,,13 ноября 2009 13:24,good,"Мне не до пломбира, пока на попе дыры (с)",Впервые увидела этот мульт лет в 12. Если чест...,32 / 23,https://www.kinopoisk.ru/user/496916/comment/6...
9113,453191,,09 ноября 2009 13:11,good,"Вампиры, вампиры, вампиры...",Сейчас пошла просто дикая мода на вампирство.....,48 / 43,https://www.kinopoisk.ru/user/496916/comment/6...
25905,178707,,25 октября 2009 22:01,good,,Сериал…сверхъестественное…я по началу думала п...,35 / 3,https://www.kinopoisk.ru/user/428435/comment/6...


In [152]:
series_reviews_df.loc[series_reviews_df["username"] == "", "username"] = [
    link.split("/")[4]
    for link in series_reviews_df[series_reviews_df["username"] == ""][
        "direct_link"
    ].values
]

#### Creating map

In [153]:
users = sorted(list(set(np.concatenate((movies_reviews_users, series_reviews_users)))))
len(users)

69172

Before we had 69166 unique users. Now we have 6 more - not much, but better.

In [154]:
user_map = {user: id_ for user, id_ in zip(users, range(len(users)))}

#### Updating dataset

In [155]:
movies_reviews_df["username"] = movies_reviews_df["username"].map(user_map)
series_reviews_df["username"] = series_reviews_df["username"].map(user_map)

Let's also rename column `username` to `user_id`

In [156]:
movies_reviews_df.rename({"username": "user_id"}, axis=1, inplace=True)
series_reviews_df.rename({"username": "user_id"}, axis=1, inplace=True)

And drop `direct_link` and `review_id` columns for anonymized version of the dataset

In [157]:
movies_reviews_df.drop("direct_link", axis=1, inplace=True, errors="ignore")
series_reviews_df.drop("direct_link", axis=1, inplace=True, errors="ignore")

And save the datasets

In [158]:
movies_reviews_df.to_parquet("../../data/anonymized_movies_reviews.parquet")
series_reviews_df.to_parquet("../../data/anonymized_series_reviews.parquet")