# Обработка полученных данных.

## Оглавление

* ## [Введение](#Введение.)
* ## [Начало работы](#Начало-работы.)
  * ### [Импорт библиотек и загрузка данных](#Импорт-библиотек-и-загрузка-данных.)
  * ### [Просмотр полученных данных](#Просмотр-полученных-данных.)
    * #### [Общий вид датасета](#Общий-вид-датасета.)
    * #### [Информация об столбцах](#Информация-об-столбцах.)
    * #### [Наличие дубликатов](#Дубликаты-(мало-ли))
    * #### [Описательная статистика](#Описательная-статистика.)
  * ### [Разбор проблемных ситуаций](#Разбор-проблемных-ситуаций.)
    * #### [Кейс с огромным количеством серий](#Кейс-с-огромным-количеством-серий.)
    * #### [Кейс с общее кол-во эпизодов равно нулю](#Кейс-с-общее-кол-во-эпизодов-равно-нулю.)
    * #### [Кейс с нулевой оценкой](#Кейс-с-нулевой-оценкой.)
  * ### [Удаление лишних наблюдений](#Удаление-лишних-наблюдений.)
  * ### [Преобразование строк в число](#Преобразование-строк-в-число.)
  * ### [Создание признака "год" и "квартал"](#Создание-признака-"год"-и-"квартал".)
  * ### [Создание признаков "главный жанр" и "побочный жанр"](#Создание-признаков-"главный-жанр"-и-"побочный-жанр".)
  * ### [Создание оценок и успешности](#Создание-оценок-и-успешности.")
  * ### [Удаление лишних столбцов](#Удаление-лишних-столбцов.)
* ## [Выгрузка датасета](#Выгрузка-датасета.)

## Введение.

В данном нотбуке мы произведём обработку полученных данных, которая делалась в **Сбор данных.ipynb**.

**Поставленная задача:** подготовить готовые данные для обучения моделей машинного обучения, путём очистки и трансформации имеющихся признаков либо же созданию новых признаков на основе имеющихся.

## Начало работы.

### Импорт библиотек и загрузка данных.

In [1]:
"""Импорт библиотек."""
import pandas as pd
import numpy as np
import pickle
import os

In [2]:
"""Загрузка данных."""
df = pd.read_csv('../data/parsed_data.csv')

### Просмотр полученных данных.

Сейчас я хочу подробнее просмотреть, что находится в моём датафрейме, чтобы в дальнейшем определиться с действиями обработки.

#### Общий вид датасета.

In [3]:
df.head()

Unnamed: 0,shikimori_id,studio,name_eng,name_rus,kind,genres_eng,genres_rus,rating,status,total_episodes,...,count_6r,count_7r,count_8r,count_9r,count_10r,planned,watched,watching,abandoned,postponed
0,1,Sunrise,Cowboy Bebop,Ковбой Бибоп,tv,Action Adventure Comedy Drama Sci-Fi Space,Экшен Приключения Комедия Драма Фантастика Космос,r_plus,released,26,...,1256,3676,8136,11547,19832,37941,67131,10921,3592,4803
1,5,Bones,Cowboy Bebop: Tengoku no Tobira,Ковбой Бибоп: Достучаться до небес,movie,Action Drama Mystery Sci-Fi Space,Экшен Драма Детектив Фантастика Космос,r,released,1,...,554,1749,3864,3880,4208,11998,25857,419,254,385
2,6,Madhouse,Trigun,Триган,tv,Shounen Action Adventure Comedy Drama Sci-Fi,Сёнен Экшен Приключения Комедия Драма Фантастика,pg_13,released,26,...,909,2865,5467,5287,6537,25542,36121,3546,1846,1988
3,7,Sunrise,Witch Hunter Robin,Робин — охотница на ведьм,tv,Action Drama Mystery Supernatural Police,Экшен Драма Детектив Сверхъестественное Полиция,pg_13,released,26,...,348,708,699,316,284,11093,4137,921,662,613
4,8,Toei Animation,Bouken Ou Beet,Приключения короля Бита,tv,Shounen Adventure Fantasy Supernatural,Сёнен Приключения Фэнтези Сверхъестественное,pg,released,52,...,18,38,20,9,26,441,249,55,51,28


#### Информация об столбцах.

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18151 entries, 0 to 18150
Data columns (total 29 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   shikimori_id    18151 non-null  int64  
 1   studio          18151 non-null  object 
 2   name_eng        18151 non-null  object 
 3   name_rus        16837 non-null  object 
 4   kind            18141 non-null  object 
 5   genres_eng      18088 non-null  object 
 6   genres_rus      18088 non-null  object 
 7   rating          18151 non-null  object 
 8   status          18151 non-null  object 
 9   total_episodes  18151 non-null  int64  
 10  episodes_aired  18151 non-null  int64  
 11  duration_min    18151 non-null  int64  
 12  aired_on        17989 non-null  object 
 13  score           18151 non-null  float64
 14  count_1r        18151 non-null  int64  
 15  count_2r        18151 non-null  int64  
 16  count_3r        18151 non-null  int64  
 17  count_4r        18151 non-null 

* Следующие столбцы **необходимо преобразовать** в численный вид:
  * **studio**
  * **kind**
  * **rating**
  * **status**
  

* Из признака даты (**aired_on**) нужно создать 2 признака:
  * **Год**
  * **Квартал**

  
* **Жанр аниме** несёт в себе полезную информацию, однако в текстовом варианте он бесполезен, есть вариант:
  * Создать два признака (**главный жанр** и **побочный жанр**)).
    * Пример: Жанры = "Комедия Экшен" -> Главный жанр = 24 (Комедия), Побочный жанр = 13 (Экшен).
    
    
* **Оценку пользователей по 10-бальной шкале (count_Nr)** можно сгруппировать в 2 группы:
  * **Положительная оценка** (7+ баллов).
  * **Негативная оценка** (от 1 до 6 включительно).


* **В случае невозможности обучить хорошую прогнозирующую модель** стоит добавить бинарный признак, отвечающий за успех аниме, для двоичной классификации.

#### Дубликаты (мало ли)

In [5]:
dubs = df[df.duplicated()].shape[0]
print(f"Количество дубликатов - {df[df.duplicated()].shape[0]}")

Количество дубликатов - 0


#### Описательная статистика.

In [6]:
df.describe()

Unnamed: 0,shikimori_id,total_episodes,episodes_aired,duration_min,score,count_1r,count_2r,count_3r,count_4r,count_5r,count_6r,count_7r,count_8r,count_9r,count_10r,planned,watched,watching,abandoned,postponed
count,18151.0,18151.0,18151.0,18151.0,18151.0,18151.0,18151.0,18151.0,18151.0,18151.0,18151.0,18151.0,18151.0,18151.0,18151.0,18151.0,18151.0,18151.0,18151.0,18151.0
mean,22245.622059,11.95565,3.607349,24.125613,4.757016,12.11195,8.471269,13.596772,31.069693,72.89703,151.753347,289.367638,341.100931,229.527189,332.150846,1453.107928,2899.980277,183.97025,153.123079,83.378712
std,15172.133218,46.984761,35.18245,25.088342,2.939059,61.074142,35.542118,54.857392,117.212971,241.923846,499.537969,1028.369531,1443.33595,1218.582892,1869.413113,3759.173602,11354.081299,895.398975,516.995094,294.790755
min,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
25%,6310.5,1.0,0.0,5.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,1.0,31.0,14.0,3.0,15.0,1.0
50%,24179.0,2.0,0.0,23.0,6.04,0.0,0.0,1.0,2.0,4.0,8.0,8.0,6.0,3.0,4.0,157.0,77.0,12.0,35.0,9.0
75%,36536.5,12.0,1.0,26.0,6.85,5.0,4.0,6.0,14.0,35.0,64.0,83.5,58.0,25.0,48.0,835.5,780.0,44.0,74.0,39.0
max,44496.0,3057.0,2553.0,168.0,9.12,3295.0,1336.0,1982.0,4006.0,6393.0,9978.0,19596.0,26743.0,32116.0,51621.0,48990.0,221946.0,46668.0,14285.0,7631.0


<div class="alert alert-warning" role="alert">
    <b>Меня смущает,</b> что у нас имеются аниме, где:
    <ul>
        <li><b>3057 серий.</b></li>
        <li><b>Общее кол-во эпизодов равно нулю.</b></li>
        <li><b>Нет оценки.</b></li>
    </ul>
</div>

### Разбор проблемных ситуаций.

#### Кейс с огромным количеством серий.

In [7]:
df[df['total_episodes'] == 3057]

Unnamed: 0,shikimori_id,studio,name_eng,name_rus,kind,genres_eng,genres_rus,rating,status,total_episodes,...,count_6r,count_7r,count_8r,count_9r,count_10r,planned,watched,watching,abandoned,postponed
5976,9947,Studio not found,Lan Mao,Голубой кот,tv,Adventure Comedy,Приключения Комедия,pg,released,3057,...,0,0,0,1,2,29,4,58,5,0


<div class="alert alert-success" role="alert">
    Такой сериал <b>действительно есть,</b> можно посмотреть по ссылке ниже
</div>


**https://shikimori.one/animes/9947-lan-mao**

#### Кейс с общее кол-во эпизодов равно нулю.

In [8]:
df[df['total_episodes'] == 0]

Unnamed: 0,shikimori_id,studio,name_eng,name_rus,kind,genres_eng,genres_rus,rating,status,total_episodes,...,count_6r,count_7r,count_8r,count_9r,count_10r,planned,watched,watching,abandoned,postponed
11,21,Toei Animation,One Piece,Ван-Пис,tv,Shounen Action Adventure Comedy Drama Fantasy ...,Сёнен Экшен Приключения Комедия Драма Фэнтези ...,pg_13,ongoing,0,...,1038,2492,4238,5134,16375,16387,14187,46668,8886,7631
211,235,TMS Entertainment,Detective Conan,Детектив Конан,tv,Shounen Adventure Comedy Mystery Police,Сёнен Приключения Комедия Детектив Полиция,pg_13,ongoing,0,...,103,198,344,265,908,5777,926,3234,981,932
871,966,Shin-Ei Animation,Crayon Shin-chan,Син-тян,tv,Seinen Comedy Slice of Life Ecchi School,Сэйнэн Комедия Повседневность Этти Школа,g,ongoing,0,...,9,5,9,4,19,506,98,68,262,54
1093,1199,Ajia-Do,Nintama Rantarou,Мальчик-ниндзя Рантаро,tv,Kids Comedy,Детское Комедия,g,ongoing,0,...,1,2,1,1,4,201,25,14,121,11
1787,1960,TMS Entertainment,Sore Ike! Anpanman,"Вперёд, Анпанман!",tv,Kids Comedy Fantasy,Детское Комедия Фэнтези,pg,ongoing,0,...,2,1,3,1,7,187,22,10,120,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
17996,44204,Brain's Base,Kyokou Suiri 2nd Season,Ложные выводы 2,tv,Shounen Mystery Romance Supernatural Demons,Сёнен Детектив Романтика Сверхъестественное Де...,r,anons,0,...,2,3,9,2,35,6357,14,106,43,173
18008,44233,Studio not found,Yinhe Zhi Xin,Сердце Галактики,ona,Action Sci-Fi,Экшен Фантастика,pg_13,ongoing,0,...,1,2,1,1,3,947,1,57,30,27
18050,44304,Sunrise,Code Geass: Dakkan no Z,Код Гиас: Вернувшийся Зет,,Action Drama Sci-Fi Mecha Military Super Power,Экшен Драма Фантастика Меха Военное Супер сила,none,anons,0,...,1,1,2,2,16,2711,36,34,44,101
18066,44376,Studio not found,Idol Land PriPara,При Пара: Земля идола,ona,Shoujo Slice of Life Music,Сёдзё Повседневность Музыка,pg_13,ongoing,0,...,0,0,1,1,2,256,5,15,60,9


<div class="alert alert-success" role="alert">
    Для некоторых <b>онгоингов и анонсированных аниме</b> это объяснимо. Дело в том, что <b>создатели сами не знают, когда закончат аниме,</b> просто штопают, т.е отсутствует запланированный лимит серий. Нужно убедиться, что в этой выборке у нас <b>лишь онгоинги и анонсы.</b>
</div>


In [9]:
df[df['total_episodes'] == 0]['status'].unique()

array(['ongoing', 'released', 'anons'], dtype=object)

In [10]:
# Посмотрим, что за завершенные без каких-либо эпизодов.
tmp = df[df['total_episodes'] == 0]
tmp[tmp['status'] == 'released']

Unnamed: 0,shikimori_id,studio,name_eng,name_rus,kind,genres_eng,genres_rus,rating,status,total_episodes,...,count_6r,count_7r,count_8r,count_9r,count_10r,planned,watched,watching,abandoned,postponed
9166,24775,Kachidoki Studio,Koishite!! Namashi-chan,,tv,Kids Slice of Life,Детское Повседневность,g,released,0,...,0,0,0,0,1,19,2,46,3,0
10333,30129,NHK,Konna Ko Iru kana,,tv,Kids,Детское,pg,released,0,...,0,0,0,0,0,15,34,4,0,0
11236,32237,Studio not found,Burutabu-chan,Бурутабу-чан,tv,Comedy Fantasy,Комедия Фэнтези,pg_13,released,0,...,0,0,0,0,1,13,60,6,0,0
14626,38087,Studio not found,Osomatsu-san: Hajimaru Hajimari,Осомацу-сан: Начало начал,special,Comedy Fantasy Parody,Комедия Фэнтези Пародия,pg_13,released,0,...,0,0,1,1,2,172,29,3,58,15


<div class="alert alert-info" role="alert">
    <b>Итог:</b> непонятные тайтлы, <b>их можно убрать из нашего датасета.</b>
</div>


In [11]:
# Сохраним индексы записей для удаления.
list_index_first_del = list(tmp[tmp['status'] == 'released'].index)
print(list_index_first_del)

[9166, 10333, 11236, 14626]


#### Кейс с нулевой оценкой.

In [12]:
df[df['score'] == 0]

Unnamed: 0,shikimori_id,studio,name_eng,name_rus,kind,genres_eng,genres_rus,rating,status,total_episodes,...,count_6r,count_7r,count_8r,count_9r,count_10r,planned,watched,watching,abandoned,postponed
1578,1739,Three-d,Shibawanko no Wa no Kokoro,Дух гармонии Сибаванко,tv,Kids,Детское,g,released,80,...,1,1,1,1,4,122,8,5,41,11
1699,1863,OLM,Silk Road Shounen Yuuto,Мальчик Юто с Шёлкового Пути,tv,Adventure Fantasy Historical,Приключения Фэнтези Исторический,none,released,26,...,0,0,0,1,1,61,1,1,29,6
2165,2366,J.C.Staff,Touma Kishinden Oni,Легенда о демоне-воине,tv,Supernatural,Сверхъестественное,pg_13,released,25,...,0,0,1,1,1,88,2,5,28,8
2422,2642,Studio not found,Dorami-chan: A Blue Straw Hat,Дорами-тян: Голубая соломенная шляпа,movie,Kids Fantasy,Детское Фэнтези,g,released,1,...,0,0,0,0,1,12,1,1,25,1
2476,2701,Xebec,Susie-chan to Marvy,Суши-тян и Марви,tv,Kids Comedy,Детское Комедия,none,released,104,...,0,0,0,0,1,20,33,2,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18146,44492,Studio not found,Yu Qi Lin: Xian Ling Qi Yu,,tv,Kids,Детское,pg,released,52,...,0,0,0,0,0,6,7,0,0,0
18147,44493,Studio not found,Zhandou Ba Ling Shou,,tv,Mecha Kids,Меха Детское,pg,released,52,...,0,0,0,0,0,5,8,0,0,0
18148,44494,Studio not found,Gang Jia Xiaolong Xia,,tv,Sci-Fi Kids,Фантастика Детское,pg,released,52,...,0,0,0,0,0,5,8,0,0,0
18149,44495,Studio not found,Shouwang Zhengfeng,,tv,Sci-Fi Kids,Фантастика Детское,pg,released,26,...,0,0,0,0,0,5,9,0,0,0


<div class="alert alert-warning" role="alert">
    <b>4751 наблюдений весьма внушительное количество.</b> Просто так удалить эту выборку, будет <b>грубой ошибкой,</b> нужно разобраться до конца в том, что же там хранится.
</div>

In [13]:
df[df['score'] == 0].describe()

Unnamed: 0,shikimori_id,total_episodes,episodes_aired,duration_min,score,count_1r,count_2r,count_3r,count_4r,count_5r,count_6r,count_7r,count_8r,count_9r,count_10r,planned,watched,watching,abandoned,postponed
count,4751.0,4751.0,4751.0,4751.0,4751.0,4751.0,4751.0,4751.0,4751.0,4751.0,4751.0,4751.0,4751.0,4751.0,4751.0,4751.0,4751.0,4751.0,4751.0,4751.0
mean,32566.715428,12.792675,1.191328,18.818985,0.0,0.013681,0.025889,0.055357,0.113239,0.234898,0.438855,0.627657,0.808672,0.954957,1.37571,76.724058,13.564723,12.114713,13.042938,2.595243
std,10626.543836,31.342907,12.109214,22.988346,0.0,0.291678,0.32243,0.426106,0.700838,1.402543,2.186754,2.129212,1.837795,1.521935,4.558678,462.877073,22.599217,17.967635,18.259136,12.018255
min,1739.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
25%,26238.0,1.0,0.0,3.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,11.0,2.0,1.0,0.0,0.0
50%,35543.0,1.0,0.0,11.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,19.0,7.0,3.0,3.0,0.0
75%,41098.5,12.0,0.0,24.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,1.0,36.0,22.0,18.0,23.0,2.0
max,44496.0,744.0,665.0,167.0,0.0,10.0,11.0,13.0,20.0,63.0,96.0,54.0,30.0,27.0,204.0,20234.0,873.0,376.0,120.0,467.0


In [14]:
tmp = df[df['score'] == 0]
tmp[tmp['planned'] == 20234]

Unnamed: 0,shikimori_id,studio,name_eng,name_rus,kind,genres_eng,genres_rus,rating,status,total_episodes,...,count_6r,count_7r,count_8r,count_9r,count_10r,planned,watched,watching,abandoned,postponed
16015,40357,Kinema Citrus,Tate no Yuusha no Nariagari Season 3,Восхождение героя щита 3,tv,Action Adventure Drama Fantasy,Экшен Приключения Драма Фэнтези,pg_13,anons,0,...,6,13,20,27,204,20234,155,376,109,467


In [15]:
tmp[tmp['count_10r'] == 204]

Unnamed: 0,shikimori_id,studio,name_eng,name_rus,kind,genres_eng,genres_rus,rating,status,total_episodes,...,count_6r,count_7r,count_8r,count_9r,count_10r,planned,watched,watching,abandoned,postponed
16015,40357,Kinema Citrus,Tate no Yuusha no Nariagari Season 3,Восхождение героя щита 3,tv,Action Adventure Drama Fantasy,Экшен Приключения Драма Фэнтези,pg_13,anons,0,...,6,13,20,27,204,20234,155,376,109,467


In [16]:
tmp['status'].unique()

array(['released', 'ongoing', 'anons'], dtype=object)

In [17]:
tmp[tmp['status'] == 'released']

Unnamed: 0,shikimori_id,studio,name_eng,name_rus,kind,genres_eng,genres_rus,rating,status,total_episodes,...,count_6r,count_7r,count_8r,count_9r,count_10r,planned,watched,watching,abandoned,postponed
1578,1739,Three-d,Shibawanko no Wa no Kokoro,Дух гармонии Сибаванко,tv,Kids,Детское,g,released,80,...,1,1,1,1,4,122,8,5,41,11
1699,1863,OLM,Silk Road Shounen Yuuto,Мальчик Юто с Шёлкового Пути,tv,Adventure Fantasy Historical,Приключения Фэнтези Исторический,none,released,26,...,0,0,0,1,1,61,1,1,29,6
2165,2366,J.C.Staff,Touma Kishinden Oni,Легенда о демоне-воине,tv,Supernatural,Сверхъестественное,pg_13,released,25,...,0,0,1,1,1,88,2,5,28,8
2422,2642,Studio not found,Dorami-chan: A Blue Straw Hat,Дорами-тян: Голубая соломенная шляпа,movie,Kids Fantasy,Детское Фэнтези,g,released,1,...,0,0,0,0,1,12,1,1,25,1
2476,2701,Xebec,Susie-chan to Marvy,Суши-тян и Марви,tv,Kids Comedy,Детское Комедия,none,released,104,...,0,0,0,0,1,20,33,2,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18146,44492,Studio not found,Yu Qi Lin: Xian Ling Qi Yu,,tv,Kids,Детское,pg,released,52,...,0,0,0,0,0,6,7,0,0,0
18147,44493,Studio not found,Zhandou Ba Ling Shou,,tv,Mecha Kids,Меха Детское,pg,released,52,...,0,0,0,0,0,5,8,0,0,0
18148,44494,Studio not found,Gang Jia Xiaolong Xia,,tv,Sci-Fi Kids,Фантастика Детское,pg,released,52,...,0,0,0,0,0,5,8,0,0,0
18149,44495,Studio not found,Shouwang Zhengfeng,,tv,Sci-Fi Kids,Фантастика Детское,pg,released,26,...,0,0,0,0,0,5,9,0,0,0


<div class="alert alert-info" role="alert">
    Как мы видим, в выборке с нулевой оценкой <b>75% наблюдений не имеют как таковых оценок пользователей,</b> это какие-то непопулярные тайтлы, которые не сильно ценятся в русском сообществе.<br>
    <br>У нас конечно же есть <b>анонсированные тайтлы,</b> которые имеют оценку от пользователей, и<b>, в теории, мы можем самостоятельно вычислить оценку</b> для них, однако это больше напоминает кота в мешке, <b>фрустрацию никто не отменял.</b><br>
    <br><b>Итог:</b> в силу того, что <b>ключевая цель проекта - прогноз оценки</b>, а она как таковой отсутсвует в этой выборке, будет лучше избавиться от неё.
</div>

In [18]:
list_index_second_del = list(tmp[tmp['status'] == 'released'].index)

### Удаление лишних наблюдений.

In [19]:
# Объединим два списка и удалим оттуда дубликаты.
total_list = list_index_first_del + list_index_second_del
del_list = list(set(total_list))

df.drop(del_list, inplace=True) # Удаляем данные.
df.reset_index(drop=True, inplace=True) # Обновим индекс.

# Так же удалим анонсы.
df = df[df['status'] != 'anons']

# Посмотрим на датасет.
df

Unnamed: 0,shikimori_id,studio,name_eng,name_rus,kind,genres_eng,genres_rus,rating,status,total_episodes,...,count_6r,count_7r,count_8r,count_9r,count_10r,planned,watched,watching,abandoned,postponed
0,1,Sunrise,Cowboy Bebop,Ковбой Бибоп,tv,Action Adventure Comedy Drama Sci-Fi Space,Экшен Приключения Комедия Драма Фантастика Космос,r_plus,released,26,...,1256,3676,8136,11547,19832,37941,67131,10921,3592,4803
1,5,Bones,Cowboy Bebop: Tengoku no Tobira,Ковбой Бибоп: Достучаться до небес,movie,Action Drama Mystery Sci-Fi Space,Экшен Драма Детектив Фантастика Космос,r,released,1,...,554,1749,3864,3880,4208,11998,25857,419,254,385
2,6,Madhouse,Trigun,Триган,tv,Shounen Action Adventure Comedy Drama Sci-Fi,Сёнен Экшен Приключения Комедия Драма Фантастика,pg_13,released,26,...,909,2865,5467,5287,6537,25542,36121,3546,1846,1988
3,7,Sunrise,Witch Hunter Robin,Робин — охотница на ведьм,tv,Action Drama Mystery Supernatural Police,Экшен Драма Детектив Сверхъестественное Полиция,pg_13,released,26,...,348,708,699,316,284,11093,4137,921,662,613
4,8,Toei Animation,Bouken Ou Beet,Приключения короля Бита,tv,Shounen Adventure Fantasy Supernatural,Сёнен Приключения Фэнтези Сверхъестественное,pg,released,52,...,18,38,20,9,26,441,249,55,51,28
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13530,44407,Studio not found,Shinkai,Сердце моря,music,Music,Музыка,g,released,1,...,32,50,43,20,34,63,387,11,0,0
13531,44408,Garden Culture,Long Zu,Дракон Раджа,ona,Adventure Fantasy,Приключения Фэнтези,pg_13,ongoing,16,...,14,18,26,14,35,1290,14,533,58,46
13532,44410,Studio not found,Xing Hai Qishi,Звёздный рыцарь,ona,Action Fantasy Sci-Fi,Экшен Фэнтези Фантастика,pg_13,released,7,...,18,19,31,13,19,588,186,53,70,25
13533,44411,Thundray,Shi Ye Miao Yin,"Экзорцист, рисующий ночь",ona,Adventure Fantasy Supernatural Historical,Приключения Фэнтези Сверхъестественное Историч...,pg_13,released,11,...,26,39,39,10,14,1616,201,122,87,55


In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 13466 entries, 0 to 13534
Data columns (total 29 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   shikimori_id    13466 non-null  int64  
 1   studio          13466 non-null  object 
 2   name_eng        13466 non-null  object 
 3   name_rus        13355 non-null  object 
 4   kind            13465 non-null  object 
 5   genres_eng      13443 non-null  object 
 6   genres_rus      13443 non-null  object 
 7   rating          13466 non-null  object 
 8   status          13466 non-null  object 
 9   total_episodes  13466 non-null  int64  
 10  episodes_aired  13466 non-null  int64  
 11  duration_min    13466 non-null  int64  
 12  aired_on        13460 non-null  object 
 13  score           13466 non-null  float64
 14  count_1r        13466 non-null  int64  
 15  count_2r        13466 non-null  int64  
 16  count_3r        13466 non-null  int64  
 17  count_4r        13466 non-null 

### Преобразование строк в число.

In [21]:
print(f"Количество уникальных студий: {len(df['studio'].unique())}")
print(f"Количество уникальных типов аниме: {len(df['kind'].unique())}")
print(f"Количество уникальных возрастных рейтингов: {len(df['rating'].unique())}")
print(f"Количество уникальных статусов аниме: {len(df['status'].unique())}")

Количество уникальных студий: 844
Количество уникальных типов аниме: 7
Количество уникальных возрастных рейтингов: 7
Количество уникальных статусов аниме: 2


In [22]:
studio_dict = dict(zip(df['studio'].unique(),
                       list(range(848))))
studio_dict

{'Sunrise': 0,
 'Bones': 1,
 'Madhouse': 2,
 'Toei Animation': 3,
 'Gallop': 4,
 'J.C.Staff': 5,
 'Nippon Animation': 6,
 'A.C.G.T.': 7,
 'Pierrot': 8,
 'Trans Arts': 9,
 'Studio Comet': 10,
 'Gonzo': 11,
 'Studio Deen': 12,
 'Gainax': 13,
 'OLM': 14,
 'Production I.G': 15,
 'Tokyo Movie Shinsha': 16,
 'Bee Train': 17,
 'AIC': 18,
 'Hal Film Maker': 19,
 'Digital Frontier': 20,
 'Xebec': 21,
 'feel.': 22,
 'Daume': 23,
 'Nomad': 24,
 'Kyoto Animation': 25,
 'Group TAC': 26,
 'Seven Arcs': 27,
 'asread.': 28,
 'TMS Entertainment': 29,
 'Imagin': 30,
 'Zexcs': 31,
 'Telecom Animation Film': 32,
 'ufotable': 33,
 'Studio Matrix': 34,
 'TNK': 35,
 'Studio Fantasia': 36,
 'Studio Ghibli': 37,
 'Production Reed': 38,
 'Pastel': 39,
 'Satelight': 40,
 'Arms': 41,
 'Manglobe': 42,
 'Datama Film': 43,
 'APPP': 44,
 'Triple X': 45,
 'Pink Pineapple': 46,
 'Studio not found': 47,
 'Studio Tulip': 48,
 'JOF': 49,
 'Chaos Project': 50,
 'Tokyo Kids': 51,
 'Palm Studio': 52,
 'AIC Spirits': 53,
 'Yu

In [23]:
# Импорт словаря для веб-приложения.
pickle.dump(studio_dict, open(os.path.join('../pkl/', 'studio_dict.pkl'), 'wb'), protocol=4)

In [24]:
kind_dict = dict(zip(df['kind'].unique(),
                       list(range(7))))
kind_dict

{'tv': 0, 'movie': 1, 'ova': 2, 'special': 3, 'ona': 4, 'music': 5, nan: 6}

In [25]:
# Импорт словаря для веб-приложения.
pickle.dump(kind_dict, open(os.path.join('../pkl/', 'kind_dict.pkl'), 'wb'), protocol=4)

In [26]:
rating_dict = dict(zip(df['rating'].unique(),
                       list(range(7))))
rating_dict

{'r_plus': 0, 'r': 1, 'pg_13': 2, 'pg': 3, 'g': 4, 'rx': 5, 'none': 6}

In [27]:
# Импорт словаря для веб-приложения.
pickle.dump(rating_dict, open(os.path.join('../pkl/', 'rating_dict.pkl'), 'wb'), protocol=4)

In [29]:
status_dict = dict(zip(df['status'].unique(),
                       list(range(3))))
status_dict

{'released': 0, 'ongoing': 1}

In [30]:
# Импорт словаря для веб-приложения.
pickle.dump(status_dict, open(os.path.join('../pkl/', 'status_dict.pkl'), 'wb'), protocol=4)

In [31]:
df.replace({
    'studio': studio_dict,
    'kind': kind_dict,
    'rating': rating_dict,
    'status': status_dict
}, inplace=True)

df.head()

Unnamed: 0,shikimori_id,studio,name_eng,name_rus,kind,genres_eng,genres_rus,rating,status,total_episodes,...,count_6r,count_7r,count_8r,count_9r,count_10r,planned,watched,watching,abandoned,postponed
0,1,0,Cowboy Bebop,Ковбой Бибоп,0,Action Adventure Comedy Drama Sci-Fi Space,Экшен Приключения Комедия Драма Фантастика Космос,0,0,26,...,1256,3676,8136,11547,19832,37941,67131,10921,3592,4803
1,5,1,Cowboy Bebop: Tengoku no Tobira,Ковбой Бибоп: Достучаться до небес,1,Action Drama Mystery Sci-Fi Space,Экшен Драма Детектив Фантастика Космос,1,0,1,...,554,1749,3864,3880,4208,11998,25857,419,254,385
2,6,2,Trigun,Триган,0,Shounen Action Adventure Comedy Drama Sci-Fi,Сёнен Экшен Приключения Комедия Драма Фантастика,2,0,26,...,909,2865,5467,5287,6537,25542,36121,3546,1846,1988
3,7,0,Witch Hunter Robin,Робин — охотница на ведьм,0,Action Drama Mystery Supernatural Police,Экшен Драма Детектив Сверхъестественное Полиция,2,0,26,...,348,708,699,316,284,11093,4137,921,662,613
4,8,3,Bouken Ou Beet,Приключения короля Бита,0,Shounen Adventure Fantasy Supernatural,Сёнен Приключения Фэнтези Сверхъестественное,3,0,52,...,18,38,20,9,26,441,249,55,51,28


### Создание признака "год" и "квартал".

В нашем датасете имеются пропуски в столбце даты, даже после большой чистки. Стоит прежде всего удалить записи, где отсутствует дата, их мало, а именно 59 наблюдений.

In [32]:
df = df[~df['aired_on'].isna()]
df['aired_on'] = pd.to_datetime(df['aired_on'])

df['year'] = pd.DatetimeIndex(df['aired_on']).year
df['quarter'] = df['aired_on'].dt.to_period('Q').astype(str).str[-1].astype(np.int64)

df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['aired_on'] = pd.to_datetime(df['aired_on'])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['year'] = pd.DatetimeIndex(df['aired_on']).year
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['quarter'] = df['aired_on'].dt.to_period('Q').astype(str).str[-1].astype(np.int64)


Unnamed: 0,shikimori_id,studio,name_eng,name_rus,kind,genres_eng,genres_rus,rating,status,total_episodes,...,count_8r,count_9r,count_10r,planned,watched,watching,abandoned,postponed,year,quarter
0,1,0,Cowboy Bebop,Ковбой Бибоп,0,Action Adventure Comedy Drama Sci-Fi Space,Экшен Приключения Комедия Драма Фантастика Космос,0,0,26,...,8136,11547,19832,37941,67131,10921,3592,4803,1998,2
1,5,1,Cowboy Bebop: Tengoku no Tobira,Ковбой Бибоп: Достучаться до небес,1,Action Drama Mystery Sci-Fi Space,Экшен Драма Детектив Фантастика Космос,1,0,1,...,3864,3880,4208,11998,25857,419,254,385,2001,3
2,6,2,Trigun,Триган,0,Shounen Action Adventure Comedy Drama Sci-Fi,Сёнен Экшен Приключения Комедия Драма Фантастика,2,0,26,...,5467,5287,6537,25542,36121,3546,1846,1988,1998,2
3,7,0,Witch Hunter Robin,Робин — охотница на ведьм,0,Action Drama Mystery Supernatural Police,Экшен Драма Детектив Сверхъестественное Полиция,2,0,26,...,699,316,284,11093,4137,921,662,613,2002,3
4,8,3,Bouken Ou Beet,Приключения короля Бита,0,Shounen Adventure Fantasy Supernatural,Сёнен Приключения Фэнтези Сверхъестественное,3,0,52,...,20,9,26,441,249,55,51,28,2004,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13530,44407,47,Shinkai,Сердце моря,5,Music,Музыка,4,0,1,...,43,20,34,63,387,11,0,0,2020,4
13531,44408,843,Long Zu,Дракон Раджа,4,Adventure Fantasy,Приключения Фэнтези,2,1,16,...,26,14,35,1290,14,533,58,46,2022,3
13532,44410,47,Xing Hai Qishi,Звёздный рыцарь,4,Action Fantasy Sci-Fi,Экшен Фэнтези Фантастика,2,0,7,...,31,13,19,588,186,53,70,25,2020,4
13533,44411,725,Shi Ye Miao Yin,"Экзорцист, рисующий ночь",4,Adventure Fantasy Supernatural Historical,Приключения Фэнтези Сверхъестественное Историч...,2,0,11,...,39,10,14,1616,201,122,87,55,2021,3


In [33]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 13460 entries, 0 to 13534
Data columns (total 31 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   shikimori_id    13460 non-null  int64         
 1   studio          13460 non-null  int64         
 2   name_eng        13460 non-null  object        
 3   name_rus        13350 non-null  object        
 4   kind            13460 non-null  int64         
 5   genres_eng      13437 non-null  object        
 6   genres_rus      13437 non-null  object        
 7   rating          13460 non-null  int64         
 8   status          13460 non-null  int64         
 9   total_episodes  13460 non-null  int64         
 10  episodes_aired  13460 non-null  int64         
 11  duration_min    13460 non-null  int64         
 12  aired_on        13460 non-null  datetime64[ns]
 13  score           13460 non-null  float64       
 14  count_1r        13460 non-null  int64         
 15  co

### Создание признаков "главный жанр" и "побочный жанр".

In [34]:
# Посмотрим есть ли наблюдения без жанров.
print(f"Количество аниме без жанров: {df[df['genres_rus'].isna()].shape[0]}")

Количество аниме без жанров: 23


In [35]:
# Избавимся от них.
df = df[~df['genres_rus'].isna()]

# Создадим список уникальных значений жанров.
genre_list = set(' '.join(list(df['genres_rus'])).split())

# Создадим словарь жанров.
genre_dict = dict(zip(genre_list, range(len(genre_list))))
genre_dict

{'Фэнтези': 0,
 'Машины': 1,
 'Гурман': 2,
 'Меха': 3,
 'Игры': 4,
 'Музыка': 5,
 'Юри': 6,
 'Триллер': 7,
 'Магия': 8,
 'Сёдзё-ай': 9,
 'Безумие': 10,
 'Комедия': 11,
 'Психологическое': 12,
 'Этти': 13,
 'Детектив': 14,
 'Сёдзё': 15,
 'Школа': 16,
 'Приключения': 17,
 'Вампиры': 18,
 'Яой': 19,
 'Детское': 20,
 'Фантастика': 21,
 'Сэйнэн': 22,
 'Эротика': 23,
 'Полиция': 24,
 'Дзёсей': 25,
 'Космос': 26,
 'Демоны': 27,
 'Боевые': 28,
 'Работа': 29,
 'Гарем': 30,
 'искусства': 31,
 'Повседневность': 32,
 'Супер': 33,
 'Экшен': 34,
 'Спорт': 35,
 'Романтика': 36,
 'Сёнен': 37,
 'Самураи': 38,
 'Ужасы': 39,
 'Исторический': 40,
 'Хентай': 41,
 'Сёнен-ай': 42,
 'Сверхъестественное': 43,
 'Драма': 44,
 'сила': 45,
 'Военное': 46,
 'Пародия': 47}

In [36]:
def create_main_genre(genres):
    genre = genres.split()[0]
    return genre_dict[genre]

def create_secondary_genre(genres):
    try:
        secondary_genre = genres.split()[1]
        return genre_dict[secondary_genre]
    except:
        return -1

In [37]:
df['main_genre'] = df['genres_rus'].apply(create_main_genre)
df['secondary_genre'] = df['genres_rus'].apply(create_secondary_genre)

df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['main_genre'] = df['genres_rus'].apply(create_main_genre)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['secondary_genre'] = df['genres_rus'].apply(create_secondary_genre)


Unnamed: 0,shikimori_id,studio,name_eng,name_rus,kind,genres_eng,genres_rus,rating,status,total_episodes,...,count_10r,planned,watched,watching,abandoned,postponed,year,quarter,main_genre,secondary_genre
0,1,0,Cowboy Bebop,Ковбой Бибоп,0,Action Adventure Comedy Drama Sci-Fi Space,Экшен Приключения Комедия Драма Фантастика Космос,0,0,26,...,19832,37941,67131,10921,3592,4803,1998,2,34,17
1,5,1,Cowboy Bebop: Tengoku no Tobira,Ковбой Бибоп: Достучаться до небес,1,Action Drama Mystery Sci-Fi Space,Экшен Драма Детектив Фантастика Космос,1,0,1,...,4208,11998,25857,419,254,385,2001,3,34,44
2,6,2,Trigun,Триган,0,Shounen Action Adventure Comedy Drama Sci-Fi,Сёнен Экшен Приключения Комедия Драма Фантастика,2,0,26,...,6537,25542,36121,3546,1846,1988,1998,2,37,34
3,7,0,Witch Hunter Robin,Робин — охотница на ведьм,0,Action Drama Mystery Supernatural Police,Экшен Драма Детектив Сверхъестественное Полиция,2,0,26,...,284,11093,4137,921,662,613,2002,3,34,44
4,8,3,Bouken Ou Beet,Приключения короля Бита,0,Shounen Adventure Fantasy Supernatural,Сёнен Приключения Фэнтези Сверхъестественное,3,0,52,...,26,441,249,55,51,28,2004,3,37,17
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13530,44407,47,Shinkai,Сердце моря,5,Music,Музыка,4,0,1,...,34,63,387,11,0,0,2020,4,5,-1
13531,44408,843,Long Zu,Дракон Раджа,4,Adventure Fantasy,Приключения Фэнтези,2,1,16,...,35,1290,14,533,58,46,2022,3,17,0
13532,44410,47,Xing Hai Qishi,Звёздный рыцарь,4,Action Fantasy Sci-Fi,Экшен Фэнтези Фантастика,2,0,7,...,19,588,186,53,70,25,2020,4,34,0
13533,44411,725,Shi Ye Miao Yin,"Экзорцист, рисующий ночь",4,Adventure Fantasy Supernatural Historical,Приключения Фэнтези Сверхъестественное Историч...,2,0,11,...,14,1616,201,122,87,55,2021,3,17,0


### Создание оценок и успешности.

In [38]:
def create_is_success(score):
    if score >= 7.0:
        return 1
    else:
        return 0

In [39]:
df['positive_count_r'] = df['count_10r'] + df['count_9r'] + df['count_8r'] + df['count_7r']
df['negative_count_r'] = df['count_6r'] + df['count_5r'] + df['count_4r'] + df['count_3r'] + df['count_2r'] + df['count_1r']
df['success'] = df['score'].apply(create_is_success)
df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['positive_count_r'] = df['count_10r'] + df['count_9r'] + df['count_8r'] + df['count_7r']
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['negative_count_r'] = df['count_6r'] + df['count_5r'] + df['count_4r'] + df['count_3r'] + df['count_2r'] + df['count_1r']
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-vers

Unnamed: 0,shikimori_id,studio,name_eng,name_rus,kind,genres_eng,genres_rus,rating,status,total_episodes,...,watching,abandoned,postponed,year,quarter,main_genre,secondary_genre,positive_count_r,negative_count_r,success
0,1,0,Cowboy Bebop,Ковбой Бибоп,0,Action Adventure Comedy Drama Sci-Fi Space,Экшен Приключения Комедия Драма Фантастика Космос,0,0,26,...,10921,3592,4803,1998,2,34,17,43191,2235,1
1,5,1,Cowboy Bebop: Tengoku no Tobira,Ковбой Бибоп: Достучаться до небес,1,Action Drama Mystery Sci-Fi Space,Экшен Драма Детектив Фантастика Космос,1,0,1,...,419,254,385,2001,3,34,44,13701,836,1
2,6,2,Trigun,Триган,0,Shounen Action Adventure Comedy Drama Sci-Fi,Сёнен Экшен Приключения Комедия Драма Фантастика,2,0,26,...,3546,1846,1988,1998,2,37,34,20156,1620,1
3,7,0,Witch Hunter Robin,Робин — охотница на ведьм,0,Action Drama Mystery Supernatural Police,Экшен Драма Детектив Сверхъестественное Полиция,2,0,26,...,921,662,613,2002,3,34,44,2007,663,1
4,8,3,Bouken Ou Beet,Приключения короля Бита,0,Shounen Adventure Fantasy Supernatural,Сёнен Приключения Фэнтези Сверхъестественное,3,0,52,...,55,51,28,2004,3,37,17,93,35,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13530,44407,47,Shinkai,Сердце моря,5,Music,Музыка,4,0,1,...,11,0,0,2020,4,5,-1,147,51,1
13531,44408,843,Long Zu,Дракон Раджа,4,Adventure Fantasy,Приключения Фэнтези,2,1,16,...,533,58,46,2022,3,17,0,93,23,1
13532,44410,47,Xing Hai Qishi,Звёздный рыцарь,4,Action Fantasy Sci-Fi,Экшен Фэнтези Фантастика,2,0,7,...,53,70,25,2020,4,34,0,82,31,0
13533,44411,725,Shi Ye Miao Yin,"Экзорцист, рисующий ночь",4,Adventure Fantasy Supernatural Historical,Приключения Фэнтези Сверхъестественное Историч...,2,0,11,...,122,87,55,2021,3,17,0,102,42,0


In [40]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 13437 entries, 0 to 13534
Data columns (total 36 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   shikimori_id      13437 non-null  int64         
 1   studio            13437 non-null  int64         
 2   name_eng          13437 non-null  object        
 3   name_rus          13327 non-null  object        
 4   kind              13437 non-null  int64         
 5   genres_eng        13437 non-null  object        
 6   genres_rus        13437 non-null  object        
 7   rating            13437 non-null  int64         
 8   status            13437 non-null  int64         
 9   total_episodes    13437 non-null  int64         
 10  episodes_aired    13437 non-null  int64         
 11  duration_min      13437 non-null  int64         
 12  aired_on          13437 non-null  datetime64[ns]
 13  score             13437 non-null  float64       
 14  count_1r          1343

### Удаление лишних столбцов.

В текущем датасете достаточно много признаков, которые я не собираюсь использовать. Оставим лишь нужные либо не повторяющиеся.

In [41]:
clean_df = df[['name_eng', 'rating',
               'studio', 'kind', 'main_genre',
               'secondary_genre', 'year',
               'quarter', 'status',
               'total_episodes', 'episodes_aired', 'duration_min',
               'positive_count_r', 'negative_count_r', 'planned',
               'score', 'success'
              ]]
clean_df = clean_df.reset_index(drop=True)
clean_df

Unnamed: 0,name_eng,rating,studio,kind,main_genre,secondary_genre,year,quarter,status,total_episodes,episodes_aired,duration_min,positive_count_r,negative_count_r,planned,score,success
0,Cowboy Bebop,0,0,0,34,17,1998,2,0,26,0,24,43191,2235,37941,8.77,1
1,Cowboy Bebop: Tengoku no Tobira,1,1,1,34,44,2001,3,0,1,0,115,13701,836,11998,8.38,1
2,Trigun,2,2,0,37,34,1998,2,0,26,0,24,20156,1620,25542,8.22,1
3,Witch Hunter Robin,2,0,0,34,44,2002,3,0,26,0,25,2007,663,11093,7.26,1
4,Bouken Ou Beet,3,3,0,37,17,2004,3,0,52,0,23,93,35,441,6.96,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13432,Shinkai,4,47,5,5,-1,2020,4,0,1,0,4,147,51,63,7.28,1
13433,Long Zu,2,843,4,17,0,2022,3,1,16,12,18,93,23,1290,7.06,1
13434,Xing Hai Qishi,2,47,4,34,0,2020,4,0,7,13,23,82,31,588,6.81,0
13435,Shi Ye Miao Yin,2,725,4,17,0,2021,3,0,11,10,23,102,42,1616,6.21,0


In [42]:
clean_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13437 entries, 0 to 13436
Data columns (total 17 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   name_eng          13437 non-null  object 
 1   rating            13437 non-null  int64  
 2   studio            13437 non-null  int64  
 3   kind              13437 non-null  int64  
 4   main_genre        13437 non-null  int64  
 5   secondary_genre   13437 non-null  int64  
 6   year              13437 non-null  int64  
 7   quarter           13437 non-null  int64  
 8   status            13437 non-null  int64  
 9   total_episodes    13437 non-null  int64  
 10  episodes_aired    13437 non-null  int64  
 11  duration_min      13437 non-null  int64  
 12  positive_count_r  13437 non-null  int64  
 13  negative_count_r  13437 non-null  int64  
 14  planned           13437 non-null  int64  
 15  score             13437 non-null  float64
 16  success           13437 non-null  int64 

## Выгрузка датасета.

<div class="alert alert-success" role="alert">
    <b>Данные готовы</b> для обучения моделей, сделаем выгрузку.
</div>

In [43]:
clean_df.to_csv('../data/clean_anime_data.csv', index=False)