# Data processing script

This script is intended for processing a dataset of anime information stored in the CSV file format. The dataset contains a variety of information about each anime title, such as the number of episodes, ratings, and release year.

### Import required libraries

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

### Set table printing options

In [None]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 10)

### Load data from file

In [2]:
data = pd.read_csv('D:/src/findanime/russian-anime-dataset/data/raw_data/findanime.csv', encoding="utf-8")

### Create a copy of data for further processing

In [None]:
data_processed = data.copy()

### Print the first 5 rows of data

In [9]:
data.head(5)

Unnamed: 0,Title,Short title,Href,Translation,Description,Count episodes,Genres,Rating,Rating count,World rating,Characters rating,Plot rating,In_process,Viewed,In_favor,Categories,Year of release,Authors,Studios,Directors,Character designers,Characters,Seiyuu,Translators,Tags,Popularity,Reviews,Quotes,Similar anime,Image src
0,Ходячий замок (Howl's Moving Castle: Howl no U...,Ходячий замок,https://findanime.net/hodiachii_zamok,переведено,"«Ходячий замок» — полнометражное аниме, выпуще...",1,"['паропанк', 'фэнтези', 'сказка', 'приключения...",4.9,4.9,4.9,4.9,4.9,133,12924,9284,[],2004,['Диана Уинн Джонс'],['Ghibli'],['Миядзаки Хаяо'],['Ямасита Акихико'],"['Софи Хаттер', 'Хаул']","['Байсё Тиэко', 'Кимура Такуя']",['ReaniMedia'],[],3,"['\xa0 \xa0 ""Ходячий замок Хаула"", в другой тр...","['Прости меня, я такая капуша: ты ждал меня вс...","['Навсикая из Долины Ветров', 'Унесённые призр...",https://static.findanime.net/uploads/pics/00/1...
1,Унесённые призраками (Spirited Away: Sen to Ch...,Унесённые призраками,https://findanime.net/unesennye_prizrakami,переведено,Вместе с родителями маленькая Тихиро переезжае...,1,"['приключения', 'мистика', 'драма', 'семейный'...",4.9,5.0,4.9,5.0,4.9,110,12923,7541,[],2001,['Миядзаки Хаяо'],['Ghibli'],['Миядзаки Хаяо'],['Андо Масаси'],"['Тихиро Огино', 'Хаку (Унесённые призраками)']","['Тамай Юми', 'Хиираги Руми', 'Ирино Мию', 'Ка...",[],[],3,[' Лет 10-12 назад (уж и не помню точно) зашла...,"['Если забудешь своё имя, то не сможешь вернут...","['Ходячий замок', 'Мой сосед Тоторо', 'Тетрадь...",https://static.findanime.net/uploads/pics/00/1...
2,Стальной Алхимик: Братство [ТВ-2] (FullMetal A...,Стальной Алхимик: Братство [ТВ-2],https://findanime.net/stalnoi_alhimik__bratstv...,переведено,Нарушив главный запрет Алхимии и попытавшись в...,68,"['война', 'драма', 'комедия', 'паропанк', 'фэн...",4.9,4.9,4.9,4.9,4.9,1212,7230,3637,['TV сериалы'],2009,['Аракава Хирому'],['BONES'],['Ириэ Ясухиро'],['Канно Хироки'],[],"['Фудзивара Кэйдзи', 'Ёсино Хироюки (сэйю)', '...","['Ancord', 'MiraiDuB', 'AlFair Studio', 'AniDu...","['Холодное оружие', 'Империи', 'Дружба', 'Учит...",3,['\xa0 \xa0Тема сравнения двух версий сериала ...,['- Мне нравится эта вечная зима. Всё либо чер...,['Стальной Алхимик [ТВ-1]'],https://static.findanime.net/uploads/pics/00/1...
3,Волейбол! 2 (Haikyuu!! Second Season: Haikyu!!...,Волейбол! 2,https://findanime.net/voleibol__2__A5678,переведено,"После участия в межшкольном чемпионате, волейб...",25,"['комедия', 'сёнэн', 'драма', 'спорт', 'школа']",4.9,4.9,4.9,4.9,4.9,1351,6998,2747,['TV сериалы'],2015,['Фурудатэ Харуити'],['Production I.G'],['Мицунака Сусуму'],['Кисида Такахиро'],"['Кэйдзи Акаси', 'Хитока Яти', 'Кэндзи Футакут...","['Хосоя Ёсимаса', 'Морикубо Сётаро', 'Нака Хир...","['AniPlay.TV', 'AniStar', 'AniLibria.TV', 'AOS...","['Несколько ГГ', 'Дружба', 'Волейбол', 'Спорти...",3,['Вот и дошли руки написать отзыв о втором сез...,[],"['Баскетбол Куроко [ТВ-1]', 'Синяя тюрьма: Блю...",https://static.findanime.net/uploads/pics/00/4...
4,В лесу мерцания светлячков (Into the Forest of...,В лесу мерцания светлячков,https://findanime.net/into_the_forest_of_firef...,переведено,"Маленькая девочка заблудилась в лесу, но вдруг...",1,"['мистика', 'сёдзё', 'романтика', 'трагедия', ...",4.8,4.7,4.8,4.9,4.8,212,9942,4697,[],2011,['Мидорикава Юки'],['Brains Base'],['Омори Такахиро'],[],[],"['Утияма Коки', 'Сакура Аянэ']","['LE-Production', 'AniWave', 'Akari GROUP', 'A...",[],3,"['""И максимальной оценки будет мало...""Могу че...",[],"['Тетрадь дружбы Нацумэ', 'Сад изящных слов', ...",https://static.findanime.net/uploads/pics/00/1...


### Summary statistics for numerical data

In [4]:
data.describe()

Unnamed: 0,Title,Short title,Href,Translation,Description,Count episodes,Genres,Rating,Rating count,World rating,Characters rating,Plot rating,In_process,Viewed,In_favor,Categories,Year of release,Authors,Studios,Directors,Character designers,Characters,Seiyuu,Translators,Tags,Popularity,Reviews,Quotes,Similar anime,Image src
count,7774,7774,7774,7774,7713,7774,7774,7774.0,7774,7774,7774,7774.0,7774,7774,7774,7774,7645,7774,7774,7774,7774,7774,7774,7774,7774,7774,7774,7774,7774,7774
unique,7774,7760,7774,3,7647,153,5924,42.0,44,38,44,42.0,877,1814,866,93,71,1761,739,1553,1075,1112,2831,3732,572,5,1773,135,5281,7774
top,Ходячий замок (Howl's Moving Castle: Howl no U...,Мститель,https://findanime.net/hodiachii_zamok,переведено,Ригарт Эрроу — единственный лопух на всём чест...,1,['артхаус'],4.4,0,0,0,4.4,0,0,1,['TV сериалы'],2021,[],[],[],[],[],[],[],[],0,[],[],[],https://static.findanime.net/uploads/pics/00/1...
freq,1,2,1,6500,5,2099,79,740.0,2288,2294,2292,740.0,510,510,647,3542,414,2977,1310,1418,4845,6358,4787,1983,7139,3574,6002,7640,435,1


### General information about data

In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7774 entries, 0 to 7773
Data columns (total 30 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Title                7774 non-null   object
 1   Short title          7774 non-null   object
 2   Href                 7774 non-null   object
 3   Translation          7774 non-null   object
 4   Description          7713 non-null   object
 5   Count episodes       7774 non-null   object
 6   Genres               7774 non-null   object
 7   Rating               7774 non-null   object
 8   Rating count         7774 non-null   object
 9   World rating         7774 non-null   object
 10  Characters rating    7774 non-null   object
 11  Plot rating          7774 non-null   object
 12  In_process           7774 non-null   object
 13  Viewed               7774 non-null   object
 14  In_favor             7774 non-null   object
 15  Categories           7774 non-null   object
 16  Year o

### Convert selected columns to numerical format

In [6]:
columns_to_numeric = [
    "Count episodes",
    "Rating",
    "Rating count",
    "World rating",
    "Characters rating",
    "Plot rating",
    "Characters rating",
    "In_process",
    "Viewed",
    "In_favor",
    "Year of release",
    "Popularity"
]
for column in columns_to_numeric:
    data_processed[column] = pd.to_numeric(data[column], errors="coerce")

### Print updated information about data

In [7]:
data_processed.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7774 entries, 0 to 7773
Data columns (total 30 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Title                7774 non-null   object 
 1   Short title          7774 non-null   object 
 2   Href                 7774 non-null   object 
 3   Translation          7774 non-null   object 
 4   Description          7713 non-null   object 
 5   Count episodes       7773 non-null   float64
 6   Genres               7774 non-null   object 
 7   Rating               7773 non-null   float64
 8   Rating count         7773 non-null   float64
 9   World rating         7773 non-null   float64
 10  Characters rating    7773 non-null   float64
 11  Plot rating          7773 non-null   float64
 12  In_process           7773 non-null   float64
 13  Viewed               7773 non-null   float64
 14  In_favor             7773 non-null   float64
 15  Categories           7774 non-null   o

### Save processed data to a new file

In [8]:
data_processed.to_csv("D:/src/findanime/russian-anime-dataset/data/processed_data/processed_findanime.csv")