## Data Cleaning

Running `amar.rmd` notebook will generate  Our Data is saved in `animation_data.csv`. 

In [5]:
import numpy as np
import matplotlib.pyplot as plt

import pandas as pd
import seaborn as sns

### Loading Data

In [154]:
df = pd.read_csv('animation_movie_features-3.csv')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1010 entries, 0 to 1009
Data columns (total 60 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   URL                      1010 non-null   object
 1   Name                     1010 non-null   object
 2   IMDB_Link                930 non-null    object
 3   Amtiaz                   1010 non-null   int64 
 4   Number_People            1010 non-null   object
 5   Country                  990 non-null    object
 6   Year                     1010 non-null   object
 7   Rade                     1010 non-null   object
 8   Num_Seasons              1010 non-null   int64 
 9   Total_Episodes           1010 non-null   int64 
 10  Publication              1010 non-null   int64 
 11  VoiceActors              1010 non-null   int64 
 12  Review                   1010 non-null   int64 
 13  Tips                     1010 non-null   int64 
 14  End                      1010 non-null  

### Data Describtion

| feature | datatype | Description | farsi |
| :-------| ------- | :------------| -------: |
| URL                    | chr | the complete url to the animation's page | URL - آدرس اینترنتی صفحه انیمیشن|
| Name                   | chr |  Name of the animation in farsi  |Name - نام انیمیشن|
| IMDB_Link              | chr | number in range [0,10] with one decimal position but farsi digits "۶.۷" "۷.۰" ... |IMDB_Link - امتیاز به صفحه IMDb انیمیشن|
| Amtiaz                 | int | percentage rating from the website  | Amtiaz - امتیاز انیمیشن که توسط کاربران داده شده|
| Number_People          | chr | number of people who rated this animation in farsi numbers $[0, \infty]$ "۲,۳۴۲" "۱۱,۲۵۶" ... |Number_People - تعداد کاربرانی که به انیمیشن امتیاز داده‌اند|
| Country                | chr | Country of origin in farsi "آمریکا " not trimmed |Country - کشور سازنده انیمیشن|
| Year                   | chr | release year in Latin digits |Year - سال تولید انیمیشن|
| Rade                   | chr | "رده سنی ۳+" "رده سنی ۳+" "رده سنی ۳+" "رده سنی ۳+" ... |Rade - رده سنی انیمیشن|
| Num_Seasons            | int | Number of seasons, positive integer must be |Num_Seasons - تعداد فصل‌های انیمیشن (در صورت سریال بودن)|
| Total_Episodes         | int | Number of total Episodes, positive integer must be. some have zero?|Total_Episodes - تعداد کل قسمت‌ها (در صورت سریال بودن)|
| Publication            | int | binary,| Publication - وجود بخش انتشار|
| VoiceActors            | int | binary 1 if section exists |VoiceActors - وجود بخش صداپیشگان|
| Review                 | int | binary 1 if section exists |Review - وجود بخش نقد و بررسی|
| Tips                   | int | binary 1 if section exists |Tips - وجود بخش نکات|
| End                    | int | binary 1 if section exists |End - وجود بخش پایانی|
| Description            | int | binary 1 if section exists |Description - وجود بخش توضیحات|
| Characters             | int | binary 1 if section exists |Characters - وجود بخش شخصیت‌ها|
| InformativeMessages    | int | binary 1 if section exists |InformativeMessages - وجود بخش پیام‌های آموزنده|
| PositiveAndNegative    | int | binary 1 if section exists |PositiveAndNegative - وجود بخش نکات مثبت و منفی|
| SummaryStory           | int | binary 1 if section exists |SummaryStory - وجود بخش خلاصه داستان|
| Screening              | int | binary 1 if section exists |Screening - وجود بخش اکران|
| Critics                | int | binary 1 if section exists |Critics - وجود بخش نظر منتقدان|
| Conclusion             | int | binary 1 if section exists |Conclusion - وجود بخش نتیجه‌گیری|
| Introduction           | int | binary 1 if section exists |Introduction - وجود بخش معرفی|
| Total_Words            | int | 57 41 1411 1192 73 1329 92 109 1354 74 ...|Total_Words - تعداد کل کلمات در توضیحات|
| Num_Titles             | int | 2 2 8 8 2 7 2 2 7 2 ...|Num_Titles - تعداد عناوین توضیحات|
| Is_Doblele             | int | binary 1 if it is dubbed |Is_Doblele - آیا عنوان دوبله دارد یا خیر|
| Total_Target_Words     | int | count number of target words |Total_Target_Words - تعداد تکرار کلمات خاص در توضیحات|
| About_Words            | int | count number of final words |About_Words - تعداد کلمات در بخش "درباره انیمیشن "|
| Story_Words            | int | count number of Informative words |Story_Words - تعداد کلمات در بخش "داستان انیمیشن"|
| Release_Date_Words     | int | count number of words in this section |Release_Date_Words - تعداد کلمات در بخش "تاریخ انتشار"|
| Review_Words           | int | count number of words in this section |Review_Words - تعداد کلمات در بخش "بررسی انیمیشن "|
| Final_Words            | int | count number of words in this section |Final_Words - تعداد کلمات در بخش سخن پایانی|
| Informative_Words      | int | count number of words in this section |Informative_Words - تعداد کلمات در بخش پیام‌های آموزنده|
| Positive_Negative_Words| int | count number of words in this section |Positive_Negative_Words - تعداد کلمات در بخش نکات مثبت و منفی|
| Summary_Words          | int |count of words |Summary_Words - تعداد کلمات در بخش خلاصه داستان|
| Screening_Words        | int |count of words |Screening_Words - تعداد کلمات در بخش زمان اکران|
| Critics_Words          | int |count of words |Critics_Words - تعداد کلمات در بخش نظر منتقدان|
| Conclusion_Words       | int |count of words |Conclusion_Words - تعداد کلمات در بخش نتیجه‌گیری|
| Introduction_Words     | int |count of words |Introduction_Words - تعداد کلمات در بخش معرفی انیمیشن |
| Voice_Actor_Words      | int |count of words |Voice_Actor_Words - تعداد کلمات در بخش صداپیشگان|
| Series                 | int | binary 1 if tag exists |Series - وجود تگ سریال|
| Animation              | int | binary 1 if tag exists |Animation - وجود تگ انیمیشن|
| Western                | int | binary 1 if tag exists |Western - وجود تگ وسترن|
| Adventure              | int | binary 1 if tag exists |Adventure - وجود تگ ماجراجویی|
| Comedy                 | int | binary 1 if tag exists |Comedy - وجود تگ کمدی|
| Family                 | int | binary 1 if tag exists |Family - وجود تگ خانوادگی|
| Fantasy                | int | binary 1 if tag exists |Fantasy - وجود تگ فانتزی|
| Mystery                | int | binary 1 if tag exists |Mystery - وجود تگ معمایی|
| Action                 | int | binary 1 if tag exists |Action - وجود تگ اکشن|
| Romance                | int | binary 1 if tag exists |Romance - وجود تگ عاشقانه|
| Drama                  | int | binary 1 if tag exists |Drama - وجود تگ درام|
| SciFi                  | int | binary 1 if tag exists |SciFi - وجود تگ علمی‌تخیلی|
| ShortFilm              | int | binary 1 if tag exists |ShortFilm - وجود تگ فیلم کوتاه|
| Crime                  | int | binary 1 if tag exists |Crime - وجود تگ جنایی|
| Musical                | int | binary 1 if tag exists |Musical - وجود تگ موزیکال|
| Korean                 | int | binary 1 if tag exists |Korean - وجود تگ کره‌ای|
| Thriller               | int | binary 1 if tag exists |Thriller - وجود تگ هیجان‌انگیز|
| Anime                  | int | binary 1 if tag exists |Anime - وجود تگ انیمه|
| Music                  | int | binary 1 if tag exists | Music - وجود تگ موسیقی|


### Validating Categorical Data

- Country, Rade can be converted to categorical, Year can be numerical
- binary values must be only 0 and 1

In [149]:
print('Country values :', df.Country.unique()) ## str can be stripped and there are missing values
print('Year values :', df.Year.unique()) # one value with farsi digits 
print('Rade values :', df.Rade.unique())

cols = df.columns
ind = list(range(10,24))
ind.append(26)
ind.extend(list(range(42, 60)))
for i in ind:
    if set(df[cols[i]].unique()) != {0,1}:
        print(df[cols[i]].name, 'values :', df[cols[i]].unique())
## There are no Korean or Music tags in these

Country values : ['کانادا ' 'آمریکا ' 'فرانسه ' 'ژاپن ' nan 'بریتانیا ' 'ایران ' 'روسیه '
 'ایرلند ' 'اسپانیا ' 'مکزیک ' 'کره جنوبی ' 'سوئیس ']
Year values : ['2023' '2021' '2010' '2018' '2024' '1999' '2020' '2015' '2025' '۱۴۰۳'
 '2017' '2013' '2022' '2016' '2008' '2005' '2012' '2009' '2019' '2011'
 '2014']
Rade values : ['رده سنی ۳+' 'رده سنی ۱۳+' 'رده سنی ۷+' 'رده سنی ۱۸+']
Korean values : [0]
Music values : [0]


In [150]:
df.Country = df.Country.str.strip()
df.Country = df.Country.astype('category')

df.Rade = df.Rade.astype('category')

persian_years = [w for w in df.Year.unique().tolist() if not w.isascii()] # farsi charachters are not ascii
df.Year = df.Year.str.replace(persian_years.pop(), "2024")
df.Year = df.Year.astype('int64')

### Examinig Numerical Data

- Amtiaz
- range IMDB

In [155]:
df.IMDB_Link.astype('float64')
the_strange_char = df.Number_People[1][1]
df.Number_People = df.Number_People.str.replace(the_strange_char,'.').astype('float64')*1000
df.Number_People = df.Number_People.astype('int64')

In [160]:
#df[(df['Num_Seasons'] != 0) & (df['Total_Episodes'] == 0)]
# After Examination
#df[(df['Num_Seasons'] != 0) & (df['Total_Episodes'] == 0), 'Total_Episodes' ] = 49

array([  2342,   2713,   3838,  11256,   1647,  15991,  10779,   3236,
         5048,   1703,  27346,   9968,   9269,  16200,   8986,  55098,
        11155,   2938,   3000, 208000, 309000, 129000,  18000,  76000,
         5789,   7419,   4204,   3034,   4976, 263000,   5317, 864000,
         2964,   5436,   2572,   1261,   4115,   3768,   2064,   3913,
         2593,   4947,  10414, 548000, 337000,   3285,  10465,  13234,
         4527,   1510,   5573,   1924,   3436,   4030, 848000,   4845,
         5932,   1928,   2075, 572000, 498000,   2578,   6556,   1790,
         3628,   7168,   6392,   5694,   3444,   4755,   1018,   6429,
         3648, 721000,  23000,  47000,  85000,  82000,   3183, 266000,
       222000,  41000, 108000,  13000,  29000,   3357,   5681,   3947,
         2312,   2306,   5840,   2946,   5437,   3771,   5687,   2576],
      dtype=int64)

## Missing Values

- must examine distributions of features between missing and non missing values to see if there is a pattern
- if there is no pattern best method is impute by interpolation, we could use smoothing splines.
