# Notebook for data processing and simple visualization

In [1]:
from scraper import KinoPoisk
import pandas as pd
import numpy as np
from currency_converter import CurrencyConverter
import sqlite3
from datetime import date
import sys

## Raw Data

In [12]:
df = pd.read_csv('KinoPoisk.csv')
df.head(5)

Unnamed: 0,Аудиодорожки,Субтитры,Качество видео,Год производства,Страна,Жанр,Слоган,Режиссер,Сценарий,Продюсер,...,Название фильма,Актеры,Оценка фильма,Релиз на Blu-ray,Сборы в России,Ре-релиз (РФ),Цифровой релиз,Директор фильма,4K доступно только на больших экранах,Платформа
0,"Русский, Английский",Русские,,1999,США,"драма, фэнтези, криминал",«Пол Эджкомб не верил в чудеса. Пока не столкн...,Фрэнк Дарабонт,"Фрэнк Дарабонт, Стивен Кинг","Фрэнк Дарабонт, Дэвид Валдес",...,Зеленая миля (1999)The Green Mile16+,Том ХэнксДэвид МорсБонни ХантМайкл Кларк Дунка...,9.1,,,,,,,
1,"Русский, Английский",Русские,,1993,США,"драма, биография, история, военный",«Этот список - жизнь»,Стивен Спилберг,"Стивен Зеллиан, Томас Кенилли","Ирвинг Гловин, Кэтлин Кеннеди, Бранко Лустиг, ...",...,Список Шиндлера (1993)Schindler's List16+,Лиам НисонБен КингслиРэйф ФайнсКэролайн Гудолл...,8.8,"11 апреля 2013, «Двадцатый Век Фокс СНГ»",,,,,,
2,,,,1994,США,драма,«Страх - это кандалы. Надежда - это свобода»,Фрэнк Дарабонт,"Фрэнк Дарабонт, Стивен Кинг","Лиз Глоцер, Дэвид В. Лестер, Ники Марвин",...,Побег из Шоушенка (1994)The Shawshank Redempti...,Тим РоббинсМорган ФриманБоб ГантонУильям Сэдле...,9.1,"27 августа 2009, «Союз-Видео»",$87 432,,,,,
3,"Русский, Русский 5.1, Английский, Английский 5.1",Русские,,1994,США,"драма, комедия, мелодрама, история, военный","«Мир уже никогда не будет прежним, после того ...",Роберт Земекис,"Эрик Рот, Уинстон Грум","Венди Файнерман, Стив Старки, Стив Тиш, ...",...,Форрест Гамп (1994)Forrest Gump16+,Том ХэнксРобин РайтСалли ФилдГэри СинизМайкелт...,8.9,,$84 460,,,,,
4,,,,2003,"Новая Зеландия, США","фэнтези, приключения, драма",«There can be no triumph without loss. No vict...,Питер Джексон,"Фрэн Уолш, Филиппа Бойенс, Питер Джексон, ...","Питер Джексон, Eric Monette, Барри М. Осборн, ...",...,Властелин колец: Возвращение короля (2003)The ...,Элайджа ВудВигго МортенсенШон ЭстинИэн Маккелл...,8.7,"6 апреля 2010, «Юниверсал Пикчерс Рус»",$14 085 000,"29 апреля 2021, «UPI»",,,,


In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 250 entries, 0 to 249
Data columns (total 35 columns):
 #   Column                                 Non-Null Count  Dtype  
---  ------                                 --------------  -----  
 0   Аудиодорожки                           209 non-null    object 
 1   Субтитры                               209 non-null    object 
 2   Качество видео                         0 non-null      float64
 3   Год производства                       250 non-null    int64  
 4   Страна                                 250 non-null    object 
 5   Жанр                                   250 non-null    object 
 6   Слоган                                 250 non-null    object 
 7   Режиссер                               250 non-null    object 
 8   Сценарий                               250 non-null    object 
 9   Продюсер                               205 non-null    object 
 10  Оператор                               215 non-null    object 
 11  Композ

## Part 1: Data proccessing

### Deleting too small columns

In [14]:
df_cleared = df.dropna(axis=1, thresh=190)
df_cleared.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 250 entries, 0 to 249
Data columns (total 25 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Аудиодорожки      209 non-null    object 
 1   Субтитры          209 non-null    object 
 2   Год производства  250 non-null    int64  
 3   Страна            250 non-null    object 
 4   Жанр              250 non-null    object 
 5   Слоган            250 non-null    object 
 6   Режиссер          250 non-null    object 
 7   Сценарий          250 non-null    object 
 8   Продюсер          205 non-null    object 
 9   Оператор          215 non-null    object 
 10  Композитор        250 non-null    object 
 11  Художник          248 non-null    object 
 12  Монтаж            247 non-null    object 
 13  Бюджет            198 non-null    object 
 14  Сборы в США       190 non-null    object 
 15  Сборы в мире      197 non-null    object 
 16  Зрители           215 non-null    object 
 1

### Transforming budget column

In [15]:
df_cleared['Бюджет'] = df_cleared['Бюджет'].str.replace(' ', '')
df_cleared['Бюджет'] = df_cleared['Бюджет'].str.replace('$', '')
c = CurrencyConverter()

def budget_transformation_to_usd(x):
    try:
        result = 0
        year = df_cleared.loc[df_cleared['Бюджет'] == x, 'Год производства'].values[0]
        if type(x) == str:
            if '€' in x:
                x = float(x.replace('€', ''))
                x = (c.convert(x, 'EUR', 'USD', date=date(year, 1, 1)))
            elif 'DEM' in x:
                x = float(x.replace('DEM', ''))
                x = (c.convert(x, 'DEM', 'USD', date=date(year, 1, 1)))
            elif 'р.' in x:
                x = float(x.replace('р.', ''))
                x = (c.convert(x, 'RUB', 'USD', date=date(year, 1, 1)))
            elif '₽' in x:
                x = float(x.replace('₽', ''))
                x = (c.convert(x, 'RUB', 'USD', date=date(year, 1, 1)))
            elif '£' in x:
                x = float(x.replace('£', ''))
                x = (c.convert(x, 'GBP', 'USD', date=date(year, 1, 1)))
            elif 'FRF' in x:
                x = float(x.replace('FRF', ''))
                x = (c.convert(x, 'FRF', 'USD', date=date(year, 1, 1)))
            elif '¥' in x:
                x = float(x.replace('¥', ''))
                x = (c.convert(x, 'JPY', 'USD', date=date(year, 1, 1)))
            elif 'DKK' in x:
                x = float(x.replace('DKK', ''))
                x = (c.convert(x, 'DKK', 'USD', date=date(year, 1, 1)))
        elif type(x) != str:
            x = str(x)
            if '€' in x:
                x = float(x.replace('€', ''))
                x = (c.convert(x, 'EUR', 'USD', date=date(year, 1, 1)))
            elif 'DEM' in x:
                x = float(x.replace('DEM', ''))
                x = (c.convert(x, 'DEM', 'USD', date=date(year, 1, 1)))
            elif 'р.' in x:
                x = float(x.replace('р.', ''))
                x = (c.convert(x, 'RUB', 'USD', date=date(year, 1, 1)))
            elif '₽' in x:
                x = float(x.replace('₽', ''))
                x = (c.convert(x, 'RUB', 'USD', date=date(year, 1, 1)))
            elif '£' in x:
                x = float(x.replace('£', ''))
                x = (c.convert(x, 'GBP', 'USD', date=date(year, 1, 1)))
            elif 'FRF' in x:
                x = float(x.replace('FRF', ''))
                x = (c.convert(x, 'FRF', 'USD', date=date(year, 1, 1)))
            elif '¥' in x:
                x = float(x.replace('¥', ''))
                x = (c.convert(x, 'JPY', 'USD', date=date(year, 1, 1)))
            elif 'DKK' in x:
                x = float(x.replace('DKK', ''))
                x = (c.convert(x, 'DKK', 'USD', date=date(year, 1, 1)))
        return x
    except:
        return x
            
df_cleared['Бюджет'] = df_cleared['Бюджет'].apply(lambda y: budget_transformation_to_usd(x=y))
df_cleared['Бюджет'] = df_cleared['Бюджет'].str.replace('nan', '0')
df_cleared['Бюджет'] = df_cleared['Бюджет'].apply(pd.to_numeric)



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_cleared['Бюджет'] = df_cleared['Бюджет'].str.replace(' ', '')
  df_cleared['Бюджет'] = df_cleared['Бюджет'].str.replace('$', '')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_cleared['Бюджет'] = df_cleared['Бюджет'].str.replace('$', '')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_clear

In [16]:
df_cleared.describe().round(0)

Unnamed: 0,Год производства,Бюджет,Оценка фильма
count,250.0,181.0,250.0
mean,1997.0,74781512.0,8.0
std,16.0,72229743.0,0.0
min,1939.0,340000.0,8.0
25%,1987.0,20000000.0,8.0
50%,2001.0,50000000.0,8.0
75%,2010.0,102000000.0,8.0
max,2021.0,356000000.0,9.0


In [None]:
'''conn = sqlite3.connect('KinoPoisk.db')
c = conn.cursor()
for row in c.execute('SELECT * FROM films_data'):
    print(row)
conn.commit()
conn.close()'''