# Этап 1. Обзор данных <a id='data_review'></a>

In [31]:
import pandas as pd

In [32]:
df = pd.read_csv('Dataset1.csv')

Получим общую информацию о таблице одной командой:

In [33]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5043 entries, 0 to 5042
Data columns (total 28 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   color                       5025 non-null   object 
 1   Director_Name               4872 non-null   object 
 2   num_Critic_for_reviews      4927 non-null   float64
 3   duration                    4959 non-null   float64
 4   director_Facebook_likes     4872 non-null   float64
 5   actor_3_Facebook_likes      4953 non-null   float64
 6   actor_2_name                4963 non-null   object 
 7   Actor_1_Facebook_likes      4968 non-null   float64
 8   gross                       4104 non-null   float64
 9   genres                      4974 non-null   object 
 10  actor_1_name                4968 non-null   object 
 11  movie_Title                 4974 non-null   object 
 12  num_voted_users             4974 non-null   float64
 13   cast_total_facebook_likes  4974 

Таблица содержит 28 столбцов. Они хранят разный тип данных.
<br>
Мы видим три проблемы со стилем в именах столбцов:<br>
1. Некоторые имена написаны прописными буквами, некоторые строчными.<br>
2. В некоторых именах есть пробелы.<br>
3. Количество значений столбцов разное. Это означает, что данные содержат пропущенные значения. <br>

# **Этап 2. Предварительная обработка данных (Data preprocessing)**
Выведем заголовки столбца:

In [34]:
df.columns

Index(['color', 'Director_Name', 'num_Critic_for_reviews', 'duration',
       'director_Facebook_likes', 'actor_3_Facebook_likes', 'actor_2_name',
       'Actor_1_Facebook_likes', 'gross', 'genres', 'actor_1_name',
       'movie_Title', 'num_voted_users', ' cast_total_facebook_likes',
       'actor_3_name', 'facenumber_in_poster', 'plot_keywords',
       'movie_imdb_link', 'num_user_for_reviews', 'language', 'country',
       'content_rating', 'budget', 'title_year', 'actor_2_facebook_likes',
       'imdb_score', 'aspect_ratio', 'movie_facebook_likes;'],
      dtype='object')

Изменим названия столбцов в соответствии с правилам:

In [38]:
df = df.rename (
    columns={
         'Director_Name' : 'director_name',
        'num_Critic_for_reviews'    : 'num_critic_for_reviews',
        'director_Facebook_likes' : 'director_facebook_likes',
        'actor_3_Facebook_likes'      : 'actor_3_facebook_likes',
        'Actor_1_Facebook_likes':'actor_1_facebook_likes',
        'movie_Title':'movie_title',
        ' cast_total_facebook_likes':'cast_total_facebook_likes',
        'movie_facebook_likes;' : 'movie_facebook_likes'
    }
)

Проверяем

In [39]:
df.columns

Index(['color', 'director_name', 'num_critic_for_reviews', 'duration',
       'director_facebook_likes', 'actor_3_facebook_likes', 'actor_2_name',
       'actor_1_facebook_likes', 'gross', 'genres', 'actor_1_name',
       'movie_title', 'num_voted_users', 'cast_total_facebook_likes',
       'actor_3_name', 'facenumber_in_poster', 'plot_keywords',
       'movie_imdb_link', 'num_user_for_reviews', 'language', 'country',
       'content_rating', 'budget', 'title_year', 'actor_2_facebook_likes',
       'imdb_score', 'aspect_ratio', 'movie_facebook_likes'],
      dtype='object')

Найдём количество пропущеных значений в таблице.

In [40]:
df.isna().sum()

color                         18
director_name                171
num_critic_for_reviews       116
duration                      84
director_facebook_likes      171
actor_3_facebook_likes        90
actor_2_name                  80
actor_1_facebook_likes        75
gross                        939
genres                        69
actor_1_name                  75
movie_title                   69
num_voted_users               69
cast_total_facebook_likes     69
actor_3_name                  90
facenumber_in_poster          82
plot_keywords                216
movie_imdb_link               69
num_user_for_reviews          87
language                      82
country                       72
content_rating               366
budget                       549
title_year                   174
actor_2_facebook_likes        80
imdb_score                    69
aspect_ratio                 389
movie_facebook_likes          69
dtype: int64

Заменим пропущенные значения в столбцах значением 'unknown'. Для этого создадим список `columns_to_replace`, пройдём по нему с помощью for, и заменим пропущенные значения в каждом из столбцов:

In [44]:
columns_to_replace =['color', 'director_name', 'num_critic_for_reviews', 'duration',
       'director_facebook_likes', 'actor_3_facebook_likes', 'actor_2_name',
       'actor_1_facebook_likes', 'gross', 'genres', 'actor_1_name',
       'movie_title', 'num_voted_users', 'cast_total_facebook_likes',
       'actor_3_name', 'facenumber_in_poster', 'plot_keywords',
       'movie_imdb_link', 'num_user_for_reviews', 'language', 'country',
       'content_rating', 'budget', 'title_year', 'actor_2_facebook_likes',
       'imdb_score', 'aspect_ratio', 'movie_facebook_likes']
for row in columns_to_replace:
    df[row] = df[row].fillna('unknown')

Убедимся, что в таблице больше нет пропущенных значений.

In [45]:
df.isna().sum()

color                        0
director_name                0
num_critic_for_reviews       0
duration                     0
director_facebook_likes      0
actor_3_facebook_likes       0
actor_2_name                 0
actor_1_facebook_likes       0
gross                        0
genres                       0
actor_1_name                 0
movie_title                  0
num_voted_users              0
cast_total_facebook_likes    0
actor_3_name                 0
facenumber_in_poster         0
plot_keywords                0
movie_imdb_link              0
num_user_for_reviews         0
language                     0
country                      0
content_rating               0
budget                       0
title_year                   0
actor_2_facebook_likes       0
imdb_score                   0
aspect_ratio                 0
movie_facebook_likes         0
dtype: int64

Проверяем дубликаты

In [46]:
df.duplicated().sum()

np.int64(45)

In [47]:
df = df.drop_duplicates().reset_index(drop=True)

In [48]:
df.duplicated().sum()

np.int64(0)

In [49]:
df.head(30)

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,3054.0,English,USA,PG-13,237000000.0,2009.0,936.0,7.9,1.78,33000;
1,Colour,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,1238.0,English,USA,PG-13,300000000.0,2007.0,5000.0,7.1,2.35,0;
2,Colour,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,994.0,English,UK,PG-13,245000000.0,2015.0,393.0,6.8,2.35,85000;
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,2701.0,English,USA,PG-13,250000000.0,2012.0,23000.0,8.5,2.35,164000;
4,unknown,Doug Walker,unknown,unknown,131.0,unknown,Rob Walker,131.0,unknown,Documentary,...,unknown,unknown,unknown,unknown,unknown,unknown,12.0,7.1,unknown,0;
5,Colour,Andrew Stanton,462.0,132.0,475.0,530.0,Samantha Morton,640.0,73058679.0,Action|Adventure|Sci-Fi,...,738.0,English,USA,PG-13,263700000.0,2012.0,632.0,6.6,2.35,24000;
6,Color,Sam Raimi,392.0,156.0,0.0,4000.0,James Franco,24000.0,336530303.0,Action|Adventure|Romance,...,1902.0,English,USA,PG-13,258000000.0,2007.0,11000.0,6.2,2.35,0;
7,Color,Nathan Greno,324.0,100.0,15.0,284.0,Donna Murphy,799.0,200807262.0,Adventure|Animation|Comedy|Family|Fantasy|Musi...,...,387.0,English,USA,PG,260000000.0,2010.0,553.0,7.8,1.85,29000;
8,Colour,Joss Whedon,635.0,141.0,0.0,19000.0,Robert Downey Jr.,26000.0,458991599.0,Action|Adventure|Sci-Fi,...,1117.0,English,USA,PG-13,250000000.0,2015.0,21000.0,7.5,2.35,118000;
9,Colour,David Yates,375.0,153.0,282.0,10000.0,Daniel Radcliffe,25000.0,301956980.0,Adventure|Family|Fantasy|Mystery,...,973.0,English,UK,PG,250000000.0,2009.0,11000.0,7.5,2.35,10000;


Теперь избавимся от неявных дубликатов в столбце `color`.

Чтобы избавиться от неявных дубликатов, создадим функцию ***replace_wrong_genres()*** с двумя параметрами:
* `wrong_genres=` — список дупликатов
* `correct_genre=` — строка с правильным значением

Функция должна исправить имена в столбце 'color' из таблицы df, т.е. заменить каждое значение из списка `wrong_genres` на значение в `correct_genre`.

In [25]:
def replace_wrong_genres (wrong_genres, correct_genre):
    for wrong_genre in wrong_genres:
        df['color'] = df['color'].replace(wrong_genre, correct_genre)

Вызов функции `replace_wrong_genres()` и передать ему аргументы, чтобы он очистил неявные дубликаты ('color','Colour') и заменяет их на 'Color':

In [28]:
duplicates = ['color','Colour']
name = 'Color'
replace_wrong_genres(duplicates, name)  # удаление неявных дубликатов

**Выводы:<br>**
Заголовки были очищены, чтобы упростить обработку таблицы.

Все пропущенные значения заменены на «неизвестно».

Отсутствие дубликатов сделает результаты более точными и понятными.

Теперь можно перейти к проверке гипотез.

Импорт необходимых библиотек для извлечения данных из файлов HTML

In [50]:
from bs4 import BeautifulSoup 
import requests


In [53]:
url= "https://www.usinflationcalculator.com/inflation/consumer-price-index-and-annual-percent-changes-from-1913-to-2008/"

r = requests.get(url)
data = r.text
soup = BeautifulSoup(data, 'html.parser')

table = soup.find('table')
rows = table.tbody.findAll('tr');

years = []
cpis = []

for row in rows:
    year = row.findAll('td')[0].get_text()
    if year.isdigit() and int(year) < 2017:
        years.append(int(year))
        cpis.append (float(row.findAll('td')[13].get_text()))

cpi_table = pd.DataFrame({
    "year" : years,
    "avg_annual_cpi": cpis
})

cpi_table.head(10)

Unnamed: 0,year,avg_annual_cpi
0,1913,9.9
1,1914,10.0
2,1915,10.1
3,1916,10.9
4,1917,12.8
5,1918,15.1
6,1919,17.3
7,1920,20.0
8,1921,17.9
9,1922,16.8


Определим функцию для перевода номинальных долларов в реальные доллары в 2016 году с использованием ИПЦ. Будем использовать следующую форму для расчёта реальной стоимости.

In [35]:
def get_real_value(nominal_amt, old_cpi, new_cpi):
    real_value = (nominal_amt * new_cpi) / old_cpi
    return real_value 

За совремееный доллар возьмём доллар 2016 года



In [57]:
CPI_2016 = float (cpi_table [ cpi_table ['year'] == 2016 ][ 'avg_annual_cpi' ].iloc[0])

Добавим к таблице столбцы с бюджетом и сборами в пересчёте на современные доллары



In [58]:
real_domestic_gross = []
real_budget_values = []

for index, row in df.iterrows():
    gross = row['gross']
    budget = row['budget']
    year = row['title_year']
    
    if isinstance(year, str) and year != 'unknown':
        cpi = float(cpi_table.loc[cpi_table['year'] == int(year), 'avg_annual_cpi'].iloc[0])
        real_gross = get_real_value(float(gross), cpi, CPI_2016)
        real_budget = get_real_value(float(budget), cpi, CPI_2016)
    else:
        real_gross = 0
        real_budget = 0
    
    real_domestic_gross.append(real_gross)
    real_budget_values.append(real_budget)

df["real_domestic_gross"] = real_domestic_gross
df["real_budget"] = real_budget_values

Также добавим столбцы с прибылью (валовой и процентной)



In [59]:
profits = []
roi_vals = []
for index, row in df.iterrows():
    profit = row['real_domestic_gross'] - row['real_budget']
    budget = row['budget']
    if budget == 'unknown' or float(budget) == 0:
        roi = 0
    else:
        budget = float(budget)
        num = profit - budget
        den = budget
        roi = (num / den) * 100
    profits.append(profit)
    roi_vals.append(roi)
df['profit'] = profits
df['roi'] = roi_vals

In [39]:
print(df.head())

   color      Director_Name  num_Critic_for_reviews  duration  \
0  Color      James Cameron                   723.0     178.0   
1  Color     Gore Verbinski                   302.0     169.0   
2  Color         Sam Mendes                   602.0     148.0   
3  Color  Christopher Nolan                   813.0     164.0   
4    NaN        Doug Walker                     NaN       NaN   

   director_Facebook_likes  actor_3_Facebook_likes      actor_2_name  \
0                      0.0                   855.0  Joel David Moore   
1                    563.0                  1000.0     Orlando Bloom   
2                      0.0                   161.0      Rory Kinnear   
3                  22000.0                 23000.0    Christian Bale   
4                    131.0                     NaN        Rob Walker   

   Actor_1_Facebook_likes        gross                           genres  ...  \
0                  1000.0  760505847.0  Action|Adventure|Fantasy|Sci-Fi  ...   
1               

# **Этап 3**. **Проверка гипотез** <a id='hypotheses'></a>

Гипотеза1: В США снимают самые дорогие фильмы

Создаем таблицу, где каждая строка представляет страну и ее медианный бюджет фильмов

In [40]:
df_test_1 = pd.DataFrame(df.groupby('country')['budget'].median()).sort_values(by='budget', ascending=False)

df_test_1.head(10)

Unnamed: 0_level_0,budget
country,Unnamed: 1_level_1
Hungary,1260000000.0
Thailand,250000000.0
New Line,90000000.0
Czech Republic,50000000.0
Peru,45000000.0
Aruba,35000000.0
Libya,35000000.0
Japan,28500000.0
Germany,27000000.0
Chile,26000000.0


Гипотеза не подтвердилась. Фильмы из Венгрии самые дорогие...

Гипотеза 2: Фильмы из США имеют больший средний рейтинг чем фильмы из СССР 

Сравним рейтинги фильмов.

In [43]:
df_country = df[df['country'].isin(['USA', 'Russia', 'Soviet Union'])].groupby('country')['imdb_score'].mean()
print(df_country)

country
Russia          6.081818
Soviet Union    8.100000
USA             6.367042
Name: imdb_score, dtype: float64


Видим, что гипотеза снова не подтвердилась, фильмы из СССР имеют больший рейтинг


Гипотеза 3: Больше всего фильмов снятно на английском языке

In [44]:
df.groupby("language")["language"].count()

language
Aboriginal       2
Arabic           5
Aramaic          1
Bosnian          1
Cantonese       11
Chinese          3
Czech            1
Danish           5
Dari             2
Dutch            4
Dzongkha         1
English       4605
Filipino         1
French          72
German          18
Greek            1
Hebrew           5
Hindi           27
Hungarian        1
Icelandic        2
Indonesian       2
Italian          9
Japanese        17
Kannada          1
Kazakh           1
Korean           7
Mandarin        22
Maya             1
Mongolian        1
Norwegian        4
Panjabi          1
Persian          4
Polish           4
Portuguese       8
Romanian         1
Russian         11
Slovenian        1
Spanish         39
Swahili          1
Swedish          5
Tamil            1
Telugu           1
Thai             3
Urdu             1
Vietnamese       1
Zulu             2
Name: language, dtype: int64

Гипотеза подтвердилась. На английском снято 4605, что является наибольшим числом

In [49]:
df.to_csv('Lab1_Kulbida_ФИТ-222.csv')# экспорт в csv файл

In [50]:
cpi_table.to_csv(r'Lab1_Kulbida_CPI.csv', index = False)  