# Этап 1. Обзор данных <a id='data_review'></a>
<br>
Чтобы выявить гипотезы для выполнения заданий стоит сначала узнать из чего состоит данная таблица

In [3]:
import pandas as pd
import numpy as np
import os
import re

In [5]:
df = pd.read_csv("./data/Dataset1.csv") 

Проанализируем датафрейм с помощью нескольких команд

In [1]:
df.head()

NameError: name 'df' is not defined

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5043 entries, 0 to 5042
Data columns (total 28 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   color                       5025 non-null   object 
 1   Director_Name               4872 non-null   object 
 2   num_Critic_for_reviews      4927 non-null   float64
 3   duration                    4959 non-null   float64
 4   director_Facebook_likes     4872 non-null   float64
 5   actor_3_Facebook_likes      4953 non-null   float64
 6   actor_2_name                4963 non-null   object 
 7   Actor_1_Facebook_likes      4968 non-null   float64
 8   gross                       4104 non-null   float64
 9   genres                      4974 non-null   object 
 10  actor_1_name                4968 non-null   object 
 11  movie_Title                 4974 non-null   object 
 12  num_voted_users             4974 non-null   float64
 13   cast_total_facebook_likes  4974 

Итак в ДатаФрейме присутствуют пустые значения, пробелы в названии столбцов и написание с большой буквы.
Это все следует исправить.

# Этап 2. Предварительная обработка данных <a id='data_review'></a>
<br>
Чтобы начать работу с ДатаФреймом следует ее подправить.

Удалим все дубликаты в записях.

In [6]:
df.drop_duplicates().reset_index(drop=True, inplace=True)

Изменим названия столбца.

In [7]:
df = df.rename (
    columns = {
        'Director_Name' : 'director_name',
        'num_Critic_for_reviews'    : 'num_critic_for_reviews',
        'director_Facebook_likes' : 'director_facebook_likes',
        'actor_3_Facebook_likes'      : 'actor_3_facebook_likes',
        'Actor_1_Facebook_likes' : 'actor_1_facebook_likes',
        'movie_title'    : 'movie_title',
        ' cast_total_facebook_likes' : 'cast_total_facebook_likes',
        'movie_facebook_likes;'      : 'movie_facebook_likes',
    }
)

### Пропущенные значения <a id='missing_values'></a>
<br>
Удалим строчки в которые мы не сможем подставить подходящие значения. Сначала узнаем сколько их.

In [8]:
df.isna().sum()

color                         18
director_name                171
num_critic_for_reviews       116
duration                      84
director_facebook_likes      171
actor_3_facebook_likes        90
actor_2_name                  80
actor_1_facebook_likes        75
gross                        939
genres                        69
actor_1_name                  75
movie_Title                   69
num_voted_users               69
cast_total_facebook_likes     69
actor_3_name                  90
facenumber_in_poster          82
plot_keywords                216
movie_imdb_link               69
num_user_for_reviews          87
language                      80
country                       72
content_rating               366
budget                       549
title_year                   174
actor_2_facebook_likes        80
imdb_score                    69
aspect_ratio                 389
movie_facebook_likes          69
dtype: int64

In [181]:
df.color.unique()

array(['Color', 'Colour', nan, 'color',
       'Color,Andrew Adamson,284,150,80,82,Kiran Shah,1000,291709845,Adventure|Family|Fantasy,Jim Broadbent,"The Chronicles of Narnia: The Lion, the Witch and the Wardrobe\xa0",286506,1317,Shane Rangi,5,hide and seek|lion|magic|professor|snow,http://www.imdb.com/title/tt0363771/?ref_=fn_tt_tt_1,1463,English,USA,PG,180000000,2005,190,6.9,2.35,0;',
       ' Black and White',
       'Color,Pete Docter,250,92,0,773,John Ratzenberger,12000,289907418,Adventure|Animation|Comedy|Family|Fantasy,Steve Buscemi,"Monsters, Inc.\xa0",585659,15013,James Coburn,0,friend|little girl|monster|rival|scream,http://www.imdb.com/title/tt0198781/?ref_=fn_tt_tt_1,593,English,USA,G,115000000,2001,1000,8.1,1.85,0;',
       'Color,Alex Proyas,225,115,295,466,Bruce Greenwood,10000,144795350,Action|Mystery|Sci-Fi|Thriller,Will Smith,"I, Robot\xa0",387632,12068,Chi McBride,1,humanoid robot|man versus machine|prosthetic limb|robot as pathos|robot vs. robot,http://www.imdb.com/t

In [193]:
pattern = r'(?:[^,"]|"(?:[^"]|"")*")+'
for index, row in df.iterrows():
    if not pd.isnull(row.color):
        parts = re.findall(pattern, row.color)
        row_split = [part.strip() for part in parts]
        if len(row_split) > 1:
            df_col = df.columns
            for i in range(len(row_split)):
                if pd.isnull(df.loc[index, df_col[i]]):
                    if row_split[i].isdigit():
                        row_split[i] = int(row_split[i])
                    df.loc[index, df_col[i]] = row_split[i]

24 ['Color', '20', '22', '271', 'Soleil Moon Frye', '870', 'Comedy|Family|Fantasy', 'Nate Richert', '"Sabrina, the Teenage Witch\xa0            "', '24420', '2433', 'Caroline Rhea', '1', 'female protagonist|hereditary gift of witchcraft|magic|supernatural|witch', 'http://www.imdb.com/title/tt0115341/?ref_=fn_tt_tt_1', '94', 'English', 'USA', 'TV-G', '3000000', '558', '6.6', '1.33', '990;'] Color,,20,22,,271,Soleil Moon Frye,870,,Comedy|Family|Fantasy,Nate Richert,"Sabrina, the Teenage Witch             ",24420,2433,Caroline Rhea,1,female protagonist|hereditary gift of witchcraft|magic|supernatural|witch,http://www.imdb.com/title/tt0115341/?ref_=fn_tt_tt_1,94,English,USA,TV-G,3000000,,558,6.6,1.33,990;
27 ['Color', 'Melville Shavelson', '8', '111', '5', '559', 'Tom Bosley', '6000', 'Comedy|Family', 'Lucille Ball', '"Yours, Mine and Ours\xa0"', '5888', '7493', 'Tim Matheson', '0', 'nurse|parent|sibling|widow|widower', 'http://www.imdb.com/title/tt0063829/?ref_=fn_tt_tt_1', '61', 'English

In [10]:
df.isna().sum()

color                         18
director_name                171
num_critic_for_reviews       116
duration                      84
director_facebook_likes      171
actor_3_facebook_likes        90
actor_2_name                  80
actor_1_facebook_likes        75
gross                        939
genres                        69
actor_1_name                  75
movie_Title                   69
num_voted_users               69
cast_total_facebook_likes     69
actor_3_name                  90
facenumber_in_poster          82
plot_keywords                216
movie_imdb_link               69
num_user_for_reviews          87
language                      80
country                       72
content_rating               366
budget                       549
title_year                   174
actor_2_facebook_likes        80
imdb_score                    69
aspect_ratio                 389
movie_facebook_likes          69
dtype: int64

In [11]:
df.dropna(subset=['color', 'title_year', 'duration', 'language', 'country', 'num_critic_for_reviews'], inplace=True)
df.reset_index(drop=True, inplace=True)

Затем восполним в ДатаФрейме все пропущенные значения.

In [12]:
df.isna().sum()

color                          0
director_name                  0
num_critic_for_reviews         0
duration                       0
director_facebook_likes        0
actor_3_facebook_likes        15
actor_2_name                   8
actor_1_facebook_likes         5
gross                        708
genres                         0
actor_1_name                   5
movie_Title                    0
num_voted_users                0
cast_total_facebook_likes      0
actor_3_name                  15
facenumber_in_poster          11
plot_keywords                109
movie_imdb_link                0
num_user_for_reviews           0
language                       0
country                        0
content_rating               224
budget                       364
title_year                     0
actor_2_facebook_likes         8
imdb_score                     0
aspect_ratio                 254
movie_facebook_likes           0
dtype: int64

В столбцах *gross* и *budget* пропущенные значения заменим на медиальное значение в год выпуска фильма.

In [13]:
df_budget_median = df.groupby(['title_year'])['budget'].median()
df_gross_median = df.groupby(['title_year'])['gross'].median().fillna(method='ffill')

In [14]:
def filling_nan_value(df, side_df, column_to_replace, side_column):
    for i in df.index:
        if pd.isnull(df[column_to_replace][i]):
            df.loc[i, column_to_replace] = side_df[df.loc[i, side_column]]
    return df

In [15]:
filling_nan_value(df, df_budget_median, 'budget', 'title_year')
filling_nan_value(df, df_budget_median, 'gross', 'title_year').head()

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,3054.0,English,USA,PG-13,237000000.0,2009.0,936.0,7.9,1.78,33000;
1,Colour,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,1238.0,English,USA,PG-13,300000000.0,2007.0,5000.0,7.1,2.35,0;
2,Colour,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,994.0,English,UK,PG-13,245000000.0,2015.0,393.0,6.8,2.35,85000;
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,2701.0,English,USA,PG-13,250000000.0,2012.0,23000.0,8.5,2.35,164000;
4,Colour,Andrew Stanton,462.0,132.0,475.0,530.0,Samantha Morton,640.0,73058679.0,Action|Adventure|Sci-Fi,...,738.0,English,USA,PG-13,263700000.0,2012.0,632.0,6.6,2.35,24000;


In [15]:
df.groupby(['content_rating'])['content_rating'].count()

content_rating
Approved       50
G             110
GP              6
M               5
NC-17           7
Not Rated     109
PG            689
PG-13        1434
Passed          9
R            2088
TV-14           3
TV-G            4
TV-PG           1
Unrated        58
X              13
Name: content_rating, dtype: int64

In [16]:
df.content_rating.fillna("Unrated", inplace=True)

In [17]:
df.isna().sum()

color                          11
Director_Name                   0
num_critic_for_reviews          0
duration                        0
director_Facebook_likes         0
actor_3_Facebook_likes         15
actor_2_name                    8
Actor_1_Facebook_likes          5
gross                           0
genres                          0
actor_1_name                    5
movie_Title                     0
num_voted_users                 0
 cast_total_facebook_likes      0
actor_3_name                   15
facenumber_in_poster           12
plot_keywords                 111
movie_imdb_link                 0
num_user_for_reviews            0
language                        0
country                         0
content_rating                  0
budget                          0
title_year                      0
actor_2_facebook_likes          8
imdb_score                      0
aspect_ratio                  259
movie_facebook_likes;           0
dtype: int64

**Выводы:<br>**
Мы обнаружили три проблемы с данными:<br>

- Много столбцов, которые не будут использоваться при анализе
- Отсутствующие значения
- Явные и неявные дубликаты.

Все пропущенные значения в столбцах *gross* и *budget* были заменены на медиальные значения по году выпуска фильма. Также пропущенные значения в стоблце *content_rating* были заменены на *неизвестно*. А все строчки содержащие пустые значения в столбцах *title_year*, *duration*, *language*, *country*, *num_Critic_for_reviews* были удалены.

Отсутствие дубликатов сделает результаты более точными и понятными.

Теперь можно перейти к проверке гипотез.

# **Этап 3**. **Проверка гипотез** <a id='hypotheses'></a>

Но перед началом проверки гипотез мы приведём все цены к одному году, чтобы было проще оценивать продажи фильмов.

In [18]:
from bs4 import BeautifulSoup
import requests

Импорт необходимых библиотек для извлечения данных из файлов *HTML*

In [19]:
url = "https://www.usinflationcalculator.com/inflation/consumer-price-index-and-annual-percent-changes-from-1913-to-2008/"

r = requests.get(url)
data = r.text
soup = BeautifulSoup(data, 'html.parser')

table = soup.find('table')
rows = table.tbody.findAll('tr')

years = []
cpis = []

for row in rows:
    year = row.findAll('td')[0].get_text()
    if year.isdigit() and int(year) < 2017:
        years.append(int(year))
        cpis.append(float(row.findAll('td')[13].get_text()))

cpi_table = pd.DataFrame({"year": years, "avg_annual_cpi": cpis})

cpi_table.head()

Unnamed: 0,year,avg_annual_cpi
0,1913,9.9
1,1914,10.0
2,1915,10.1
3,1916,10.9
4,1917,12.8


Определим функцию для перевода номинальных долларов в реальные доллары в 
2016 году с использованием ИПЦ. Будем использовать следующую формулу для расчета
реальной стоимости:
Прошлые доллары в пересчете на недавние доллары = (сумма в долларах × *CPI* на 
конец периода) ÷ *CPI* на начало периода

In [20]:
def get_real_value(numinal_amt, old_cpi, new_cpi):
    real_value = (numinal_amt * new_cpi) / old_cpi
    return real_value

В 2016 г. нас интересуют реальные доллары, поэтому упростим себе задачу и установим константу.

In [21]:
CPI_2016 = float(cpi_table[cpi_table['year'] == 2016]['avg_annual_cpi'])

Теперь преобразуем значения столбцов *budget* и *gross* для каждого фильма в реальные долларовые эквиваленты 2016 г.

In [22]:
real_domestic_gross = []
real_budget_values = []

for index, row in df.iterrows():
    gross = row['gross']
    budget = row['budget']
    year = row['title_year']
    cpi = float(cpi_table[cpi_table['year'] == int(year)]['avg_annual_cpi'])
    real_gross = get_real_value(gross, cpi, CPI_2016)
    real_budget = get_real_value(budget, cpi, CPI_2016)
    real_domestic_gross.append(real_gross)
    real_budget_values.append(real_budget)
    
df['real_domestic_gross'] = real_domestic_gross
df['real_budget_values'] = real_budget_values

Давайте также посчитаем окупаемость инвестиций (*ROI*) и абсолютную прибыль для каждого фильма. *ROI* покажет, какая киностудия получила наибольшую 
прибыль, исходя из первоначального бюджета фильма, и будет полезен при оценке успеха фильма в экономическом смысле. Мы будем хранить значения рентабельности инвестиций в процентах

In [23]:
profits = []
roi_vals = []

for index, row in df.iterrows():
    profit = row['real_domestic_gross'] - row['budget']
    budget = row['budget']
    num = profit - budget
    den = budget
    roi = (num/den)*100
    profits.append(profit)
    roi_vals.append(roi)
    
df['profit'] = profits
df['roi'] = roi_vals

In [24]:
df.head()

Unnamed: 0,color,Director_Name,num_critic_for_reviews,duration,director_Facebook_likes,actor_3_Facebook_likes,actor_2_name,Actor_1_Facebook_likes,gross,genres,...,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes;,real_domestic_gross,real_budget_values,profit,roi
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,237000000.0,2009.0,936.0,7.9,1.78,33000;,850793700.0,265136800.0,613793700.0,158.984681
1,Colour,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,300000000.0,2007.0,5000.0,7.1,2.35,0;,358220800.0,347332900.0,58220750.0,-80.593082
2,Colour,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,245000000.0,2015.0,393.0,6.8,2.35,85000;,202598100.0,248090700.0,-42401860.0,-117.306883
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,250000000.0,2012.0,23000.0,8.5,2.35,164000;,468455100.0,261338500.0,218455100.0,-12.617941
4,Colour,Andrew Stanton,462.0,132.0,475.0,530.0,Samantha Morton,640.0,73058679.0,Action|Adventure|Sci-Fi,...,263700000.0,2012.0,632.0,6.6,2.35,24000;,76372180.0,275659800.0,-187327800.0,-171.038233


In [44]:
os.chdir('./data/')
cpi_table.to_csv('Lab1_Sheremetev_CPI.csv')

# *Гипотеза 1: Среднее количество обзоров и средняя оценка у фильмов из США среди критиков и граждан больше, чем по всему миру<a id='week'></a>*

Согласно Гипотезе 1, в среднем у фильмов из США больше обзоров, чем у фильмов из других стран. Для подтверждение нашей гипотезы нам нужно:

* Разделить фильмы по стране в которой они производились.
* Получить среднее количество оценок за фильмы из США и из других стран.
* Получить среднию оценку по фильмам из США и из других стран.

In [26]:
df_country = df.groupby(["country"])["num_critic_for_reviews", 
                                   "num_user_for_reviews", "imdb_score"].mean()

  df_country = df.groupby(["country"])["num_critic_for_reviews",


In [27]:
df_country

Unnamed: 0_level_0,num_critic_for_reviews,num_user_for_reviews,imdb_score
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Afghanistan,105.000000,77.000000,7.400000
Argentina,114.750000,101.000000,7.500000
Aruba,67.000000,141.000000,4.800000
Australia,138.921569,252.941176,6.492157
Bahamas,64.000000,47.000000,4.400000
...,...,...,...
Thailand,65.800000,77.400000,6.080000
Turkey,16.000000,159.000000,6.000000
UK,158.359155,283.288732,6.776761
USA,146.797858,295.354298,6.345867


Среднее количество обзоров и средняя оценка фильма по миру.

In [28]:
df_reviews_world = df_country[df_country.index != 'USA'].mean()

Среднее число обзоров и средняя оценка по фильмам из США.

In [29]:
df_reviews_usa = df_country.loc['USA']

In [30]:
df_reviews_usa

num_critic_for_reviews    146.797858
num_user_for_reviews      295.354298
imdb_score                  6.345867
Name: USA, dtype: float64

создадим `pd.DataFrame`, чтобы получить таблицу, где столбцы `['country', 'num_critic_for_reviews', 'num_user_for_reviews']`

In [31]:
results = {
    "country": ["World", "USA"], 
    "num_critic_for_reviews": [df_reviews_world[0], df_reviews_usa[0]],
    "num_user_for_reviews": [df_reviews_world[1], df_reviews_usa[1]],
    "mean_imdb_score": [df_reviews_world[2], df_reviews_usa[2]]
          }
results_hypothesis1 = pd.DataFrame(results, columns=["country", 
    "num_critic_for_reviews", "num_user_for_reviews", "mean_imdb_score"])
results_hypothesis1

Unnamed: 0,country,num_critic_for_reviews,num_user_for_reviews,mean_imdb_score
0,World,101.655877,129.97501,6.658159
1,USA,146.797858,295.354298,6.345867


**Выводы**

Данные показывают, что присутствует огромный разрыв между количеством пользовательских оценок, а разница в количестве оценок критиков не такая большая. Но при этом рейтинг у фильмов из США немного меньше, чем в фильмов по миру.

Так что Гипотеза 1 только отчасти является верной.

# *Гипотеза 2: Фильм из США с самой большой выручкой заработал больше чем все фильмы из России и СССР <a id='week'></a>*

Согласно Гипотезе 2, фильм из США с самой высокой выручкой заработал больше, чем все фильмы из России и СССР. Для подтверждение нашей гипотезы нам нужно:

* Найти фильм из США с самой большой выгодой
* Получить сумму по выручки всех фильмов из России и СССР

In [38]:
usa_max_roi = df[df.country == "USA"]["roi"].max()
df_usa_max_roi = df.loc[df["roi"] == usa_max_roi]
df_usa_max_roi

Unnamed: 0,color,Director_Name,num_critic_for_reviews,duration,director_Facebook_likes,actor_3_Facebook_likes,actor_2_name,Actor_1_Facebook_likes,gross,genres,...,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes;,real_domestic_gross,real_budget_values,profit,roi
4807,Color,Benjamin Roberds,13.0,76.0,0.0,0.0,Maxwell Moody,0.0,20000000.0,Drama|Horror|Thriller,...,1400.0,2013.0,0.0,6.3,,16;,20605260.0,1442.368334,20603860.0,1471604.0


In [39]:
df_sum_roi = df.loc[((df.country == "Russia") | (df.country == "Soviet Union"))]
df_sum_roi

Unnamed: 0,color,Director_Name,num_critic_for_reviews,duration,director_Facebook_likes,actor_3_Facebook_likes,actor_2_name,Actor_1_Facebook_likes,gross,genres,...,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes;,real_domestic_gross,real_budget_values,profit,roi
1030,Black and White,Andrei Tarkovsky,144.0,115.0,0.0,12.0,Anatoliy Solonitsyn,29.0,1700000.0,Drama|Mystery|Sci-Fi,...,1000000.0,1972.0,29.0,8.1,2.35,0;,9761050.0,5741794.0,8761050.0,776.105024
1345,Color,Fedor Bondarchuk,14.0,115.0,35.0,30.0,Fedor Bondarchuk,463.0,18500000.0,Action|Adventure|Sci-Fi,...,29500000.0,2009.0,35.0,5.3,,240;,20696330.0,33002260.0,-8803666.0,-129.842934
1684,Color,Maksim Fadeev,5.0,85.0,0.0,21.0,Fedor Bondarchuk,114.0,19000000.0,Adventure|Animation|Fantasy,...,30000000.0,2015.0,35.0,4.1,,161;,19239690.0,30378450.0,-10760310.0,-135.867709
1823,Color,Oleg Stepchenko,25.0,107.0,0.0,48.0,Igor Jijikine,1000.0,17000000.0,Adventure|Fantasy|Mystery|Thriller,...,26000000.0,2014.0,65.0,5.4,1.85,0;,17234890.0,26359240.0,-8765110.0,-133.71196
1951,Color,Inna Evlannikova,16.0,85.0,0.0,7.0,Evgeniy Mironov,21.0,21000000.0,Adventure|Animation|Comedy|Family,...,25000000.0,2010.0,15.0,5.2,,200;,23114000.0,27516670.0,-1885997.0,-107.543989
2238,Color,Robert Rodriguez,260.0,107.0,0.0,99.0,Demián Bichir,2000.0,7268659.0,Action|Comedy|Crime|Thriller,...,20000000.0,2013.0,749.0,5.6,1.85,48000;,7488631.0,20605260.0,-12511370.0,-162.556844
2377,Color,Sergey Bodrov,160.0,126.0,44.0,9.0,Khulan Chuluun,627.0,5701643.0,Adventure|Biography|Drama|History|War,...,20000000.0,2007.0,12.0,7.3,2.35,0;,6601226.0,23155520.0,-13398770.0,-166.993868
2655,Color,Andrey Zvyagintsev,103.0,99.0,445.0,9.0,Vladimir Garin,20.0,502028.0,Drama|Mystery|Thriller,...,25000000.0,2003.0,13.0,8.0,1.85,0;,654838.2,32609650.0,-24345160.0,-197.380647
3414,Black and White,Aleksey German,121.0,177.0,23.0,0.0,Yuriy Tsurilo,4.0,20000000.0,Drama|Sci-Fi,...,7000000.0,2013.0,4.0,6.7,1.66,1000;,20605260.0,7211842.0,13605260.0,94.360885
3420,Color,Vladlen Barbe,10.0,80.0,0.0,26.0,Wendee Lee,99.0,20000000.0,Adventure|Animation|Family,...,7000000.0,2012.0,62.0,5.3,,453;,20907080.0,7317478.0,13907080.0,98.672564


In [40]:
results = {
    "country": ["USA", "Rus and Soviet"], 
    "roi": [df_usa_max_roi["roi"].iloc[0], df_sum_roi["roi"].sum()]
          }
results_hypothesis2 = pd.DataFrame(results, columns=["country", "roi"])
results_hypothesis2

Unnamed: 0,country,roi
0,USA,1471604.0
1,Rus and Soviet,95.37004


**Выводы**

Данные показывают, что самый прибыльный фильм из США заработал больше, чем все фильмы из России и СССР.

Так что Гипотеза 2 кажется верной.

# *Гипотеза 3: Фантастические фильмы являются самыми дорогими в производстве <a id='week'></a>*

Согласно Гипотезе 3, фантастические фильмы являются самыми дорогими в производстве по сравнению с другими жанрами. Для подтверждение нашей гипотезы нам нужно:

* Получить все фанры
* Получить средние затраты за фильм в зависимости от жанра

Получаем все фанры

In [41]:
genres = set()
for i in df.genres.values:
    genres.update(i.split("|"))
genres

{'Action',
 'Adventure',
 'Animation',
 'Biography',
 'Comedy',
 'Crime',
 'Documentary',
 'Drama',
 'Family',
 'Fantasy',
 'Film-Noir',
 'History',
 'Horror',
 'Music',
 'Musical',
 'Mystery',
 'News',
 'Romance',
 'Sci-Fi',
 'Short',
 'Sport',
 'Thriller',
 'War',
 'Western'}

In [42]:
budget_genres = {}
for i in genres:
    budget_genres[i] = []

df_budget_genres = df[["genres", "real_budget_values"]]

for index, row in df_budget_genres.iterrows():
    genres_row = row["genres"].split("|")
    for i in genres_row:
        budget_genres[i].append(row["real_budget_values"])
        
for i in budget_genres.keys():
    budget_genres[i] = np.mean(budget_genres[i])

Находим среднию цену производства по жанру

In [43]:
results_hypothesis3 = pd.DataFrame(data=budget_genres.values(), index=budget_genres.keys(), 
                                   columns=["mean_budget_genres"])
results_hypothesis3 = results_hypothesis3.sort_values(by="mean_budget_genres", ascending=False)
results_hypothesis3

Unnamed: 0,mean_budget_genres
Animation,118986300.0
Sci-Fi,105832400.0
Adventure,97044130.0
Action,80712960.0
Fantasy,78023880.0
War,75988900.0
Family,75632370.0
History,60190480.0
Musical,53291360.0
Horror,49735520.0


**Выводы**

Данные показывают, что самые дорогие фильмы - это анимационные, а не фантастические.

Так что Гипотеза 3 оказалась не верной.

# Заключение <a id='end'></a>

Были проверены следующие три гипотезы:

1. Среднее количество обзоров и средняя оценка у фильмов из США среди критиков и граждан больше, чем по всему миру.
2. Фильм из США с самой большой выручкой заработал больше чем все фильмы из России и СССР.
3. Фантастические фильмы являются самыми дорогими в производстве.

Проанализировав данные, мы пришли к выводу:

1. Присутствует огромный разрыв между количеством пользовательских оценок, а разница в количестве оценок критиков не такая большая. Но при этом рейтинг у фильмов из США немного меньше, чем в фильмов по миру.

*Первая гипотеза* только отчасти подтведиласть.

2. Самый прибыльный фильм из США заработал больше, чем все фильмы из России и СССР.

*Вторая гипотеза* полностью подтведиласть.

3. Оказывается, самые дорогие фильмы - это анимационные, а не фантастические.
*Третья гипотеза* оказалась не верной.