# Этап 1. Обзор данных <a id='data_review'></a>

In [2]:
import pandas as pd

In [3]:
df = pd.read_csv('/Загрузки/Dataset1.csv')

Получим общую информацию о таблице одной командой:

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5043 entries, 0 to 5042
Data columns (total 28 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   color                       5025 non-null   object 
 1   Director_Name               4872 non-null   object 
 2   num_Critic_for_reviews      4927 non-null   float64
 3   duration                    4959 non-null   float64
 4   director_Facebook_likes     4872 non-null   float64
 5   actor_3_Facebook_likes      4953 non-null   float64
 6   actor_2_name                4963 non-null   object 
 7   Actor_1_Facebook_likes      4968 non-null   float64
 8   gross                       4104 non-null   float64
 9   genres                      4974 non-null   object 
 10  actor_1_name                4968 non-null   object 
 11  movie_Title                 4974 non-null   object 
 12  num_voted_users             4974 non-null   float64
 13   cast_total_facebook_likes  4974 

Таблица содержит 28 столбцов. Они хранят разный тип данных.
<br>
Мы видим три проблемы со стилем в именах столбцов:<br>
1. Некоторые имена написаны прописными буквами, некоторые строчными.<br>
2. В некоторых именах есть пробелы.<br>
3. Количество значений столбцов разное. Это означает, что данные содержат пропущенные значения. <br>

# **Этап 2. Предварительная обработка данных (Data preprocessing)**
Выведем заголовки столбца:

In [5]:
df.columns

Index(['color', 'Director_Name', 'num_Critic_for_reviews', 'duration',
       'director_Facebook_likes', 'actor_3_Facebook_likes', 'actor_2_name',
       'Actor_1_Facebook_likes', 'gross', 'genres', 'actor_1_name',
       'movie_Title', 'num_voted_users', ' cast_total_facebook_likes',
       'actor_3_name', 'facenumber_in_poster', 'plot_keywords',
       'movie_imdb_link', 'num_user_for_reviews', 'language', 'country',
       'content_rating', 'budget', 'title_year', 'actor_2_facebook_likes',
       'imdb_score', 'aspect_ratio', 'movie_facebook_likes;'],
      dtype='object')

Изменим названия столбцов в соответствии с правилам хорошего стиля:

In [6]:
df = df.rename (
    columns = {
        ' cast_total_facebook_likes' : 'cast_total_facebook_likes'
    }
)

In [7]:
df = df.rename (
    columns = {
        'movie_facebook_likes;' : 'movie_facebook_likes'
    }
)

Проверим результат

In [8]:
df.columns

Index(['color', 'Director_Name', 'num_Critic_for_reviews', 'duration',
       'director_Facebook_likes', 'actor_3_Facebook_likes', 'actor_2_name',
       'Actor_1_Facebook_likes', 'gross', 'genres', 'actor_1_name',
       'movie_Title', 'num_voted_users', 'cast_total_facebook_likes',
       'actor_3_name', 'facenumber_in_poster', 'plot_keywords',
       'movie_imdb_link', 'num_user_for_reviews', 'language', 'country',
       'content_rating', 'budget', 'title_year', 'actor_2_facebook_likes',
       'imdb_score', 'aspect_ratio', 'movie_facebook_likes'],
      dtype='object')

Найдём количество пропущеных значений в таблице.

In [9]:
df.isna().sum()

color                         18
Director_Name                171
num_Critic_for_reviews       116
duration                      84
director_Facebook_likes      171
actor_3_Facebook_likes        90
actor_2_name                  80
Actor_1_Facebook_likes        75
gross                        939
genres                        69
actor_1_name                  75
movie_Title                   69
num_voted_users               69
cast_total_facebook_likes     69
actor_3_name                  90
facenumber_in_poster          82
plot_keywords                216
movie_imdb_link               69
num_user_for_reviews          87
language                      82
country                       72
content_rating               366
budget                       549
title_year                   174
actor_2_facebook_likes        80
imdb_score                    69
aspect_ratio                 389
movie_facebook_likes          69
dtype: int64

Заменим пропущенные значения в столбцах значением 'unknown'. Для этого создадим список `columns_to_replace`, пройдём по нему с помощью for, и заменим пропущенные значения в каждом из столбцов:

In [10]:
columns_to_replace =['color', 'Director_Name', 'num_Critic_for_reviews', 'duration',
       'director_Facebook_likes', 'actor_3_Facebook_likes', 'actor_2_name',
       'Actor_1_Facebook_likes', 'gross', 'genres', 'actor_1_name',
       'movie_Title', 'num_voted_users', 'cast_total_facebook_likes',
       'actor_3_name', 'facenumber_in_poster', 'plot_keywords',
       'movie_imdb_link', 'num_user_for_reviews', 'language', 'country',
       'content_rating', 'budget', 'title_year', 'actor_2_facebook_likes',
       'imdb_score', 'aspect_ratio', 'movie_facebook_likes']
for row in columns_to_replace:
    df[row] = df[row].fillna('unknown')

Убедимся, что в таблице больше нет пропущенных значений.

In [11]:
df.isna().sum()

color                        0
Director_Name                0
num_Critic_for_reviews       0
duration                     0
director_Facebook_likes      0
actor_3_Facebook_likes       0
actor_2_name                 0
Actor_1_Facebook_likes       0
gross                        0
genres                       0
actor_1_name                 0
movie_Title                  0
num_voted_users              0
cast_total_facebook_likes    0
actor_3_name                 0
facenumber_in_poster         0
plot_keywords                0
movie_imdb_link              0
num_user_for_reviews         0
language                     0
country                      0
content_rating               0
budget                       0
title_year                   0
actor_2_facebook_likes       0
imdb_score                   0
aspect_ratio                 0
movie_facebook_likes         0
dtype: int64

In [12]:
df.duplicated().sum()

45

In [13]:
df = df.drop_duplicates().reset_index(drop=True)

In [14]:
df.duplicated().sum()

0

In [15]:
df.head(30)

Unnamed: 0,color,Director_Name,num_Critic_for_reviews,duration,director_Facebook_likes,actor_3_Facebook_likes,actor_2_name,Actor_1_Facebook_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,3054.0,English,USA,PG-13,237000000.0,2009.0,936.0,7.9,1.78,33000;
1,Colour,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,1238.0,English,USA,PG-13,300000000.0,2007.0,5000.0,7.1,2.35,0;
2,Colour,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,994.0,English,UK,PG-13,245000000.0,2015.0,393.0,6.8,2.35,85000;
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,2701.0,English,USA,PG-13,250000000.0,2012.0,23000.0,8.5,2.35,164000;
4,unknown,Doug Walker,unknown,unknown,131.0,unknown,Rob Walker,131.0,unknown,Documentary,...,unknown,unknown,unknown,unknown,unknown,unknown,12.0,7.1,unknown,0;
5,Colour,Andrew Stanton,462.0,132.0,475.0,530.0,Samantha Morton,640.0,73058679.0,Action|Adventure|Sci-Fi,...,738.0,English,USA,PG-13,263700000.0,2012.0,632.0,6.6,2.35,24000;
6,Color,Sam Raimi,392.0,156.0,0.0,4000.0,James Franco,24000.0,336530303.0,Action|Adventure|Romance,...,1902.0,English,USA,PG-13,258000000.0,2007.0,11000.0,6.2,2.35,0;
7,Color,Nathan Greno,324.0,100.0,15.0,284.0,Donna Murphy,799.0,200807262.0,Adventure|Animation|Comedy|Family|Fantasy|Musi...,...,387.0,English,USA,PG,260000000.0,2010.0,553.0,7.8,1.85,29000;
8,Colour,Joss Whedon,635.0,141.0,0.0,19000.0,Robert Downey Jr.,26000.0,458991599.0,Action|Adventure|Sci-Fi,...,1117.0,English,USA,PG-13,250000000.0,2015.0,21000.0,7.5,2.35,118000;
9,Colour,David Yates,375.0,153.0,282.0,10000.0,Daniel Radcliffe,25000.0,301956980.0,Adventure|Family|Fantasy|Mystery,...,973.0,English,UK,PG,250000000.0,2009.0,11000.0,7.5,2.35,10000;


Теперь избавимся от неявных дубликатов в столбце `color`.

In [16]:
sorted (df['color'].str.split(',').str[0].unique())# вывод уникальных значений

['', ' Black and White', 'Color', 'Colour', 'color', 'unknown']

Чтобы избавиться от неявных дубликатов, создадим функцию ***replace_wrong_genres()*** с двумя параметрами:
* `wrong_genres=` — список дупликатов
* `correct_genre=` — строка с правильным значением

Функция должна исправить имена в столбце 'color' из таблицы df, т.е. заменить каждое значение из списка `wrong_genres` на значение в `correct_genre`.

In [17]:
def replace_wrong_genres (wrong_genres, correct_genre):
    for wrong_genre in wrong_genres:
        df['color'] = df['color'].replace(wrong_genre, correct_genre)

Вызов функции `replace_wrong_genres()` и передать ему аргументы, чтобы он очистил неявные дубликаты ('color','Colour') и заменяет их на 'Color':

In [18]:
duplicates = ['color','Colour']
name = 'Color'
replace_wrong_genres(duplicates, name)  # удаление неявных дубликатов

Убедимся, что повторяющиеся имена удалены. Распечатаем список уникальных значений из столбца 'color':

In [19]:
sorted (df['color'].str.split(',').str[0].unique())# вывод уникальных значений

['', ' Black and White', 'Color', 'unknown']

**Выводы:<br>**
Заголовки были очищены, чтобы упростить обработку таблицы.

Все пропущенные значения заменены на «неизвестно».

Отсутствие дубликатов сделает результаты более точными и понятными.

Теперь можно перейти к проверке гипотез.

Импорт необходимых библиотек для извлечения данных из файлов HTML

In [20]:
from bs4 import BeautifulSoup 
import requests


In [21]:
url= "https://www.usinflationcalculator.com/inflation/consumer-price-index-and-annual-percent-changes-from-1913-to-2008/"

r = requests.get(url)
data = r.text
soup = BeautifulSoup(data, 'html.parser')

table = soup.find('table')
rows = table.tbody.findAll('tr');

years = []
cpis = []

for row in rows:
    year = row.findAll('td')[0].get_text()
    if year.isdigit() and int(year) < 2017:
        years.append(int(year))
        cpis.append (float(row.findAll('td')[13].get_text()))

cpi_table = pd.DataFrame({
    "year" : years,
    "avg_annual_cpi": cpis
})

cpi_table.head()

Unnamed: 0,year,avg_annual_cpi
0,1913,9.9
1,1914,10.0
2,1915,10.1
3,1916,10.9
4,1917,12.8


Опрределим функцию для перевода номинальных долларов в реальные доллары в 2016 году с использованием ИПЦ. Будем использовать следующую форму для расчёта реальной стоимости.

In [22]:
def get_real_value(nominal_amt, old_cpi, new_cpi):
    real_value = (nominal_amt * new_cpi) / old_cpi
    return real_value 

В 2016 году нас интересуют реальные доллары, поэтому упростим себе задачу и установим константу.

In [23]:
CPI_2016 = float (cpi_table [ cpi_table ['year'] == 2016 ][ 'avg_annual_cpi' ].iloc[0])

Теперь преобразуем значения столбцов ‘budget’ и ‘gross’ для каждого фильма в
реальные долларовые эквиваленты 2016 г:

In [24]:
real_domestic_gross = []
real_budget_values = []

for index, row in df.iterrows():
    gross = row['gross']
    budget = row['budget']
    year = row['title_year']
    
    if isinstance(year, str) and year != 'unknown':
        cpi = float(cpi_table.loc[cpi_table['year'] == int(year), 'avg_annual_cpi'].iloc[0])
        real_gross = get_real_value(float(gross), cpi, CPI_2016)
        real_budget = get_real_value(float(budget), cpi, CPI_2016)
    else:
        real_gross = 0
        real_budget = 0
    
    real_domestic_gross.append(real_gross)
    real_budget_values.append(real_budget)

df["real_domestic_gross"] = real_domestic_gross
df["real_budget"] = real_budget_values

Также посчитаем окупаемость инвестиций (ROI) и абсолютную прибыль для каждого фильма. ROI покажет, какая киностудия получила наибольшую
прибыль, исходя из первоначального бюджета фильма, и будет полезен при оценке успеха фильма в экономическом смысле. Мы будем хранить значения рентабельности инвестиций в процентах.

In [25]:
profits = []
roi_vals = []
for index, row in df.iterrows():
    profit = row['real_domestic_gross'] - row['real_budget']
    budget = row['budget']
    if budget == 'unknown' or float(budget) == 0:
        roi = 0
    else:
        budget = float(budget)
        num = profit - budget
        den = budget
        roi = (num / den) * 100
    profits.append(profit)
    roi_vals.append(roi)
df['profit'] = profits
df['roi'] = roi_vals

In [26]:
print(df.head())

     color      Director_Name num_Critic_for_reviews duration  \
0    Color      James Cameron                  723.0    178.0   
1    Color     Gore Verbinski                  302.0    169.0   
2    Color         Sam Mendes                  602.0    148.0   
3    Color  Christopher Nolan                  813.0    164.0   
4  unknown        Doug Walker                unknown  unknown   

  director_Facebook_likes actor_3_Facebook_likes      actor_2_name  \
0                     0.0                  855.0  Joel David Moore   
1                   563.0                 1000.0     Orlando Bloom   
2                     0.0                  161.0      Rory Kinnear   
3                 22000.0                23000.0    Christian Bale   
4                   131.0                unknown        Rob Walker   

  Actor_1_Facebook_likes        gross                           genres  ...  \
0                 1000.0  760505847.0  Action|Adventure|Fantasy|Sci-Fi  ...   
1                40000.0  3094

# **Этап 3**. **Проверка гипотез** <a id='hypotheses'></a>

# *Гипотеза 1: Цветной фильм имеет самый крупный бюджет среди всех фильмов, выпущенных в США и Канаде  <a id='week'></a>*

Согласно Гипотезе 1, самый крупный бюджет среди всех фильмов, выпущенных в США и Канаде, у цветного кино.
Посмотрим наглядно на разнообразие стран в которых выпущены фильмы, их бюджет и цвет. 

In [28]:
table_1 = df.loc[:, ['movie_Title', 'country', 'budget', 'color']]
print(table_1)

                                            movie_Title  country       budget  \
0                                               Avatar       USA  237000000.0   
1             Pirates of the Caribbean: At World's End       USA  300000000.0   
2                                              Spectre        UK  245000000.0   
3                                The Dark Knight Rises       USA  250000000.0   
4     Star Wars: Episode VII - The Force Awakens    ...  unknown      unknown   
...                                                 ...      ...          ...   
4993                           Signed Sealed Delivered    Canada      unknown   
4994                         The Following                   USA      unknown   
4995                              A Plague So Pleasant       USA       1400.0   
4996                                  Shanghai Calling       USA      unknown   
4997                                 My Date with Drew       USA       1100.0   

        color  
0       Col

Удаляем строки, где значение столбца 'budget' равно 'unknown'. Для этого создаем новый DataFrame, исключая строки, которые содержат 'unknown' в столбце 'budget'. Затем перезаписываем исходный DataFrame filtered_data этим новым DataFrame без строк с 'unknown' в столбце 'budget'.

In [None]:
filtered_data = table_1.drop(table_1[table_1['budget'] == 'unknown'].index)
print(filtered_data)

In [None]:
# Отфильтруем цветные фильмы
filtered_data = filtered_data[filtered_data['color'] == 'Color']

In [None]:
# Отфильтруем фильмы, выпущенные в США или Канаде
filtered_data = filtered_data[filtered_data['country'].isin(['USA', 'Canada'])]

In [None]:
# Найдём фильм с самым крупным бюджетом 
max_budget_film = filtered_data[filtered_data['budget'] == filtered_data['budget'].max()]
print(max_budget_film)

Гипотеза 1 подтвердилась - самый крупный бюджет среди всех фильмов, выпущенных в США и Канаде, имеет цветной фильм "Pirates of the Caribbean: At World's End" с бюджетом в размере 300 миллионов долларов США.


# *Гипотеза 2: Фильмы с более высоким рейтингом IMDb имеют большую общую прибыль* <a id='activity'></a>

Согласно Гипотезе 2, большую общую прибыль имеют фильмы с более высоким рейтингом IMDb.

Выводим таблицу, содержащую столбцы 'movie_Title', 'imdb_score' и 'gross'

In [None]:
tabl_2 = df.loc[:, ['movie_Title', 'imdb_score', 'gross']]
print(tabl_2)

Далее выполняем следующие действия:

1. Удаляем строки из таблицы `tabl_2`, где значения в столбцах 'imdb_score' и 'gross' являются строками.
2. Выводит измененную таблицу `tabl_2`.


In [None]:
tabl_2 = tabl_2.drop(tabl_2[(tabl_2['imdb_score'].apply(lambda x: isinstance(x, str))) | (tabl_2['gross'].apply(lambda x: isinstance(x, str)))].index)
print(tabl_2)

- Фильтруем таблицу `tabl_2` по условию, что значение столбца `imdb_score` больше 8.5
- Удаляем одинаковые строки из отфильтрованной таблицы
- Выводим результат

In [None]:
filtered_tabl_2 = tabl_2[tabl_2['imdb_score'].astype(float) > 8.5]
filtered_tabl_2 = filtered_tabl_2.drop_duplicates()
print(filtered_tabl_2)

Посчитаем общую прибыль для каждого фильма:

In [None]:
sum_gross = filtered_tabl_2.groupby('movie_Title')['gross'].sum().reset_index()
print(sum_gross)

Посчитаем среднюю общую прибыль:

In [None]:
average_gross = tabl_2['gross'].mean()
print(average_gross)

Находим фильмы, у которых прибыль выше среднего и сохраняем их в переменную profitable_movies

In [None]:
profitable_movies = sum_gross [sum_gross ["gross"] >= average_gross]
print(profitable_movies)

sum_gross содержит данные о суммарной прибыли фильмов, а profitable_movies содержит данные о прибыльных фильмах( фильмах, прибыль которых выше среднего значения).
Таким образом, первая строка выводит количество фильмов, для которых известна суммарная прибыль, а вторая строка выводит количество фильмов, которые приносили прибыль.

In [None]:
print(sum_gross.shape[0])
print(profitable_movies.shape[0])

Согласно анализу, из 24 фильмов с рейтингом IMDb выше 8,5 18 имеют валовую прибыль выше средней прибыли среди всех фильмов. Таким образом, можно сделать вывод, что более половины фильмов с высоким рейтингом в этом наборе данных являются прибыльными, что подтверждает гипотезу о том, что фильмы с более высокими рейтингами IMDb, как правило, имеют более высокую общую прибыль.

# *Гипотеза 3: В период с 1994 по 2006 годы больше всего фильмов снятно на английском языке* <a id='activity'></a>

Согласно Гипотезе 3, больше всего фильмов в промежутке времени с 1994 по 2006 годы снято преимущественно на английском языке

In [None]:
# Удаляем строки, где значение столбца 'title_year' является строкой
df = df.drop(df[df['title_year'].apply(lambda x: isinstance(x, str))].index)
# Выводим измененный датафрейм
print(df)

In [None]:
# Фильтруем фильмы по году выпуска, чтобы получить только те, которые выпущены в 1980 или 1981 году.
filtered_movies = df[(df['title_year'] >= 1980) & (df['title_year'] <= 1981)]

In [None]:
# Отображаем выбранные столбцы «movie_Title», «title_year» и «language» из данных filtered_movies.
table_3 = filtered_movies[['movie_Title', 'title_year', 'language']]
print(table_3)

In [None]:
# Выводим уникальные значения языков
unique_languages = table_3['language'].unique()
print(unique_languages)
# Считаем количество каждого из полученных уникальных значений
language_counts = table_3['language'].value_counts()
print(language_counts)

Можно сделать вывод, что данная гипотеза подтверждается. Большинство фильмов, выпущенных в период с 1994 по 2006 год, действительно были сняты на английском языке, всего их было 53. Однако стоит отметить, что небольшое количество фильмов было снято также на немецком и итальянском языках, а один фильм был на неизвестном языке.

# Заключение <a id='end'></a>

Были проверены следующие три гипотезы:

1. Цветной фильм имеет самый крупный бюджет среди всех фильмов, выпущенных в США и Канаде
2. Фильмы с более высоким рейтингом IMDb имеют большую общую прибыль
3. В период с 1994 по 2006 годы больше всего фильмов снятно на английском языке

Проанализировав данные, мы пришли к выводу:

1. Самый крупный бюджет среди всех фильмов, выпущенных в США и Канаде, имеет цветной фильм "Pirates of the Caribbean: At World's End" с бюджетом в размере 300 миллионов долларов США.

*Первая гипотеза* полностью подтведиласть.

2. Согласно анализу, из 24 фильмов с рейтингом IMDb выше 8,5 18 имеют валовую прибыль выше средней прибыли среди всех фильмов. Таким образом, можно сделать вывод, что более половины фильмов с высоким рейтингом в этом наборе данных являются прибыльными, что подтверждает гипотезу о том, что фильмы с более высокими рейтингами IMDb, как правило, имеют более высокую общую прибыль.

*Вторая гипотеза* также подтведиласть.

3. Оказывается, большинство фильмов, выпущенных в период с 1994 по 2006 год, действительно были сняты на английском языке, всего их было 53. Однако стоит отметить, что небольшое количество фильмов было снято также на немецком и итальянском языках, а один фильм был на неизвестном языке.
*Третья гипотеза* подтверждается.

Обработанный датафрейм экспортируйте в файл формата *.csv

In [30]:
cpi_table.to_csv(r'D:\Загрузки\ML\Lab1_Markina_CPI.csv' , index = False)
df.to_csv( r'D:\Загрузки\ML\Lab1_Markina_ФИТ-222.csv', index = False)