In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px

import warnings
warnings.simplefilter('ignore')

%matplotlib inline

In [2]:
df = pd.read_csv('C:/Users/Александр/pj/pet_projects/Top_grossing_movies/Top 200 Highest Grossing Movies.csv')
df.head()

Unnamed: 0,Rank,Title,Lifetime Gross,Year
0,1,Avatar,"$2,847,397,339",2009
1,2,Avengers: Endgame,"$2,797,501,328",2019
2,3,Titanic,"$2,201,647,264",1997
3,4,Star Wars: Episode VII - The Force Awakens,"$2,069,521,700",2015
4,5,Avengers: Infinity War,"$2,048,359,754",2018


In [3]:
df.isnull().sum()

Rank              0
Title             0
Lifetime Gross    0
Year              0
dtype: int64

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Rank            200 non-null    int64 
 1   Title           200 non-null    object
 2   Lifetime Gross  200 non-null    object
 3   Year            200 non-null    int64 
dtypes: int64(2), object(2)
memory usage: 6.4+ KB


In [5]:
# Lifetime Gross имеет тип object из-за $ и запятых, исправим это
no_commas = lambda x:float(x.replace(',','')[1:])

In [6]:
# все получилось
no_commas('$2,797,501,328')

2797501328.0

In [7]:
# применим изменения к столбцу Lifetime Gross
df['Lifetime Gross'] = df['Lifetime Gross'].apply(no_commas)
df.describe()

Unnamed: 0,Rank,Lifetime Gross,Year
count,200.0,200.0,200.0
mean,100.5,872890300.0,2011.57
std,57.879185,349217300.0,7.045801
min,1.0,542358300.0,1977.0
25%,50.75,644504600.0,2008.0
50%,100.5,788828700.0,2013.0
75%,150.25,972342100.0,2017.0
max,200.0,2847397000.0,2022.0


#### Данные подготовлены и готовы к дальнейшим исследованиям

# Исследовательский анализ данных.

In [8]:
top10 = df[:10]

## Топ-10 самых кассовых фильмов.

In [11]:
px.bar(data_frame=top10,
       x='Title',
       y='Lifetime Gross',
       color='Rank',
       labels=['Название','Кассовые сборы'],
       color_continuous_scale='rdylbu',
       text_auto=True,
       title=f'Топ-10 самых кассовых фильмов')

In [12]:
years = df.Year.unique()
years.sort()
years

array([1977, 1982, 1993, 1994, 1996, 1997, 1998, 1999, 2000, 2001, 2002,
       2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013,
       2014, 2015, 2016, 2017, 2018, 2019, 2021, 2022], dtype=int64)

## Топ-10 худших фильмов по кассовым сборам.

In [13]:
def top_plot(data=None,year=None):
    fig = px.bar(data_frame=data,
       x='Title',
       y='Lifetime Gross',
       color='Rank',
       labels=['Title','Gross Collection'],
       color_continuous_scale='rdylbu',
       text_auto=True,
       title=f'Top {data.shape[0]} Gross Collection of Movies in {year}')
    fig.show()

In [14]:
bottom10 = df[-10:]

In [17]:
px.bar(data_frame=bottom10,
       x='Title',
       y='Lifetime Gross',
       color='Rank',
       labels=['Название','Кассовые сборы'],
       color_continuous_scale='rdylbu',
       text_auto=True,
       title=f'Топ-10 худших фильмов по кассовым сборам')

## Лучшие фильмы каждого года.

In [19]:
# чтобы посмотреть все результаты нужно прокрутить колесом мышки вниз на графике
for year in years:
    top5 = df[df['Year']==year][:5]
    top_plot(data=top5,year=year)