In [1]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
import plotly.subplots as sp
import plotly.figure_factory as ff

In [2]:
df = pd.read_csv('MoviesOnStreamingPlatforms_updated.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,ID,Title,Year,Age,IMDb,Rotten Tomatoes,Netflix,Hulu,Prime Video,Disney+,Type,Directors,Genres,Country,Language,Runtime
0,0,1,Inception,2010,13+,8.8,87%,1,0,0,0,0,Christopher Nolan,"Action,Adventure,Sci-Fi,Thriller","United States,United Kingdom","English,Japanese,French",148.0
1,1,2,The Matrix,1999,18+,8.7,87%,1,0,0,0,0,"Lana Wachowski,Lilly Wachowski","Action,Sci-Fi",United States,English,136.0
2,2,3,Avengers: Infinity War,2018,13+,8.5,84%,1,0,0,0,0,"Anthony Russo,Joe Russo","Action,Adventure,Sci-Fi",United States,English,149.0
3,3,4,Back to the Future,1985,7+,8.5,96%,1,0,0,0,0,Robert Zemeckis,"Adventure,Comedy,Sci-Fi",United States,English,116.0
4,4,5,"The Good, the Bad and the Ugly",1966,18+,8.8,97%,1,0,1,0,0,Sergio Leone,Western,"Italy,Spain,West Germany",Italian,161.0


# 1

In [3]:
movies_per_year = df.groupby('Year').size().reset_index(name='Counts')
fig1= px.line(movies_per_year, x='Year', y='Counts', title='Số lượng Movies qua mỗi năm')
fig1.show()

# 2

In [4]:
genres_count = df['Genres'].str.split(',').explode().value_counts().reset_index(name='Counts')
fig2= px.bar(genres_count, x='Genres', y='Counts', title='Số lượng Movies theo thể loại (Genres)', labels={'index':'Genres'},color='Genres')
fig2.update_layout(font=dict(family="Times New Roman", size=9))
fig2.update_xaxes(tickangle=0, tickmode='linear', tick0=0, dtick=1)
fig2.show()

# 3

In [5]:
genres_ratings = df.explode('Genres').groupby('Genres')['IMDb'].mean().sort_values(ascending=False).head(5).reset_index()
fig5= px.bar(genres_ratings, x='Genres', y='IMDb', title='Top 5 Thể loại có rating IMDb cao nhất')
fig5.update_layout(font=dict(family="Times New Roman", size=10))
fig5.update_xaxes(tickangle=0, tickmode='linear', tick0=0, dtick=1)
fig5.show()

In [6]:
genres_count = df['Genres'].str.split(',').explode().value_counts().reset_index(name='Counts')
genres_count=genres_count.nlargest(5,'Counts')
genres_count.head()

Unnamed: 0,Genres,Counts
0,Drama,7227
1,Comedy,4637
2,Thriller,3354
3,Action,2683
4,Documentary,2546


# 4

In [7]:
platforms = ['Netflix', 'Hulu', 'Prime Video', 'Disney+']
platform_counts = df[platforms].sum().reset_index(name='Counts')
fig4= px.bar(platform_counts, x='index', y='Counts', title='Số lượng phim trên các nền tảng khác nhau', labels={'index':'Platforms'})
fig4.show()

# 5

In [8]:
country_ratings = df.assign(Country=df['Country'].str.split(',')).explode('Country').groupby('Country')['IMDb'].mean().sort_values(ascending=False).reset_index()
fig5= px.bar(country_ratings,x='Country', y='IMDb', title='Xếp hạng IMDb trung bình ở các quốc gia khác nhau',labels={'index':'Country'})

fig5.show()

# 6

In [9]:
country_count = df['Country'].value_counts().reset_index(name='Movie Count')
country_count.head()
fig6= px.choropleth(country_count,
                    locations='Country',
                    color='Movie Count',
                    hover_name='Country',
                    locationmode='country names',
                    title='Số lượng phim trên mỗi quốc gia')
fig6.show()

# 7

In [10]:
fig7= px.histogram(df, x='Runtime', nbins=30, title='Phân phối theo Runtime', labels={'Runtime':'Runtime (phút)'})
fig7.show()

# 8

In [11]:
age_year_count = df.groupby(['Year', 'Age']).size().reset_index(name='Counts')
fig8 = px.line(age_year_count, x='Year', y='Counts', color='Age', title='Số lượng phim theo nhóm tuổi qua các năm')
fig8.show()

# 9

In [12]:
language_count = df['Language'].str.split(',').explode().value_counts().reset_index(name='Counts')
language_count.head()
fig9= px.bar(language_count, x='Language', y='Counts', title='Số lượng phim theo ngôn ngữ', labels={'Language':'Language'})
fig9.show()


# 10

In [13]:
age_count = df['Age'].value_counts().reset_index(name='Counts')
age_count.head()
fig10= px.bar(age_count, x='Age', y='Counts', title='Số lượng phim được phát hành theo nhóm tuổi', labels={'index':'Nhóm tuổi'})
fig10.show()

# 11

In [14]:
director_count = df['Directors'].str.split(',').explode().value_counts().head(15).reset_index(name='Counts')
fig11= px.bar(director_count, x='Directors', y='Counts', title='Top 15 đạo diễn ra mắt nhiều phim nhất', labels={'index':'Đạo diễn'})
fig11.update_layout(font=dict(family="Times New Roman", size=9))
fig11.update_xaxes(tickangle=0, tickmode='linear', tick0=0, dtick=1)
fig11.show()

# 12

In [15]:
director_age_count = df.explode('Directors').groupby(['Directors', 'Age']).size().reset_index(name='Counts')
fig12= px.bar(director_age_count, x='Directors', y='Counts', color='Age', title='Số phim của từng đạo diễn theo độ tuổi')
fig12.show()

In [16]:
director_age_count = df.explode('Directors').groupby(['Directors', 'Age']).size().reset_index(name='Counts')
fig12= px.scatter_3d(director_age_count,
                    x='Directors', y='Age', z='Counts',
                    color='Counts',
                    title="Số phim của từng đạo diễn theo độ tuổi",
                    labels={'Directors': 'Đạo diễn', 'Age': 'Nhóm tuổi', 'Counts': 'Số lượng phim'})
fig12.update_traces(marker=dict(size=8), selector=dict(mode='markers'))
fig12.update_layout(scene = dict(
                    xaxis_title='Đạo diễn',
                    yaxis_title='Nhóm tuổi',
                    zaxis_title='Số lượng phim'),
                  margin=dict(l=0, r=0, b=0, t=40))

fig12.show()

# 13

In [17]:
age_year_rating = df.groupby(['Year', 'Age'])['IMDb'].mean().reset_index()
fig13= px.line(age_year_rating, x='Year', y='IMDb', color='Age', title='IMDb trung bình theo nhóm tuổi mỗi năm')
fig13.show()

# 14

In [18]:
platform_year_count = df.melt(id_vars='Year', value_vars=['Netflix', 'Hulu', 'Prime Video', 'Disney+'], var_name='Platform', value_name='Available')
platform_year_count = platform_year_count[platform_year_count['Available'] == 1].groupby(['Year', 'Platform']).size().reset_index(name='Counts')
fig14= px.line(platform_year_count, x='Year', y='Counts', color='Platform', title='Số lượng phim chiếu trên các nền tảng qua từng năm')
fig14.show()

# 15

In [19]:
genre_age_count = df.explode('Genres').groupby(['Genres', 'Age']).size().reset_index(name='Counts')
fig15= px.bar(genre_age_count, x='Genres', y='Counts', color='Age', title='Thể loại phim theo từng lứa tuổi')
fig15.show()

In [20]:
genre_age_count = df.explode('Genres').groupby(['Genres', 'Age']).size().reset_index(name='Counts')
genre_age_count['Genres'] = pd.Categorical(genre_age_count['Genres'])
genre_age_count['Genres_code'] = genre_age_count['Genres'].cat.codes
fig15= go.Figure(data=[go.Mesh3d(
    x=genre_age_count['Genres_code'],
    y=genre_age_count['Age'],
    z=genre_age_count['Counts'],
    colorbar_title='Số lượng phim',
    colorscale='Viridis',
    intensity=genre_age_count['Counts'],
    opacity=0.5,
    alphahull=5)])
fig15.update_layout(scene = dict(
                    xaxis_title='Thể loại',
                    yaxis_title='Nhóm tuổi',
                    zaxis_title='Số lượng phim',
                    xaxis=dict(tickvals=list(range(len(genre_age_count['Genres'].cat.categories))),
                               ticktext=genre_age_count['Genres'].cat.categories)),
                  title="Số lượng phim theo thể loại và lứa tuổi (3D Mesh Plot)",
                  margin=dict(l=0, r=0, b=0, t=50))
fig15.show()

# 16

In [21]:
genres_filter = df[df['Genres'].str.contains('Comedy|Drama|Horror', case=False, na=False)]
platform_genre_count = genres_filter.melt(id_vars='Genres', value_vars=['Netflix', 'Prime Video'], var_name='Platform', value_name='Available')
platform_genre_count = platform_genre_count[platform_genre_count['Available'] == 1].groupby(['Platform', 'Genres']).size().reset_index(name='Counts')
fig16= px.bar(platform_genre_count, x='Genres', y='Counts', color='Platform', title='Số lượng phim trên Netflix và Prime theo thể loại hài, kịch, kinh dị')
fig16.show()

# 17

In [22]:

scatter_data = df[['IMDb', 'Runtime', 'Rotten Tomatoes']].dropna()
fig17= ff.create_scatterplotmatrix(scatter_data, diag='box', title="Mối quan hệ giữa IMDb, Runtime và Rotten Tomatoes")
fig17.show()

# 18

In [23]:
language_country_count = df.explode('Language').groupby(['Country', 'Language']).size().reset_index(name='Counts')

fig = px.bar(language_country_count,
             x='Country',
             y='Counts',
             color='Language',
             title='Số lượng phim theo ngôn ngữ ở mỗi quốc gia',
             labels={'Counts':'Số lượng phim', 'Country':'Quốc gia', 'Language':'Ngôn ngữ'},
             barmode='group')


fig.show()

# 19

In [24]:
prime_video_movies = df[(df['Year'] >= 2015) & (df['Prime Video'] == 1)]
prime_video_age_count = prime_video_movies.groupby(['Year', 'Age']).size().reset_index(name='Counts')
fig = px.line(prime_video_age_count, x='Year', y='Counts', color='Age', title='Số phim thuộc Prime Video theo lứa tuổi từ năm 2015 trở về sau')
fig.show()

# 20

In [25]:

# Lọc dữ liệu cho các phim từ năm 2015 trở đi
df_2015 = df[df['Year'] >= 2015]

# Tách các đạo diễn và đếm số lượng phim theo mỗi đạo diễn và năm
director_year_count = df_2015.explode('Directors').groupby(['Year', 'Directors']).size().reset_index(name='Counts')

# Vẽ biểu đồ 3D Scatter
fig = px.scatter_3d(director_year_count, x='Year', y='Directors', z='Counts', color='Counts',
                    title="Số phim của mỗi đạo diễn theo năm từ 2015 trở về sau")
fig.show()

# 21

In [26]:


# Lọc phim có IMDb > 7
high_rating_movies = df[df['IMDb'] > 7]

# Đếm số lượng phim trên các nền tảng
platforms = ['Netflix', 'Hulu', 'Prime Video', 'Disney+']
platform_counts = high_rating_movies[platforms].sum()

# Tính tỷ lệ phần trăm
platform_percentages = (platform_counts / platform_counts.sum()) * 100

# Vẽ biểu đồ Pie
fig = go.Figure(data=[go.Pie(labels=platform_percentages.index, values=platform_percentages.values,
                             title="Tỉ lệ % số lượng các phim theo các nền tảng có IMDb > 7")])
fig.show()

# 22

In [27]:


# Gộp nhóm và đếm số lượng phim theo các trường Age, Year, Netflix, Hulu, Prime Video, Disney+
grouped_data = df.groupby(['Age', 'Year', 'Netflix', 'Hulu', 'Prime Video', 'Disney+']).size().reset_index(name='Counts')

# Vẽ biểu đồ Parallel Coordinates
fig = px.parallel_coordinates(grouped_data, dimensions=['Age', 'Year', 'Netflix', 'Hulu', 'Prime Video', 'Disney+'],
                              color='Counts', title="Tọa độ song song của tuổi và các nền tảng")
fig.show()

# 23

In [28]:
high_rating_movies = df[df['Rotten Tomatoes'] > '93%']
fig = px.scatter(high_rating_movies, x='Year', y='Rotten Tomatoes', text='Title',
                 title="Tên Phim có rating cao hơn 9.3")
fig.update_traces(textposition='top center')
fig.show()

In [29]:
high_rating_movies.head()

Unnamed: 0.1,Unnamed: 0,ID,Title,Year,Age,IMDb,Rotten Tomatoes,Netflix,Hulu,Prime Video,Disney+,Type,Directors,Genres,Country,Language,Runtime
3,3,4,Back to the Future,1985,7+,8.5,96%,1,0,0,0,0,Robert Zemeckis,"Adventure,Comedy,Sci-Fi",United States,English,116.0
4,4,5,"The Good, the Bad and the Ugly",1966,18+,8.8,97%,1,0,1,0,0,Sergio Leone,Western,"Italy,Spain,West Germany",Italian,161.0
5,5,6,Spider-Man: Into the Spider-Verse,2018,7+,8.4,97%,1,0,0,0,0,"Bob Persichetti,Peter Ramsey,Rodney Rothman","Animation,Action,Adventure,Family,Sci-Fi",United States,"English,Spanish",117.0
6,6,7,The Pianist,2002,18+,8.5,95%,1,0,1,0,0,Roman Polanski,"Biography,Drama,Music,War","United Kingdom,France,Poland,Germany","English,German,Russian",150.0
8,8,9,Raiders of the Lost Ark,1981,7+,8.4,95%,1,0,0,0,0,Steven Spielberg,"Action,Adventure",United States,"English,German,Hebrew,Spanish,Arabic,Nepali",115.0


# 24

In [30]:
movies_per_year = df.groupby('Year').size().reset_index(name='Counts')
fig241 = px.line(movies_per_year, x='Year', y='Counts', title='Số lượng Movies qua mỗi năm')
genres_count = df['Genres'].str.split(',').explode().value_counts().reset_index(name='Counts')
fig242 = px.bar(genres_count, x='Genres', y='Counts', title='Số lượng Movies theo thể loại', labels={'index':'Genres'})
genres_ratings = df.explode('Genres').groupby('Genres')['IMDb'].mean().sort_values(ascending=False).head(5).reset_index()
fig243 = px.bar(genres_ratings, x='Genres', y='IMDb', title='Top 5 Thể loại có rating IMDb cao nhất')
platforms = df[['Netflix', 'Hulu', 'Prime Video', 'Disney+']].sum().reset_index(name='Counts')
fig244 = px.bar(platforms, x='index', y='Counts', title='Số lượng phim trên các nền tảng khác nhau', labels={'index':'Platforms'})
fig24 = sp.make_subplots(rows=2, cols=2, subplot_titles=('Số lượng Movies qua mỗi năm', 'Số lượng Movies theo thể loại',
                                                       'Top 5 Thể loại có rating IMDb cao nhất', 'Số lượng phim trên các nền tảng'))
for trace in fig241.data:
    fig24.add_trace(trace, row=1, col=1)
for trace in fig242.data:
    fig24.add_trace(trace, row=1, col=2)
for trace in fig243.data:
    fig24.add_trace(trace, row=2, col=1)
for trace in fig244.data:
    fig24.add_trace(trace, row=2, col=2)
fig24.update_layout(height=800, width=1000, title_text="Các biểu đồ câu 1-4 trên cùng hệ trục tọa độ")
fig24.show()