https://public.tableau.com/views/MovieData_17176868788770/MoviesData?:language=en-US&publish=yes&:sid=&:display_count=n&:origin=viz_share_link

```py
'''
==================================================================================
Milestone 1

Nama  : Syihabuddin Ahmad Satisma
Batch : HCK-017

Program ini dibuat untuk melakukan analisa data yang terdapat dalam dataset.
Tujuan dari program ini adalah untuk menganalisa faktor yang dapat menyebabkan
naik atau turunnya suatu rating pada film.
==================================================================================
'''
```

<h1>Movies Dataset Analysis</h1>

# Pendahuluan

Pada era digital saat ini dunia perfilman sedang naik-naiknya, ditandai dengan banyaknya film yang muncul tiap tahunnya. Singkat cerita ada seorang sutradara yang hendak membuat film dan beliau menyampaikan bahwa akan membuat film dengan rating seminimal-minimalnya adalah 8, maka dari itu saya sebagai seorang <i>data analyst</i> harus bisa menyediakan sebuah data sesuai dengan apa yang dibutuhkan seorang user.

Permasalahan pada kasus ini dapat dibentuk dengan metode analisa SMART, dengan penjabaran sebagai berikut:
<ul>
<li>Specific<br>
Analisa apa yang mempengaruhi rating sebuah film supaya film yang akan dibuat memiliki rating yang bagus.<br><br></li>
<li>Measurable<br>
Seorang sutradara merencanakan membuat film dengan rating minimal 8 berdasarkan analisa yang sudah dibuat.<br><br></li>
<li>Achievable<br>
Tercapainya rating 8.0 berdasarkan analisa yang telah dilakukan.<br><br></li>
<li>Relevant<br>
Memiliki film dengan rating tinggi dapat menjadi daya tarik calon penonton untuk menonton film yang telah dibuat<br><br></li>
<li>Time-bound<br>
Projek ini diperkirakan akan selesai dalam 3 tahun untuk menghasilkan film dengan rating minimal 8.</li>
</ul><br>
Problem statement: Pembuatan sebuah film dalam waktu 3 tahun yang memiliki rating 8.0, berdasarkan analisa dari hal yang mempengaruhi tingginya rating pada sebuah film.

Dalam menjawab problem statement yang sudah didefinisikan selanjutnya menjabarkan pertanyaan-pertanyaan yang relevan yang dapat membantu terjawabnya problem statement tersebut. Berikut beberapa pertanyaan yang dibuat untuk mendukung permasalahan yang sedang diteliti.
<ol>
<li>Berapa mean, median, mode, skewness dan kurtosis dari rating, meta score, votes, dan review count? (Statistik deskriptif)</li>
<li>Pada tahun berapa nilai rata-rata rating paling tinggi dan film apa? (Visualisasi)</li>
<li>Seberapa berpengaruhnya Director terhadap rating rata-rata suatu film? (Visualisasi)</li>
<li>Genre apa yang paling banyak dibuat oleh 10 direktor teratas berdasarkan jumlah film yang dibuat?(Visualisasi)</li>
<li>Pada tahun berapa jumlah pembuatan film terbanyak? (Visualisasi)</li>
<li>Apakah rata-rata metascore mempengaruhi rata-rata rating? (Inferential)</li>
</ol><br><br>

# Data Loading

## Data Eksplorasi

In [1]:
# Import important module
import pandas as pd
from scipy.stats import skew
from scipy.stats import kurtosis
from scipy.stats import norm
import scipy.stats as stats
import numpy as np
import plotly.express as px
from scipy.stats import spearmanr
import statsmodels.api as sm
import matplotlib.pyplot as plt
import plotly.graph_objects as go
from scipy.stats import ttest_ind
from scipy.stats import f_oneway, shapiro, levene
import seaborn as sns

In [2]:
# buat variable dataframe raw
df_raw = pd.read_csv("imdb-movies-dataset.csv")

In [3]:
# Coba tampilkan 5 sample data
df_raw.sample(5)

Unnamed: 0,Poster,Title,Year,Certificate,Duration (min),Genre,Rating,Metascore,Director,Cast,Votes,Description,Review Count,Review Title,Review
1694,https://m.media-amazon.com/images/M/MV5BZjNkNz...,Enola Holmes,2017.0,13,123.0,"Action, Adventure, Crime",6.6,68.0,Harry Bradbeer,"Millie Bobby Brown, Henry Cavill, Sam Claflin,...",220145,When Enola Holmes (Sherlock's teen sister) dis...,1562,Perfect for a 15 yro girl,This is the movie I wish I had at 15. This isn...
8605,https://m.media-amazon.com/images/M/MV5BMDRhND...,Shut In,2004.0,,89.0,Thriller,5.8,,D.J. Caruso,"Rainey Qualley, Jake Horowitz, Vincent Gallo, ...",10948,When a young mother is barricaded inside a pan...,255,A solid movie with a great message.,This was a solid movie and had a great message...
582,https://m.media-amazon.com/images/M/MV5BMTQ5NT...,La vie d'Adèle,1991.0,A,180.0,"Drama, Romance",7.7,90.0,Abdellatif Kechiche,"Léa Seydoux, Adèle Exarchopoulos, Salim Kechio...",163318,"Adèle's life is changed when she meets Emma, a...",280,An Honest and Emotionally Devastating Film abo...,I just want to start off by saying this is an ...
8488,https://m.media-amazon.com/images/M/MV5BMjAzYW...,Ghosts of War,2005.0,R,94.0,"Fantasy, Horror, Thriller",5.6,38.0,Eric Bress,"Brenton Thwaites, Kyle Gallner, Alan Ritchson,...",12087,Five American soldiers assigned to hold a Fren...,269,What a stupid ending,As I started watching I just kept thinking why...
4441,https://m.media-amazon.com/images/M/MV5BZjIyMj...,Revenge,2007.0,,124.0,"Action, Crime, Drama",6.2,35.0,Tony Scott,"Kevin Costner, Anthony Quinn, Madeleine Stowe,...",20568,"A retired US Navy pilot comes to Mexico, where...",80,'Revenge' surpassed by the flavor of desire an...,'Revenge' has a recently retired fighter pilot...


In [4]:
# Menampilkan summary data
df_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Poster          10000 non-null  object 
 1   Title           10000 non-null  object 
 2   Year            9850 non-null   float64
 3   Certificate     7370 non-null   object 
 4   Duration (min)  9664 non-null   float64
 5   Genre           9993 non-null   object 
 6   Rating          9596 non-null   float64
 7   Metascore       7555 non-null   float64
 8   Director        9995 non-null   object 
 9   Cast            9961 non-null   object 
 10  Votes           9596 non-null   object 
 11  Description     10000 non-null  object 
 12  Review Count    9999 non-null   object 
 13  Review Title    9483 non-null   object 
 14  Review          9484 non-null   object 
dtypes: float64(4), object(11)
memory usage: 1.1+ MB


In [5]:
# Menampilkan missing values pada beberapa kolom
df_raw.isna().sum()

Poster               0
Title                0
Year               150
Certificate       2630
Duration (min)     336
Genre                7
Rating             404
Metascore         2445
Director             5
Cast                39
Votes              404
Description          0
Review Count         1
Review Title       517
Review             516
dtype: int64

In [6]:
# Cek duplikat
df_raw.duplicated().sum()

0

**Hasil analisa data eksplorasi**
<br>
<ol>
<li>Data memiliki datatype yang tidak sesuai di beberapa kolom.</li>
<li>Beberapa kolom memiliki banyak <i>missing values.</i></li>
<li>Data sudah bersih dari duplikat.</li>
</ol>
Selanjutnya akan dilakukan proses <i>cleaning data</i>

## Data Cleaning

In [7]:
# Buat variable baru dengan metode copy dari variable sebelumnya
df_clean = df_raw.copy()

In [8]:
# Menghilangkan whitespace pada nama kolom jika ada
df_clean.columns = df_clean.columns.str.strip()

In [9]:
# Menghapus kolom yang tidak diperlukan untuk diteliti
df_clean = df_clean.drop(['Poster','Description','Review Title','Review'], axis=1)

Kolom tersebut tidak diperlukan dalam analisa yang akan dilakukan, lebih baik didrop supaya terlihat rapih

In [10]:
# Drop null values
df_clean.dropna(subset=['Year'], how='all', inplace=True)
df_clean.dropna(subset=['Rating'], how='all',inplace=True)
df_clean.dropna(subset=['Duration (min)'], how='all',inplace=True)
df_clean.dropna(subset=['Cast'], how='all',inplace=True)
df_clean.dropna(subset=['Review Count'], how='all',inplace=True)

Membuang beberapa <i>null values</i> yang tidak memungkinkan untuk menggunakan metode fillna dan sejenisnya, karena itu akan mempengaruhi hasil penelitian.

In [11]:
# Replace null values pada kolom Certificate menjadi Missing
df_clean['Certificate'] = df_clean['Certificate'].replace(to_replace=[None], value='Missing')

# Isi null values pada kolom Metascore dengan rata-rata Metascore
df_clean['Metascore'] = df_clean['Metascore'].fillna(df_clean['Metascore'].mean()).round(2)

# Erubah data type beberapa kolom dengan int
df_clean['Review Count'] = df_clean['Review Count'].str.replace(',','').astype(int)
df_clean['Votes'] = df_clean['Votes'].str.replace(',','').astype(int)
df_clean['Year'] = df_clean['Year'].astype(int)
df_clean['Duration (min)'] = df_clean['Duration (min)'].astype(int)

In [12]:
df_clean['Title_Year'] = df_clean['Title'] + ' (' + df_clean['Year'].astype(str) +')'

Mengisi kolom <i>null values</i> dan merubah tipe data ke tipe data yang lebih sesuai.

In [13]:
# Reset index supaya dimulai dari index 0 dan berakhir sesuai banyaknya baris
df_clean.reset_index(drop=True,inplace=True)

In [14]:
# Menampilkan sample data
df_clean.sample(5)

Unnamed: 0,Title,Year,Certificate,Duration (min),Genre,Rating,Metascore,Director,Cast,Votes,Review Count,Title_Year
8927,S1m0ne,1976,U,117,"Comedy, Drama, Sci-Fi",6.1,49.0,Andrew Niccol,"Al Pacino, Catherine Keener, Rachel Roberts, B...",62507,193,S1m0ne (1976)
8698,Nightwatch,2014,R,101,"Drama, Horror, Thriller",6.2,40.0,Ole Bornedal,"Ewan McGregor, Nick Nolte, Anais Evans, Erich ...",21340,125,Nightwatch (2014)
2531,The Mother,2004,12+,115,"Action, Thriller",5.6,45.0,Niki Caro,"Jennifer Lopez, Lucy Paez, Omari Hardwick, Jos...",47372,334,The Mother (2004)
3706,L'Apollonide (Souvenirs de la maison close),2024,Missing,122,Drama,6.7,75.0,Bertrand Bonello,"Noémie Lvovsky, Hafsia Herzi, Céline Sallette,...",7844,23,L'Apollonide (Souvenirs de la maison close) (2...
6197,Race to Witch Mountain,1985,U,98,"Action, Adventure, Family",5.7,52.0,Andy Fickman,"Dwayne Johnson, Carla Gugino, AnnaSophia Robb,...",63074,112,Race to Witch Mountain (1985)


In [15]:
# Menampilkan summary data yang sudah bersih.
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9439 entries, 0 to 9438
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Title           9439 non-null   object 
 1   Year            9439 non-null   int32  
 2   Certificate     9439 non-null   object 
 3   Duration (min)  9439 non-null   int32  
 4   Genre           9439 non-null   object 
 5   Rating          9439 non-null   float64
 6   Metascore       9439 non-null   float64
 7   Director        9439 non-null   object 
 8   Cast            9439 non-null   object 
 9   Votes           9439 non-null   int32  
 10  Review Count    9439 non-null   int32  
 11  Title_Year      9439 non-null   object 
dtypes: float64(2), int32(4), object(6)
memory usage: 737.5+ KB


Proses <i>data cleaning</i> telah berhasil dilakukan, selanjutnya data sudah bisa dilanjutkan untuk proses statistik yang bertujuan untuk menjawab beberapa pertanyaan yang sudah dirumuskan.

# Analisis dan perhitungan

## Deskriptif

#### 1. Berapa mean, median, mode, skewness dan kurtosis dari rating, meta score, votes, dan review count? (Statistik deskriptif)

In [16]:
# Rating
meanRating = df_clean['Rating'].mean()
medianRating = df_clean['Rating'].median()
stdRating = df_clean['Rating'].std()
skewRating = df_clean['Rating'].skew()
kurtRating = df_clean['Rating'].kurtosis()
modeRating = df_clean['Rating'].mode()[0]

print(f"rata-rata : {meanRating:.3f}")
print(f"Nilai tengah : {medianRating}")
print(f"Standar Deviasi : {stdRating:.3f}")
print(f"Skewness : {skewRating:.3f}")
print(f"Kurtosis : {kurtRating:.3f}")
print(f"Modus : {modeRating}")

rata-rata : 6.445
Nilai tengah : 6.5
Standar Deviasi : 1.045
Skewness : -0.652
Kurtosis : 0.834
Modus : 6.4


**Penjelasan hasil statistik deskriptif kolom rating**
<ul>
<li>Rata-rata<br>
Nilai rata-rata kolom rating adalah 6.445.</li>
<li>Nilai tengah<br>
Nilai tengah pada kolom rating adalah 6.5</li>
<li>Standar deviasi<br>
Standar deviasi kolom rating adalah 1.045 yang artinya data persebaran datanya tidak jauh dari rata-ratanya.</li>
<li>Skewness<br>
Nilai <i>skewness</i> pada kolom rating adalah -0.652 yang artinya data tersebut adalah <i>moderately skew - negatively</i> artinya mean < median < mode</li>
<li>Kurtosis<br>
Nilai kurtosis kolom rating adalah 0.834 yang artinya adalah data tersebut masuk dalam kategori <i>leptokurtic</i> dapat disimpulkan bahwa data terdapat <i>outlier</i></li>
<li>Modus<br>
Angka yang sering muncul dari kolom rating adalah 6.4, karena modus bernilai 6.4</li>
</ul>

In [17]:
# Metascore
meanMeta = df_clean['Metascore'].mean()
medianMeta = df_clean['Metascore'].median()
stdMeta = df_clean['Metascore'].std()
skewMeta = df_clean['Metascore'].skew()
kurtMeta = df_clean['Metascore'].kurtosis()
modeMeta = df_clean['Metascore'].mode()[0]

print(f"rata-rata : {meanMeta:.3f}")
print(f"Nilai tengah : {medianMeta}")
print(f"Standar Deviasi : {stdMeta:.3f}")
print(f"Skewness : {skewMeta:.3f}")
print(f"Kurtosis : {kurtMeta:.3f}")
print(f"Modus : {modeMeta}")

rata-rata : 58.114
Nilai tengah : 58.11
Standar Deviasi : 15.849
Skewness : -0.129
Kurtosis : 0.236
Modus : 58.11


**Penjelasan hasil statistik deskriptif kolom metascore**
<ul>
<li>Rata-rata<br>
Nilai rata-rata kolom metascore adalah 58.114.</li>
<li>Nilai tengah<br>
Nilai tengah pada kolom metascore adalah 58.11</li>
<li>Standar deviasi<br>
Standar deviasi kolom metascore adalah 15.849 yang artinya persebarannya jauh dari rata-rata</li>
<li>Skewness<br>
Nilai <i>skewness</i> pada kolom metascore adalah -0.129 yang artinya data tersebut adalah <i>aproxiamtely symmetric</i> ekornya sedikit lebih berat ke kiri tapi tidak signifikan sehingga hampir simetris</li>
<li>Kurtosis<br>
Nilai kurtosis kolom metascore adalah 0.236 yang artinya adalah data tersebut masuk dalam kategori <i>leptokurtic</i> dapat disimpulkan bahwa data terdapat <i>outlier</i> hanya saja tidak signifikan karena angka mendekati 0.</li>
<li>Modus<br>
Angka yang sering muncul dari kolom metascore adalah 58.11, karena modus bernilai 58.11</li>
</ul>

In [18]:
# Votes
meanVotes = df_clean['Votes'].mean()
medianVotes = df_clean['Votes'].median()
stdVotes = df_clean['Votes'].std()
skewVotes = df_clean['Votes'].skew()
kurtVotes = df_clean['Votes'].kurtosis()
modeVotes = df_clean['Votes'].mode()[0]

print(f"rata-rata : {meanVotes:.3f}")
print(f"Nilai tengah : {medianVotes}")
print(f"Standar Deviasi : {stdVotes:.3f}")
print(f"Skewness : {skewVotes:.3f}")
print(f"Kurtosis : {kurtVotes:.3f}")
print(f"Modus : {modeVotes}")

rata-rata : 97617.030
Nilai tengah : 37749.0
Standar Deviasi : 183219.779
Skewness : 5.233
Kurtosis : 42.479
Modus : 96


**Penjelasan hasil statistik deskriptif kolom votes**
<ul>
<li>Rata-rata<br>
Nilai rata-rata kolom votes adalah 97617.030</li>
<li>Nilai tengah<br>
Nilai tengah pada kolom votes adalah 37749</li>
<li>Standar deviasi<br>
Standar deviasi kolom votes adalah 183219.779 yang artinya persebarannya jauh dari rata-rata</li>
<li>Skewness<br>
Nilai <i>skewness</i> pada kolom votes adalah 5.223 yang artinya data tersebut adalah <i>highly skewed - positvely</i> ekornya berat ke kanan yang artinya mean > median > mode</li>
<li>Kurtosis<br>
Nilai kurtosis kolom votes adalah 42.479 yang artinya adalah data tersebut masuk dalam kategori <i>leptokurtic</i> dapat disimpulkan bahwa data terdapat <i>outlier</i></li>
<li>Modus<br>
Angka yang sering muncul dari kolom votes adalah 96, karena modus bernilai 96. Karena votes memiliki kecenderungan nilai yang tinggi, maka kolom votes kurang relevan untuk dicari modusnya</li>
</ul>

In [19]:
# Review Count
meanRevw = df_clean['Review Count'].mean()
medianRevw = df_clean['Review Count'].median()
stdRevw = df_clean['Review Count'].std()
skewRevw = df_clean['Review Count'].skew()
kurtRevw = df_clean['Review Count'].kurtosis()
modeRevw = df_clean['Review Count'].mode()[0]

print(f"rata-rata : {meanRevw:.3f}")
print(f"Nilai tengah : {medianRevw}")
print(f"Standar Deviasi : {stdRevw:.3f}")
print(f"Skewness : {skewRevw:.3f}")
print(f"Kurtosis : {kurtRevw:.3f}")
print(f"Modus : {modeRevw}")

rata-rata : 280.094
Nilai tengah : 148.0
Standar Deviasi : 464.334
Skewness : 6.861
Kurtosis : 80.963
Modus : 0


**Penjelasan hasil statistik deskriptif kolom review count**
<ul>
<li>Rata-rata<br>
Nilai rata-rata kolom review count adalah 280.094</li>
<li>Nilai tengah<br>
Nilai tengah pada kolom review count adalah 148</li>
<li>Standar deviasi<br>
Standar deviasi kolom review count adalah 464.334 yang artinya persebaran datanya jauh dari rata-ratanya.</li>
<li>Skewness<br>
Nilai <i>skewness</i> pada kolom review count adalah 6.861 yang artinya data tersebut adalah <i>highly skew - positively</i> artinya mean > median > mode</li>
<li>Kurtosis<br>
Nilai kurtosis kolom review count adalah 80.963 yang artinya adalah data tersebut masuk dalam kategori <i>leptokurtic</i> dapat disimpulkan bahwa data terdapat <i>outlier</i></li>
<li>Modus<br>
Angka yang sering muncul dari kolom review count adalah 0, karena modus bernilai 0</li>
</ul>

## Visualisasi

### 2. Pada tahun berapa nilai rata-rata rating paling tinggi dan Film apa?

In [20]:
# Pandas query
result = df_clean.groupby('Year').agg(# Group berdasarkan tahun
    AverageRating=('Rating', 'mean'), # Var baru diambil dari Rating dengan aggregate rata-rata(mean)
    MoviesPublished=('Year', 'count') # Var baru diambil dari Year dengan aggregate count
).reset_index().sort_values(by='AverageRating', ascending=False).round(2).head(10)

result.sort_index() #Ambil top 10

Unnamed: 0,Year,AverageRating,MoviesPublished
7,1964,6.8,49
13,1972,6.98,48
17,1979,6.83,49
20,1985,6.62,143
24,1990,7.24,49
25,1991,7.05,45
39,2005,6.61,192
41,2007,6.57,246
46,2012,6.72,243
50,2016,6.74,287


10 Rating rata-rata teratas suatu film diurutkan berdasarkan tahun.

In [21]:
# Buat variable untuk menampilkan visualisasi Line chart
figRankYear = px.line(result.sort_index(),
              y = 'AverageRating',
              x = 'Year',
              title='Top 10 Average Rating by Year',
              )

figRankYear.show()

Dapat diketahui bahwa rating rata-rata tertinggi pada industri perfilman terdapat pada tahun 1990 dengan nilai rata-rata sebesar 7.24

In [22]:
# Mencari tau film apa yang memiliki rating tertinggi pada tahun 1990.
Movie1990 = df_clean.loc[df_clean['Year'] == 1990].sort_values(by='Rating',ascending=False).head(10)

In [23]:
figIn1990 = px.bar(Movie1990,
              y = 'Rating',
              x = 'Title_Year',
              orientation='v',
              title='Top 10 Highest Movie Rating in 1990',
              color='Rating',
              color_continuous_scale='Greens'
              )
figin1990Votes = px.bar(Movie1990,
              y = 'Votes',
              x = 'Title_Year',
              orientation='v',
              title='Top 10 Movie Votes and Title Year Sorted by Rating',
              labels={'Title_Year': 'Movie Title and Year', 'Votes': 'Votes'},
              color='Rating',
              color_continuous_scale='Viridis'
              )

# dfconcat = pd.concat(())
figIn1990.update_layout(yaxis={'categoryorder':'total ascending'})
figin1990Votes.update_layout(yaxis={'categoryorder':'total ascending'})
figIn1990.show()
figin1990Votes.show()

Dapat diketahui bahwa film dengan rating tertinggi pada tahun 1990 yang terdapat pada dataset berjudul <br><b><i>Rear Window</i></b> dengan rating ```8.5```. Film dengan rating tinggi belum tentu banyak peminatnya, maka dari itu saya menampilkan nilai votes dari film yang telah disort berdasarkan rating tertinggi pada tahun 1990, dan diketahui bahwa film dengan rating tertinggi memiliki votes sebanyak 523k yang mana kalah dengan film pada urutan kedua rating yang berjumlah 1.2M Votes.

### 3. Seberapa berpengaruhnya Director terhadap rating rata-rata suatu film?

In [24]:
# Mengelompokkan data berdasarkan sutradara dan menghitung rata-rata rating per sutradara
director_group = df_clean.groupby('Director')['Rating'].mean().reset_index()

# Mengganti nama kolom untuk kejelasan
director_group.columns = ['Director', 'Average Rating']

# Melihat hasil pengelompokan
print(director_group)

                   Director  Average Rating
0              A.J. Edwards             4.8
1           A.R. Murugadoss             7.3
2             A.V. Rockwell             7.0
3                Aamir Khan             8.3
4              Aaron Blaise             6.9
...                     ...             ...
4352           Álex Montoya             7.7
4353     Álex de la Iglesia             6.2
4354  Ángel Gómez Hernández             6.1
4355            Éric Rohmer             7.3
4356    Óskar Thór Axelsson             6.0

[4357 rows x 2 columns]


Hasil dari rata-rata rating setiap direktor.

In [25]:
# Melihat statistik deskriptif
desc_stats = director_group['Average Rating'].describe()
print(desc_stats)

count    4357.000000
mean        6.257841
std         1.054891
min         1.300000
25%         5.700000
50%         6.400000
75%         7.000000
max         9.700000
Name: Average Rating, dtype: float64


In [26]:
# Jika ingin melihat korelasi antara jumlah film yang disutradarai dengan rata-rata rating
director_count = df_clean['Director'].value_counts().reset_index()
director_count.columns = ['Director', 'Film Count']

# Menggabungkan data rata-rata rating dengan jumlah film
merged_data = pd.merge(director_group, director_count, on='Director')

# Melihat data yang sudah digabungkan
newMerged = merged_data.sort_values(by='Film Count',ascending=False).head(50)

In [27]:
# Buat grafik correlation
figCorr = px.scatter(newMerged, x='Film Count', y='Average Rating', 
                 text='Director', 
                 title='Correlation between Number of Films Directed and Average Rating',
                 labels={'Film Count': 'Number of Films Directed', 'Average Rating': 'Average Rating'},
                 trendline='ols')

figCorr.update_traces(marker=dict(size=12))
figCorr.update_layout(title_font_size=24, title_x=0.5)

figCorr.show()

Berdasarkan grafik diatas dapat dilihat bahwa terdapat <i>trend line</i> yang bergerak naik ke atas dari average rating berdasarkan film yang dibuat, yang berarti bahwa direktor yang memiliki lebih banyak film yang disutradarai cenderung memiliki nilai rating rata-rata yang sedikit lebih tinggi.

Namun begitu, data point tersebar disekitar <i>trend line</i> yang berarti memiliki korelasi yang lemah.

Selanjutnya test akan dilakukan menggunakan chi-squared test antara Director dengan Rating Category.

H0: Tidak ada korelasi antara Director dengan Rating Category<br>
H1: Ada korelasi antara director dengan Rating Category.

In [28]:
# Definisikan rating kategori
ratingNew = []
for i in df_clean['Rating']:
  if 1 <= i < 3:
    ratingNew.append('Terrible')
  elif 3 < i <6:
    ratingNew.append('Bad')
  elif 6 < i < 7:
    ratingNew.append('Average')
  elif 7 < i < 9:
    ratingNew.append('Good')
  else:
    ratingNew.append('Outstanding')

In [29]:
# Masukan hasil kategori ke kolom baru
df_clean['Rating Category'] = ratingNew

In [30]:
# Buat variable untuk menghitung contingency table
ins = df_clean.copy()

In [32]:
#Contingency Table
contingency_table = pd.crosstab(ins['Director'],ins['Rating Category'])
contingency_table

Rating Category,Average,Bad,Good,Outstanding,Terrible
Director,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A.J. Edwards,0,1,0,0,0
A.R. Murugadoss,0,0,1,0,0
A.V. Rockwell,0,0,0,1,0
Aamir Khan,0,0,1,0,0
Aaron Blaise,1,0,0,0,0
...,...,...,...,...,...
Álex Montoya,0,0,1,0,0
Álex de la Iglesia,2,0,0,0,0
Ángel Gómez Hernández,1,0,0,0,0
Éric Rohmer,0,0,1,0,0


In [33]:
# Hitung p_value dan chi-stat
from scipy.stats import chi2_contingency
res = stats.chi2_contingency(contingency_table)
chi2 = chi2_contingency(contingency_table)
print("P-value:",res.pvalue)
res

P-value: 8.487299934050422e-148


Chi2ContingencyResult(statistic=22707.284917385732, pvalue=8.487299934050422e-148, dof=17424, expected_freq=array([[0.35469859, 0.27577074, 0.29907829, 0.06557898, 0.0048734 ],
       [0.35469859, 0.27577074, 0.29907829, 0.06557898, 0.0048734 ],
       [0.35469859, 0.27577074, 0.29907829, 0.06557898, 0.0048734 ],
       ...,
       [0.35469859, 0.27577074, 0.29907829, 0.06557898, 0.0048734 ],
       [0.35469859, 0.27577074, 0.29907829, 0.06557898, 0.0048734 ],
       [0.35469859, 0.27577074, 0.29907829, 0.06557898, 0.0048734 ]]))

Dari data menghasilkan p-value sebesar 8.487299934050422e-148 yang artinya ada 148 0 di belakang koma sebelum angka 8 atau dengan kata lain p-value yang didapatkan lebih kecil dari 0.05. Maka H0 ditolak yang artinya ada korelasi diantara director dan review category.

### 4. Genre apa yang paling banyak dibuat oleh 10 direktor teratas berdasarkan jumlah film yang dibuat?

In [34]:
# Load data dengan metode copy dari data yang sudah bersih
df_genreDirector = df_clean.copy()

In [35]:
# Buat kolom baru yang berisi list genre 
df_genreDirector = df_genreDirector.assign(Genres=df_genreDirector['Genre'].str.split(','))

# Explode kolom genre ke baris terpisah
df_genreDirector = df_genreDirector.explode('Genre').reset_index(drop=True)

In [36]:
# Buat lis dari hasil mapping oleh panjangnya suatu data yang terdapat pada kolom genres
lens = list(map(len, df_genreDirector['Genres'].values))
# Buat variable baru untuk menampung nama direktor dan tiap genrenya 
res = pd.DataFrame({'Director': np.repeat(
    df_genreDirector['Director'], lens), 'Genres': np.concatenate(df_genreDirector['Genres'].values)})
 
res

Unnamed: 0,Director,Genres
0,Michael Showalter,Comedy
0,Michael Showalter,Drama
0,Michael Showalter,Romance
1,Wes Ball,Action
1,Wes Ball,Adventure
...,...,...
9437,Fernando León de Aranoa,Biography
9437,Fernando León de Aranoa,Crime
9437,Fernando León de Aranoa,Drama
9438,Claude Lelouch,Drama


Genre sudah dipisahkan dalam bentuk list yang disesuaikan dengan nama direktornya.

In [37]:
# Buang kemungkinan white strip pada baris dari kolom genres
res['Genres'] = res['Genres'].str.strip()

In [38]:
# Buat variable baru untuk menampung kolom Count yang sudah digroup berdasarkan director dan genre
newRes = res.groupby(['Director', 'Genres']).size().reset_index(name='Count')

In [39]:
# Sort dataframe newRes untuk selanjutnya ditampilkan dalam graph
sortedNewRes = newRes.sort_values(by='Count',ascending=False)

In [40]:
# Var ini akan mengambil direktor pertama yang muncul dari jumlah direktor yang akan ditampilkan
uniqueDirectors = sortedNewRes.drop_duplicates(subset=['Director'], keep='first')

In [41]:
# Menampilkan 10 direktor teratas
ndDirector = uniqueDirectors.head(10)

In [42]:
# Buat variable grafik untuk ditampilkan
directorBar = px.bar(ndDirector, x="Director", y="Count", color="Genres", 
             title="Top 10 Genre Count by Director",
             labels={"Count": "Count", "Director": "Director"})

# Munculkan grafik
directorBar.show()

Pengelompokan 10 direktor teratas berdasarkan banyaknya film yang dibuat oleh setiap direktor. Dalam setiap film yang dibuatnya terdapat 1 atau lebih dari 1 genre, sehingga dilakukan perhitungan genre terbanyak yang dibuat oleh setiap direktor.
Hasil yang didapatkan:
<ul>
<li>Clint Eastwood - Drama - 29 Films</li>
<li>Ridley Scott - Drama - 21 Films</li>
<li>Martin Scorsese - Drama - 21 Films</li>
<li>Steven Soderbergh - Drama - 19 Films</li>
<li>Steven Spielberg - Drama - 18 Films</li>
<li>Francis Ford Coppola - Drama - 16 Films</li>
<li>Oliver Stone - Drama - 15 Films</li>
<li>Woody Allen - Comedy - 20 Films</li>
<li>Robert Rodriguez - Action - 16 Films</li>
<li>Michael Bay - Action - 15 Films</li>
</ul>

### 5. Pada tahun berapa jumlah pembuatan film terbanyak?

In [43]:
# Buat variable group
groupedMovieYearCount = df_clean.groupby('Year')['Year'].count().sort_index(ascending=False)
# Buat variable baru yang mengambil berdasarkan index dan values
gmyIndex = groupedMovieYearCount.index
gmyValue = groupedMovieYearCount.values
# Buat line chart
figMovieYearCount = px.line(x=gmyIndex, 
              y=gmyValue, 
              title='Total Movie each Year',
              labels={'x': 'Year', 'y': 'Movie Count'},)
figMovieYearCount.update_layout(title_x = 0.5)
figMovieYearCount.update_layout(xaxis_title = 'Year',yaxis_title = 'Count Movie by Year')
figMovieYearCount.show()

Dari grafik <i>trend line</i> diatas dapat disimpulkan bahwa pembuatan **film terbanyak** terdapat pada tahun ```2023``` yang berjumlah ```810 films```

## Inferential

### 6. Apakah metascore mempengaruhi rating?

Dalam menjawab pertanyaan ini, saya akan menggunakan spearman correlation<br>
H0: Tidak ada korelasi di antara metascore dengan rating<br>
H1: Ada korelasi di antara metascore dan rating

In [44]:
# Hitung P-value dan rho-correlation
spearman_corr, p_value = spearmanr(df_clean['Metascore'], df_clean['Rating'])

print("rho-correlation:", spearman_corr)
print("p-value:", p_value)

rho-correlation: 0.6046906557091831
p-value: 0.0


Berdasarkan data diatas, karena P-value bernilai 0, maka H0 ditolak. Artinya ada korelasi di antara metascore dengan rating. Selain itu, rho-correlation bernilai 0.604 yang artinya memiliki korelasi yang positif dan berkorelasi sedang.

# Kesimpulan

Setelah dilakukannya analisa mendalam dari dataset yang tersedia guna menjawab permasalahan yang sedang diteliti, maka saya akan menjabarkan kembali permasalahan yang diteliti.<br>

Permasalahan pada kasus ini dapat dibentuk dengan metode analisa SMART, dengan penjabaran sebagai berikut:
<ul>
<li>Specific<br>
Analisa apa yang mempengaruhi rating sebuah film supaya film yang akan dibuat memiliki rating yang bagus.<br><br></li>
<li>Measurable<br>
Seorang sutradara merencanakan membuat film dengan rating minimal 8 berdasarkan analisa yang sudah dibuat.<br><br></li>
<li>Achievable<br>
Tercapainya rating 8.0 berdasarkan analisa yang telah dilakukan.<br><br></li>
<li>Relevant<br>
Memiliki film dengan rating tinggi dapat menjadi daya tarik calon penonton untuk menonton film yang telah dibuat<br><br></li>
<li>Time-bound<br>
Projek ini diperkirakan akan selesai dalam 3 tahun untuk menghasilkan film dengan rating minimal 8.</li>
</ul><br>
Problem statement: Pembuatan sebuah film dalam waktu 3 tahun yang memiliki rating 8.0, berdasarkan analisa dari hal yang mempengaruhi tingginya rating pada sebuah film.

Selanjutnya saya akan menjawab problem statement tersebut. Sesuai dengan hasil penelitian didapatkan beberapa faktor yang mempengaruhi rating diantaranya:
<ol>
<li>Banyaknya film yang disutradarai seorang sutradara<br>
Dari hasil analisa dapat dilihat kembali bahwa semakin banyak seorang sutradara dalam membuat film maka rating memiliki kecenderungan untuk naik.</li>
<li>Nilai dari metascore terhadap rating<br>
Dari hasil pengujian statistik inferential pada pengaruh antara metascore dengan rating dapat disimpulkan bahwa metascore memiliki pengaruh terhadap naiknya rating, itu ditandai dengan p-value yang bernilai dibawah 0.05 yang berarti H1 diterima, yang dimana H1 adalah Ada korelasi antara metascore dengan rating</li>
<li>Banyaknya votes terhadap validnya suatu rating<br>
Rating yang tinggi dengan votes yang tinggi berarti lebih banyak orang yang memberikan nilai terhadap suatu film tersebut, dan dapat menarik lebih banyak peminat untuk menonton.</li>
</ol>
<h1>Time-bound</h1>
Karena pembuatan film tidak bisa selesai dalam waktu singkat maka prrojek ini diperkirakan akan selesai dalam waktu 3 tahun, berikut penjabaran <i>timeline</i>nya:
<ol>
<li>Setengah Tahun Pertama<br>
Melakukan analisa dan pemilihan aktor</li>
<li>Setengah Tahun Pertama Hingga Awal Tahun Kedua<br>
Mulai melakukan shooting dari film yang sudah ditentukan</li>
<li>Tahun Kedua<br>
Melanjutkan shooting dan setelahnya dilakukan proses editing hingga awal tahun ke-3</li>
<li>Tahun Ketiga<br>
Pemantauan rating, metascore, votes dan review dari penonton. Lalu review hasil yang didapatkan.</li>
</ol>

<h1>Solusi dan Saran Permasalahan</h1>
Pembuatan film yang ditujukan untuk mencapai goal yang sudah didefinisikan bisa dimulai dengan menargetkan metascore, karena tingginya metascore juga cenderung membuat rating menjadi tinggi. Selain itu <i>element</i> lain seperti votes juga harus dipertimbangkan demi menarik lebih banyak lagi calon penonton.<br><br>
Karena salah satu point permasalahan adalah banyaknya film yang disutradarai juga dapat membuat rating memiliki kecenderungan naik, maka dari itu sebaiknya untuk terus berkarya dalam membuat film sehingga dikenal dan bisa dengan cepat mendapatkan rating yang diharapkan dan juga dengan rata-rata rating untuk direktor.