In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import random


In [None]:
# Langkah 1: Memuat dataset
# Menggunakan pandas untuk membaca file CSV dan mencari tahu kolom, tipe datanya yang ada di dataset
df = pd.read_csv('horror_movies.csv') 
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32540 entries, 0 to 32539
Data columns (total 20 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   id                 32540 non-null  int64  
 1   original_title     32540 non-null  object 
 2   title              32540 non-null  object 
 3   original_language  32540 non-null  object 
 4   overview           31254 non-null  object 
 5   tagline            12706 non-null  object 
 6   release_date       32540 non-null  object 
 7   poster_path        28066 non-null  object 
 8   popularity         32540 non-null  float64
 9   vote_count         32540 non-null  int64  
 10  vote_average       32540 non-null  float64
 11  budget             32540 non-null  int64  
 12  revenue            32540 non-null  int64  
 13  runtime            32540 non-null  int64  
 14  status             32540 non-null  object 
 15  adult              32540 non-null  bool   
 16  backdrop_path      135

In [None]:
# Langkah 2: Pembersihan data
# Mengganti nilai 0 pada kolom numerik tertentu dengan NaN untuk pembersihan
numeric_columns = ['popularity', 'vote_average', 'budget', 'revenue', 'runtime']
for col in numeric_columns:
    df[col] = df[col].replace(0, np.nan)

# Menangani nilai yang hilang dengan mengisi NaN dengan median untuk kolom numerik
for col in numeric_columns:
    df[col] = df[col].fillna(df[col].median())

In [None]:
# Langkah 3: Simple Random Sampling
# Menentukan ukuran sampel (30% dari total data)
sample_size = int(len(df) * 0.3)
random.seed(42)  
sampled_df = df.sample(n=sample_size, random_state=42)

In [None]:
# Langkah 4: Menghitung statistik deskriptif
# Statistik untuk kolom 'popularity' dan 'vote_average'
stats = {
    'Popularity': {
        'Mean': sampled_df['popularity'].mean(),
        'Median': sampled_df['popularity'].median(),
        'Std Dev': sampled_df['popularity'].std()
    },
    'Vote Average': {
        'Mean': sampled_df['vote_average'].mean(),
        'Median': sampled_df['vote_average'].median(),
        'Std Dev': sampled_df['vote_average'].std()
    }
}

# Menampilkan statistik
print("Statistik Deskriptif dari Sampel:")
for key, value in stats.items():
    print(f"\n{key}:")
    for stat, val in value.items():
        print(f"  {stat}: {val:.2f}")

Statistik Deskriptif dari Sampel:

Popularity:
  Mean: 3.83
  Median: 0.84
  Std Dev: 23.03

Vote Average:
  Mean: 5.17
  Median: 5.20
  Std Dev: 1.43


In [None]:
# Langkah 5: Visualisasi data
# Membuat histogram untuk 'popularity' dan 'vote_average'
plt.figure(figsize=(12, 5))

# Histogram untuk Popularity
plt.subplot(1, 2, 1)
plt.hist(sampled_df['popularity'], bins=20, color='skyblue', edgecolor='black')
plt.title('Distribusi Popularitas (Sampel)')
plt.xlabel('Popularity')
plt.ylabel('Frekuensi')
plt.grid(True)

# Histogram untuk Vote Average
plt.subplot(1, 2, 2)
plt.hist(sampled_df['vote_average'], bins=20, color='salmon', edgecolor='black')
plt.title('Distribusi Vote Average (Sampel)')
plt.xlabel('Vote Average')
plt.ylabel('Frekuensi')
plt.grid(True)

plt.tight_layout()

# Menyimpan visualisasi
plt.savefig('horror_movies_distribution.png')
plt.close()