In [17]:
import pandas as pd
import numpy as np

from tabulate import tabulate

df = pd.read_csv('vgsales.csv')
df

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii Sports,Wii,2006.0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,2,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,3,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
3,4,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.75,11.01,3.28,2.96,33.00
4,5,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.00,31.37
...,...,...,...,...,...,...,...,...,...,...,...
16593,16596,Woody Woodpecker in Crazy Castle 5,GBA,2002.0,Platform,Kemco,0.01,0.00,0.00,0.00,0.01
16594,16597,Men in Black II: Alien Escape,GC,2003.0,Shooter,Infogrames,0.01,0.00,0.00,0.00,0.01
16595,16598,SCORE International Baja 1000: The Official Game,PS2,2008.0,Racing,Activision,0.00,0.00,0.00,0.00,0.01
16596,16599,Know How 2,DS,2010.0,Puzzle,7G//AMES,0.00,0.01,0.00,0.00,0.01


In [18]:
data = df['NA_Sales']

# Tentukan jumlah kelas dengan rumus Sturges
num_classes = int(1 + 3.322 * np.log10(len(data)))

# Buat tabel distribusi frekuensi langsung
frequency_table = pd.cut(
    data, 
    bins=num_classes, 
    right=False, 
    precision=2
).value_counts().sort_index().reset_index()

# Beri nama kolom
frequency_table.columns = ['Interval', 'Frekuensi']

print(tabulate(frequency_table, headers='keys', tablefmt='pretty', showindex=False))

# Konversi kolom Interval ke string
frequency_table['Interval'] = frequency_table['Interval'].astype(str)

+----------------+-----------+
|    Interval    | Frekuensi |
+----------------+-----------+
|  [0.0, 2.77)   |   16427   |
|  [2.77, 5.53)  |    117    |
|  [5.53, 8.3)   |    29     |
|  [8.3, 11.06)  |    13     |
| [11.06, 13.83) |     3     |
| [13.83, 16.6)  |     5     |
| [16.6, 19.36)  |     0     |
| [19.36, 22.13) |     0     |
| [22.13, 24.89) |     1     |
| [24.89, 27.66) |     1     |
| [27.66, 30.43) |     1     |
| [30.43, 33.19) |     0     |
| [33.19, 35.96) |     0     |
| [35.96, 38.72) |     0     |
| [38.72, 41.53) |     1     |
+----------------+-----------+


In [19]:
max = df['NA_Sales'].max()
min = df['NA_Sales'].min()

range = max - min

print(f"min: {min}")
print(f"max: {max}")
print(f"Range NA_Sales: {range}")

min: 0.0
max: 41.49
Range NA_Sales: 41.49


In [26]:
# Fungsi untuk menghitung titik tengah kelas
def titik_tengah(interval):
    # Bersihkan tanda kurung dan pisahkan nilai interval
    interval = interval.strip('[]()')  # Menghapus tanda kurung siku atau kurung biasa
    tepi_bawah, tepi_atas = map(float, interval.split(','))
    return (tepi_bawah + tepi_atas) / 2

# Hitung titik tengah dan frekuensi, lalu hitung rata-rata tertimbang dan simpangan rata-rata
frequency_table['Titik Tengah'] = frequency_table['Interval'].apply(titik_tengah)
total_frekuensi = frequency_table['Frekuensi'].sum()

# Rata-rata tertimbang
rata_rata_tertimbang = (frequency_table['Titik Tengah'] * frequency_table['Frekuensi']).sum() / total_frekuensi

# Simpangan rata-rata
simpangan_rata_rata = ((abs(frequency_table['Titik Tengah'] - rata_rata_tertimbang) * frequency_table['Frekuensi']).sum()) / total_frekuensi

# Tampilkan hasil
print(f"Rata-rata tertimbang (x̄): {rata_rata_tertimbang}")
print(f"Simpangan rata-rata (SR): {simpangan_rata_rata}")


Rata-rata tertimbang (x̄): 1.4336477286420048
Simpangan rata-rata (SR): 0.09629307608172255


In [None]:
# variance

# Fungsi untuk menghitung titik tengah kelas
def titik_tengah(interval):
    # Bersihkan karakter yang tidak diperlukan, seperti kurung dan koma
    interval = interval.replace('[', '').replace(']', '').replace('(', '').replace(')', '')
    tepi_bawah, tepi_atas = map(float, interval.split(', '))  # Pisahkan berdasarkan koma setelah dibersihkan
    return (tepi_bawah + tepi_atas) / 2

# Hitung titik tengah untuk setiap interval kelas
frequency_table['Titik Tengah'] = frequency_table['Interval'].apply(titik_tengah)

# Pastikan kolom 'Titik Tengah' dan 'Frekuensi' memiliki tipe data numerik (float dan int)
frequency_table['Titik Tengah'] = frequency_table['Titik Tengah'].astype(float)
frequency_table['Frekuensi'] = frequency_table['Frekuensi'].astype(int)

# Hitung rata-rata tertimbang (mean) berdasarkan titik tengah dan frekuensi
total_frekuensi = frequency_table['Frekuensi'].sum()
rata_rata_tertimbang = (frequency_table['Titik Tengah'] * frequency_table['Frekuensi']).sum() / total_frekuensi

# Hitung varians (σ²)
varians = ((frequency_table['Frekuensi'] * (frequency_table['Titik Tengah'] - rata_rata_tertimbang)**2).sum()) / total_frekuensi

# Tampilkan hasil
print(f"Rata-rata tertimbang (x̄): {rata_rata_tertimbang}")
print(f"Varians (σ²): {varians}")


Rata-rata tertimbang (x̄): 1.4336477286420048
Varians (σ²): 0.44190589970293825


In [None]:
# simpangan baku (belum)

def titik_tengah(interval):
    # Pisahkan interval menjadi tepi bawah dan tepi atas, lalu hitung titik tengah
    tepi_bawah, tepi_atas = map(float, interval.split(' - '))
    return (tepi_bawah + tepi_atas) / 2

# Hitung titik tengah untuk setiap interval kelas
frequency_table['Titik Tengah'] = frequency_table['Interval'].apply(titik_tengah)

# Pastikan kolom 'Titik Tengah' dan 'Frekuensi' memiliki tipe data numerik (float dan int)
frequency_table['Titik Tengah'] = frequency_table['Titik Tengah'].astype(float)
frequency_table['Frekuensi'] = frequency_table['Frekuensi'].astype(int)

# Hitung rata-rata tertimbang (mean) berdasarkan titik tengah dan frekuensi
total_frekuensi = frequency_table['Frekuensi'].sum()
rata_rata_tertimbang = (frequency_table['Titik Tengah'] * frequency_table['Frekuensi']).sum() / total_frekuensi

# Hitung varians (σ²)
varians = ((frequency_table['Frekuensi'] * (frequency_table['Titik Tengah'] - rata_rata_tertimbang)**2).sum()) / total_frekuensi

# Hitung simpangan baku (σ)
simpangan_baku = np.sqrt(varians)

# Tampilkan hasil
print(f"Rata-rata tertimbang (x̄): {rata_rata_tertimbang}")
print(f"Varians (σ²): {varians}")
print(f"Simpangan Baku (σ): {simpangan_baku}")

Rata-rata tertimbang (x̄): 1.4313165029824666
Varians (σ²): 0.35172881752183127
Simpangan Baku (σ): 0.5930672959469534


In [None]:
# Fungsi untuk menghitung titik tengah kelas
def titik_tengah(interval):
    # Pisahkan interval menjadi tepi bawah dan tepi atas, lalu hitung titik tengah
    tepi_bawah, tepi_atas = map(float, interval.split(' - '))
    return (tepi_bawah + tepi_atas) / 2

# Hitung titik tengah untuk setiap interval kelas
frequency_table['Titik Tengah'] = frequency_table['Interval'].apply(titik_tengah)

# Pastikan kolom 'Titik Tengah' dan 'Frekuensi' memiliki tipe data numerik (float dan int)
frequency_table['Titik Tengah'] = frequency_table['Titik Tengah'].astype(float)
frequency_table['Frekuensi'] = frequency_table['Frekuensi'].astype(int)

# Hitung total frekuensi
total_frekuensi = frequency_table['Frekuensi'].sum()

# Fungsi untuk menghitung persentil berdasarkan rumus yang sudah dibahas sebelumnya
def hitung_persentil(kelas, frekuensi, persentil_ke):
    # Tentukan posisi persentil
    posisi_persentil = persentil_ke * (total_frekuensi + 1) / 100
    
    frekuensi_kumulatif = 0
    for i, f in enumerate(frekuensi):
        frekuensi_kumulatif += f
        
        if frekuensi_kumulatif >= posisi_persentil:  # Temukan kelas persentil
            l_p = kelas[i].split(' - ')[0]  # Tepi bawah kelas persentil
            panjang_interval = float(kelas[i].split(' - ')[1]) - float(kelas[i].split(' - ')[0])  # Panjang interval kelas
            f_p = f  # Frekuensi kelas persentil
            sigma_f = frekuensi_kumulatif - f  # Frekuensi kumulatif sebelum kelas persentil
            
            # Hitung persentil menggunakan rumus
            persentil = float(l_p) + ((posisi_persentil - sigma_f) / f_p) * panjang_interval
            return persentil

# Tentukan kelas interval (dalam bentuk tuple yang berisi tepi bawah dan tepi atas)
kelas = frequency_table['Interval'].values.tolist()

# Hitung kuartil ke-1 (Q1) dan kuartil ke-3 (Q3)
Q1 = hitung_persentil(kelas, frequency_table['Frekuensi'].values.tolist(), 25)
Q3 = hitung_persentil(kelas, frequency_table['Frekuensi'].values.tolist(), 75)

# Hitung jangkauan kuartil (IQR)
IQR = Q3 - Q1

# Output hasil
print(f"Kuartil ke-1 (Q1): {Q1}")
print(f"Kuartil ke-3 (Q3): {Q3}")
print(f"Jangkauan Kuartil (IQR): {IQR}")

Kuartil ke-1 (Q1): 0.6997087112680344
Kuartil ke-3 (Q3): 2.099126133804103
Jangkauan Kuartil (IQR): 1.3994174225360685


In [None]:
def titik_tengah(interval):
    # Pisahkan interval menjadi tepi bawah dan tepi atas, lalu hitung titik tengah
    tepi_bawah, tepi_atas = map(float, interval.split(' - '))
    return (tepi_bawah + tepi_atas) / 2

# Hitung titik tengah untuk setiap interval kelas
frequency_table['Titik Tengah'] = frequency_table['Interval'].apply(titik_tengah)

# Pastikan kolom 'Titik Tengah' dan 'Frekuensi' memiliki tipe data numerik (float dan int)
frequency_table['Titik Tengah'] = frequency_table['Titik Tengah'].astype(float)
frequency_table['Frekuensi'] = frequency_table['Frekuensi'].astype(int)

# Hitung total frekuensi
total_frekuensi = frequency_table['Frekuensi'].sum()

# Fungsi untuk menghitung persentil berdasarkan rumus yang sudah dibahas sebelumnya
def hitung_persentil(kelas, frekuensi, persentil_ke):
    # Tentukan posisi persentil
    posisi_persentil = persentil_ke * (total_frekuensi + 1) / 100
    
    frekuensi_kumulatif = 0
    for i, f in enumerate(frekuensi):
        frekuensi_kumulatif += f
        
        if frekuensi_kumulatif >= posisi_persentil:  # Temukan kelas persentil
            l_p = kelas[i].split(' - ')[0]  # Tepi bawah kelas persentil
            panjang_interval = float(kelas[i].split(' - ')[1]) - float(kelas[i].split(' - ')[0])  # Panjang interval kelas
            f_p = f  # Frekuensi kelas persentil
            sigma_f = frekuensi_kumulatif - f  # Frekuensi kumulatif sebelum kelas persentil
            
            # Hitung persentil menggunakan rumus
            persentil = float(l_p) + ((posisi_persentil - sigma_f) / f_p) * panjang_interval
            return persentil

# Tentukan kelas interval (dalam bentuk tuple yang berisi tepi bawah dan tepi atas)
kelas = frequency_table['Interval'].values.tolist()

# Hitung persentil yang diinginkan, misalnya P10 dan P90
P10 = hitung_persentil(kelas, frequency_table['Frekuensi'].values.tolist(), 10)
P90 = hitung_persentil(kelas, frequency_table['Frekuensi'].values.tolist(), 90)

# Hitung jangkauan persentil
jangkauan_persentil = P90 - P10

# Output hasil
print(f"Persentil ke-10 (P10): {P10}")
print(f"Persentil ke-90 (P90): {P90}")
print(f"Jangkauan Persentil (P90 - P10): {jangkauan_persentil}")

Persentil ke-10 (P10): 0.27988348450721373
Persentil ke-90 (P90): 2.518951360564924
Jangkauan Persentil (P90 - P10): 2.2390678760577103
