In [3]:
import tarfile
from itertools import islice
from sklearn.feature_extraction.text import CountVectorizer

# Fungsi untuk membaca file dari arsip .tar
def load_custom_data(file_path, file_name, num_docs):
    with tarfile.open(file_path, 'r') as tar:
        # Membuka file tertentu di dalam arsip
        datafile = tar.extractfile(file_name)
        if datafile:
            # Mengembalikan baris pertama sejumlah num_docs
            return list(islice(datafile, num_docs))
        else:
            raise FileNotFoundError(f"{file_name} tidak ditemukan dalam arsip.")

# Fungsi untuk membuat matriks fitur dari teks
def make_matrix(docs, binary=False):
    vec = CountVectorizer(min_df=1, max_df=0.9, binary=binary)
    mtx = vec.fit_transform(docs)
    cols = [None] * len(vec.vocabulary_)
    for word, idx in vec.vocabulary_.items():
        cols[idx] = word
    return mtx, cols

file_path = 'grup_infor.tar'
file_name = 'data_group_cleaned.csv'
num_docs = 100

# Membaca data
try:
    docs = load_custom_data(file_path, file_name, num_docs)
    # Mengubah byte ke string (jika diperlukan)
    docs = [doc.decode('utf-8').strip() for doc in docs]

    # Membuat matriks fitur
    matrix, columns = make_matrix(docs)
    print("Matriks fitur dibuat dengan shape:", matrix.shape)
    print("Contoh kolom fitur:", columns[:10])
except Exception as e:
    print("Terjadi kesalahan:", e)

Matriks fitur dibuat dengan shape: (100, 615)
Contoh kolom fitur: ['0021', '00wib', '0128', '0146', '0232', '0250', '0267', '03', '0354', '0481']
