In [3]:
from typing import List, Dict

class SparseOneHotEncoder:
    def __init__(self):
        self.word_to_index = {}  # 단어를 인덱스로 매핑
        self.index_to_word = {}  # 인덱스를 단어로 매핑
        self.vocab_size = 0      # 어휘 사전 크기

    def fit(self, words: List[str]):
        """단어 리스트를 받아 어휘 사전을 구축합니다."""
        unique_words = sorted(list(set(words)))   # 중복 제거
        self.word_to_index = {word: i for i, word in enumerate(unique_words)}
        self.index_to_word = {i: word for word, i in self.word_to_index.items()}
        self.vocab_size = len(unique_words)

    def transform(self, words: List[str]) -> List[Dict[int, int]]:
        """단어 리스트를 희소 행렬 형태로 변환한 후, 밀집 행렬로 출력합니다."""
        sparse_matrix = []  # 희소 행렬을 저장할 리스트 (행 단위로 저장)

        for word in words:
            if word in self.word_to_index:
                # 각 단어의 인덱스를 찾아서 희소 행렬의 해당 위치를 1로 설정
                row = {self.word_to_index[word]: 1}
                sparse_matrix.append(row)
            else:
                # 어휘 사전에 없는 단어는 빈 딕셔너리로 처리
                sparse_matrix.append({})

        # 희소 행렬을 밀집 행렬로 변환
        dense_matrix = []
        for row in sparse_matrix:
            dense_row = [0] * self.vocab_size  # 모든 값이 0인 행 생성
            for col_index, value in row.items():
                dense_row[col_index] = value  # 1인 위치만 업데이트
            dense_matrix.append(dense_row)

        return dense_matrix

    def fit_transform(self, words: List[str]) -> List[Dict[int, int]]:
        """fit과 transform을 한 번에 수행합니다."""
        self.fit(words)
        return self.transform(words)

In [8]:
# 예제 사용
words = ["팝콘", "콘칩", "나쵸", "칠리소스", "팝콘", "콘칩", "팝콘"]

# 원-핫 인코더 생성 및 변환
encoder = SparseOneHotEncoder()
sparse_matrix = encoder.fit_transform(words)

# 결과 출력
print("어휘 사전:")
print(encoder.word_to_index)

print("\n희소 행렬:")
for i, row in enumerate(sparse_matrix):
    print(f"{row}: {words[i]}")

어휘 사전:
{'나쵸': 0, '칠리소스': 1, '콘칩': 2, '팝콘': 3}

희소 행렬:
[0, 0, 0, 1]: 팝콘
[0, 0, 1, 0]: 콘칩
[1, 0, 0, 0]: 나쵸
[0, 1, 0, 0]: 칠리소스
[0, 0, 0, 1]: 팝콘
[0, 0, 1, 0]: 콘칩
[0, 0, 0, 1]: 팝콘
