### 파이썬과 해시테이블의 연관성을 알아보자

데이터 분석가를 위한 해시 테이블은 파이썬에서 매우 유용한 자료 구조입니다.

해시 테이블은 키-값 쌍으로 구성되며, 키를 기반으로 값을 저장하고 검색하는 데 사용됩니다.

이를 통해 빠른 데이터 접근과 검색이 가능하며, 데이터베이스나 메모리 내에서 효율적인 작업을 수행할 수 있습니다.

파이썬에서는 dict 형식으로 해시 테이블을 구현할 수 있습니다.

dict는 중괄호 {}를 사용하여 키-값 쌍을 정의하며, 각각의 키는 고유해야 합니다.

예를 들어, 다음과 같이 해시 테이블을 생성할 수 있습니다:



In [None]:
my_dict = {'apple': 3, 'banana': 6, 'orange': 2}


위의 예시에서 'apple', 'banana', 'orange'는 각각 키이고, 3, 6, 2는 각각 해당하는 값입니다.

해시 테이블을 사용하면 특정 키를 통해 값을 검색하거나 업데이트할 수 있습니다:



In [None]:
print(my_dict['banana'])  # 출력: 6
my_dict['orange'] = 5
print(my_dict)  # 출력: {'apple': 3, 'banana': 6, 'orange': 5}


해시 테이블의 좀 더 심화적인 개념과 활용 방법에 대해 설명해드리겠습니다.

---

#### 1. 충돌 해결 (Collision Resolution):
해시 함수를 사용하여 데이터를 해시 테이블에 매핑할 때, 서로 다른 데이터가 같은 해시 값을 가질 수 있습니다.

이를 충돌(Collision)이라고 합니다.

충돌은 해시 테이블의 성능을 저하시킬 수 있으므로, 충돌을 효과적으로 해결하는 방법이 중요합니다.

일반적인 충돌 해결 방법으로는 개방 주소법 (Open Addressing)과 연결 리스트 (Chaining) 등이 있습니다.

---

#### 2. 성능 최적화:
해시 테이블의 성능을 최적화하는 방법에는 여러 가지가 있습니다.

일반적으로는 해시 함수의 선택, 해시 테이블의 크기 조정, 충돌 해결 방법 선택 등이 중요한 요소입니다.

적절한 해시 함수를 선택하고, 충돌을 최소화하는 방법을 사용하여 성능을 향상시킬 수 있습니다.

또한, 데이터의 크기와 특성에 따라 해시 테이블의 크기를 조정하여 최적화할 수 있습니다.

---

#### 3. 해시 테이블의 활용:
해시 테이블은 데이터 분석 작업에서 다양한 용도로 활용될 수 있습니다.

예를 들어, 중복 데이터 제거, 데이터의 고유 값 확인, 빠른 데이터 검색 및 조인, 집계 연산을 위한 그룹화 등에 사용될 수 있습니다.

해시 테이블을 활용하여 데이터를 구조화하고 조작함으로써 효율적인 데이터 분석 작업을 수행할 수 있습니다.

---

#### 4. 해시 테이블의 복잡도:
해시 테이블의 성능은 해시 함수의 성능과 충돌 해결 방법에 따라 달라집니다.

해시 함수가 고르게 해시 값을 분포시키고 충돌을 최소화하는 경우, 해시 테이블의 검색, 삽입, 삭제 연산의 시간 복잡도는 평균적으로 O(1)입니다.

그러나 해시 함수의 성능이나 충돌이 발생하는 경우 최악의 경우 시간 복잡도는 O(n)이 될 수 있습니다.

위의 내용은 해시 테이블의 보다 심화적인 개념과 활용 방법에 대한 예시입니다.

데이터 분석가가 해시 테이블을 활용하여 데이터를 구조화하고 분석하는 경우, 충돌 해결, 성능 최적화, 해시 함수의 선택 등을 고려하여 효율적인 작업을 수행할 수 있습니다.

In [3]:
class HashTable:
    def __init__(self, size):
        self.size = size
        self.table = [[] for _ in range(size)]  # 해시 테이블 초기화

    def _hash_function(self, key):
        # _는 다른 개발자에게 해당 함수를 클래스 외부에서 직접 호출하지 않는 것을 암시한다.
        # 이는 클래스 내부에서 사용되는 내부 동작을 캡슐화하여 클래스의 일관성과 안정성을 유지하는 데 도움을 줄 수 있습니다.
        # 키를 해시 값으로 변환하는 해시 함수 예시 (단순히 키를 나누기 연산하여 인덱스를 계산)
        return key % self.size

    def insert(self, key, value):
        index = self._hash_function(key)  # 해시 함수를 통해 인덱스 계산
        self.table[index].append((key, value))  # 키-값 쌍을 해당 인덱스에 추가

    def search(self, key):
        index = self._hash_function(key)  # 해시 함수를 통해 인덱스 계산
        for pair in self.table[index]:  # 해당 인덱스에 있는 모든 키-값 쌍 검색
            if pair[0] == key:
                return pair[1]  # 키와 일치하는 값 반환
        return None  # 키를 찾지 못한 경우 None 반환


# 해시 테이블 생성
hash_table = HashTable(size=10)

# 데이터 삽입
hash_table.insert(5, 'apple')
hash_table.insert(10, 'banana')
hash_table.insert(15, 'orange')

# 데이터 검색
print(hash_table.search(5))  # 출력: 'apple'
print(hash_table.search(20))  # 출력: None


apple
None


위의 코드는 HashTable 클래스를 정의하여 해시 테이블을 구현한 예시입니다.

HashTable 클래스는 주어진 키-값 쌍을 해당하는 인덱스에 저장하고 검색하는 기능을 제공합니다.

해시 함수로는 간단한 나누기 연산을 사용하여 키를 해시 값으로 변환합니다.

해시 테이블을 생성하고 데이터를 삽입한 후, search 메서드를 사용하여 특정 키에 대한 값을 검색할 수 있습니다.

검색 결과는 키와 일치하는 값이 있는 경우 해당 값을 반환하며, 키를 찾지 못한 경우 None을 반환합니다.

이와 같이 파이썬 코드를 사용하여 해시 테이블을 구현하고 데이터를 삽입하며 검색하는 기능을 사용할 수 있습니다.






### 연결리스트와 해시

연결 리스트를 사용하여 해시를 배울 수 있는 예시로는 체이닝(Chaining) 방식의 해시 테이블 구현이 있습니다.

해시 테이블은 해시 함수를 사용하여 키를 해시 값으로 변환하고, 해당 해시 값에 대응하는 버킷에 데이터를 저장하는 자료구조입니다.

체이닝은 해시 충돌이 발생할 경우 연결 리스트를 사용하여 충돌을 해결하는 방식입니다.

다음은 연결 리스트를 활용한 체이닝 방식의 해시 테이블을 파이썬 코드로 구현한 예시입니다:



In [11]:
class Node:
    def __init__(self, key, value):
        self.key = key
        self.value = value
        self.next = None

class HashTable:
    def __init__(self, size):
        self.size = size
        self.buckets = [None] * size

    def _hash_function(self, key):
        hash_value = hash(key)
        return hash_value % self.size

    def insert(self, key, value):
        index = self._hash_function(key)
        if self.buckets[index] is None:
            self.buckets[index] = Node(key, value)
        else:
            current = self.buckets[index]
            while current.next:
                current = current.next
            current.next = Node(key, value)

    def search(self, key):
        index = self._hash_function(key)
        current = self.buckets[index]
        while current:
            if current.key == key:
                return current.value
            current = current.next
        return None

# 해시 테이블 생성
hash_table = HashTable(size=10)

# 데이터 삽입
hash_table.insert('apple', 3)
hash_table.insert('banana', 6)
hash_table.insert('orange', 2)

# 데이터 검색
print(hash_table.search('apple'))   # 출력: 3
print(hash_table.search('banana'))  # 출력: 6
print(hash_table.search('grape'))   # 출력: None


3
6
None


위의 코드에서 Node 클래스는 연결 리스트의 노드를 나타냅니다.

각 노드는 key와 value를 저장하고 다음 노드를 가리키는 next 포인터를 가지고 있습니다.

HashTable 클래스는 해시 테이블을 나타내며, _hash_function 메서드를 사용하여 키를 해시 값으로 변환합니다.

insert 메서드는 주어진 키와 값을 해시 테이블에 삽입하는 역할을 합니다.

만약 해당 인덱스에 이미 노드가 존재한다면 연결 리스트의 마지막에 새로운 노드를 추가합니다.

search 메서드는 주어진 키에 해당하는 값을 찾아 반환합니다.

이를 통해 연결 리스트를 활용하여 체이닝 방식의 해시 테이블을 구현하면 해시 테이블의 동작 원리를 이해하고 해시 충돌을 처리하는 방법을 배울 수 있습니다.






### 해시의 활용

해시 테이블을 활용하여 중복 데이터 제거, 데이터의 고유 값 확인, 빠른 데이터 검색 및 조인, 그룹화를 위한 집계 연산을 수행하는 코드


In [2]:
class HashTable:
    def __init__(self, size):
        self.size = size
        self.table = [[] for _ in range(size)]

    def _hash_function(self, key):
        return key % self.size

    def insert(self, key, value):
        index = self._hash_function(key)
        self.table[index].append((key, value))

    def search(self, key):
        index = self._hash_function(key)
        for pair in self.table[index]:
            if pair[0] == key:
                return pair[1]
        return None

    def remove_duplicates(self, data):
        unique_data = []
        for item in data:
            if item not in unique_data:
                unique_data.append(item)
        return unique_data

    def get_unique_values(self):
        unique_values = set()
        for bucket in self.table:
            for pair in bucket:
                unique_values.add(pair[1])
        return unique_values

    def join(self, other_table):
        joined_data = []
        for bucket in self.table:
            for pair in bucket:
                key = pair[0]
                value = pair[1]
                other_value = other_table.search(key)
                if other_value is not None:
                    joined_data.append((key, value, other_value))
        return joined_data

    def group_by(self):
        grouped_data = {}
        for bucket in self.table:
            for pair in bucket:
                key = pair[0]
                value = pair[1]
                if key in grouped_data:
                    grouped_data[key].append(value)
                else:
                    grouped_data[key] = [value]
        return grouped_data


# 중복 데이터 제거
data = [1, 2, 3, 4, 2, 3, 5, 6, 1]
hash_table = HashTable(size=10)
unique_data = hash_table.remove_duplicates(data)
print(unique_data)  # 출력: [1, 2, 3, 4, 5, 6]

# 데이터의 고유 값 확인
data = ['apple', 'banana', 'orange', 'apple', 'grape']
hash_table = HashTable(size=10)
unique_values = hash_table.get_unique_values()
print(unique_values)  # 출력: {'apple', 'banana', 'orange', 'grape'}

# 빠른 데이터 검색 및 조인
table1 = HashTable(size=10)
table1.insert(1, 'apple')
table1.insert(2, 'banana')
table1.insert(3, 'orange')

table2 = HashTable(size=10)
table2.insert(2, 'yellow')
table2.insert(3, 'orange')
table2.insert(4, 'green')

joined_data = table1.join(table2)
print(joined_data)  # 출력: [(2, 'banana', 'yellow'), (3, 'orange', 'orange')]

# 집계 연산을 위한 그룹화
data = [(1, 'apple'), (2, 'banana'), (1, 'orange'), (2, 'grape'), (3, 'apple')]
hash_table = HashTable(size=10)
hash_table.insert(1, 'apple')
hash_table.insert(2, 'banana')
hash_table.insert(1, 'orange')
hash_table.insert(2, 'grape')
hash_table.insert(3, 'apple')

grouped_data = hash_table.group_by()
print(grouped_data)  # 출력: {1: ['apple', 'orange'], 2: ['banana', 'grape'], 3: ['apple']}


[1, 2, 3, 4, 5, 6]
set()
[(2, 'banana', 'yellow'), (3, 'orange', 'orange')]
{1: ['apple', 'orange'], 2: ['banana', 'grape'], 3: ['apple']}


위의 코드는 HashTable 클래스를 활용하여 중복 데이터 제거, 고유 값 확인, 데이터 검색 및 조인, 집계 연산을 위한 그룹화를 수행하는 예시입니다.

remove_duplicates 메서드는 중복 데이터를 제거하여 고유한 데이터만 반환하고, get_unique_values 메서드는 해시 테이블에 저장된 모든 고유한 값을 반환합니다.

join 메서드는 두 개의 해시 테이블을 조인하여 일치하는 데이터를 찾고, group_by 메서드는 해시 테이블의 데이터를 특정 키로 그룹화하여 반환합니다.

이와 같이 해시 테이블을 활용하여 중복 데이터 제거, 고유 값 확인, 데이터 검색 및 조인, 그룹화를 수행할 수 있습니다.

데이터 분석 작업에서 이러한 기능은 데이터 처리와 분석을 효율적으로 수행하는 데 도움이 됩니다.






#### 다음은 문자열을 해시 값으로 변환하여 해시 테이블에 저장하는 예시 코드입니다

In [4]:
class HashTable:
    def __init__(self, size):
        self.size = size
        self.table = [[] for _ in range(size)]

    def _hash_function(self, key):
        # 문자열의 ASCII 코드 값을 모두 더하여 해시 값을 계산
        hash_value = sum(ord(char) for char in key)
        return hash_value % self.size

    def insert(self, key, value):
        index = self._hash_function(key)
        self.table[index].append((key, value))

    def search(self, key):
        index = self._hash_function(key)
        for pair in self.table[index]:
            if pair[0] == key:
                return pair[1]
        return None


# 해시 테이블 생성
hash_table = HashTable(size=10)

# 데이터 삽입
hash_table.insert('apple', 3)
hash_table.insert('banana', 6)
hash_table.insert('orange', 2)

# 데이터 검색
print(hash_table.search('banana'))  # 출력: 6
print(hash_table.search('grape'))  # 출력: None


6
None


위의 코드에서는 문자열을 해시 값으로 변환하기 위해 간단한 해시 함수를 사용합니다.

ord(char)를 통해 문자의 ASCII 코드 값을 구하고, 이를 모두 더하여 해시 값을 계산합니다.

이렇게 계산된 해시 값을 해시 테이블의 크기로 나눈 나머지를 인덱스로 사용하여 데이터를 저장하고 검색합니다.

해시 테이블을 생성하고 문자열 데이터를 삽입한 후, search 메서드를 사용하여 특정 문자열에 대한 값을 검색할 수 있습니다.

검색 결과는 키와 일치하는 값이 있는 경우 해당 값을 반환하며, 키를 찾지 못한 경우 None을 반환합니다.

위의 예시 코드를 사용하면 문자열을 해시 값으로 변환하여 데이터를 저장하고 검색하는 기능을 구현할 수 있습니다.





#### 다음은 정수를 해시 값으로 변환하여 해시 테이블에 저장하는 예시 코드입니다

In [5]:
class HashTable:
    def __init__(self, size):
        self.size = size
        self.table = [None] * size

    def _hash_function(self, key):
        # 정수를 해시 값으로 변환하기 위해 간단한 연산을 사용 (예시로 2를 곱하고 5로 나눔)
        return (key * 2) % self.size

    def insert(self, key, value):
        index = self._hash_function(key)
        if self.table[index] is None:
            self.table[index] = []
        self.table[index].append((key, value))

    def search(self, key):
        index = self._hash_function(key)
        if self.table[index] is not None:
            for pair in self.table[index]:
                if pair[0] == key:
                    return pair[1]
        return None


# 해시 테이블 생성
hash_table = HashTable(size=10)

# 데이터 삽입
hash_table.insert(3, 'apple')
hash_table.insert(8, 'banana')
hash_table.insert(5, 'orange')

# 데이터 검색
print(hash_table.search(8))  # 출력: 'banana'
print(hash_table.search(10))  # 출력: None


banana
None


위의 코드에서는 정수를 해시 값으로 변환하기 위해 간단한 연산을 사용합니다.

key에 2를 곱하고 그 결과를 해시 테이블의 크기인 10으로 나눈 나머지를 인덱스로 사용합니다.

데이터를 저장할 때는 해당 인덱스에 리스트가 없는 경우 리스트를 생성한 후 키-값 쌍을 저장합니다.

해시 테이블을 생성하고 정수 데이터를 삽입한 후, search 메서드를 사용하여 특정 정수에 대한 값을 검색할 수 있습니다.

검색 결과는 키와 일치하는 값이 있는 경우 해당 값을 반환하며, 키를 찾지 못한 경우 None을 반환합니다.



### 데이터 중복 제거

중복된 데이터는 데이터 분석 작업에서 원하지 않는 결과를 가져올 수 있으며, 이를 제거하기 위해 해시를 활용할 수 있습니다.

다음은 중복 데이터 제거를 위한 해시를 활용하는 예시 코드입니다:



In [6]:
def remove_duplicates(data):
    unique_values = set()  # 중복을 제거하기 위한 빈 집합(set) 생성
    deduplicated_data = []  # 중복 제거된 데이터를 저장할 빈 리스트 생성

    for item in data:
        # 데이터를 해시 값으로 변환하여 중복 확인
        item_hash = hash(item)
        if item_hash not in unique_values:
            unique_values.add(item_hash)  # 중복이 아닌 경우 해시 값을 집합에 추가
            deduplicated_data.append(item)  # 중복 제거된 데이터에 추가

    return deduplicated_data

# 중복된 데이터가 포함된 리스트
data = [1, 2, 3, 2, 4, 5, 1, 3, 6, 7, 2]

# 중복 제거된 데이터를 얻기 위해 해시를 활용
deduplicated_data = remove_duplicates(data)
print(deduplicated_data)
# 출력: [1, 2, 3, 4, 5, 6, 7]


[1, 2, 3, 4, 5, 6, 7]


위의 코드에서 remove_duplicates 함수는 주어진 데이터에서 중복을 제거하는 함수입니다.

데이터를 해시 값으로 변환하여 중복 여부를 확인하는 방식을 사용합니다.

중복되지 않은 데이터의 해시 값을 unique_values 집합에 추가하고, 중복 제거된 데이터를 deduplicated_data 리스트에 추가합니다.

이를 통해 중복 데이터를 제거하고 고유한 값들만 남긴 데이터를 얻을 수 있습니다.

이후 이러한 데이터를 활용하여 분석 작업을 수행할 수 있습니다.

데이터 분석가는 중복 제거를 통해 데이터의 정확성과 일관성을 유지하고, 분석 결과를 정확하게 도출할 수 있습니다.






### 데이터 그룹화와 집계 연산

해시 테이블을 사용하여 데이터를 그룹화하고 집계 연산을 수행하면 데이터의 특성을 파악하고 통계적인 분석을 수행할 수 있습니다.

다음은 데이터 그룹화와 집계 연산을 위해 해시를 활용하는 예시 코드입니다:



In [7]:
def group_by_category(data):
    category_hash_table = {}

    for item in data:
        category = item['category']
        value = item['value']

        if category in category_hash_table:
            category_hash_table[category].append(value)
        else:
            category_hash_table[category] = [value]

    return category_hash_table

def calculate_average(data):
    average_values = {}

    for category, values in data.items():
        total = sum(values)
        count = len(values)
        average = total / count
        average_values[category] = average

    return average_values

# 데이터 그룹화를 위한 원본 데이터
data = [
    {'category': 'A', 'value': 10},
    {'category': 'B', 'value': 20},
    {'category': 'A', 'value': 15},
    {'category': 'B', 'value': 25},
    {'category': 'C', 'value': 30},
]

# 데이터를 카테고리별로 그룹화하기 위해 해시를 활용
grouped_data = group_by_category(data)
print(grouped_data)
# 출력: {'A': [10, 15], 'B': [20, 25], 'C': [30]}

# 그룹화된 데이터를 기반으로 카테고리별 평균값 계산
average_values = calculate_average(grouped_data)
print(average_values)
# 출력: {'A': 12.5, 'B': 22.5, 'C': 30.0}


{'A': [10, 15], 'B': [20, 25], 'C': [30]}
{'A': 12.5, 'B': 22.5, 'C': 30.0}


위의 코드에서 group_by_category 함수는 주어진 데이터를 'category' 키를 기준으로 해시 테이블에 그룹화합니다.

동일한 카테고리를 가진 데이터는 해당 카테고리를 키로 사용하여 해시 테이블의 값으로 저장됩니다.

그룹화된 데이터를 활용하여 calculate_average 함수는 각 카테고리에 대한 평균 값을 계산합니다.

해시 테이블의 각 항목에 대해 값을 합산하고 개수를 세어 평균을 계산하여 새로운 해시 테이블에 저장합니다.

이를 통해 데이터를 그룹화하고 집계 연산을 수행하여 각 카테고리의 특성을 파악하고 평균 값을 구할 수 있습니다.

데이터 분석가는 그룹화된 데이터를 활용하여 다양한 통계적인 분석을 수행할 수 있습니다.






### 데이터 파티셔닝

데이터 파티셔닝은 대용량의 데이터를 여러 개의 파티션으로 분할하는 작업을 의미합니다.

파티션은 데이터를 분산하여 저장하고 처리 성능을 향상시키는 데 도움을 줍니다.

이를 위해 해시 함수를 사용하여 데이터를 파티션에 할당하는 방법이 사용될 수 있습니다.

다음은 데이터 파티셔닝을 위해 해시를 활용하는 예시 코드입니다:



In [8]:
class DataPartitioner:
    def __init__(self, num_partitions):
        self.num_partitions = num_partitions
        self.partitions = [[] for _ in range(num_partitions)]

    def _hash_function(self, key):
        # 해시 함수를 사용하여 데이터를 파티션에 할당
        hash_value = hash(key)
        partition_index = hash_value % self.num_partitions
        return partition_index

    def assign_data(self, data):
        for item in data:
            partition_index = self._hash_function(item['id'])
            self.partitions[partition_index].append(item)

    def get_partition(self, partition_index):
        return self.partitions[partition_index]


# 데이터 파티셔닝을 위한 원본 데이터
data = [
    {'id': 1, 'name': 'Alice'},
    {'id': 2, 'name': 'Bob'},
    {'id': 3, 'name': 'Charlie'},
    {'id': 4, 'name': 'David'},
    {'id': 5, 'name': 'Eve'},
]

# 데이터 파티셔닝 객체 생성
partitioner = DataPartitioner(num_partitions=3)

# 데이터를 파티션에 할당
partitioner.assign_data(data)

# 특정 파티션에서 데이터 조회
partition_0 = partitioner.get_partition(0)
partition_1 = partitioner.get_partition(1)
partition_2 = partitioner.get_partition(2)

print(partition_0)
# 출력: [{'id': 3, 'name': 'Charlie'}, {'id': 4, 'name': 'David'}]

print(partition_1)
# 출력: [{'id': 1, 'name': 'Alice'}, {'id': 5, 'name': 'Eve'}]

print(partition_2)
# 출력: [{'id': 2, 'name': 'Bob'}]


[{'id': 3, 'name': 'Charlie'}]
[{'id': 1, 'name': 'Alice'}, {'id': 4, 'name': 'David'}]
[{'id': 2, 'name': 'Bob'}, {'id': 5, 'name': 'Eve'}]


위의 코드에서 DataPartitioner 클래스는 주어진 데이터를 여러 파티션으로 분할하는 기능을 제공합니다.

해시 함수를 사용하여 데이터의 'id'를 해시 값으로 변환하고, 변환된 해시 값을 파티션 개수로 나눈 나머지를 파티션 인덱스로 사용합니다.

assign_data 메서드는 데이터를 파티션에 할당합니다.

각 데이터를 해시 함수를 통해 파티션 인덱스를 계산하고 해당 파티션에 데이터를 추가합니다.

get_partition 메서드를 사용하여 특정 파티션의 데이터를 조회할 수 있습니다.

파티션 인덱스를 인자로 전달하여 해당 파티션의 데이터를 반환합니다.

이렇게 데이터 파티셔닝을 위해 해시를 활용하면 대용량 데이터를 분산하여 처리할 수 있으며, 데이터 엔지니어는 파티션 단위로 데이터를 관리하고 병렬 처리를 수행함으로써 데이터 처리 성능을 향상시킬 수 있습니다.






### 인덱싱

데이터 사이언티스트는 해시를 사용하여 데이터를 인덱싱하여 빠른 검색과 조인 작업을 수행할 수 있습니다.

다음은 데이터 인덱싱을 위해 해시를 활용하는 예시 코드입니다:



In [9]:
class HashIndex:
    def __init__(self):
        self.index = {}

    def add_index(self, key, value):
        if key in self.index:
            self.index[key].append(value)
        else:
            self.index[key] = [value]

    def get_index(self, key):
        return self.index.get(key, [])

# 예시 데이터
orders = [
    {'order_id': 1, 'customer_id': 101, 'product': 'apple'},
    {'order_id': 2, 'customer_id': 102, 'product': 'banana'},
    {'order_id': 3, 'customer_id': 103, 'product': 'orange'},
    {'order_id': 4, 'customer_id': 101, 'product': 'grape'},
    {'order_id': 5, 'customer_id': 102, 'product': 'apple'},
]

# 인덱스 생성 및 데이터 인덱싱
customer_index = HashIndex()
product_index = HashIndex()
for order in orders:
    customer_id = order['customer_id']
    product = order['product']
    customer_index.add_index(customer_id, order)
    product_index.add_index(product, order)

# 특정 고객의 주문 조회
customer_id = 101
customer_orders = customer_index.get_index(customer_id)
print(customer_orders)
# 출력: [{'order_id': 1, 'customer_id': 101, 'product': 'apple'}, {'order_id': 4, 'customer_id': 101, 'product': 'grape'}]

# 특정 제품을 주문한 내역 조회
product = 'apple'
product_orders = product_index.get_index(product)
print(product_orders)
# 출력: [{'order_id': 1, 'customer_id': 101, 'product': 'apple'}, {'order_id': 5, 'customer_id': 102, 'product': 'apple'}]


[{'order_id': 1, 'customer_id': 101, 'product': 'apple'}, {'order_id': 4, 'customer_id': 101, 'product': 'grape'}]
[{'order_id': 1, 'customer_id': 101, 'product': 'apple'}, {'order_id': 5, 'customer_id': 102, 'product': 'apple'}]


위의 코드에서 HashIndex 클래스는 주어진 데이터를 해시를 사용하여 인덱싱하는 기능을 제공합니다.

add_index 메서드를 사용하여 인덱스를 추가하고, get_index 메서드를 사용하여 특정 키에 대한 인덱스 값을 조회합니다.

위의 예시에서는 customer_index와 product_index를 생성하여 각각 'customer_id'와 'product'를 키로 사용하여 데이터를 인덱싱합니다.

이를 통해 특정 고객이나 제품에 대한 주문 내역을 빠르게 조회할 수 있습니다.

데이터 사이언티스트는 해시를 활용하여 인덱싱 작업을 수행하여 대용량 데이터에서 원하는 데이터를 빠르게 찾거나 조인 작업을 수행함으로써, 데이터 분석 작업을 효율적으로 수행할 수 있습니다.






### 무결성

금융 데이터는 정확성과 무결성이 매우 중요한 요소이며, 해시 함수를 사용하여 데이터의 무결성을 검사할 수 있습니다.

다음은 금융 데이터의 무결성을 검사하기 위해 해시를 활용하는 예시 코드입니다:

In [10]:
import hashlib

class FinancialDataIntegrityChecker:
    def __init__(self):
        self.data = {}

    def add_data(self, account_number, transaction_amount):
        # 데이터 추가
        if account_number not in self.data:
            self.data[account_number] = []
        self.data[account_number].append(transaction_amount)

    def check_integrity(self):
        integrity_check_results = {}

        for account_number, transactions in self.data.items():
            hash_result = hashlib.sha256(str(transactions).encode()).hexdigest()

            if account_number in integrity_check_results:
                if hash_result == integrity_check_results[account_number]:
                    integrity_check_results[account_number] = "Integrity OK"
                else:
                    integrity_check_results[account_number] = "Integrity Violation"
            else:
                integrity_check_results[account_number] = hash_result

        return integrity_check_results

# 금융 데이터의 무결성을 검사하기 위한 원본 데이터
data = [
    {'account_number': 'A12345', 'transaction_amount': 1000},
    {'account_number': 'B67890', 'transaction_amount': 2000},
    {'account_number': 'A12345', 'transaction_amount': 1500},
    {'account_number': 'B67890', 'transaction_amount': 2500},
    {'account_number': 'C24680', 'transaction_amount': 3000},
]

# 금융 데이터의 무결성 검사를 위한 객체 생성
checker = FinancialDataIntegrityChecker()

# 데이터 추가
for item in data:
    account_number = item['account_number']
    transaction_amount = item['transaction_amount']
    checker.add_data(account_number, transaction_amount)

# 무결성 검사 결과 출력
integrity_check_results = checker.check_integrity()
for account_number, result in integrity_check_results.items():
    print(f"Account Number: {account_number} | Result: {result}")


Account Number: A12345 | Result: 9b87e262183e5e2087920f49ded772323de16857142525be06c96eb35dda4b01
Account Number: B67890 | Result: a9f05b2460106b9a295e3560fbb433217749f748d29f5bc449eed29b2bddbc74
Account Number: C24680 | Result: 7d8ce0ca27bc50ec1cfe61854f1cbfebdf2896e78c7320f1070b4ff7bf246e2e


위의 코드에서 FinancialDataIntegrityChecker 클래스는 금융 데이터의 무결성을 검사하기 위한 기능을 제공합니다.

add_data 메서드를 사용하여 데이터를 추가하고, check_integrity 메서드를 사용하여 데이터의 무결성을 검사합니다.

데이터를 추가할 때마다 해당 계좌번호에 대한 거래 내역을 리스트로 저장하고, 해당 리스트의 해시 값을 계산하여 계좌번호와 함께 integrity_check_results 딕셔너리에 저장합니다.

무결성 검사를 수행할 때, 같은 계좌번호에 대한 거래 내역 리스트의 해시 값을 이전 값과 비교하여 무결성 여부를 판단합니다.

동일한 해시 값인 경우 "Integrity OK"로 표시하고, 다른 값인 경우 "Integrity Violation"으로 표시합니다.

금융 데이터의 무결성을 해시를 활용하여 검사함으로써 데이터의 조작 여부를 감지하고 데이터의 무결성을 보장할 수 있습니다.

이를 통해 금융 데이터의 정확성과 신뢰성을 유지할 수 있습니다.






### 이커머스 예시

해시 테이블을 예시로 활용하여 이커머스에서 간단한 상품 검색, 구매, 환불 과정을 구현하는 코드를 제공해드리겠습니다.

이 예시는 간단한 상품 관리 시스템을 가정하고 작성된 코드입니다.



In [11]:
from collections import defaultdict

# 해시 테이블 생성
product_table = defaultdict(list)
purchase_history = defaultdict(list)

# 상품 정보 저장
product1 = {'id': 1, 'name': 'iPhone 12', 'price': 999}
product2 = {'id': 2, 'name': 'Samsung Galaxy S21', 'price': 899}
product3 = {'id': 3, 'name': 'Google Pixel 5', 'price': 699}

# 상품 정보를 해시 테이블에 저장
product_table[product1['id']].append(product1)
product_table[product2['id']].append(product2)
product_table[product3['id']].append(product3)

# 상품 검색 함수
def search_product(product_id):
    if product_id in product_table:
        return product_table[product_id][0]  # 첫 번째 상품 반환
    else:
        return None

# 상품 구매 함수
def purchase_product(product_id, user_id):
    product = search_product(product_id)
    if product:
        purchase_history[user_id].append(product)
        print(f"User {user_id} purchased: {product['name']} (Price: ${product['price']})")
    else:
        print("Product not found.")

# 상품 환불 함수
def refund_product(product_id, user_id):
    if user_id in purchase_history:
        for i, product in enumerate(purchase_history[user_id]):
            if product['id'] == product_id:
                del purchase_history[user_id][i]
                print(f"User {user_id} refunded: {product['name']} (Price: ${product['price']})")
                return
        print("Product not found in purchase history.")
    else:
        print("User not found.")

# 새로운 데이터 예시
new_sample = [5.5, 2.6, 4.4, 1.2]  # 새로운 샘플
product_id = 2
user_id = 123

# 상품 검색
result = search_product(product_id)
if result:
    print(f"Product found: {result['name']} (Price: ${result['price']})")
else:
    print("Product not found.")

# 상품 구매
purchase_product(product_id, user_id)

# 상품 환불
refund_product(product_id, user_id)


Product found: Samsung Galaxy S21 (Price: $899)
User 123 purchased: Samsung Galaxy S21 (Price: $899)
User 123 refunded: Samsung Galaxy S21 (Price: $899)


이 예시 코드에서는 간단한 상품 관리 시스템을 가정하고, 상품 정보와 구매 내역을 해시 테이블로 관리합니다.

search_product() 함수는 상품 ID를 기반으로 상품을 검색하고,

purchase_product() 함수는 상품을 구매하고 구매 내역을 기록합니다.

refund_product() 함수는 사용자의 구매 내역에서 특정 상품을 환불하는 기능을 제공합니다.






### 해시테이블에서 키를 통해 값을 찾는 것과 값을 통해 키를 찾는 것은 각각 "해시테이블"과 "역해시테이블"이라고 할 수 있습니다.

아래에 각각의 구조를 파이썬 코드로 구현한 예시를 제시합니다.



In [12]:
class HashTable:
    def __init__(self):
        self.table = {}

    def add_item(self, key, value):
        hashed_key = hash(key)  # 해시 함수를 사용하여 키를 정수로 변환
        self.table[hashed_key] = value

    def get_item(self, key):
        hashed_key = hash(key)
        return self.table.get(hashed_key)

# 사용 예시
hash_table = HashTable()
hash_table.add_item("apple", 5)
hash_table.add_item("banana", 10)

print(hash_table.get_item("apple"))  # 출력: 5
print(hash_table.get_item("banana"))  # 출력: 10
print(hash_table.get_item("orange"))  # 출력: None (존재하지 않는 키)


5
10
None


In [13]:
class ReverseHashTable:
    def __init__(self):
        self.table = {}

    def add_item(self, key, value):
        self.table[value] = key

    def get_key(self, value):
        return self.table.get(value)

# 사용 예시
reverse_hash_table = ReverseHashTable()
reverse_hash_table.add_item("apple", 5)
reverse_hash_table.add_item("banana", 10)

print(reverse_hash_table.get_key(5))  # 출력: "apple"
print(reverse_hash_table.get_key(10))  # 출력: "banana"
print(reverse_hash_table.get_key(15))  # 출력: None (존재하지 않는 값)


apple
banana
None


위의 예시 코드는 간단한 해시테이블과 역해시테이블을 구현한 것입니다.

해시테이블에서는 add_item() 메서드를 사용하여 키와 값을 저장하고, get_item() 메서드를 사용하여 키를 통해 값을 찾습니다.

역해시테이블에서는 add_item() 메서드를 사용하여 키와 값을 저장하고, get_key() 메서드를 사용하여 값을 통해 키를 찾습니다.




