# 스키마 설명
- 컬렉션의 데이터 구조를 정의하며, 컬렉션을 만들기 전에 컬렉션의 스키마를 설계

참고자료: https://milvus.io/docs/ko/schema.md

In [3]:
from pymilvus import MilvusClient, DataType

schema = MilvusClient.create_schema()

## 기본 필드 추가
- Int64 또는 VarChar 값만 허용

In [6]:
schema.add_field(
    field_name="my_id",
    datatype=DataType.INT64,
    is_primary=True,
    auto_id=False,
)

{'auto_id': False, 'description': '', 'fields': [{'name': 'my_id', 'description': '', 'type': <DataType.INT64: 5>, 'is_primary': True, 'auto_id': False}, {'name': 'my_id', 'description': '', 'type': <DataType.INT64: 5>, 'is_primary': True, 'auto_id': False}], 'enable_dynamic_field': False}

## 벡터 필드 추가
- FLOAT16_VECTOR: 16비트 반정밀도 부동 소수점 목록을 보유
- BFLOAT16_VECTOR: 정밀도는 떨어지지만 지수 범위는 Float32와 동일한 16비트 부동 소수점 숫자 목록
- INT8_VECTOR: 8비트로 구성된 벡터를 저장하며, -128 ~ 127 사이, HNSW 인덱스에만 지원
- BINARY_VECTOR: 0과 1벡터
- SPARSE_FLOAT_VECTOR: 희소 벡터 임베딩을 나타내기 위해 0이 아닌 숫자와 그 시퀀스 번호의 목록을 보유

In [10]:
schema.add_field(
    field_name="my_vector",
    datatype=DataType.FLOAT_VECTOR,
    dim=5
)

{'auto_id': False, 'description': '', 'fields': [{'name': 'my_id', 'description': '', 'type': <DataType.INT64: 5>, 'is_primary': True, 'auto_id': False}, {'name': 'my_id', 'description': '', 'type': <DataType.INT64: 5>, 'is_primary': True, 'auto_id': False}, {'name': 'my_vector', 'description': '', 'type': <DataType.FLOAT_VECTOR: 101>, 'params': {'dim': 5}}, {'name': 'my_vector', 'description': '', 'type': <DataType.FLOAT_VECTOR: 101>, 'params': {'dim': 5}}], 'enable_dynamic_field': False}

## 스칼라 필드 추가
- 스칼라 필드를 사용하여 밀버스에 저장된 벡터 임베딩의 메타데이터를 저장하고 메타데이터 필터링을 통해 ANN 검색을 수행하여 검색 결과 정확도를 올릴 수 있음
- VarChar, Boolean, Int, Float, Double, Array, JSON 등 다양한 스칼라 필드 타입 지원

## 문자열 필드 추가

In [13]:
schema.add_field(
    field_name="my_varchar",
    datatype=DataType.VARCHAR,
    max_length=512
)

{'auto_id': False, 'description': '', 'fields': [{'name': 'my_id', 'description': '', 'type': <DataType.INT64: 5>, 'is_primary': True, 'auto_id': False}, {'name': 'my_id', 'description': '', 'type': <DataType.INT64: 5>, 'is_primary': True, 'auto_id': False}, {'name': 'my_vector', 'description': '', 'type': <DataType.FLOAT_VECTOR: 101>, 'params': {'dim': 5}}, {'name': 'my_vector', 'description': '', 'type': <DataType.FLOAT_VECTOR: 101>, 'params': {'dim': 5}}, {'name': 'my_varchar', 'description': '', 'type': <DataType.VARCHAR: 21>, 'params': {'max_length': 512}}], 'enable_dynamic_field': False}

## 숫자 필드 추가

In [14]:
schema.add_field(
    field_name="my_int64",
    datatype=DataType.INT64,
)

{'auto_id': False, 'description': '', 'fields': [{'name': 'my_id', 'description': '', 'type': <DataType.INT64: 5>, 'is_primary': True, 'auto_id': False}, {'name': 'my_id', 'description': '', 'type': <DataType.INT64: 5>, 'is_primary': True, 'auto_id': False}, {'name': 'my_vector', 'description': '', 'type': <DataType.FLOAT_VECTOR: 101>, 'params': {'dim': 5}}, {'name': 'my_vector', 'description': '', 'type': <DataType.FLOAT_VECTOR: 101>, 'params': {'dim': 5}}, {'name': 'my_varchar', 'description': '', 'type': <DataType.VARCHAR: 21>, 'params': {'max_length': 512}}, {'name': 'my_int64', 'description': '', 'type': <DataType.INT64: 5>}], 'enable_dynamic_field': False}

## 부울 필드 추가

In [15]:
schema.add_field(
    field_name="my_bool",
    datatype=DataType.BOOL,
)


{'auto_id': False, 'description': '', 'fields': [{'name': 'my_id', 'description': '', 'type': <DataType.INT64: 5>, 'is_primary': True, 'auto_id': False}, {'name': 'my_id', 'description': '', 'type': <DataType.INT64: 5>, 'is_primary': True, 'auto_id': False}, {'name': 'my_vector', 'description': '', 'type': <DataType.FLOAT_VECTOR: 101>, 'params': {'dim': 5}}, {'name': 'my_vector', 'description': '', 'type': <DataType.FLOAT_VECTOR: 101>, 'params': {'dim': 5}}, {'name': 'my_varchar', 'description': '', 'type': <DataType.VARCHAR: 21>, 'params': {'max_length': 512}}, {'name': 'my_int64', 'description': '', 'type': <DataType.INT64: 5>}, {'name': 'my_bool', 'description': '', 'type': <DataType.BOOL: 1>}], 'enable_dynamic_field': False}

## JSON 필드 추가

In [16]:
schema.add_field(
    field_name="my_json",
    datatype=DataType.JSON,
)


{'auto_id': False, 'description': '', 'fields': [{'name': 'my_id', 'description': '', 'type': <DataType.INT64: 5>, 'is_primary': True, 'auto_id': False}, {'name': 'my_id', 'description': '', 'type': <DataType.INT64: 5>, 'is_primary': True, 'auto_id': False}, {'name': 'my_vector', 'description': '', 'type': <DataType.FLOAT_VECTOR: 101>, 'params': {'dim': 5}}, {'name': 'my_vector', 'description': '', 'type': <DataType.FLOAT_VECTOR: 101>, 'params': {'dim': 5}}, {'name': 'my_varchar', 'description': '', 'type': <DataType.VARCHAR: 21>, 'params': {'max_length': 512}}, {'name': 'my_int64', 'description': '', 'type': <DataType.INT64: 5>}, {'name': 'my_bool', 'description': '', 'type': <DataType.BOOL: 1>}, {'name': 'my_json', 'description': '', 'type': <DataType.JSON: 23>}], 'enable_dynamic_field': False}

## 배열 필드추가

In [17]:
schema.add_field(
    field_name="my_array",
    datatype=DataType.ARRAY,
    element_type=DataType.VARCHAR,
    max_capacity=5,
    max_length=512,
)


{'auto_id': False, 'description': '', 'fields': [{'name': 'my_id', 'description': '', 'type': <DataType.INT64: 5>, 'is_primary': True, 'auto_id': False}, {'name': 'my_id', 'description': '', 'type': <DataType.INT64: 5>, 'is_primary': True, 'auto_id': False}, {'name': 'my_vector', 'description': '', 'type': <DataType.FLOAT_VECTOR: 101>, 'params': {'dim': 5}}, {'name': 'my_vector', 'description': '', 'type': <DataType.FLOAT_VECTOR: 101>, 'params': {'dim': 5}}, {'name': 'my_varchar', 'description': '', 'type': <DataType.VARCHAR: 21>, 'params': {'max_length': 512}}, {'name': 'my_int64', 'description': '', 'type': <DataType.INT64: 5>}, {'name': 'my_bool', 'description': '', 'type': <DataType.BOOL: 1>}, {'name': 'my_json', 'description': '', 'type': <DataType.JSON: 23>}, {'name': 'my_array', 'description': '', 'type': <DataType.ARRAY: 22>, 'params': {'max_length': 512, 'max_capacity': 5}, 'element_type': <DataType.VARCHAR: 21>}], 'enable_dynamic_field': False}

# 기본 필드 및 자동 ID
- 기본 필드는 엔티티를 고유하게 식별함, 이 페이지에서는 서로 다른 두 데이터 유형의 기본 필드를 추가하는 방법과 Milvus가 기본 필드 값을 자동으로 할당하도록 설정하는 방법을 소개

## 개요
- 컬렉션에서 각 엔티티의 기본 키는 고유해야함, 기본 필드를 추가할 때 데이터 유형을 명시적으로 VARCHAR 또는 INT64로 설정해야함
- INT64로 설정하면 기본 키가 12345와 유사한 정수여야 하고, 데이터 유형을 VARCHAR로 설정하면 기본 키가 my_entity_1234와 유사한 문자열이여야 함
- AutoID를 활성화하여 Milvus가 수신 엔티티에 대해 기본 키를 자동으로 할당하도록 할 수 있음, 컬렉션에서 AutoID를 활성화한 후에는 엔티티를 삽입할 때 기본 키 포함 x
- 컬렉션의 기본 필드에는 기본값이 없으며 null이 될 수 없음