In [1]:
!pip install elasticsearch==8.11.0

Collecting elasticsearch==8.11.0
  Downloading elasticsearch-8.11.0-py3-none-any.whl.metadata (5.1 kB)
Collecting elastic-transport<9,>=8 (from elasticsearch==8.11.0)
  Downloading elastic_transport-8.17.1-py3-none-any.whl.metadata (3.8 kB)
Downloading elasticsearch-8.11.0-py3-none-any.whl (412 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m412.6/412.6 kB[0m [31m2.1 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hDownloading elastic_transport-8.17.1-py3-none-any.whl (64 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m65.0/65.0 kB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: elastic-transport, elasticsearch
Successfully installed elastic-transport-8.17.1 elasticsearch-8.11.0


In [2]:
from pyspark.sql import SparkSession
spark = SparkSession.builder \
    .master("spark://spark-master:7077") \
    .appName("JupyterSparkApp") \
    .getOrCreate()

In [3]:
from elasticsearch import Elasticsearch

# Elasticsearch 클라이언트 초기화
es = Elasticsearch(
    ["http://elasticsearch:9200"],
    headers={
        "Accept": "application/vnd.elasticsearch+json; compatible-with=8",
        "Content-Type": "application/json"
    }
)

In [4]:
sample_data = [
    ("Alice", 25, "Engineer", "Seoul"),
    ("Bob", 30, "Designer", "Busan"), 
    ("Charlie", 35, "Manager", "Daegu"),
    ("Diana", 28, "Analyst", "Seoul"),
    ("Eve", 32, "Developer", "Incheon")
]

In [5]:
from pyspark.sql.types import StructType, StructField, StringType, IntegerType

schema = StructType([
    StructField("name", StringType(), True),
    StructField("age", IntegerType(), True),
    StructField("job", StringType(), True),
    StructField("city", StringType(), True)
])

In [6]:
df = spark.createDataFrame(sample_data, schema)

In [7]:
doc = {
        'name': 'Frank',
        'age': 45,
        'job': 'CEO',
        'city': 'Seoul',
        'timestamp': '2024-01-01T12:00:00'
}
    
# 문서 추가
response = es.index(index="employees", id=6, body=doc)
print(f"문서 추가 결과: {response['result']}")

문서 추가 결과: updated


In [8]:
# 1. 인덱스 리스트 조회
print("=== 인덱스 리스트 ===")
indices = es.cat.indices(format="json")
for index in indices:
    index_name = index['index']
    doc_count = index['docs.count']
    print(f"인덱스: {index_name}, 문서 수: {doc_count}")

=== 인덱스 리스트 ===
인덱스: user-based, 문서 수: 0
인덱스: employees, 문서 수: 1
인덱스: item-based, 문서 수: 0


In [9]:
# 2. 특정 인덱스의 문서 내용 조회 (예: 'employees' 인덱스)
print("\n=== 'employees' 인덱스 문서 내용 ===")
search_result = es.search(
    index="employees",
    body={
        "query": {
            "match_all": {}  # 모든 문서 조회
        },
        "size": 10  # 최대 10개 문서 반환
    }
)


=== 'employees' 인덱스 문서 내용 ===


In [10]:
# 검색 결과 출력
hits = search_result['hits']['hits']
if hits:
    for hit in hits:
        print(f"문서 ID: {hit['_id']}, 내용: {hit['_source']}")
else:
    print("인덱스 'employees'에 문서가 없습니다.")

문서 ID: 6, 내용: {'name': 'Frank', 'age': 45, 'job': 'CEO', 'city': 'Seoul', 'timestamp': '2024-01-01T12:00:00'}
