# mysql -> spark
mysql에 items 테이블에 있는 데이터를 모두 spark에서 가져와서 워드임베딩합니다.

In [1]:
from pyspark.sql import *
from pyspark.sql.functions import *
from pyspark.sql.types import *
from IPython.display import display, display_pretty, clear_output, JSON

In [2]:
spark = (
    SparkSession
    .builder
    .config("spark.sql.session.timeZone", "Asia/Seoul")
    .getOrCreate()
)

# 노트북에서 테이블 형태로 데이터 프레임 출력을 위한 설정을 합니다
spark.conf.set("spark.sql.repl.eagerEval.enabled", True) # display enabled
spark.conf.set("spark.sql.repl.eagerEval.truncate", 100) # display output columns size

# 공통 데이터 위치
home_jovyan = "/home/jovyan"
work_data = f"{home_jovyan}/work/data"
work_dir=!pwd
work_dir = work_dir[0]

# 로컬 환경 최적화
spark.conf.set("spark.sql.shuffle.partitions", 5) # the number of partitions to use when shuffling data for joins or aggregations.
spark.conf.set("spark.sql.streaming.forceDeleteTempCheckpointLocation", "true")
spark

22/03/30 04:23:48 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).


## mysql 접속

In [3]:
from pyspark.sql.context import SQLContext
sc = spark.sparkContext
sqlContext = SQLContext(sc)
book = (
    sqlContext.read.format("jdbc")
    .option("url", "jdbc:mysql://mysql:3306/Book")
    .option("driver", "com.mysql.jdbc.Driver")
    .option("dbtable", "items")
    .option("user", "root")
    .option("password", "root")
)

#### 이렇게도 접속 가능

In [62]:
connect = "jdbc:mysql://mysql:3306/Book"
table = "items"
access = {"user":"root", "password":"root"}
book = spark.read.jdbc(connect, table, properties=access)

In [63]:
book.printSchema()

root
 |-- book_id: integer (nullable = true)
 |-- title: string (nullable = true)
 |-- author: string (nullable = true)
 |-- image: string (nullable = true)
 |-- ranking: integer (nullable = true)
 |-- description: string (nullable = true)
 |-- category: string (nullable = true)
 |-- date: timestamp (nullable = true)



In [64]:
book.show(5) # top 20 rows

+-------+------------------------------+-----------------+--------------------+-------+----------------------------------+-------------+-------------------+
|book_id|                         title|           author|               image|ranking|                       description|     category|               date|
+-------+------------------------------+-----------------+--------------------+-------+----------------------------------+-------------+-------------------+
|   2855|중학생이 보는 그리스 로마 신화|    토마스 불핀치|https://bookthumb...|     34| 중학생 독후감 필독선 시리즈 제...|         신화|2022-03-28 14:58:34|
|  40565|             소가구 & 수납가구|효성출판사 편집부|https://bookthumb...|     37|분위기기능에 따른 가구선택과 배...|     가구/DIY|2022-03-28 15:36:41|
|  66769|내 손으로 더 예쁘게 페인팅 DIY|   중앙M&B 편집부|https://bookthumb...|     36| 실내 벽에서 소품가구까지 활용 ...|     가구/DIY|2022-03-28 15:36:41|
| 118837|                     수소 혁명|    제레미 리프킨|https://bookthumb...|     27|  산업 시대 초기에 석탄과 증기 ...|    경제/경영|               null|
| 149663|              

## Querying

In [7]:
from pyspark.sql.functions import *

In [8]:
book.createOrReplaceTempView("b_view")
spark.sql("""
    select count(*)
    from b_view
""")

count(1)
4703


In [9]:
# 카테고리 별로 데이터 얼마나 있는지 확인
spark.sql("select category, count(*) from b_view group by category limit 5")

category,count(1)
경제/경영,475
외국시,39
도시/토목/건설,39
한국시,27
화학,28


## Pyspark mllib - Word2Vec

description preprocessing

In [69]:
spark.sql("select book_id, description from b_view limit 5")

book_id,description
2855,중학생 독후감 필독선 시리즈 제13권 토마스 불핀치의 명작 그리스 로마 신화를 작품 알고 들어가기 내용 훑어보기 작품 분석하기 작가 들여다보기 시대와 연관짓기 작품 토론하기 ...
40565,분위기기능에 따른 가구선택과 배치 주문가구 정보전국 5대 가구시장을 컬러화보 위주로 엮은 인테리어 무크지
66769,실내 벽에서 소품가구까지 활용 가능한 페인팅 기법 을 컬러사진과 함께 설명한 생활무크 페인팅에 필요 한 도구와 재료설명을 비롯해 색다르게 칠하는 페인팅기법리폼 및 장식 아이디...
118837,산업 시대 초기에 석탄과 증기 기관이 새로운 경제 패러다임을 마련했듯이 이제 수소 에너지가 기존의 경제 정치 사회를 근본적으로 바꿀 것이라고 예견하는 경제서 노동의 종말 소유...
149663,스와롭스키 비즈로 귀엽고 깜찍한 동물들을 만든다 꿰는 방법을 쉽게 이해하도록 평면도로 그려 놓았으며 완성된 크기와 사용할 비즈 낚싯줄 길이 공정도 꿰는 방법 등을 세세하게 기...


In [71]:
tmp_arrayDF = spark.sql("select book_id, split(description, ' ') as descArray from b_view")
book = book.join(tmp_arrayDF, book.book_id == tmp_arrayDF.book_id, "inner")
display(book)

book_id,title,author,image,ranking,description,category,date,book_id.1,descArray
40565,소가구 & 수납가구,효성출판사 편집부,https://bookthumb-phinf.pstatic.net/cover/000/405/00040565.jpg?type=m5,37,분위기기능에 따른 가구선택과 배치 주문가구 정보전국 5대 가구시장을 컬러화보 위주로 엮은 인테리어 무크지,가구/DIY,2022-03-28 15:36:41,40565,"[분위기기능에, 따른, 가구선택과, 배치, 주문가구, 정보전국, 5대, 가구시장을, 컬러화보, 위주로, 엮은, 인테리어, 무크지]"
149664,비즈 주얼리,노경민,https://bookthumb-phinf.pstatic.net/cover/001/496/00149664.jpg?type=m5,38,비즈 공예 입문서이자 전문서 PART 1에서는 시작 마무리 규칙적인 기법 비즈의 기본적인 종류와 명칭 간단한 도구들에 대해 알아보며 PART 2에서는 진주 PART 3에서는 ...,비즈/구슬공예,2022-03-28 15:34:28,149664,"[비즈, 공예, 입문서이자, 전문서, PART, 1에서는, 시작, 마무리, 규칙적인, 기법, 비즈의, 기본적인, 종류와, 명칭, 간단한, 도구들에, 대해, 알아보며, PART..."
150897,토탈 비즈 컬렉션,편집부,https://bookthumb-phinf.pstatic.net/cover/001/508/00150897.jpg?type=m5,40,비즈 만드는 법 303가지를 모아 엮었다 반지 목걸이 팔찌 귀걸이 등 다양한 악세사리 제작 방법과 비즈의 종류 등에 대하여 일목요연하게 기술하고 있으며 부재료 사용법과 게재작...,비즈/구슬공예,2022-03-28 15:34:30,150897,"[비즈, 만드는, 법, 303가지를, 모아, 엮었다, 반지, 목걸이, 팔찌, 귀걸이, 등, 다양한, 악세사리, 제작, 방법과, 비즈의, 종류, 등에, 대하여, 일목요연하게, ..."
155381,행운 부르는 비즈,서울문화사 편집부,https://bookthumb-phinf.pstatic.net/cover/001/553/00155381.jpg?type=m5,36,탄생석 목걸이 · 귀고리 96가지 이 책은 비즈로 목걸이와 귀고리를 제작할 수 있도록 구성되었다 목걸이 귀고리 목걸이 귀고리 세트로 구별해 놓아 찾기 쉽게 해 놓았으며 작품...,비즈/구슬공예,2022-03-28 15:34:27,155381,"[탄생석, 목걸이, ·, 귀고리, 96가지, 이, 책은, 비즈로, 목걸이와, 귀고리를, 제작할, 수, 있도록, 구성되었다, 목걸이, 귀고리, 목걸이, , 귀고리, 세트로, 구..."
158126,내 손으로 만드는 명품 아이옷 DIY,배효숙,https://bookthumb-phinf.pstatic.net/cover/001/581/00158126.jpg?type=m5,35,엄마가 직접 만들어주는 아이옷 DIY 소개서 주부인 저자가 주부의 시점에서 원피스나 멜빵바지 셔츠와 같이 간편하고 멋있게 만들 수 있는 아이옷을 만드는 방법을 사진과 함께 소...,가구/DIY,2022-03-28 15:36:40,158126,"[엄마가, 직접, 만들어주는, 아이옷, DIY, 소개서, 주부인, 저자가, 주부의, 시점에서, 원피스나, 멜빵바지, 셔츠와, 같이, 간편하고, 멋있게, 만들, 수, 있는, 아..."
158881,비즈 인테리어 소품 55,편집부,https://bookthumb-phinf.pstatic.net/cover/001/588/00158881.jpg?type=m5,34,개성있는 비즈 인테리어 소품을 통해 집안 분위기를 로맨틱하게 꾸미는 방법을 소개한 책 꽃병 전등 갓 커튼 발 샹들리에 등 총 55개의 비즈 공예 만드는 법을 상세히 설명했다 ...,비즈/구슬공예,2022-03-28 15:34:26,158881,"[개성있는, 비즈, 인테리어, 소품을, 통해, 집안, 분위기를, 로맨틱하게, 꾸미는, 방법을, 소개한, 책, 꽃병, 전등, 갓, 커튼, 발, 샹들리에, 등, 총, 55개의, ..."
1512880,비즈 공예 대백과,편집부,https://bookthumb-phinf.pstatic.net/cover/015/128/01512880.jpg?type=m5,30,현재 국내에 알려지거나 사용하고 있는 기본 비즈와 표준 용어를 사진과 함께 총망라한 샘플북,비즈/구슬공예,2022-03-28 15:34:23,1512880,"[현재, 국내에, 알려지거나, 사용하고, 있는, 기본, 비즈와, 표준, 용어를, 사진과, 함께, 총망라한, 샘플북]"
1874332,뉴욕 5번가도 놀란 5500원 비즈 MAKING,엄주영,https://bookthumb-phinf.pstatic.net/cover/018/743/01874332.jpg?type=m5,21,아름다운 비즈 악세사리를 만드는 법을 소개하는 책 만들기 쉬우면서도 6000원이 안되는 가격으로 만들 수 있는 실용적인 아이템 60여 가지가 자세한 사진과 함께 소개되어 있다...,비즈/구슬공예,2022-03-28 15:34:16,1874332,"[아름다운, 비즈, 악세사리를, 만드는, 법을, 소개하는, 책, 만들기, 쉬우면서도, 6000원이, 안되는, 가격으로, 만들, 수, 있는, 실용적인, 아이템, 60여, 가지가..."
2913797,행복한 날 비즈 주얼리,오연림,https://bookthumb-phinf.pstatic.net/cover/029/137/02913797.jpg?type=m5,12,비즈 주얼리 입문서 이 책은 크리스털 시드비즈 진주 등을 이용한 비즈 액세서리를 만드는 방법을 담았다 실제 일상생활에서 착용할 수 있는 목걸이 귀걸이 팔찌 등을 만드는 방법과...,비즈/구슬공예,2022-03-28 15:34:09,2913797,"[비즈, 주얼리, 입문서, 이, 책은, 크리스털, 시드비즈, 진주, 등을, 이용한, 비즈, 액세서리를, 만드는, 방법을, 담았다, 실제, 일상생활에서, 착용할, 수, 있는, ..."
3121233,컨츄리 가구만들기,김춘희,https://bookthumb-phinf.pstatic.net/cover/031/212/03121233.jpg?type=m5,31,이 세상에서 단 하나뿐인 나만의 아름다운 가구 만드는 법 공개 누구나 쉽게 따라서 할 수 있다 세상에 하나밖에 없는 나만의 가구 만드는 방법을 담은『컨츄리 가구만들기』 이 책...,가구/DIY,2022-03-28 15:36:35,3121233,"[이, 세상에서, 단, 하나뿐인, 나만의, 아름다운, 가구, 만드는, 법, 공개, 누구나, 쉽게, 따라서, 할, 수, 있다, 세상에, 하나밖에, 없는, 나만의, 가구, 만드는..."


In [72]:
spark.sql("select count(*) from b_view")

count(1)
4703


In [52]:
from pyspark.ml.feature import Word2Vec
from pyspark.ml.feature import Word2VecModel
w2v = Word2Vec(vectorSize=100, seed=42, inputCol="description", outputCol="model")
w2v.setMaxIter(30)

Word2Vec_5a95ccbe874f

In [None]:
model = w2v.fit(book)
model.setInputCol("description")
model.getVectors().show()