In [2]:
from flask import Flask
from flask import request
import numpy as np
import tensorflow as tf
import pandas as pd
from pyspark.sql import SparkSession
from pyspark.ml.recommendation import ALS, ALSModel
from scipy.spatial.distance import cosine
import joblib
from tensorflow.keras.applications import MobileNetV2
import json
import uuid
import base64

# 해시태그 관련

In [3]:
img_shape = (160, 160, 3)

# 사전 학습된 MobileNetV2 모델을 base_model로 저장
base_model = MobileNetV2(input_shape=img_shape, include_top=False, weights='imagenet')

# tf.keras.layers.GlobalAveragePooling2D 레이어를 사용하여 피처를 이미지 당 하나의 1280 요소 벡터로 변환
global_average_layer = tf.keras.layers.GlobalAveragePooling2D()

# base_model에 global_average_layer 쌓기
neural_network = tf.keras.Sequential([
  base_model,
  global_average_layer,
])

In [4]:
spark = SparkSession.builder.master('local').appName('all').getOrCreate()

In [5]:
# 모델 불러오기 (dnn feature뽑아오기,als 해시태그 추천)
als_model = ALSModel.load('../save_models/als')

# 데이터 불러오기 (pics 이미지의 피처 데이터프레임,hashtags_df 모든해시태그, recommender_df 추천df)
recommender_df=joblib.load('../save_models/recommender_df.pkl')
hashtags_df=joblib.load('../save_models/hashtags_df.pkl')

In [6]:
def prepare_image(img_path, height=160, width=160):
    # 신경망에 맞게 이미지를 다운 샘플링 및 스케일링
    img = tf.io.read_file(img_path) # 불러(읽어)오기
    #img = tf.image.decode_jpeg(img) # [height, width, num_channels]인 3차원 배열을 반환
    img = tf.image.decode_image(img)
    img = tf.cast(img, tf.float32) # 정수형으로 바꾼경우 소수점을 버린다 boolean일때는 True면 1, False면 0을 출력
    img = (img/127.5) - 1
    img = tf.image.resize(img, (height, width))
    # 컬러 이미지의 차원에 맞게 회색조 이미지 형태변경
    if img.shape != (160, 160, 3):
        img = tf.concat([img, img, img], axis=2)
    return img

def extract_features(image, neural_network):
    # input받은 이미지를 1280개의 deep feature들로 구성된 벡터로 반환
    image_np = image.numpy() # numpy형태로 변환
    images_np = np.expand_dims(image_np, axis=0) # 차원추가([]를 씌워준다)
    deep_features = neural_network.predict(images_np)[0]
    return deep_features

# 코사인 유사성에 기반한 K개의 최근접이웃을 찾는 함수 
def find_neighbor_vectors(image_path, k=5, recommender_df=recommender_df):
    # 비슷한 이미지에 대한 img_features(이미지 피쳐, 즉 사용자 벡터)를 찾는다.
    prep_image = prepare_image(image_path)
    pics = extract_features(prep_image, neural_network)
    rdf = recommender_df.copy()
    rdf['dist'] = rdf['deep_features'].apply(lambda x: cosine(x, pics))
    rdf = rdf.sort_values(by='dist')
    return rdf.head(k)
  

def generate_hashtags(image_path):
    fnv = find_neighbor_vectors(image_path, k=5, recommender_df=recommender_df)
    # 코사인 유사성에 기반하여 5개의 사용자 벡터의 평균을 구한다.
    features = []
    for item in fnv.features.values:
        features.append(item)

    avg_features = np.mean(np.asarray(features), axis=0)
    
    hashtag_features = als_model.itemFactors.toPandas()

    # 앞서 구한 이미지(사용자) 피쳐의 평균, 즉 avg_features을 hashtag_features와 dot product하여 새로운 dot_product열 생성
    hashtag_features['dot_product'] = hashtag_features['features'].apply(lambda x: np.asarray(x).dot(avg_features))
    
    # 가장 높은 dot product를 가진 해시태그 상위 10개 추출
    final_recs = hashtag_features.sort_values(by='dot_product', ascending=False).head(20)

    # hastag_id로 hashtag 찾아서 output에 저장
    output = []
    for hashtag_id in final_recs.id.values:
        output.append(hashtags_df.iloc[hashtag_id]['hashtag'])
    return output

# 서버 실행

In [None]:
app = Flask(__name__)
@app.route('/hashtags20/', methods=['POST'])
def input_image2():
    f = request.files['file']
    unique_name = str(uuid.uuid1())
    save_image_path = 'save_image/' + unique_name + secure_filename(f.filename)
    
    print(save_image_path)
    f.save(save_image_path)
    recommended_hashtags = generate_hashtags(save_image_path)
    
    
    hashtags_dict = {'hashtags':recommended_hashtags}
    hashtags_json = json.dumps(hashtags_dict, sort_keys=True)
    return hashtags_json

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=60002)

 * Serving Flask app '__main__' (lazy loading)
 * Environment: production
[2m   Use a production WSGI server instead.[0m
 * Debug mode: off


 * Running on all addresses (0.0.0.0)
 * Running on http://127.0.0.1:60002
 * Running on http://172.30.1.46:60002 (Press CTRL+C to quit)
