# 모바일 애플리케이션의 '평점/다운로드 수' 예측 모델 수립하기

In [1]:
# csv 에서 데이터를 읽어와 행렬 객체로 만들 수 있는 모듈
# 다양한 데이터 전처리
import pandas as pd
# 시각화 라이브러리
import matplotlib.pyplot as plt
# 데이터를 학습용과 테스트용으로 나눌 수 있는 함수
from sklearn.model_selection import train_test_split
# 사용할 모델들
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from xgboost import XGBClassifier
# KFold 교차 검증을 위한 모듈들
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

import numpy as np
import collections

### 데이터 읽어오기

In [2]:
data = pd.read_csv('finaldata.csv')

# 1. 평점

##### 학습 데이터와 테스트 데이터를 7:3으로 나눈다

In [3]:
train_rating, test_rating = train_test_split(data, test_size=0.3)
train_rating.to_csv('train_rating.csv')
test_rating.to_csv('test_rating.csv')

##### 결과 데이터 추출

In [4]:
target_rating = train_rating['Rating']
target_rating = target_rating.astype(int)
train_rating = train_rating.drop(['App','Rating'], axis=1)

### 평점 예측 모델

In [None]:
# 모델 객체 생성
model_rating_1 = LogisticRegression(C=1000.0, random_state=0)
model_rating_2 = KNeighborsClassifier(n_neighbors = 15)
model_rating_3 = DecisionTreeClassifier()
model_rating_4 = RandomForestClassifier(n_estimators=15)
model_rating_5 = GaussianNB()
model_rating_6 = SVC(C=1, kernel='rbf', coef0=1)
model_rating_7 = XGBClassifier()

# Fold 생성
folds = KFold(n_splits=10, shuffle=True, random_state=0)

# 교차 검증한다 (rating)
score_rating_1 = cross_val_score(model_rating_1, train_rating, target_rating, cv=folds, n_jobs=1, scoring='accuracy')
score_rating_2 = cross_val_score(model_rating_2, train_rating, target_rating, cv=folds, n_jobs=1, scoring='accuracy')
score_rating_3 = cross_val_score(model_rating_3, train_rating, target_rating, cv=folds, n_jobs=1, scoring='accuracy')
score_rating_4 = cross_val_score(model_rating_4, train_rating, target_rating, cv=folds, n_jobs=1, scoring='accuracy')
score_rating_5 = cross_val_score(model_rating_5, train_rating, target_rating, cv=folds, n_jobs=1, scoring='accuracy')
score_rating_6 = cross_val_score(model_rating_6, train_rating, target_rating, cv=folds, n_jobs=1, scoring='accuracy')
score_rating_7 = cross_val_score(model_rating_7, train_rating, target_rating, cv=folds, n_jobs=1, scoring='accuracy')

# 각 모델별 정확도 평균을 구한다 (rating)
avg_rating_1 = round(np.mean(score_rating_1) * 100, 2)
avg_rating_2 = round(np.mean(score_rating_2) * 100, 2)
avg_rating_3 = round(np.mean(score_rating_3) * 100, 2)
avg_rating_4 = round(np.mean(score_rating_4) * 100, 2)
avg_rating_5 = round(np.mean(score_rating_5) * 100, 2)
avg_rating_6 = round(np.mean(score_rating_6) * 100, 2)
avg_rating_7 = round(np.mean(score_rating_7) * 100, 2)

print('평점 정확도 평균: ', f'{avg_rating_1},{avg_rating_2},{avg_rating_3},{avg_rating_4},{avg_rating_5},{avg_rating_6},{avg_rating_7}')



In [None]:
# 정확도 평균이 가장 높게 나온 modle7으로 학습
model_rating_7.fit(train_rating, target_rating)
print('학습완료')

### 평점 예측 모델 사용하기

In [None]:
rating = test_rating['Rating']
category_rating = test_rating['Category']
test_rating = test_rating.drop(['App','Rating'],axis=1)
                  
# 예측 결과 계산
y_pred_rating = model_rating_7.predict(test_rating)

In [None]:
# 평점 예측 결과를 DataFrame로 만듬
rating_predictive_model = pd.DataFrame({'Category': category_rating, 'Rating':y_pred_rating})

In [None]:
# 카테고리로 group하여 예측한 평점의 평균을 반환
rating_predictive_model = round(rating_predictive_model.groupby(['Category'], as_index=False).mean(),1)
# 예측한 평점이 높은 순으로 정렬
rating_predictive_model = rating_predictive_model.sort_values('Rating', ascending=False)

In [None]:
# 데이터 전처리시 만들었던 category_map
category_map = {'ART_AND_DESIGN': 0, 'AUTO_AND_VEHICLES': 1, 'BEAUTY': 2, 'BOOKS_AND_REFERENCE': 3, 'BUSINESS': 4, 'COMICS': 5, 'COMMUNICATION': 6, 'DATING': 7, 'EDUCATION': 8, 'ENTERTAINMENT': 9, 'EVENTS': 10, 'FINANCE': 11, 'FOOD_AND_DRINK': 12, 'HEALTH_AND_FITNESS': 13, 'HOUSE_AND_HOME': 14, 'LIBRARIES_AND_DEMO': 15, 'LIFESTYLE': 16, 'GAME': 17, 'FAMILY': 18, 'MEDICAL': 19, 'SOCIAL': 20, 'SHOPPING': 21, 'PHOTOGRAPHY': 22, 'SPORTS': 23, 'TRAVEL_AND_LOCAL': 24, 'TOOLS': 25, 'PERSONALIZATION': 26, 'PRODUCTIVITY': 27, 'PARENTING': 28, 'WEATHER': 29, 'VIDEO_PLAYERS': 30, 'NEWS_AND_MAGAZINES': 31, 'MAPS_AND_NAVIGATION': 32}

# category_map의 key,value 값을 바꿈
inverse_category_map = {v: k for k, v in category_map.items()}

# 현재 카테고리가 숫자로 되어 있으므로 다시 문자로 변경
rating_predictive_model['Category'] = rating_predictive_model['Category'].map(inverse_category_map)
rating_predictive_model

In [None]:
# 카테고리별 평점 예측 결과를 저장
rating_predictive_model.to_csv('rating_predictive_model.csv')

# 2. 다운로드 수 

##### 학습 데이터와 테스트 데이터를 7:3으로 나눈다

In [None]:
train_installs, test_installs = train_test_split(data, test_size=0.3)
train_installs.to_csv('train_installs.csv')
test_installs.to_csv('test_installs.csv')

##### 결과 데이터 추출

In [None]:
target_installs = train_installs['Installs']
target_installs = target_installs.astype(int)
train_installs = train_installs.drop(['App','Installs', 'Size'], axis=1)

### 다운로드 수 예측 모델

In [None]:
# 모델 객체 생성
model_installs_1 = LogisticRegression(C=1000.0, random_state=0)
model_installs_2 = KNeighborsClassifier(n_neighbors = 15)
model_installs_3 = DecisionTreeClassifier()
model_installs_4 = RandomForestClassifier(n_estimators=15)
model_installs_5 = GaussianNB()
model_installs_6 = SVC(C=1, kernel='rbf', coef0=1)
model_installs_7 = XGBClassifier()

# Fold 생성
folds = KFold(n_splits=10, shuffle=True, random_state=0)

# 교차 검증한다 (installs)
score_installs_1 = cross_val_score(model_installs_1, train_installs, target_installs, cv=folds, n_jobs=1, scoring='accuracy')
score_installs_2 = cross_val_score(model_installs_2, train_installs, target_installs, cv=folds, n_jobs=1, scoring='accuracy')
score_installs_3 = cross_val_score(model_installs_3, train_installs, target_installs, cv=folds, n_jobs=1, scoring='accuracy')
score_installs_4 = cross_val_score(model_installs_4, train_installs, target_installs, cv=folds, n_jobs=1, scoring='accuracy')
score_installs_5 = cross_val_score(model_installs_5, train_installs, target_installs, cv=folds, n_jobs=1, scoring='accuracy')
score_installs_6 = cross_val_score(model_installs_6, train_installs, target_installs, cv=folds, n_jobs=1, scoring='accuracy')
score_installs_7 = cross_val_score(model_installs_7, train_installs, target_installs, cv=folds, n_jobs=1, scoring='accuracy')

# 각 모델별 정확도 평균을 구한다 (installs)
avg_installs_1 = round(np.mean(score_installs_1) * 100, 2)
avg_installs_2 = round(np.mean(score_installs_2) * 100, 2)
avg_installs_3 = round(np.mean(score_installs_3) * 100, 2)
avg_installs_4 = round(np.mean(score_installs_4) * 100, 2)
avg_installs_5 = round(np.mean(score_installs_5) * 100, 2)
avg_installs_6 = round(np.mean(score_installs_6) * 100, 2)
avg_installs_7 = round(np.mean(score_installs_7) * 100, 2)

print('다운로드 수 정확도 평균: ', f'{avg_installs_1},{avg_installs_2},{avg_installs_3},{avg_installs_4},{avg_installs_5},{avg_installs_6},{avg_installs_7}')

In [None]:
# 정확도 평균이 가장 높게 나온 modle7으로 학습
model_installs_7.fit(train_installs, target_installs)
print('학습완료')

### 다운로드 수 예측 모델 사용하기

In [None]:
installs = test_installs['Installs']
category_installs = test_installs['Category']
test_installs = test_installs.drop(['App','Installs','Size'],axis=1)
                  
# 예측 결과 계산
y_pred_installs = model_installs_7.predict(test_installs)

In [None]:
# 다운로드 수 예측 결과를 DataFrame로 만듬
installs_predictive_model = pd.DataFrame({'Category': category_installs, 'Installs':y_pred_installs})

In [None]:
# 카테고리로 group하여 예측한 다운로드 수의 평균을 반환
installs_predictive_model = round(installs_predictive_model.groupby(['Category'], as_index=False).mean())
# 예측한 다운로드 수가 높은 순으로 정렬
installs_predictive_model = installs_predictive_model.sort_values('Installs', ascending=False)

In [None]:
# 현재 카테고리가 숫자로 되어 있으므로 다시 문자로 변경
installs_predictive_model['Category'] = installs_predictive_model['Category'].map(inverse_category_map)
installs_predictive_model

In [None]:
# 카테고리별 다운로드 수 예측 결과를 저장
installs_predictive_model.to_csv('installs_predictive_model.csv')

### 평점 예측 모델과 다운로드 수 예측 모델 합치기

In [None]:
# 평점 예측 모델과 다운로드 수 예측 모델 합치기
predictive_model = pd.merge(rating_predictive_model,installs_predictive_model,on='Category')
predictive_model

In [None]:
# 평점/다운로드 수 예측 모델 저장
predictive_model.to_csv('predictive_model.csv')