# 目的
あるクラウドファンディングが成功するか(state)を事前に予測するモデルを構築する。

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
from sklearn.linear_model import LinearRegression, SGDClassifier
from sklearn.metrics import mean_squared_error, mean_absolute_error # 回帰問題における性能評価に関する関数
from sklearn.metrics import accuracy_score, precision_recall_fscore_support, confusion_matrix # 回帰問題における性能評価に関する関数

# データの読み込み

## データの扱いについて
| Variables | 変数 | 使う? | 変数の扱い |
| ---- | ---- | ---- |  ---- |
| ID | internal kickstarter id | - | - |
| name | プロジェクト名 | - | - |
| category | カテゴリー | ○ | ダミー変数 |
| main_category | category of campaign | ○ | ダミー変数 |
| currency | 通貨 | ○ | ダミー変数 |
| deadline | 期限 | ○ (開始日 - 期限 の募集機関で使ってみる) | 数値(日数) |
| goal | 目標金額 | ○ | 数値(金額) |
| launched | 開始日 | ○ (開始日 - 期限 の募集機関で使ってみる) | 数値(日数) |
| pledged | 集まった金額 | - (開始時にはわからないので使わない) | - |
| state | 成否 | ※目的変数 | fiailled: 0, successful: 1, Other: 捨てる(Pandasで) |

↓必要な項目を抜き出して読み込み、データの整形を行う。

In [None]:
ks_projects_data = pd.read_csv("ks-projects-201801.csv")[['category', 'main_category', 'currency', 'deadline', 'goal', 'launched', 'state']]

# state が failed と successful 以外の行を削除 
# SettingWithCopyWarningがでるので copy() する
# indexが連番じゃなくなるので reset_index() で連番に直す
ks_projects_data2 = ks_projects_data[(ks_projects_data['state'] == 'failed') | (ks_projects_data['state'] == 'successful')].copy().reset_index(drop=True)

# 欠損値が無いことを確認
#ks_projects_data2.info()

# deadline - launched で募集期間を算出する
# pd.to_datetime() を使って、str を datetime64型に変換
# 日数(int)で出したいので、Series.dt() を使って変換
ks_projects_data2['launched'] = pd.to_datetime(ks_projects_data2['launched'], format='%Y-%m-%d %H:%M:%S')
ks_projects_data2['deadline'] = pd.to_datetime(ks_projects_data2['deadline'], format='%Y-%m-%d %H:%M:%S')
ks_projects_data2['duration'] = (ks_projects_data2['deadline'] - ks_projects_data2['launched']).dt.days

display(ks_projects_data2.head())

# 質的変数(category, main_category, currency) のユニークな値の確認
# categoryの数が多すぎてメモリに載らないため、一旦 category を外して考える
#ks_projects_data2['currency'].value_counts()  # 14
#ks_projects_data2['category'].value_counts()  # かなり多い
#ks_projects_data2['main_category'].value_counts()  # 15

# category, launched, deadlineを外す
ks_projects_data3 = ks_projects_data2.drop(['category', 'launched', 'deadline'], axis=1)
#display(ks_projects_data3.head())

# state を succesful = 1, failed = 0 に置換する
ks_projects_data3 = ks_projects_data3.replace({'state': {'failed': 0, 'successful': 1}})
display(ks_projects_data3.head())

# main_category と currency をダミー変数に変換する
ks_projects_data4 = pd.get_dummies(ks_projects_data3)
display(ks_projects_data4.head())


# グラフで確認
# めっちゃ時間かかる
sns.pairplot(ks_projects_data4)




#launched_day = datetime.datetime.strptime(ks_projects_data2.loc[0, 'launched'], '%Y-%m-%d %H:%M:%S')
#deadline_day = datetime.datetime.strptime(ks_projects_data2.loc[0, 'deadline'], '%Y-%m-%d')
#duration = deadline_day - launched_day
#print(duration.days)


#print(type(datetime.datetime.strptime(ks_projects_data2.loc[1, 'launched'], '%Y-%m-%d %H:%M:%S')))




Unnamed: 0,category,main_category,currency,deadline,goal,launched,state,duration
0,Poetry,Publishing,GBP,2015-10-09,1000.0,2015-08-11 12:12:28,failed,58
1,Narrative Film,Film & Video,USD,2017-11-01,30000.0,2017-09-02 04:43:57,failed,59
2,Narrative Film,Film & Video,USD,2013-02-26,45000.0,2013-01-12 00:20:50,failed,44
3,Music,Music,USD,2012-04-16,5000.0,2012-03-17 03:24:11,failed,29
4,Restaurants,Food,USD,2016-04-01,50000.0,2016-02-26 13:38:27,successful,34


Unnamed: 0,main_category,currency,goal,state,duration
0,Publishing,GBP,1000.0,0,58
1,Film & Video,USD,30000.0,0,59
2,Film & Video,USD,45000.0,0,44
3,Music,USD,5000.0,0,29
4,Food,USD,50000.0,1,34


Unnamed: 0,goal,state,duration,main_category_Art,main_category_Comics,main_category_Crafts,main_category_Dance,main_category_Design,main_category_Fashion,main_category_Film & Video,...,currency_EUR,currency_GBP,currency_HKD,currency_JPY,currency_MXN,currency_NOK,currency_NZD,currency_SEK,currency_SGD,currency_USD
0,1000.0,0,58,0,0,0,0,0,0,0,...,0,1,0,0,0,0,0,0,0,0
1,30000.0,0,59,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,1
2,45000.0,0,44,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,1
3,5000.0,0,29,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
4,50000.0,1,34,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
