# ちょっぴりDD事前準備

事前準備を行います。

## データ準備

とりあえず作成したbrave.csvとmonster.csvをデータ分析に使える形にする

In [10]:
import pandas as pd
import numpy as np

In [11]:
brave_path = './data/brave.csv'
braves = pd.read_csv(brave_path, header=0)
braves.head()

Unnamed: 0,id,name,sex,age,attack
0,1,ImamuraYoshimi,女,39,950
1,2,KanayaNene,女,46,200
2,3,SumidaRui,男,17,953
3,4,FukuzawaMiu,女,57,861
4,5,AmemiyaMitsuo,男,54,834


In [32]:
monster_path = './data/monster.csv'
monsters = pd.read_csv(monster_path, header=None)
monsters = monsters.rename(columns={0: 'name'})
monsters.head()

Unnamed: 0,name
0,スライム
1,ドラキー
2,スライムベス
3,ゴースト
4,モーモン


In [33]:
monsters['def'] = pd.Series( np.random.random( len(monsters))*100, index=monsters.index )
monsters.head()

Unnamed: 0,name,def
0,スライム,45.427266
1,ドラキー,27.042785
2,スライムベス,24.980913
3,ゴースト,11.291767
4,モーモン,26.504034


In [82]:
import random

train_output_path = './data/train.csv'

def calc_damage(bm):
    return (bm[4]/(bm[6]*bm[3]))*random.uniform(100, 120)

# 勇者からモンスターへの攻撃を想定した表を作る
## 学習用
tbl = pd.DataFrame( columns = ['braveid', 'bravename', 'bravesex', 'braveage', 'braveattack', 'monstername', 'monsterdef', 'damage'])
for i in range(10000):
    brave_rand = random.randrange(len(braves))
    monster_rand = random.randrange(len(monsters))
    bm = np.concatenate([braves.loc[brave_rand], monsters.loc[monster_rand]], 0)
    tmp = pd.Series( np.append(bm, calc_damage(bm)), index=tbl.columns )
    tbl = tbl.append( tmp, ignore_index=True)
tbl.to_csv(train_output_path)

tbl.head()

Unnamed: 0,braveid,bravename,bravesex,braveage,braveattack,monstername,monsterdef,damage
0,180,TodaAiko,女,46,372,メタスラ＆ゴールドマン,59.881199,14.45505
1,596,YanagidaHinano,女,56,159,ベリアル,20.124379,16.670061
2,7,YoshiiKiyoto,男,58,598,ほのおのせんし,10.511857,100.431079
3,633,MimuraAyana,女,36,885,スライムかがみもち,20.54831,127.841901
4,987,YanagiAzumi,女,13,210,マポレーナ,68.86841,26.438344


In [86]:
test_output_path = './data/test.csv'

# 勇者からモンスターへの攻撃を想定した表を作る
## テスト用
tbl = pd.DataFrame( columns = ['braveid', 'bravename', 'bravesex', 'braveage', 'braveattack', 'monstername', 'monsterdef'])
for i in range(2000):
    brave_rand = random.randrange(len(braves))
    monster_rand = random.randrange(len(monsters))
    bm = np.concatenate([braves.loc[brave_rand], monsters.loc[monster_rand]], 0)
    tmp = pd.Series( bm, index=tbl.columns )
    tbl = tbl.append( tmp, ignore_index=True)
tbl.to_csv(test_output_path)

tbl.head()

Unnamed: 0,braveid,bravename,bravesex,braveage,braveattack,monstername,monsterdef
0,802,OuuchiIsao,男,56,208,ゲリュオン,8.594849
1,588,KikutaRyuugo,男,56,753,タコメット,62.88795
2,976,TakazawaHitomi,女,45,166,スカラベキング,14.154066
3,56,OoiNozomi,女,44,498,碧落天バリゲーン,38.850745
4,129,HoriiTakeshi,男,56,215,グール,11.99087


In [91]:
# testデータをdynamoDBに配置する
import boto3
from boto3.session import Session

tablename = 'dddemo'

dynamodb = boto3.resource('dynamodb')

def create_table():
    table = dynamodb.create_table(
        TableName = tablename,
        KeySchema =[
            {
                'AttributeName' : 'id',
                'KeyType' : 'HASH'
            },
        ],
        AttributeDefinitions = [
            {
                'AttributeName' : 'id',
                'AttributeType' : 'S'
            },
        ],
        ProvisionedThroughput = {
            'ReadCapacityUnits' : 1,
            'WriteCapacityUnits' : 1
        }
    )
    table.meta.client.get_waiter('table_exists').wait(TableName = tablename)
    print (table.item_count)


create_table()

0


In [106]:
# dynamodb tableにデータを投入する

import json
import decimal

data = tbl.to_dict(orient='records')
table = dynamodb.Table(tablename)

with table.batch_writer() as batch:
    for idx, item in enumerate(data):
        # ここで、NaNが入っているkeyを落とします。nanのままだとエラーになります。
        item_not_has_nan = {key: item[key] for key in item if item[key] is not np.nan}
        item_decimal = json.loads(json.dumps(item_not_has_nan), parse_float=decimal.Decimal) # floatをdecimalにしないとエラー
        item_decimal['id'] = str(idx)
        #print(item_decimal)
        batch.put_item(Item=item_decimal)