In [29]:
import numpy as np
from pprint import pprint
from time import time
import pdir
from IPython.core.debugger import Tracer

In [9]:
def gen_ids(f_names):
    words=[]
    labels=[]
    for line in open(f_names,"r",encoding="utf-8"):
        label,sentence=line.split("\t")
        labels.append(int(label))
        for w in sentence.split():
            words.append(w)
    words=set(words)
    w_ids={}
    
    for w in words:
        w_ids[w]=len(w_ids)
    sentences=[]
    for line in open(f_names,"r",encoding="utf-8"):
        label,sentence=line.split("\t")
        sent=np.zeros(len(w_ids))
        for w in sentence.split():
            sent[w_ids[w]]+=1
        sentences.append(sent)
    return w_ids,sentences,labels

In [10]:
def gen_sent_phi(sentence,w_ids):
    sent=np.zeros(len(w_ids))
    for w in sentence.split():
        if w in w_ids:
            sent[w_ids[w]]+=1
    return sent

In [60]:
class NN():
    def __init__(self, input_arrays, derr_out, network_dims):
        """=========input==============
        input_arrays:
            list, contains input arrays
        derr_out:
            list of np.array
        network_dims:
            list, contains dims of each layers
        """
        assert len(derr_out) == network_dims[-1]

        self.network_len = len(network_dims)
        self.input_len = len(input_arrays)

        self.input_arrays = input_arrays
        self.derr_out = derr_out
        self.network_dims = network_dims

        dim_input_arrays = [len(array) for array in input_arrays]
        input_weights = list(np.random.rand(dim_prev, network_dims[0])
                         for dim_prev in dim_input_arrays)
        dinput_weights=list(np.zeros((dim_prev, network_dims[0]))
                         for dim_prev in dim_input_arrays)
        
        self.weights = []
        self.dinput_arrays=[None]*self.input_len
        self.neurons_net = []
        self.neurons_bias_weight = []
        self.neurons_out = []
        self.neurons_dout = []
        self.neurons_dnet = []
        self.dweights=[]

        for i in range(self.network_len):
            if i == 0:
                self.weights.append(input_weights)
                self.dweights.append(dinput_weights)
                dim_prev = network_dims[i]

            else:
                weight = np.random.rand(dim_prev, network_dims[i])
                self.weights.append(weight)
                dweight=np.zeros((dim_prev, network_dims[i]))
                self.dweights.append(dweight)
                dim_prev = network_dims[i]
            self.neurons_bias_weight.append(np.array([1]))
    
    def set_input_array(self,input_arrays):
        self.input_arrays=input_arrays
    def set_labels(self,labels):
        assert self.input_len==len(labels)
        self.labels=labels
    
    def ff_one(self):
        for i in range(self.network_len):
            self.neurons_out.append(np.zeros(self.network_dims[i]))
            self.neurons_net.append(np.zeros(self.network_dims[i]))
            self.neurons_dnet.append(np.zeros(self.network_dims[i]))
            self.neurons_dout.append(np.zeros(self.network_dims[i]))
            
            if i == 0:
                # w_h*h_t-1+w_x*x+b
                for input_array, weight in zip(self.input_arrays,self.weights[i]):
                    pprint(input_array)
                    pprint(weight)
                    self.neurons_net[i]+=np.dot(input_array,weight)
#                 self.neurons_net[i] = sum(
#                     np.dot(input_array, weight)
#                     for input_array,weight in zip(self.input_arrays
#                     ,self.weights[i])) + self.neurons_bias_weight[i]
                self.neurons_out[i]=np.tanh(self.neurons_net[i])
            else:
                self.neurons_net[i]=np.dot(self.neurons_out[i-1],self.weights[i])+self.neurons_bias_weight[i]
                self.neurons_out[i]=np.tanh(self.neurons_net[i])

    def bk_one(self):
        for i in reversed(range(self.network_len)):
            
            if i==self.network_len-1:
                self.neurons_dout[i]=self.derr_out
                self.neurons_dnet[i]=1-self.neurons_net[i]**2
                Tracer()()
                self.dweights[i]=np.outer(self.neurons_out[i-1],self.neurons_net[i])
            elif i==0:
                self.neurons_dout[i]=np.dot(self.neurons_net[i+1],self.weights[i+1].T)
                self.neurons_dnet[i]=1-self.neurons_net[i]**2
                for j in range(self.input_len):
                    self.dweights[i][j]=np.outer(self.input_arrays[j],self.neurons_net[i])
                    self.dinput_arrays[j]=np.dot(self.neurons_net[i],self.weights[i][j].T)
            else:
                self.neurons_dout[i]=np.dot(self.neurons_net[i+1],self.weights[i+1].T)
                self.neurons_dnet[i]=1-self.neurons_net[i]**2
                self.dweights[i]=np.outer(self.neurons_out[i-1],self.neurons_net[i])
            

    def update_weight(self,lrate=0.01):
        for i in range(self.network_len):
            if i==0:
                for j in range(self.input_len):
                    self.weights[i][j]+=lrate*self.dweights[i][j]
            else:
                self.weights[i]+=lrate*self.dweights[i]
            self.neurons_bias_weight+=lrate*self.neurons_dnet[i]



In [61]:
w_ids,arrays,labels=gen_ids("../../test/03-train-input.txt")

In [62]:
nn=NN([np.array(arrays[0])],np.array([labels[0]]),(2,1))

In [63]:
pprint(nn.__dict__)

{'derr_out': array([-1]),
 'dinput_arrays': [None],
 'dweights': [[array([[ 0.,  0.],
       [ 0.,  0.],
       [ 0.,  0.],
       [ 0.,  0.],
       [ 0.,  0.],
       [ 0.,  0.],
       [ 0.,  0.],
       [ 0.,  0.],
       [ 0.,  0.],
       [ 0.,  0.]])],
              array([[ 0.],
       [ 0.]])],
 'input_arrays': [array([ 1.,  1.,  2.,  1.,  1.,  1.,  0.,  0.,  1.,  0.])],
 'input_len': 1,
 'network_dims': (2, 1),
 'network_len': 2,
 'neurons_bias_weight': [array([1]), array([1])],
 'neurons_dnet': [],
 'neurons_dout': [],
 'neurons_net': [],
 'neurons_out': [],
 'weights': [[array([[ 0.98273448,  0.64853663],
       [ 0.68016994,  0.69350543],
       [ 0.52838535,  0.83416205],
       [ 0.94138136,  0.74958001],
       [ 0.53619277,  0.35412713],
       [ 0.3434348 ,  0.93414798],
       [ 0.60261995,  0.83854108],
       [ 0.05248196,  0.26104453],
       [ 0.04900575,  0.56500142],
       [ 0.61731599,  0.15251957]])],
             array([[ 0.56984208],
       [ 0.46104358]])

In [59]:
for idx,(array,label) in enumerate(zip(arrays,labels)):
    if idx==100:
        print(label,nn.neurons_out[-1])
    nn.set_input_array(array)
    nn.set_labels(np.array([label]))
    nn.ff_one()
    nn.bk_one()
    nn.update_weight()

1.0
array([[ 0.68764461,  0.49889236],
       [ 0.84768624,  0.69868623],
       [ 0.47843163,  0.22197922],
       [ 0.59255704,  0.41608607],
       [ 0.25677174,  0.98520121],
       [ 0.48373028,  0.52884056],
       [ 0.06313613,  0.801573  ],
       [ 0.20062145,  0.30357204],
       [ 0.67433071,  0.77053678],
       [ 0.40297447,  0.37965469]])


ValueError: non-broadcastable output operand with shape (2,) doesn't match the broadcast shape (10,2)

In [251]:
test_file="../../data/titles-en-test.word"
with open("my-answer","w",encoding="utf-8") as f:
    for sent in open(test_file,"r",encoding="utf-8"):
        f.write("{}\t{}".format(nn.predict(sent),sent))

130

136

119

165

100

129

73

213

113

223

145

136

86

38

110

154

110

89

228

109

300

51

113

122

83

101

109

184

39

167

120

238

196

292

140

116

108

157

74

210

115

76

73

182

162

84

218

119

227

138

77

120

211

84

85

109

258

153

181

110

200

128

85

121

87

256

98

112

69

103

95

216

250

99

160

85

114

273

130

223

106

120

128

371

162

211

75

109

193

117

97

109

293

170

144

127

168

133

76

177

111

69

163

134

125

124

74

150

79

98

224

180

135

133

93

105

97

123

115

241

146

122

167

120

117

95

94

135

150

182

119

106

137

154

109

154

219

102

126

154

116

182

124

208

86

123

117

126

140

109

144

70

139

210

114

188

225

137

350

160

81

129

213

119

44

270

230

138

159

152

107

194

68

109

212

126

244

349

155

208

77

220

110

110

162

413

184

47

84

252

248

175

133

136

125

46

57

98

54

85

194

162

111

299

261

207

142

134

128

104

145

136

116

114

101

100

164

66

125

146

183

160

404

129

79

126

156

78

110

168

62

91

132

72

59

144

48

96

111

150

353

184

46

86

114

125

124

137

198

171

186

93

120

84

151

145

87

170

164

55

76

162

206

117

170

156

122

153

125

92

173

172

250

369

95

239

141

230

214

91

78

221

71

187

164

82

142

140

181

213

159

144

134

148

104

192

134

113

132

107

112

182

91

173

132

198

135

79

90

330

79

127

162

411

178

73

471

141

177

59

141

125

83

142

206

179

82

76

178

51

57

74

86

42

141

103

82

147

115

112

110

131

47

66

116

178

96

225

101

148

164

173

104

224

186

112

119

229

91

75

175

115

111

98

63

101

386

152

162

265

96

71

142

66

90

134

167

98

93

100

121

24

138

186

220

188

107

94

190

27

280

131

84

110

201

100

234

68

94

138

126

79

153

95

33

127

253

125

87

101

87

166

98

121

154

182

108

154

109

107

123

101

63

153

119

175

166

111

200

111

101

98

84

126

194

301

113

105

165

174

350

70

221

93

209

225

238

88

95

215

100

119

145

130

151

121

117

83

73

172

123

183

81

127

33

184

136

25

112

138

217

106

183

135

114

248

124

125

181

190

141

151

101

146

147

100

73

103

106

63

322

77

168

271

99

97

146

180

101

136

198

149

144

180

238

97

139

121

122

79

107

119

138

74

109

85

83

65

139

134

146

60

90

72

258

266

146

148

117

136

130

88

98

269

57

115

234

129

121

235

88

335

134

96

89

91

130

154

118

104

95

292

118

105

185

92

113

119

11

131

151

73

108

370

223

142

118

140

102

223

127

105

57

154

211

83

138

86

128

136

164

335

301

117

72

11

202

87

135

109

63

87

114

97

178

95

161

96

124

97

233

183

110

176

97

99

86

198

173

70

112

21

108

107

143

289

134

75

123

122

214

224

106

150

137

310

175

307

329

150

156

172

82

16

159

175

293

194

112

76

123

126

288

159

288

132

105

111

206

146

129

74

189

68

96

112

43

71

104

146

269

200

241

129

113

167

128

198

121

93

103

203

166

228

273

144

94

148

77

37

126

107

134

160

95

150

114

203

108

118

97

189

106

138

108

106

87

663

288

97

92

118

99

152

120

137

139

122

67

107

111

122

109

129

143

85

95

86

62

230

97

145

283

158

243

103

126

175

103

160

143

82

143

126

137

94

89

164

116

120

63

60

112

72

161

163

155

167

205

102

120

157

106

158

161

177

311

60

122

105

75

120

151

137

182

110

120

145

164

246

107

249

82

113

84

573

121

94

178

193

84

181

115

175

201

58

146

153

181

93

77

129

117

156

191

122

45

146

27

242

206

116

57

83

96

235

63

121

158

142

223

152

74

118

246

92

89

134

158

438

146

169

194

169

165

27

101

165

222

173

364

148

188

89

69

225

252

73

149

131

119

251

175

307

98

102

143

108

80

245

173

207

204

291

88

101

169

276

70

134

131

234

107

122

110

80

132

106

81

107

107

86

249

108

121

149

137

141

100

131

59

235

87

90

180

215

235

199

166

90

237

146

245

93

171

170

84

105

83

87

179

105

75

72

88

289

159

116

263

241

189

83

252

311

96

60

98

87

124

83

119

334

129

58

84

93

144

112

101

159

6

65

105

113

131

103

99

233

110

79

256

202

106

170

135

127

111

78

115

93

105

89

146

136

125

234

98

110

218

126

131

225

80

117

113

100

124

216

70

125

181

47

54

104

97

60

165

111

129

18

168

135

65

252

164

73

53

74

145

91

110

163

175

108

210

95

274

66

113

150

95

119

115

111

164

75

87

86

155

114

122

83

98

85

89

227

108

65

146

156

147

113

56

109

130

97

85

168

201

100

70

103

205

82

150

158

192

109

227

46

132

154

188

162

165

160

11

120

94

179

385

122

100

171

223

186

188

165

157

195

30

100

128

253

297

236

91

91

115

124

91

79

105

131

276

96

226

132

70

144

152

88

113

89

213

42

108

205

118

147

127

106

97

219

175

104

157

133

143

97

185

102

89

70

101

121

82

120

95

57

119

152

110

82

156

211

139

242

138

106

173

142

198

127

129

107

181

82

325

108

104

108

96

152

78

61

169

113

93

157

73

153

81

370

85

150

94

100

133

126

327

143

233

311

167

165

89

143

203

43

161

131

320

123

101

92

77

167

63

150

54

204

200

65

142

194

522

214

204

63

139

10

75

113

146

103

141

132

160

152

162

290

230

315

62

164

124

161

82

187

58

182

57

94

110

108

98

140

89

217

146

72

105

94

71

163

148

125

144

150

201

146

89

101

99

106

228

84

368

100

88

177

274

100

200

86

162

132

258

142

65

157

293

114

103

102

134

536

118

111

152

221

207

82

98

243

86

337

94

150

110

166

95

143

175

105

107

229

69

63

234

139

117

136

183

146

182

254

99

114

97

140

54

116

120

90

102

190

128

122

128

86

139

100

178

86

111

19

65

180

111

309

186

170

115

90

190

21

215

181

89

75

152

273

280

49

16

105

123

100

249

138

93

125

327

98

86

77

223

51

176

142

161

129

122

122

128

92

207

99

95

200

68

104

135

110

91

67

116

95

153

393

117

193

164

92

114

202

82

276

191

124

137

66

191

126

67

498

61

137

120

165

219

75

190

319

89

164

221

122

215

101

171

146

137

99

254

95

111

89

227

56

64

132

153

119

87

124

117

77

50

46

234

28

59

73

21

48

173

123

138

180

130

14

129

186

446

125

148

209

106

108

68

179

146

155

145

108

98

110

99

109

87

161

95

93

252

84

95

114

120

100

137

102

116

227

113

186

134

87

130

120

292

81

87

131

102

162

201

118

118

241

100

24

89

99

235

113

171

350

144

335

252

133

172

185

188

170

98

152

94

174

126

125

166

154

219

133

59

88

367

134

98

223

183

198

127

170

124

119

96

133

118

127

85

122

99

248

195

153

120

79

79

310

86

190

133

102

85

138

200

198

114

171

120

105

77

155

260

107

118

121

125

86

114

198

112

60

237

131

92

94

137

108

106

119

113

10

107

136

90

227

82

244

96

132

61

116

115

228

102

274

234

169

97

159

84

294

140

94

123

97

274

133

177

151

99

129

91

264

73

230

136

127

340

96

90

111

180

149

197

124

103

186

73

101

100

135

119

76

129

118

84

155

117

67

308

111

127

216

212

125

77

90

57

89

144

86

88

128

87

158

456

186

136

106

156

330

147

97

138

183

186

72

544

131

143

93

95

168

112

115

107

226

181

57

267

109

234

112

94

61

117

271

120

72

86

168

126

121

103

104

52

53

123

104

88

85

76

120

160

121

171

177

110

134

147

71

119

101

44

167

117

116

142

212

174

106

163

245

137

104

70

104

203

91

148

156

80

183

78

95

80

102

88

121

166

202

129

205

174

211

79

130

344

318

264

97

141

286

99

78

108

112

194

84

104

201

158

177

115

91

128

197

133

216

168

130

122

164

134

115

155

70

158

125

215

169

8

100

155

135

147

144

127

95

124

99

67

174

118

124

196

184

101

123

139

105

193

105

120

257

136

174

176

37

135

65

288

156

185

93

81

128

253

324

89

72

139

121

189

132

153

68

84

187

81

142

106

140

94

192

90

150

206

105

137

134

119

153

83

79

74

63

95

71

89

70

151

251

99

103

117

136

154

516

164

6

187

10

103

149

59

47

58

559

114

98

145

304

241

160

147

152

148

99

160

187

116

219

177

136

147

91

296

88

55

231

59

167

9

334

175

151

208

152

74

129

115

276

233

431

95

15

99

93

11

208

86

252

63

92

103

91

189

102

114

110

115

107

136

127

148

119

126

186

80

201

200

112

154

87

101

158

164

227

171

83

176

142

310

129

109

227

234

68

112

95

103

95

148

131

146

158

95

445

125

186

107

80

91

170

89

132

145

145

232

138

77

54

302

140

81

148

294

119

130

98

112

114

69

145

117

97

100

143

140

407

179

143

155

99

106

151

134

126

76

197

202

204

39

190

116

160

463

141

75

129

194

192

243

140

189

117

117

192

184

97

171

240

100

127

197

225

152

239

510

184

142

236

99

109

114

53

101

196

135

94

105

82

16

95

178

140

107

79

192

126

111

133

123

149

130

372

80

235

163

123

82

58

176

228

106

258

73

122

74

213

83

83

116

115

213

280

181

151

118

249

83

254

113

62

108

134

362

222

206

99

96

75

144

254

103

333

112

100

160

143

53

181

162

81

114

195

142

87

118

181

127

122

113

155

233

63

151

141

271

122

107

27

59

100

203

155

146

127

221

120

80

160

112

141

197

50

121

108

129

135

234

91

102

159

199

115

82

135

130

63

150

139

631

136

199

110

136

94

108

197

144

126

160

262

164

113

94

203

105

216

186

117

257

173

116

76

240

69

145

136

140

99

20

78

192

236

224

86

86

79

115

123

107

280

104

173

100

253

119

160

131

220

102

203

101

115

146

127

38

69

98

156

211

142

192

94

129

73

127

178

392

76

76

109

163

117

143

193

167

106

201

211

180

178

73

233

83

81

119

95

115

191

118

101

136

117

76

152

186

154

200

154

119

121

96

148

146

140

42

222

101

252

117

206

163

65

254

94

105

334

101

115

17

161

133

108

106

141

56

120

214

123

98

135

109

80

146

142

118

140

294

169

130

66

132

162

123

90

108

92

189

385

118

172

271

126

58

163

65

161

139

96

104

95

123

183

187

150

183

349

112

158

118

98

196

97

211

110

67

174

87

152

112

41

94

140

214

74

133

130

129

128

128

262

53

129

129

177

165

279

149

144

82

92

167

164

124

136

190

27

116

86

119

130

254

122

278

163

193

95

92

203

180

93

95

195

158

140

174

85

119

126

196

42

117

153

136

121

75

61

143

66

132

90

253

95

90

131

505

118

183

261

105

78

111

44

114

68

137

122

142

93

126

231

230

71

161

95

125

106

173

119

392

94

107

127

280

80

92

40

117

108

117

115

121

176

125

114

163

208

266

87

50

108

118

126

75

98

61

138

97

34

205

175

161

91

114

80

147

100

206

163

224

20

263

142

32

133

80

81

102

224

392

158

100

197

153

171

154

89

268

276

90

170

155

79

75

109

151

163

191

262

84

264

219

120

54

110

116

103

99

94

231

134

109

231

79

52

100

82

126

104

198

100

92

101

43

154

136

123

174

83

77

108

57

125

101

172

250

181

114

93

181

125

109

174

141

114

140

251

164

96

70

134

240

59

107

63

92

247

108

145

100

106

11

115

49

209

112

156

177

119

41

105

154

284

101

19

200

100

91

119

109

259

148

95

140

303

169

79

101

145

163

69

115

162

119

124

198

91

127

145

91

136

173

135

174

318

80

163

123

167

184

105

183

90

157

101

55

34

170

129

53

160

113

61

105

118

102

203

178

79

597

149

135

105

95

76

91

176

133

272

74

239

96

156

402

159

156

236

72

294

296

107

145

133

46

96

152

76

154

130

165

243

74

179

71

107

156

107

115

80

122

170

115

71

129

121

185

89

106

208

121

106

143

111

250

134

71

84

114

346

105

162

178

135

271

67

44

89

122

117

96

185

81

129

13

126

81

234

146

344

56

169

94

103

78

169

198

171

82

110

108

127

135

145

318

105

191

133

147

227

116

59

144

17

200

206

141

78

100

93

56

79

104

158

210

123

145

83

103

188

145

108

174

119

11

113

70

91

64

146

105

355

155

126

111

179

78

136

103

142

104

70

101

124

265

109

120

167

139

214

74

142

44

246

263

118

165

179

315

117

95

245

92

228

229

381

131

57

158

104

99

169

114

95

106

178

64

125

126

98

157

102

214

125

215

104

185

215

172

238

106

154

282

204

127

105

134

62

197

103

236

176

131

75

104

90

99

119

89

207

180

157

120

222

125

169

170

81

140

291

91

238

252

140

144

122

107

416

101

107

191

118

155