Skip to content
Permalink
Branch: master
Find file Copy path
Find file Copy path
Fetching contributors…
Cannot retrieve contributors at this time
97 lines (77 sloc) 1.83 KB

逐词读取文本文件

本节中展示的技术将通过byWord.go文件演示,它由四部分组成。正如你在Go代码中看到的,分隔一行中的单词可能比较棘手。程序的第一部分如下:

package main

import (
	"bufio"
	"flag"
	"fmt"
	"io"
	"os"
	"regexp"
)

byWord.go的第二部分代码如下:

func wordByWord(file string) error {
	var err error
	f, err := os.Open(file)
	if err != nil {
		return err
	}
	defer f.Close()

	r := bufio.NewReader(f)
	for {
		line, err := r.ReadString('\n')
		if err == io.EOF {
			break
		} else if err != nil {
			fmt.Printf("error reading file %s", err)
			return err
		}

wordByWord()函数的这部分代码和byLine.go程序的lineByLine()函数一样。

byWord.go第三部分代码如下:

    	r := regexp.MustCompile("[^\\s]+")
		  words := r.FindAllString(line, -1)
		  for i := 0; i < len(words); i++ {
			  fmt.Printf(words[i])
		  }
	}
	return nil
}

wordByWord()函数的剩余代码是全新的,并使用正则表达式对输入的每行进行单词分割。正则表达式regexp.MustCompile("[^\\s]+")使用空格分割单词。

byWord.go的最后一部分代码如下:

func main() {
	flag.Parse()
	if len(flag.Args()) == 0 {
		fmt.Printf("usage: byWord <file1> [<file2> ...]\n")
		return
	}

	for _, file := range flag.Args() {
		err := wordByWord(file)
		if err != nil {
			fmt.Println(err)
		}
	}
}

执行byWord.go会产生如下的输出:

$ go run byWord.go /tmp/adobegc.log
01/08/18
20:25:09:669
|
[INFO]

可以使用wc(1)验证byWord.go的正确性:

$ go run byWord.go /tmp/adobegc.log | wc
    91591     91591     559005
$ wc /tmp/adobegc.log
    4831      91591     583454     /tmp/adobegc.log

如你所见,wc(1)计算所得的单词数和byWord.go一致。

You can’t perform that action at this time.