Merge pull request #61 from epage/overhead

Look into processing overhead
crate-ci · Oct 25, 2019 · a1a8ba2 · a1a8ba2
2 parents af49b6a + a60ab52
commit a1a8ba2
Show file tree

Hide file tree

Showing 5 changed files with 339 additions and 49 deletions.
diff --git a/Cargo.lock b/Cargo.lock
diff --git a/Cargo.toml b/Cargo.toml
@@ -37,3 +37,4 @@ env_logger = "0.6"
 
 [dev-dependencies]
 assert_fs = "0.11"
+bstr = "0.2"
diff --git a/benches/file.rs b/benches/file.rs
@@ -4,10 +4,11 @@ extern crate test;
 
 mod data;
 
-pub use assert_fs::prelude::*;
+use assert_fs::prelude::*;
+use bstr::ByteSlice;
 
 #[bench]
-fn process_empty(b: &mut test::Bencher) {
+fn check_file_empty(b: &mut test::Bencher) {
     let temp = assert_fs::TempDir::new().unwrap();
     let sample_path = temp.child("sample");
     sample_path.write_str(data::EMPTY).unwrap();
@@ -21,7 +22,7 @@ fn process_empty(b: &mut test::Bencher) {
 }
 
 #[bench]
-fn process_no_tokens(b: &mut test::Bencher) {
+fn check_file_no_tokens(b: &mut test::Bencher) {
     let temp = assert_fs::TempDir::new().unwrap();
     let sample_path = temp.child("sample");
     sample_path.write_str(data::NO_TOKENS).unwrap();
@@ -35,7 +36,7 @@ fn process_no_tokens(b: &mut test::Bencher) {
 }
 
 #[bench]
-fn process_single_token(b: &mut test::Bencher) {
+fn check_file_single_token(b: &mut test::Bencher) {
     let temp = assert_fs::TempDir::new().unwrap();
     let sample_path = temp.child("sample");
     sample_path.write_str(data::SINGLE_TOKEN).unwrap();
@@ -49,7 +50,7 @@ fn process_single_token(b: &mut test::Bencher) {
 }
 
 #[bench]
-fn process_sherlock(b: &mut test::Bencher) {
+fn check_file_sherlock(b: &mut test::Bencher) {
     let temp = assert_fs::TempDir::new().unwrap();
     let sample_path = temp.child("sample");
     sample_path.write_str(data::SHERLOCK).unwrap();
@@ -63,7 +64,7 @@ fn process_sherlock(b: &mut test::Bencher) {
 }
 
 #[bench]
-fn process_code(b: &mut test::Bencher) {
+fn check_file_code(b: &mut test::Bencher) {
     let temp = assert_fs::TempDir::new().unwrap();
     let sample_path = temp.child("sample");
     sample_path.write_str(data::CODE).unwrap();
@@ -77,7 +78,7 @@ fn process_code(b: &mut test::Bencher) {
 }
 
 #[bench]
-fn process_corpus(b: &mut test::Bencher) {
+fn check_file_corpus(b: &mut test::Bencher) {
     let temp = assert_fs::TempDir::new().unwrap();
     let sample_path = temp.child("sample");
     sample_path.write_str(data::CORPUS).unwrap();
@@ -89,3 +90,291 @@ fn process_corpus(b: &mut test::Bencher) {
 
     temp.close().unwrap();
 }
+
+#[bench]
+fn read_empty(b: &mut test::Bencher) {
+    let temp = assert_fs::TempDir::new().unwrap();
+    let sample_path = temp.child("sample");
+    sample_path.write_str(data::EMPTY).unwrap();
+
+    b.iter(|| std::fs::read(sample_path.path()));
+
+    temp.close().unwrap();
+}
+
+#[bench]
+fn read_no_tokens(b: &mut test::Bencher) {
+    let temp = assert_fs::TempDir::new().unwrap();
+    let sample_path = temp.child("sample");
+    sample_path.write_str(data::NO_TOKENS).unwrap();
+
+    b.iter(|| std::fs::read(sample_path.path()));
+
+    temp.close().unwrap();
+}
+
+#[bench]
+fn read_single_token(b: &mut test::Bencher) {
+    let temp = assert_fs::TempDir::new().unwrap();
+    let sample_path = temp.child("sample");
+    sample_path.write_str(data::SINGLE_TOKEN).unwrap();
+
+    b.iter(|| std::fs::read(sample_path.path()));
+
+    temp.close().unwrap();
+}
+
+#[bench]
+fn read_sherlock(b: &mut test::Bencher) {
+    let temp = assert_fs::TempDir::new().unwrap();
+    let sample_path = temp.child("sample");
+    sample_path.write_str(data::SHERLOCK).unwrap();
+
+    b.iter(|| std::fs::read(sample_path.path()));
+
+    temp.close().unwrap();
+}
+
+#[bench]
+fn read_code(b: &mut test::Bencher) {
+    let temp = assert_fs::TempDir::new().unwrap();
+    let sample_path = temp.child("sample");
+    sample_path.write_str(data::CODE).unwrap();
+
+    b.iter(|| std::fs::read(sample_path.path()));
+
+    temp.close().unwrap();
+}
+
+#[bench]
+fn read_corpus(b: &mut test::Bencher) {
+    let temp = assert_fs::TempDir::new().unwrap();
+    let sample_path = temp.child("sample");
+    sample_path.write_str(data::CORPUS).unwrap();
+
+    b.iter(|| std::fs::read(sample_path.path()));
+
+    temp.close().unwrap();
+}
+
+#[bench]
+fn split_lines_empty(b: &mut test::Bencher) {
+    b.iter(|| data::EMPTY.as_bytes().lines().enumerate().last());
+}
+
+#[bench]
+fn split_lines_no_tokens(b: &mut test::Bencher) {
+    b.iter(|| data::NO_TOKENS.as_bytes().lines().enumerate().last());
+}
+
+#[bench]
+fn split_lines_single_token(b: &mut test::Bencher) {
+    b.iter(|| data::SINGLE_TOKEN.as_bytes().lines().enumerate().last());
+}
+
+#[bench]
+fn split_lines_sherlock(b: &mut test::Bencher) {
+    b.iter(|| data::SHERLOCK.as_bytes().lines().enumerate().last());
+}
+
+#[bench]
+fn split_lines_code(b: &mut test::Bencher) {
+    b.iter(|| data::CODE.as_bytes().lines().enumerate().last());
+}
+
+#[bench]
+fn split_lines_corpus(b: &mut test::Bencher) {
+    b.iter(|| data::CORPUS.as_bytes().lines().enumerate().last());
+}
+
+#[bench]
+fn parse_empty(b: &mut test::Bencher) {
+    let parser = typos::tokens::Parser::new();
+    b.iter(|| {
+        data::EMPTY
+            .as_bytes()
+            .lines()
+            .enumerate()
+            .for_each(|(_idx, l)| {
+                parser.parse_bytes(l).last();
+                ()
+            })
+    });
+}
+
+#[bench]
+fn parse_no_tokens(b: &mut test::Bencher) {
+    let parser = typos::tokens::Parser::new();
+    b.iter(|| {
+        data::NO_TOKENS
+            .as_bytes()
+            .lines()
+            .enumerate()
+            .for_each(|(_idx, l)| {
+                parser.parse_bytes(l).last();
+                ()
+            })
+    });
+}
+
+#[bench]
+fn parse_single_token(b: &mut test::Bencher) {
+    let parser = typos::tokens::Parser::new();
+    b.iter(|| {
+        data::SINGLE_TOKEN
+            .as_bytes()
+            .lines()
+            .enumerate()
+            .for_each(|(_idx, l)| {
+                parser.parse_bytes(l).last();
+                ()
+            })
+    });
+}
+
+#[bench]
+fn parse_sherlock(b: &mut test::Bencher) {
+    let parser = typos::tokens::Parser::new();
+    b.iter(|| {
+        data::SHERLOCK
+            .as_bytes()
+            .lines()
+            .enumerate()
+            .for_each(|(_idx, l)| {
+                parser.parse_bytes(l).last();
+                ()
+            })
+    });
+}
+
+#[bench]
+fn parse_code(b: &mut test::Bencher) {
+    let parser = typos::tokens::Parser::new();
+    b.iter(|| {
+        data::CODE
+            .as_bytes()
+            .lines()
+            .enumerate()
+            .for_each(|(_idx, l)| {
+                parser.parse_bytes(l).last();
+                ()
+            })
+    });
+}
+
+#[bench]
+fn parse_corpus(b: &mut test::Bencher) {
+    let parser = typos::tokens::Parser::new();
+    b.iter(|| {
+        data::CORPUS
+            .as_bytes()
+            .lines()
+            .enumerate()
+            .for_each(|(_idx, l)| {
+                parser.parse_bytes(l).last();
+                ()
+            })
+    });
+}
+
+#[bench]
+fn split_empty(b: &mut test::Bencher) {
+    let parser = typos::tokens::Parser::new();
+    b.iter(|| {
+        data::EMPTY
+            .as_bytes()
+            .lines()
+            .enumerate()
+            .for_each(|(_idx, l)| {
+                parser.parse_bytes(l).for_each(|l| {
+                    l.split().last();
+                    ()
+                })
+            })
+    });
+}
+
+#[bench]
+fn split_no_tokens(b: &mut test::Bencher) {
+    let parser = typos::tokens::Parser::new();
+    b.iter(|| {
+        data::NO_TOKENS
+            .as_bytes()
+            .lines()
+            .enumerate()
+            .for_each(|(_idx, l)| {
+                parser.parse_bytes(l).for_each(|l| {
+                    l.split().last();
+                    ()
+                })
+            })
+    });
+}
+
+#[bench]
+fn split_single_token(b: &mut test::Bencher) {
+    let parser = typos::tokens::Parser::new();
+    b.iter(|| {
+        data::SINGLE_TOKEN
+            .as_bytes()
+            .lines()
+            .enumerate()
+            .for_each(|(_idx, l)| {
+                parser.parse_bytes(l).for_each(|l| {
+                    l.split().last();
+                    ()
+                })
+            })
+    });
+}
+
+#[bench]
+fn split_sherlock(b: &mut test::Bencher) {
+    let parser = typos::tokens::Parser::new();
+    b.iter(|| {
+        data::SHERLOCK
+            .as_bytes()
+            .lines()
+            .enumerate()
+            .for_each(|(_idx, l)| {
+                parser.parse_bytes(l).for_each(|l| {
+                    l.split().last();
+                    ()
+                })
+            })
+    });
+}
+
+#[bench]
+fn split_code(b: &mut test::Bencher) {
+    let parser = typos::tokens::Parser::new();
+    b.iter(|| {
+        data::CODE
+            .as_bytes()
+            .lines()
+            .enumerate()
+            .for_each(|(_idx, l)| {
+                parser.parse_bytes(l).for_each(|l| {
+                    l.split().last();
+                    ()
+                })
+            })
+    });
+}
+
+#[bench]
+fn split_corpus(b: &mut test::Bencher) {
+    let parser = typos::tokens::Parser::new();
+    b.iter(|| {
+        data::CORPUS
+            .as_bytes()
+            .lines()
+            .enumerate()
+            .for_each(|(_idx, l)| {
+                parser.parse_bytes(l).for_each(|l| {
+                    l.split().last();
+                    ()
+                })
+            })
+    });
+}