rth · rth · Jul 22, 2019 · May 9, 2019 · Jun 23, 2019 · Jun 23, 2019
diff --git a/python/src/tokenize.rs b/python/src/tokenize.rs
@@ -7,7 +7,7 @@
 use pyo3::prelude::*;
 use pyo3::types::PyList;
 
-use vtext::tokenize::Tokenizer;
+use vtext::tokenize::*;
 
 /// __init__(self, word_bounds=True)
 ///
@@ -31,7 +31,10 @@ impl UnicodeSegmentTokenizer {
     #[new]
     #[args(word_bounds = true)]
     fn new(obj: &PyRawObject, word_bounds: bool) {
-        let tokenizer = vtext::tokenize::UnicodeSegmentTokenizer::new(word_bounds);
+        let tokenizer = vtext::tokenize::UnicodeSegmentTokenizerParams::default()
+            .word_bounds(word_bounds)
+            .build()
+            .unwrap();
 
         obj.init(UnicodeSegmentTokenizer {
             word_bounds: word_bounds,
@@ -85,7 +88,11 @@ pub struct VTextTokenizer {
 impl VTextTokenizer {
     #[new]
     fn new(obj: &PyRawObject, lang: String) {
-        let tokenizer = vtext::tokenize::VTextTokenizer::new(&lang);
+        let tokenizer = vtext::tokenize::VTextTokenizerParams::default()
+            .lang(&lang)
+            .build()
+            .unwrap();
+
         obj.init(VTextTokenizer {
             lang: lang,
             inner: tokenizer,
@@ -126,7 +133,10 @@ impl RegexpTokenizer {
     #[new]
     #[args(pattern = "\"\\\\b\\\\w\\\\w+\\\\b\"")]
     fn new(obj: &PyRawObject, pattern: &str) {
-        let inner = vtext::tokenize::RegexpTokenizer::new(pattern.to_owned());
+        let inner = vtext::tokenize::RegexpTokenizerParams::default()
+            .pattern(pattern)
+            .build()
+            .unwrap();
 
         obj.init(RegexpTokenizer {
             pattern: pattern.to_string(),
@@ -181,7 +191,10 @@ impl CharacterTokenizer {
     #[new]
     #[args(window_size = 4)]
     fn new(obj: &PyRawObject, window_size: usize) {
-        let inner = vtext::tokenize::CharacterTokenizer::new(window_size);
+        let inner = vtext::tokenize::CharacterTokenizerParams::default()
+            .window_size(window_size)
+            .build()
+            .unwrap();
 
         obj.init(CharacterTokenizer {
             window_size: window_size,

diff --git a/python/src/vectorize.rs b/python/src/vectorize.rs
@@ -48,8 +48,12 @@ impl _HashingVectorizerWrapper {
     #[new]
     #[args(n_jobs = 1)]
     fn new(obj: &PyRawObject, n_jobs: usize) {
-        let tokenizer = vtext::tokenize::RegexpTokenizer::new("\\b\\w\\w+\\b".to_string());
-        let estimator = vtext::vectorize::HashingVectorizer::new(tokenizer).n_jobs(n_jobs);
+        let tokenizer = vtext::tokenize::RegexpTokenizer::default();
+        let estimator = vtext::vectorize::HashingVectorizerParams::default()
+            .tokenizer(tokenizer.clone())
+            .n_jobs(n_jobs)
+            .build()
+            .unwrap();
 
         obj.init(_HashingVectorizerWrapper { inner: estimator });
     }
@@ -75,8 +79,12 @@ impl _CountVectorizerWrapper {
     #[new]
     #[args(n_jobs = 1)]
     fn new(obj: &PyRawObject, n_jobs: usize) {
-        let tokenizer = vtext::tokenize::RegexpTokenizer::new("\\b\\w\\w+\\b".to_string());
-        let estimator = vtext::vectorize::CountVectorizer::new(tokenizer).n_jobs(n_jobs);
+        let tokenizer = vtext::tokenize::RegexpTokenizer::default();
+        let estimator = vtext::vectorize::CountVectorizerParams::default()
+            .tokenizer(tokenizer.clone())
+            .n_jobs(n_jobs)
+            .build()
+            .unwrap();
         obj.init(_CountVectorizerWrapper { inner: estimator });
     }
 

diff --git a/src/errors.rs b/src/errors.rs
@@ -0,0 +1,27 @@
+use std::error::Error;
+use std::fmt;
+
+#[derive(PartialEq, Debug)]
+pub enum VTextError {
+    SomeError,
+}
+
+impl VTextError {
+    fn descr(&self) -> &str {
+        match *self {
+            VTextError::SomeError => "Some error message",
+        }
+    }
+}
+
+impl Error for VTextError {
+    fn description(&self) -> &str {
+        self.descr()
+    }
+}
+
+impl fmt::Display for VTextError {
+    fn fmt(&self, f: &mut fmt::Formatter) -> fmt::Result {
+        self.descr().fmt(f)
+    }
+}
diff --git a/src/lib.rs b/src/lib.rs
@@ -28,9 +28,9 @@ A simple tokenization example can be found below,
 ```rust
 extern crate vtext;
 
-use vtext::tokenize::{VTextTokenizer,Tokenizer};
+use vtext::tokenize::{VTextTokenizerParams,Tokenizer};
 
-let tok = VTextTokenizer::new("en");
+let tok = VTextTokenizerParams::default().lang("en").build().unwrap();
 let tokens = tok.tokenize("Flights can't depart after 2:00 pm.");
 
 // returns &["Flights", "ca", "n't", "depart", "after", "2:00", "pm", "."]
@@ -52,6 +52,7 @@ extern crate sprs;
 extern crate itertools;
 extern crate rayon;
 
+pub mod errors;
 mod math;
 pub mod metrics;
 pub mod tokenize;