In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os

In [2]:
# Function to format the emails from a directory into a dataframe.
def email2df(dir_path, label):
    email_list = []
    files = os.listdir(dir_path)
    
    for filename in files:
        # Get Text inside file        
        file_path = dir_path + '/' + filename
        if filename and filename != 'cmds':
            f = open(file_path,'r', errors="ignore")
            text_file = f.read()
            f.close()
            
        # Append [Filename (Id), Text, Label] to dataframe
        if filename and text_file:
            email_list.append([filename, text_file, label])
            
    df = pd.DataFrame(email_list, columns=['id', 'text', 'label'])
    return df

In [3]:
# We make a data frame for the ham emails with label 0
df1 = email2df('easy_ham', 0) 
df2 = email2df('easy_ham_2', 0)
df3 = email2df('hard_ham', 0)

# We make a data frame for the spam emails with label 1
df4 = email2df('spam', 1)
df5 = email2df('spam_2', 1)

In [4]:
df = pd.concat([df1, df2, df3, df4, df5],names=['id', 'text', 'label'])

In [5]:
df.shape

(9354, 3)

In [6]:
df.head()

Unnamed: 0,id,text,label
0,00001.7c53336b37003a9286aba55d2945844c,From exmh-workers-admin@redhat.com Thu Aug 22...,0
1,00002.9c4069e25e1ef370c078db7ee85ff9ac,From Steve_Burt@cursor-system.com Thu Aug 22 ...,0
2,00003.860e3c3cee1b42ead714c5c874fe25f7,From timc@2ubh.com Thu Aug 22 13:52:59 2002\n...,0
3,00004.864220c5b6930b209cc287c361c99af1,From irregulars-admin@tb.tf Thu Aug 22 14:23:...,0
4,00005.bf27cdeaf0b8c4647ecd61b1d09da613,From Stewart.Smith@ee.ed.ac.uk Thu Aug 22 14:...,0


In [7]:
df['label'].value_counts(normalize=True)

0    0.743425
1    0.256575
Name: label, dtype: float64

In [8]:
df['id'].duplicated().sum()

4

In [9]:
df[df['id'].duplicated()]

Unnamed: 0,id,text,label
1400,cmds,From ilug-admin@linux.ie Wed Dec 4 11:52:36 ...,0
500,cmds,Return-Path: <test-admin@lists.sourceforge.net...,0
1001,cmds,From evtwqmigru@datcon.co.uk Tue Oct 8 11:02...,1
1397,cmds,From ilug-admin@linux.ie Wed Dec 4 11:52:36 ...,1


In [10]:
# Some of the cmds emails got through, so we eliminate them
df.drop_duplicates(subset='id', inplace=True)
print(df['id'].duplicated().sum())

#Check for empty values
print(df.isnull().values.any())

0
False


In [11]:
df.shape

(9350, 3)

In [12]:
from sklearn.utils import shuffle
df = shuffle(df)
df.reset_index(inplace=True, drop=True)

In [13]:
df.head()

Unnamed: 0,id,text,label
0,01589.be65e620bca0f1734cd13c71aea78d4c,From razor-users-admin@lists.sourceforge.net ...,0
1,0113.ff113297f0ed07536d288c7b2193a8ec,From 2940catv77@alltel.net Tue Aug 27 01:34:0...,1
2,0162.261bb4a36b195f96fcc7da4038b898a3,From Kristian2025161@lancsmail.com Thu Aug 29...,1
3,00260.49cb520f5d726da6f1ec32d0e4d2e38f,From fddgl@data.net.mx Mon Jun 24 17:09:22 20...,1
4,2441.8b6ac53af9cab970afa13ff99ecaf8da,From rssfeeds@jmason.org Mon Oct 7 12:05:32 ...,0


## First test: Without removing email headers

In [75]:
from sklearn.base import BaseEstimator, TransformerMixin
import re

class CleanTextTransformer(BaseEstimator, TransformerMixin):
    """
    A custom Transformer which makes the text in the dataframe lowercase, 
    removes punctuation and numbers.
    """
    def __init__(self, text_split=True):
        self.text_split = text_split
        
    def fit(self, X, y=None):
        return self  # The fit method typically does nothing for transformers
    
    def transform(self, X):
        pattern = r'[0-9\W_]'
        X_transformed = X.copy()
        X_transformed = X_transformed.apply(lambda text: text.lower())
        X_transformed= X_transformed.apply(lambda text: re.sub(pattern, ' ', text))
        if self.text_split:
            print(type(X_transformed))
            print(X_transformed)
            X_transformed = X_transformed.apply(lambda text: text.split())
            print(type(X_transformed))
            print(X_transformed)
        return X_transformed

In [79]:
from sklearn.model_selection import train_test_split

X = df['text']
y = df['label']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

In [80]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.linear_model import LogisticRegression

# Define the preprocessing for the text column
preprocessor = Pipeline(steps=[
    ('text_cleaning', CleanTextTransformer()),
    ('vectorizer', OneHotEncoder(handle_unknown='ignore'))
])

# Create the full pipeline
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', LogisticRegression())
])

In [81]:
from sklearn.metrics import accuracy_score
# Fit the pipeline on the training data
pipeline.fit(X_train, y_train)
print(X_train.shape, y_train.shape)

# Predict using the pipeline
y_pred = pipeline.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print("Accuracy: ", acc)

<class 'pandas.core.series.Series'>
2031    received  from hawaii ireaye net              ...
993     from fork admin xent com  mon sep             ...
4062    from fork admin xent com  sun sep             ...
8143    from ilug admin linux ie  mon sep             ...
6531    from fork admin xent com  fri jul             ...
                              ...                        
5734    from mail dogma slashnull org  mon jul        ...
5191    from fork admin xent com  thu sep             ...
5390    from rssfeeds jmason org  thu oct             ...
860     from fork admin xent com  fri sep             ...
7270    from webmake talk admin lists sourceforge net ...
Name: text, Length: 6264, dtype: object
<class 'pandas.core.series.Series'>
2031    [received, from, hawaii, ireaye, net, by, linu...
993     [from, fork, admin, xent, com, mon, sep, retur...
4062    [from, fork, admin, xent, com, sun, sep, retur...
8143    [from, ilug, admin, linux, ie, mon, sep, retur...
6531    [from, for

ValueError: Expected 2D array, got 1D array instead:
array=[list(['received', 'from', 'hawaii', 'ireaye', 'net', 'by', 'linux', 'midrange', 'com', 'with', 'esmtp', 'id', 'g', 'l', 'qh', 'for', 'gibbs', 'midrange', 'com', 'sat', 'jul', 'message', 'id', 'g', 'l', 'qh', 'linux', 'midrange', 'com', 'received', 'from', 'alabama', 'by', 'hawaii', 'ireaye', 'net', 'lsmtp', 'for', 'windows', 'nt', 'v', 'b', 'with', 'smtp', 'id', 'a', 'hawaii', 'ireaye', 'net', 'jul', 'date', 'sat', 'jul', 'from', 'callie', 'callie', 'dealsweeps', 'ireaye', 'net', 'subject', 'discover', 'platinum', 'clear', 'card', 'new', 'clear', 'design', 'to', 'gibbs', 'midrange', 'com', 'mime', 'version', 'content', 'type', 'text', 'html', 'x', 'status', 'x', 'keywords', 'doctype', 'html', 'public', 'w', 'c', 'dtd', 'html', 'transitional', 'en', 'meta', 'name', 'ad', 'content', 'ls', 'xi', 'cg', 'html', 'head', 'title', 'discover', 'reg', 'platinum', 'clear', 'card', 'title', 'head', 'map', 'name', 'apply', 'area', 'shape', 'rect', 'coords', 'href', 'http', 'www', 'dealsweeps', 'com', 'c', 'asp', 'lk', 'em', 'q', 'map', 'body', 'bgcolor', 'ffffff', 'img', 'src', 'http', 'img', 'freeze', 'com', 'hot', 'number', 'gif', 'width', 'height', 'usemap', 'apply', 'border', 'left', 'font', 'size', 'br', 'click', 'a', 'href', 'http', 'www', 'dealsweeps', 'com', 'c', 'asp', 'lk', 'em', 'q', 'here', 'a', 'to', 'see', 'information', 'about', 'the', 'apr', 'fees', 'and', 'other', 'important', 'information', 'font', 'disclaimer', 'br', 'center', 'table', 'width', 'border', 'cellspacing', 'cellpadding', 'align', 'center', 'tr', 'td', 'font', 'face', 'verdana', 'arial', 'helvetica', 'sans', 'serif', 'size', 'br', 'the', 'preceding', 'message', 'was', 'sent', 'to', 'you', 'as', 'an', 'opt', 'in', 'subscriber', 'to', 'dealsweeps', 'we', 'will', 'continue', 'to', 'bring', 'you', 'valuable', 'offers', 'on', 'the', 'products', 'and', 'services', 'that', 'interest', 'you', 'most', 'if', 'you', 'wish', 'to', 'unsubscribe', 'please', 'click', 'here', 'a', 'href', 'http', 'www', 'dealsweeps', 'com', 'remove', 'asp', 'e', 'gibbs', 'midrange', 'com', 'http', 'www', 'dealsweeps', 'com', 'remove', 'asp', 'e', 'gibbs', 'midrange', 'com', 'a', 'br', 'font', 'td', 'tr', 'table', 'img', 'src', 'http', 'www', 'dealsweeps', 'com', 'o', 'asp', 'sc', 'q', 'em', 'width', 'height', 'center', 'gibbs', 'midrange', 'com', 'disclaimer', 'body', 'html'])
 list(['from', 'fork', 'admin', 'xent', 'com', 'mon', 'sep', 'return', 'path', 'fork', 'admin', 'xent', 'com', 'delivered', 'to', 'yyyy', 'localhost', 'spamassassin', 'taint', 'org', 'received', 'from', 'localhost', 'jalapeno', 'by', 'jmason', 'org', 'postfix', 'with', 'esmtp', 'id', 'e', 'f', 'for', 'jm', 'localhost', 'mon', 'sep', 'ist', 'received', 'from', 'jalapeno', 'by', 'localhost', 'with', 'imap', 'fetchmail', 'for', 'jm', 'localhost', 'single', 'drop', 'mon', 'sep', 'ist', 'received', 'from', 'xent', 'com', 'by', 'dogma', 'slashnull', 'org', 'with', 'esmtp', 'id', 'g', 'nrcc', 'for', 'jm', 'jmason', 'org', 'mon', 'sep', 'received', 'from', 'lair', 'xent', 'com', 'localhost', 'by', 'xent', 'com', 'postfix', 'with', 'esmtp', 'id', 'd', 'c', 'sun', 'sep', 'pdt', 'delivered', 'to', 'fork', 'spamassassin', 'taint', 'org', 'received', 'from', 'panacea', 'canonical', 'org', 'ns', 'canonical', 'org', 'by', 'xent', 'com', 'postfix', 'with', 'esmtp', 'id', 'ee', 'c', 'for', 'fork', 'xent', 'com', 'sun', 'sep', 'pdt', 'received', 'by', 'panacea', 'canonical', 'org', 'postfix', 'from', 'userid', 'id', 'f', 'f', 'e', 'sun', 'sep', 'edt', 'from', 'kragen', 'pobox', 'com', 'kragen', 'sitaker', 'to', 'fork', 'spamassassin', 'taint', 'org', 'subject', 'earthviewer', 'was', 're', 'whoa', 'message', 'id', 'f', 'f', 'e', 'panacea', 'canonical', 'org', 'sender', 'fork', 'admin', 'xent', 'com', 'errors', 'to', 'fork', 'admin', 'xent', 'com', 'x', 'beenthere', 'fork', 'spamassassin', 'taint', 'org', 'x', 'mailman', 'version', 'precedence', 'bulk', 'list', 'help', 'mailto', 'fork', 'request', 'xent', 'com', 'subject', 'help', 'list', 'post', 'mailto', 'fork', 'spamassassin', 'taint', 'org', 'list', 'subscribe', 'http', 'xent', 'com', 'mailman', 'listinfo', 'fork', 'mailto', 'fork', 'request', 'xent', 'com', 'subject', 'subscribe', 'list', 'id', 'friends', 'of', 'rohit', 'khare', 'fork', 'xent', 'com', 'list', 'unsubscribe', 'http', 'xent', 'com', 'mailman', 'listinfo', 'fork', 'mailto', 'fork', 'request', 'xent', 'com', 'subject', 'unsubscribe', 'list', 'archive', 'http', 'xent', 'com', 'pipermail', 'fork', 'date', 'sun', 'sep', 'edt', 'on', 'am', 'gary', 'lawrence', 'murphy', 'garym', 'canada', 'com', 'wrote', 'j', 'if', 'you', 'want', 'a', 'region', 'of', 'the', 'globe', 'mapped', 'out', 'to', 'a', 'very', 'j', 'high', 'resolution', 'e', 'g', 'meter', 'they', 'can', 'scan', 'the', 'area', 'with', 'j', 'aircraft', 'lidar', 'and', 'add', 'it', 'to', 'the', 'database', 'thereby', 'making', 'that', 'j', 'region', 'zoomable', 'to', 'the', 'resolution', 'of', 'the', 'database', 'for', 'that', 'j', 'area', 'can', 'you', 'give', 'us', 'an', 'example', 'of', 'an', 'application', 'where', 'm', 'resolution', 'would', 'be', 'worth', 'the', 'considerable', 'expense', 'planning', 'battle', 'tactics', 'for', 'this', 'reason', 'the', 'intelligence', 'press', 'reports', 'spy', 'satellites', 'have', 'had', 'meter', 'resolution', 'for', 'many', 'years', 'finding', 'an', 'individual', 'vehicle', 'in', 'a', 'city', 'might', 'occasionally', 'be', 'possible', 'with', 'm', 'images', 'and', 'might', 'occasionally', 'also', 'be', 'worth', 'the', 'money', 'for', 'small', 'areas', 'you', 'have', 'legitimate', 'access', 'to', 'it', 's', 'probably', 'cheaper', 'to', 'go', 'there', 'with', 'a', 'digital', 'camera', 'and', 'a', 'gps', 'and', 'take', 'some', 'snapshots', 'from', 'ground', 'level', 'aerial', 'photos', 'might', 'be', 'cheaper', 'for', 'large', 'areas', 'areas', 'where', 'you', 're', 'not', 'allowed', 'or', 'perhaps', 'physically', 'able', 'to', 'go', 'and', 'cases', 'where', 'you', 'don', 't', 'have', 'time', 'to', 'send', 'a', 'ground', 'guy', 'around', 'the', 'whole', 'area', 'kragen', 'pobox', 'com', 'kragen', 'sitaker', 'http', 'www', 'pobox', 'com', 'kragen', 'edsger', 'wybe', 'dijkstra', 'died', 'in', 'august', 'of', 'the', 'world', 'has', 'lost', 'a', 'great', 'man', 'see', 'http', 'advogato', 'org', 'person', 'raph', 'diary', 'html', 'start', 'and', 'http', 'www', 'kode', 'fu', 'com', 'geek', 'archive', 'shtml', 'for', 'details'])
 list(['from', 'fork', 'admin', 'xent', 'com', 'sun', 'sep', 'return', 'path', 'fork', 'admin', 'xent', 'com', 'delivered', 'to', 'yyyy', 'localhost', 'spamassassin', 'taint', 'org', 'received', 'from', 'localhost', 'jalapeno', 'by', 'jmason', 'org', 'postfix', 'with', 'esmtp', 'id', 'c', 'bd', 'f', 'for', 'jm', 'localhost', 'sun', 'sep', 'ist', 'received', 'from', 'jalapeno', 'by', 'localhost', 'with', 'imap', 'fetchmail', 'for', 'jm', 'localhost', 'single', 'drop', 'sun', 'sep', 'ist', 'received', 'from', 'xent', 'com', 'by', 'dogma', 'slashnull', 'org', 'with', 'esmtp', 'id', 'g', 'mhgrc', 'for', 'jm', 'jmason', 'org', 'sun', 'sep', 'received', 'from', 'lair', 'xent', 'com', 'localhost', 'by', 'xent', 'com', 'postfix', 'with', 'esmtp', 'id', 'd', 'bb', 'sun', 'sep', 'pdt', 'delivered', 'to', 'fork', 'spamassassin', 'taint', 'org', 'received', 'from', 'jasper', 'he', 'net', 'jasper', 'he', 'net', 'by', 'xent', 'com', 'postfix', 'with', 'esmtp', 'id', 'f', 'dd', 'a', 'for', 'fork', 'xent', 'com', 'sun', 'sep', 'pdt', 'received', 'from', 'whump', 'com', 'sdsl', 'dsl', 'sjc', 'megapath', 'net', 'by', 'jasper', 'he', 'net', 'with', 'esmtp', 'id', 'kaa', 'sun', 'sep', 'subject', 're', 'flavor', 'cystals', 'content', 'type', 'text', 'plain', 'charset', 'us', 'ascii', 'format', 'flowed', 'mime', 'version', 'apple', 'message', 'framework', 'v', 'cc', 'fork', 'fork', 'spamassassin', 'taint', 'org', 'to', 'joseph', 's', 'barrera', 'iii', 'joe', 'barrera', 'org', 'from', 'bill', 'humphries', 'bill', 'whump', 'com', 'in', 'reply', 'to', 'd', 'd', 'c', 'b', 'barrera', 'org', 'message', 'id', 'efc', 'cd', 'ce', 'f', 'd', 'a', 'f', 'cd', 'whump', 'com', 'content', 'transfer', 'encoding', 'bit', 'x', 'mailer', 'apple', 'mail', 'sender', 'fork', 'admin', 'xent', 'com', 'errors', 'to', 'fork', 'admin', 'xent', 'com', 'x', 'beenthere', 'fork', 'spamassassin', 'taint', 'org', 'x', 'mailman', 'version', 'precedence', 'bulk', 'list', 'help', 'mailto', 'fork', 'request', 'xent', 'com', 'subject', 'help', 'list', 'post', 'mailto', 'fork', 'spamassassin', 'taint', 'org', 'list', 'subscribe', 'http', 'xent', 'com', 'mailman', 'listinfo', 'fork', 'mailto', 'fork', 'request', 'xent', 'com', 'subject', 'subscribe', 'list', 'id', 'friends', 'of', 'rohit', 'khare', 'fork', 'xent', 'com', 'list', 'unsubscribe', 'http', 'xent', 'com', 'mailman', 'listinfo', 'fork', 'mailto', 'fork', 'request', 'xent', 'com', 'subject', 'unsubscribe', 'list', 'archive', 'http', 'xent', 'com', 'pipermail', 'fork', 'date', 'sun', 'sep', 'on', 'saturday', 'september', 'at', 'pm', 'joseph', 's', 'barrera', 'iii', 'wrote', 'better', 'yet', 'tell', 'me', 'where', 'i', 'should', 'be', 'listening', 'for', 'new', 'music', 'now', 'that', 'p', 'p', 'is', 'dead', 'and', 'i', 'still', 'can', 't', 'pick', 'up', 'kfjc', 'very', 'well', 'kfjc', 'has', 'a', 'mp', 'stream', 'at', 'kfjc', 'org', 'i', 'd', 'also', 'recommend', 'radioparadise', 'com', 'i', 'remember', 'the', 'suburban', 'lawns', 'but', 'i', 'don', 't', 'know', 'what', 'became', 'of', 'them', 'apropos', 'of', 'nothing', 'spirited', 'away', 'is', 'amazing', 'go', 'see', 'it', 'now', 'whump'])
 ...
 list(['from', 'rssfeeds', 'jmason', 'org', 'thu', 'oct', 'return', 'path', 'rssfeeds', 'example', 'com', 'delivered', 'to', 'yyyy', 'localhost', 'example', 'com', 'received', 'from', 'localhost', 'jalapeno', 'by', 'jmason', 'org', 'postfix', 'with', 'esmtp', 'id', 'd', 'a', 'f', 'f', 'for', 'jm', 'localhost', 'thu', 'oct', 'ist', 'received', 'from', 'jalapeno', 'by', 'localhost', 'with', 'imap', 'fetchmail', 'for', 'jm', 'localhost', 'single', 'drop', 'thu', 'oct', 'ist', 'received', 'from', 'dogma', 'slashnull', 'org', 'localhost', 'by', 'dogma', 'slashnull', 'org', 'with', 'esmtp', 'id', 'g', 'k', 'for', 'jm', 'jmason', 'org', 'thu', 'oct', 'message', 'id', 'g', 'k', 'dogma', 'slashnull', 'org', 'to', 'yyyy', 'example', 'com', 'from', 'boingboing', 'rssfeeds', 'example', 'com', 'subject', 'comics', 'journal', 'interviews', 'ted', 'rall', 'date', 'thu', 'oct', 'content', 'type', 'text', 'plain', 'encoding', 'utf', 'x', 'spam', 'status', 'no', 'hits', 'required', 'tests', 'awl', 'spam', 'phrase', 'version', 'cvs', 'x', 'spam', 'level', 'url', 'http', 'boingboing', 'net', 'date', 'not', 'supplied', 'interview', 'with', 'cartoonist', 'ted', 'rall', 'who', 'has', 'traveled', 'to', 'south', 'asia', 'recently', 'and', 'has', 'tips', 'on', 'how', 'to', 'deal', 'with', 'bribe', 'hungry', 'border', 'guards', 'and', 'the', 'like', 'rall', 'now', 'i', 'realize', 'that', 's', 'just', 'the', 'way', 'it', 'is', 'and', 'i', 'know', 'how', 'to', 'do', 'it', 'and', 'get', 'away', 'without', 'paying', 'a', 'bribe', 'or', 'paying', 'something', 'very', 'modest', 'you', 'have', 'to', 'show', 'them', 'that', 'you', 'know', 'the', 'routine', 'and', 'that', 'you', 'know', 'you', 'don', 't', 'have', 'to', 'give', 'them', 'anything', 'and', 'just', 'have', 'a', 'low', 'key', 'demeanor', 'but', 'if', 'you', 'get', 'angry', 'that', 's', 'just', 'going', 'to', 'make', 'things', 'worse', 'for', 'you', 'you', 'get', 'out', 'of', 'your', 'vehicle', 'and', 'you', 'walk', 'up', 'to', 'them', 'you', 'don', 't', 'try', 'to', 'avoid', 'these', 'guys', 'you', 'don', 't', 'try', 'to', 'avoid', 'their', 'eyes', 'you', 'go', 'up', 'with', 'a', 'big', 'smile', 'give', 'them', 'a', 'big', 'handshake', 'and', 'sort', 'of', 'rub', 'their', 'shoulders', 'and', 'say', 'hey', 'great', 'to', 'see', 'you', 'you', 're', 'my', 'new', 'best', 'friend', 'for', 'the', 'next', 'five', 'minutes', 'groth', 'basically', 'act', 'like', 'a', 'used', 'car', 'salesman', 'rall', 'it', 's', 'exactly', 'like', 'that', 'you', 'always', 'carry', 'cigarettes', 'you', 'offer', 'them', 'a', 'cigarette', 'and', 'you', 'say', 'hey', 'what', 's', 'goin', 'on', 'how', 's', 'it', 'goin', 'great', 'here', 's', 'my', 'documents', 'how', 's', 'the', 'road', 'just', 'small', 'talk', 'because', 'these', 'guys', 'are', 'bored', 'they', 're', 'in', 'the', 'middle', 'of', 'nowhere', 'and', 'you', 're', 'sometimes', 'the', 'only', 'vehicle', 'they', 've', 'seen', 'for', 'many', 'hours', 'they', 're', 'often', 'very', 'drunk', 'so', 'you', 'just', 'have', 'to', 'be', 'cool', 'link', 'discuss', 'http', 'www', 'tcj', 'com', 'i', 'rall', 'html', 'http', 'www', 'quicktopic', 'com', 'h', 'de', 'bfpnmekg'])
 list(['from', 'fork', 'admin', 'xent', 'com', 'fri', 'sep', 'return', 'path', 'fork', 'admin', 'xent', 'com', 'delivered', 'to', 'yyyy', 'localhost', 'spamassassin', 'taint', 'org', 'received', 'from', 'localhost', 'jalapeno', 'by', 'jmason', 'org', 'postfix', 'with', 'esmtp', 'id', 'c', 'f', 'b', 'for', 'jm', 'localhost', 'fri', 'sep', 'ist', 'received', 'from', 'jalapeno', 'by', 'localhost', 'with', 'imap', 'fetchmail', 'for', 'jm', 'localhost', 'single', 'drop', 'fri', 'sep', 'ist', 'received', 'from', 'webnote', 'net', 'mail', 'webnote', 'net', 'by', 'dogma', 'slashnull', 'org', 'with', 'esmtp', 'id', 'g', 'gaw', 'for', 'jm', 'jmason', 'org', 'fri', 'sep', 'received', 'from', 'xent', 'com', 'by', 'webnote', 'net', 'with', 'esmtp', 'id', 'iaa', 'for', 'jm', 'jmason', 'org', 'fri', 'sep', 'received', 'from', 'lair', 'xent', 'com', 'localhost', 'by', 'xent', 'com', 'postfix', 'with', 'esmtp', 'id', 'daccf', 'b', 'fri', 'sep', 'pdt', 'delivered', 'to', 'fork', 'spamassassin', 'taint', 'org', 'received', 'from', 'isolnetsux', 'techmonkeys', 'net', 'isolnetsux', 'techmonkeys', 'net', 'by', 'xent', 'com', 'postfix', 'with', 'smtp', 'id', 'efa', 'f', 'for', 'fork', 'xent', 'com', 'fri', 'sep', 'pdt', 'received', 'qmail', 'invoked', 'by', 'uid', 'sep', 'received', 'from', 'localhost', 'sendmail', 'bs', 'by', 'localhost', 'with', 'smtp', 'sep', 'from', 'cdale', 'cdale', 'techmonkeys', 'net', 'to', 'bitbitch', 'magnesium', 'net', 'cc', 'adam', 'l', 'beberg', 'beberg', 'mithral', 'com', 'fork', 'spamassassin', 'taint', 'org', 'subject', 're', 'selling', 'wedded', 'bliss', 'was', 're', 'ouch', 'in', 'reply', 'to', 'magnesium', 'net', 'message', 'id', 'pine', 'lnx', 'isolnetsux', 'techmonkeys', 'net', 'mime', 'version', 'content', 'type', 'text', 'plain', 'charset', 'us', 'ascii', 'sender', 'fork', 'admin', 'xent', 'com', 'errors', 'to', 'fork', 'admin', 'xent', 'com', 'x', 'beenthere', 'fork', 'spamassassin', 'taint', 'org', 'x', 'mailman', 'version', 'precedence', 'bulk', 'list', 'help', 'mailto', 'fork', 'request', 'xent', 'com', 'subject', 'help', 'list', 'post', 'mailto', 'fork', 'spamassassin', 'taint', 'org', 'list', 'subscribe', 'http', 'xent', 'com', 'mailman', 'listinfo', 'fork', 'mailto', 'fork', 'request', 'xent', 'com', 'subject', 'subscribe', 'list', 'id', 'friends', 'of', 'rohit', 'khare', 'fork', 'xent', 'com', 'list', 'unsubscribe', 'http', 'xent', 'com', 'mailman', 'listinfo', 'fork', 'mailto', 'fork', 'request', 'xent', 'com', 'subject', 'unsubscribe', 'list', 'archive', 'http', 'xent', 'com', 'pipermail', 'fork', 'date', 'fri', 'sep', 'cdt', 'i', 'dunno', 'bb', 'women', 'who', 'like', 'to', 'be', 'thought', 'of', 'this', 'way', 'should', 'have', 'the', 'right', 'to', 'choose', 'to', 'be', 'treated', 'this', 'way', 'men', 'too', 'ahem', 'my', 'boy', 'cleans', 'washes', 'clothes', 'cooks', 'fixes', 'stuff', 'etc', 'and', 'works', 'the', 'same', 'number', 'of', 'hours', 'i', 'do', 'sometimes', 'more', 'if', 'he', 'has', 'to', 'catch', 'up', 'with', 'me', 'i', 'close', 'him', 'because', 'he', 'is', 'industrious', 'and', 'creative', 'and', 'because', 'he', 'unfailingly', 'makes', 'my', 'bed', 'the', 'minute', 'i', 'get', 'out', 'of', 'it', 'and', 'boy', 'will', 'be', 'here', 'soon', 'to', 'help', 'boy', 'with', 'other', 'things', 'such', 'as', 'pedicures', 'backrubs', 'and', 'sure', 'fucking', 'lol', 'along', 'with', 'the', 'aforementioned', 'chores', 'adam', 'can', 'have', 'his', 'cake', 'and', 'eat', 'it', 'too', 'if', 'he', 'can', 'only', 'find', 'the', 'right', 'girl', 'who', 'has', 'the', 'same', 'beliefs', 'about', 'gender', 'roles', 'that', 'he', 'has', 'of', 'course', 'he', 'has', 'no', 'clue', 'where', 'to', 'look', 'so', 'we', 'will', 'be', 'constantly', 'laughing', 'at', 'him', 'while', 'he', 'stumbles', 'around', 'in', 'the', 'dark', 'cindy', 'p', 's', 'the', 'numbers', 'do', 'not', 'in', 'any', 'way', 'indicate', 'importance', 'or', 'favor', 'only', 'the', 'order', 'in', 'which', 'they', 'move', 'into', 'my', 'house', 'smiles', 'at', 'chris', 'p', 's', 'i', 'm', 'moving', 'going', 'to', 'new', 'orleans', 'can', 't', 'handle', 'any', 'more', 'cab', 'driving', 'the', 'summer', 'sucked', 'here', 'on', 'the', 'ms', 'gulf', 'coast', 'instead', 'of', 'rocking', 'like', 'it', 'normally', 'does', 'wish', 'me', 'luck', 'i', 'm', 'going', 'to', 'look', 'for', 'another', 'computer', 'job', 'le', 'sigh', 'on', 'thu', 'sep', 'bitbitch', 'magnesium', 'net', 'wrote', 'hello', 'adam', 'thursday', 'september', 'pm', 'you', 'wrote', 'alb', 'so', 'you', 're', 'saying', 'that', 'product', 'bundling', 'works', 'good', 'point', 'sometimes', 'i', 'wish', 'i', 'was', 'still', 'in', 'ca', 'you', 'deserve', 'a', 'good', 'beating', 'every', 'so', 'often', 'anyone', 'else', 'want', 'to', 'do', 'the', 'honors', 'alb', 'and', 'how', 'is', 'this', 'any', 'different', 'from', 'normal', 'marriage', 'exactly', 'other', 'then', 'alb', 'that', 'the', 'woman', 'not', 'only', 'gets', 'a', 'man', 'but', 'one', 'in', 'a', 'country', 'where', 'both', 'she', 'and', 'alb', 'her', 'offspring', 'will', 'have', 'actual', 'opportunities', 'oh', 'and', 'the', 'lack', 'of', 'alb', 'de', 'feminized', 'over', 'sized', 'self', 'centered', 'mercenary', 'minded', 'choices', 'mmkay', 'for', 'the', 'nth', 'time', 'adam', 'we', 'don', 't', 'live', 'in', 'the', 'land', 'of', 'adam', 'fantasy', 'women', 'actually', 'are', 'allowed', 'to', 'do', 'things', 'productive', 'independent', 'and', 'entirely', 'free', 'of', 'their', 'male', 'counterparts', 'they', 'aren', 't', 'forced', 'to', 'cook', 'and', 'clean', 'and', 'merely', 'be', 'sexual', 'vessels', 'sometimes', 'and', 'this', 'will', 'come', 'as', 'a', 'shock', 'to', 'you', 'no', 'doubt', 'men', 'and', 'women', 'even', 'find', 'love', 'which', 'is', 'the', 'crucial', 'distinction', 'between', 'this', 'system', 'and', 'they', 'marry', 'one', 'another', 'for', 'the', 'satisfaction', 'of', 'being', 'together', 'i', 'know', 'far', 'fetched', 'and', 'idealistically', 'crazy', 'as', 'it', 'is', 'but', 'such', 'things', 'do', 'happen', 'i', 'can', 'guarantee', 'you', 'if', 'my', 'mother', 'was', 'approached', 'by', 'my', 'father', 'and', 'years', 'ago', 'he', 'commented', 'on', 'her', 'cleaning', 'ability', 'as', 'a', 'motivator', 'for', 'marrying', 'her', 'we', 'would', 'not', 'be', 'having', 'this', 'conversation', 'now', 'if', 'guys', 'still', 'have', 'silly', 'antequated', 'ideas', 'about', 'women', 's', 'role', 'then', 'their', 'opportunities', 'for', 'finding', 'women', 'will', 'be', 'scarce', 'again', 'these', 'situations', 'are', 'great', 'provided', 'everyone', 'is', 'aware', 'that', 'the', 'relationship', 'is', 'a', 'contractual', 'one', 'he', 'wants', 'a', 'maid', 'a', 'dog', 'and', 'a', 'prostitute', 'he', 'doesn', 't', 'have', 'to', 'pay', 'and', 'she', 'wants', 'a', 'country', 'that', 'isn', 't', 'impoverished', 'and', 'teeming', 'with', 'aids', 'a', 'contract', 'versus', 'a', 'true', 'love', 'interest', 'marriage', 'egh', 'i', 'really', 'need', 'to', 'stop', 'analyzing', 'your', 'posts', 'to', 'this', 'extent', 'i', 'blame', 'law', 'school', 'and', 'my', 'cat', 'bb', 'alb', 'adam', 'l', 'duncan', 'beberg', 'alb', 'http', 'www', 'mithral', 'com', 'beberg', 'alb', 'beberg', 'mithral', 'com', 'i', 'don', 't', 'take', 'no', 'stocks', 'in', 'mathematics', 'anyway', 'huckleberry', 'finn'])
 list(['from', 'webmake', 'talk', 'admin', 'lists', 'sourceforge', 'net', 'mon', 'jul', 'return', 'path', 'webmake', 'talk', 'admin', 'example', 'sourceforge', 'net', 'delivered', 'to', 'yyyy', 'localhost', 'netnoteinc', 'com', 'received', 'from', 'localhost', 'localhost', 'by', 'phobos', 'labs', 'netnoteinc', 'com', 'postfix', 'with', 'esmtp', 'id', 'fc', 'c', 'for', 'jm', 'localhost', 'mon', 'jul', 'edt', 'received', 'from', 'dogma', 'slashnull', 'org', 'by', 'localhost', 'with', 'imap', 'fetchmail', 'for', 'jm', 'localhost', 'single', 'drop', 'mon', 'jul', 'ist', 'received', 'from', 'webnote', 'net', 'mail', 'webnote', 'net', 'by', 'dogma', 'slashnull', 'org', 'with', 'esmtp', 'id', 'g', 'mg', 'py', 'for', 'jm', 'jmason', 'org', 'mon', 'jul', 'received', 'from', 'usw', 'sf', 'list', 'sourceforge', 'net', 'usw', 'sf', 'fw', 'sourceforge', 'net', 'by', 'webnote', 'net', 'with', 'esmtp', 'id', 'kaa', 'for', 'jm', 'jmason', 'org', 'sun', 'jul', 'received', 'from', 'usw', 'sf', 'list', 'b', 'sourceforge', 'net', 'helo', 'usw', 'sf', 'list', 'sourceforge', 'net', 'by', 'usw', 'sf', 'list', 'sourceforge', 'net', 'with', 'esmtp', 'exim', 'va', 'mm', 'debian', 'id', 'wcmw', 'zk', 'sun', 'jul', 'received', 'from', 'helo', 'localhost', 'com', 'by', 'usw', 'sf', 'list', 'sourceforge', 'net', 'with', 'smtp', 'exim', 'va', 'mm', 'debian', 'id', 'wcmr', 'for', 'webmake', 'talk', 'lists', 'sourceforge', 'net', 'sun', 'jul', 'from', 'targetemailextractor', 'btamail', 'net', 'cn', 'reply', 'to', 'targetemailextractor', 'btamail', 'net', 'cn', 'to', 'webmake', 'talk', 'example', 'sourceforge', 'net', 'x', 'mailer', 'quicksender', 'mime', 'version', 'message', 'id', 'e', 'wcmr', 'usw', 'sf', 'list', 'sourceforge', 'net', 'subject', 'wm', 'adv', 'direct', 'email', 'blaster', 'email', 'addresses', 'extractor', 'maillist', 'verify', 'maillist', 'manager', 'sender', 'webmake', 'talk', 'admin', 'example', 'sourceforge', 'net', 'errors', 'to', 'webmake', 'talk', 'admin', 'example', 'sourceforge', 'net', 'x', 'beenthere', 'webmake', 'talk', 'example', 'sourceforge', 'net', 'x', 'mailman', 'version', 'sf', 'net', 'precedence', 'bulk', 'list', 'help', 'mailto', 'webmake', 'talk', 'request', 'example', 'sourceforge', 'net', 'subject', 'help', 'list', 'post', 'mailto', 'webmake', 'talk', 'example', 'sourceforge', 'net', 'list', 'subscribe', 'https', 'example', 'sourceforge', 'net', 'lists', 'listinfo', 'webmake', 'talk', 'mailto', 'webmake', 'talk', 'request', 'lists', 'sourceforge', 'net', 'subject', 'subscribe', 'list', 'id', 'discussion', 'of', 'webmake', 'webmake', 'talk', 'example', 'sourceforge', 'net', 'list', 'unsubscribe', 'https', 'example', 'sourceforge', 'net', 'lists', 'listinfo', 'webmake', 'talk', 'mailto', 'webmake', 'talk', 'request', 'lists', 'sourceforge', 'net', 'subject', 'unsubscribe', 'list', 'archive', 'http', 'www', 'geocrawler', 'com', 'redir', 'sf', 'php', 'list', 'webmake', 'talk', 'x', 'original', 'date', 'sun', 'jul', 'date', 'sun', 'jul', 'content', 'type', 'text', 'html', 'charset', 'us', 'ascii', 'content', 'transfer', 'encoding', 'quoted', 'printable', 'cbody', 'bgcolor', 'd', 'ffffff', 'e', 'cdiv', 'e', 'cfont', 'size', 'd', 'e', 'cdiv', 'e', 'cfont', 'face', 'darial', 'e', 'nbsp', 'b', 'c', 'ffont', 'e', 'c', 'fdiv', 'e', 'cdiv', 'e', 'nbsp', 'b', 'c', 'fdiv', 'e', 'cdiv', 'e', 'cstrong', 'e', 'cfont', 'color', 'd', 'ff', 'face', 'darial', 'size', 'd', 'edirect', 'email', 'blaster', 'c', 'ffont', 'e', 'c', 'fstrong', 'e', 'c', 'fdiv', 'e', 'cfont', 'size', 'd', 'e', 'cp', 'e', 'cfont', 'face', 'darial', 'e', 'cb', 'e', 'cfont', 'color', 'd', 'e', 'ci', 'ethe', 'program', 'will', 'send', 'mail', 'at', 'the', 'rate', 'of', 'over', 'c', 'e', 'mails', 'per', 'minute', 'e', 'nbsp', 'b', 'c', 'fi', 'e', 'c', 'ffont', 'e', 'cbr', 'elegal', 'and', 'fast', 'sending', 'bulk', 'emails', 'nbsp', 'b', 'cbr', 'e', 'cfont', 'color', 'd', 'e', 'ci', 'ebuilt', 'in', 'smtp', 'server', 'nbsp', 'b', 'c', 'fi', 'e', 'c', 'ffont', 'e', 'cbr', 'ehave', 'return', 'path', 'nbsp', 'b', 'cbr', 'ecan', 'check', 'mail', 'address', 'nbsp', 'b', 'cbr', 'e', 'cfont', 'color', 'd', 'e', 'ci', 'emake', 'error', 'send', 'address', 'list', 'remove', 'or', 'send', 'again', 'nbsp', 'b', 'c', 'fi', 'e', 'c', 'ffont', 'e', 'cbr', 'esupport', 'multi', 'threads', 'e', 'nbsp', 'b', 'cbr', 'esupport', 'multi', 'smtp', 'servers', 'e', 'nbsp', 'b', 'cbr', 'emanages', 'your', 'opt', 'in', 'e', 'mail', 'lists', 'nbsp', 'b', 'cbr', 'eoffers', 'an', 'easy', 'to', 'use', 'interface', 'nbsp', 'b', 'cbr', 'eeasy', 'to', 'configure', 'and', 'use', 'nbsp', 'b', 'c', 'fb', 'e', 'c', 'ffont', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cfont', 'face', 'darial', 'e', 'ca', 'href', 'd', 'http', 'a', 'f', 'fwww', 'ewldinfo', 'ecom', 'fbj', 'fdownload', 'fedeb', 'fset', 'ezip', 'e', 'cstrong', 'edownload', 'now', 'c', 'fstrong', 'e', 'c', 'fa', 'e', 'c', 'ffont', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cstrong', 'e', 'cfont', 'color', 'd', 'ff', 'face', 'darial', 'size', 'd', 'emaillist', 'verify', 'c', 'ffont', 'e', 'c', 'fstrong', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cfont', 'face', 'darial', 'emaillist', 'verify', 'is', 'intended', 'for', 'e', 'mail', 'addresses', 'and', 'mail', 'lists', 'verifying', 'e', 'the', 'main', 'task', 'is', 'to', 'determine', 'which', 'of', 'addresses', 'in', 'the', 'mail', 'list', 'are', 'dead', 'e', 'the', 'program', 'is', 'oriented', 'c', 'basically', 'c', 'on', 'programmers', 'which', 'have', 'their', 'own', 'mail', 'lists', 'to', 'inform', 'their', 'users', 'about', 'new', 'versions', 'of', 'their', 'programs', 'e', 'c', 'ffont', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cfont', 'face', 'darial', 'ethe', 'program', 'works', 'on', 'the', 'same', 'algorithm', 'as', 'isp', 'mail', 'systems', 'do', 'e', 'mail', 'servers', 'addresses', 'for', 'specified', 'address', 'are', 'extracted', 'from', 'dns', 'e', 'the', 'program', 'tries', 'to', 'connect', 'with', 'found', 'smtp', 'servers', 'and', 'simulates', 'the', 'sending', 'of', 'message', 'e', 'it', 'does', 'not', 'come', 'to', 'the', 'message', 'cnobr', 'esending', 'b', 'fnobr', 'gt', 'b', 'emv', 'disconnect', 'as', 'soon', 'as', 'mail', 'server', 'informs', 'does', 'this', 'address', 'exist', 'or', 'not', 'e', 'emv', 'can', 'find', 'c', 'fnobr', 'e', 'c', 'ffont', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cfont', 'face', 'darial', 'e', 'cnobr', 'e', 'nbsp', 'babout', 'of', 'dead', 'addresses', 'b', 'fnobr', 'gt', 'b', 'some', 'mail', 'systems', 'receive', 'all', 'messages', 'and', 'only', 'then', 'see', 'their', 'nbsp', 'b', 'c', 'fnobr', 'e', 'c', 'ffont', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cfont', 'face', 'darial', 'e', 'cnobr', 'eaddresses', 'and', 'if', 'the', 'address', 'is', 'dead', 'send', 'the', 'message', 'back', 'with', 'remark', 'about', 'it', 'e', 'c', 'fnobr', 'e', 'c', 'ffont', 'e', 'c', 'fp', 'e', 'cnobr', 'e', 'cp', 'e', 'ca', 'href', 'd', 'http', 'a', 'f', 'fwww', 'ewldinfo', 'ecom', 'fbj', 'fdownload', 'fbemv', 'fset', 'ezip', 'e', 'cstrong', 'e', 'cfont', 'face', 'darial', 'size', 'd', 'edownload', 'now', 'c', 'ffont', 'e', 'c', 'fstrong', 'e', 'c', 'fa', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cstrong', 'e', 'cfont', 'color', 'd', 'ff', 'face', 'darial', 'size', 'd', 'eexpress', 'email', 'blaster', 'nbsp', 'b', 'c', 'ffont', 'e', 'c', 'fstrong', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cfont', 'face', 'darial', 'eexpress', 'email', 'blaster', 'nbsp', 'b', 'is', 'a', 'very', 'fast', 'c', 'powerful', 'yet', 'simple', 'to', 'use', 'email', 'sender', 'e', 'utilizing', 'multiple', 'threads', 'fconnections', 'c', 'ffont', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cfont', 'face', 'darial', 'e', 'nbsp', 'band', 'multiple', 'smtp', 'servers', 'your', 'emails', 'will', 'be', 'sent', 'out', 'fast', 'and', 'easily', 'e', 'there', 'are', 'user', 'information', 'c', 'attach', 'files', 'c', 'nbsp', 'b', 'c', 'ffont', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cfont', 'face', 'darial', 'eaddress', 'and', 'mail', 'logs', 'four', 'tabbed', 'area', 'for', 'the', 'e', 'mails', 'details', 'for', 'sending', 'e', 'about', 'smtp', 'servers', 'come', 'with', 'the', 'nbsp', 'b', 'c', 'ffont', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cfont', 'face', 'darial', 'edemo', 'version', 'c', 'and', 'users', 'may', 'add', 'and', 'delete', 'smtp', 'servers', 'e', 'about', 'cfont', 'color', 'd', 'e', 'cb', 'e', 'c', 'c', 'fb', 'e', 'c', 'ffont', 'e', 'e', 'mails', 'will', 'be', 'sent', 'out', 'per', 'hour', 'e', 'c', 'ffont', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cstrong', 'e', 'ca', 'href', 'd', 'http', 'a', 'f', 'fwww', 'ewldinfo', 'ecom', 'fbj', 'fdownload', 'fbeeb', 'fset', 'ezip', 'e', 'cfont', 'face', 'darial', 'size', 'd', 'edownload', 'now', 'c', 'ffont', 'e', 'c', 'fa', 'e', 'c', 'fstrong', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cstrong', 'e', 'cfont', 'color', 'd', 'ff', 'face', 'darial', 'size', 'd', 'eexpress', 'email', 'address', 'extractor', 'c', 'ffont', 'e', 'c', 'fstrong', 'e', 'c', 'fp', 'e', 'cfont', 'size', 'd', 'e', 'cp', 'e', 'cfont', 'color', 'd', 'size', 'd', 'ethis', 'program', 'is', 'the', 'most', 'efficient', 'c', 'easy', 'to', 'use', 'email', 'address', 'collector', 'available', 'on', 'the', 'c', 'ffont', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cfont', 'face', 'darial', 'e', 'cfont', 'color', 'd', 'size', 'd', 'e', 'nbsp', 'binternet', 'c', 'ffont', 'e', 'cfont', 'color', 'd', 'size', 'd', 'ebeijing', 'express', 'email', 'address', 'extractor', 'expresseae', 'is', 'designed', 'to', 'extract', 'c', 'ffont', 'e', 'c', 'ffont', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cfont', 'color', 'd', 'size', 'd', 'e', 'nbsp', 'be', 'mail', 'addresses', 'from', 'web', 'pages', 'on', 'the', 'internet', 'using', 'http', 'protocols', 'eexpresseae', 'c', 'ffont', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cfont', 'color', 'd', 'size', 'd', 'e', 'nbsp', 'bsupports', 'operation', 'through', 'many', 'proxy', 'server', 'and', 'works', 'very', 'fast', 'c', 'as', 'it', 'is', 'able', 'of', 'nbsp', 'b', 'c', 'ffont', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cfont', 'color', 'd', 'size', 'd', 'eloading', 'several', 'pages', 'simultaneously', 'c', 'and', 'requires', 'very', 'few', 'resources', 'e', 'c', 'ffont', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cfont', 'color', 'd', 'face', 'darial', 'e', 'cfont', 'size', 'd', 'ewith', 'it', 'c', 'you', 'will', 'be', 'able', 'to', 'c', 'ffont', 'e', 'cfont', 'size', 'd', 'e', 'c', 'ffont', 'e', 'cfont', 'size', 'd', 'euse', 'targeted', 'searches', 'to', 'crawl', 'the', 'world', 'wide', 'web', 'c', 'extracting', 'nbsp', 'b', 'c', 'ffont', 'e', 'c', 'ffont', 'e', 'cp', 'e', 'cfont', 'color', 'd', 'face', 'darial', 'size', 'd', 'ethousands', 'of', 'clean', 'c', 'fresh', 'email', 'addresses', 'e', 'ably', 'email', 'address', 'extractor', 'is', 'unlike', 'other', 'nbsp', 'b', 'c', 'ffont', 'e', 'cp', 'e', 'cfont', 'color', 'd', 'face', 'darial', 'size', 'd', 'eaddress', 'collecting', 'programs', 'c', 'which', 'limit', 'you', 'to', 'one', 'or', 'two', 'search', 'engines', 'and', 'are', 'unable', 'c', 'ffont', 'e', 'cp', 'e', 'cfont', 'color', 'd', 'face', 'darial', 'size', 'd', 'e', 'nbsp', 'bto', 'do', 'auto', 'searches', 'huge', 'address', 'e', 'most', 'of', 'them', 'collect', 'a', 'high', 'percentage', 'of', 'incomplete', 'c', 'nbsp', 'b', 'c', 'ffont', 'e', 'cp', 'e', 'cfont', 'color', 'd', 'face', 'darial', 'size', 'd', 'eunusable', 'addresses', 'which', 'will', 'cause', 'you', 'serious', 'problems', 'when', 'using', 'them', 'in', 'a', 'mailing', 'e', 'nbsp', 'b', 'c', 'ffont', 'e', 'cul', 'e', 'cli', 'e', 'cfont', 'color', 'd', 'face', 'darial', 'size', 'd', 'eeasier', 'to', 'learn', 'and', 'use', 'than', 'any', 'other', 'email', 'address', 'collector', 'program', 'available', 'e', 'c', 'ffont', 'e', 'cli', 'e', 'cfont', 'color', 'd', 'face', 'darial', 'size', 'd', 'eaccesses', 'eight', 'search', 'engines', 'nbsp', 'b', 'c', 'ffont', 'e', 'cli', 'e', 'cfont', 'color', 'd', 'face', 'darial', 'size', 'd', 'eadd', 'your', 'own', 'urls', 'to', 'the', 'list', 'to', 'be', 'searched', 'c', 'ffont', 'e', 'cli', 'e', 'cfont', 'face', 'darial', 'size', 'd', 'e', 'cfont', 'color', 'd', 'esupports', 'operation', 'through', 'c', 'ffont', 'e', 'cfont', 'color', 'd', 'ff', 'ff', 'ea', 'lot', 'of', 'c', 'ffont', 'e', 'cfont', 'color', 'd', 'e', 'proxy', 'server', 'and', 'works', 'very', 'fast', 'http', 'proxy', 'c', 'ffont', 'e', 'c', 'ffont', 'e', 'cli', 'e', 'cfont', 'color', 'd', 'face', 'darial', 'size', 'd', 'eable', 'of', 'loading', 'several', 'pages', 'simultaneously', 'c', 'ffont', 'e', 'cli', 'e', 'cfont', 'color', 'd', 'face', 'darial', 'size', 'd', 'erequires', 'very', 'few', 'resources', 'c', 'ffont', 'e', 'cli', 'e', 'cfont', 'color', 'd', 'face', 'darial', 'size', 'd', 'etimeout', 'feature', 'allows', 'user', 'to', 'limit', 'the', 'amount', 'of', 'time', 'crawling', 'in', 'dead', 'sites', 'and', 'traps', 'e', 'c', 'ffont', 'e', 'cli', 'e', 'cfont', 'face', 'darial', 'size', 'd', 'e', 'cfont', 'color', 'd', 'eeasy', 'to', 'make', 'c', 'ffont', 'e', 'cfont', 'color', 'd', 'ff', 'ff', 'ehuge', 'c', 'ffont', 'e', 'cfont', 'color', 'd', 'e', 'address', 'list', 'c', 'ffont', 'e', 'c', 'ffont', 'e', 'cli', 'e', 'cfont', 'color', 'd', 'face', 'darial', 'size', 'd', 'epause', 'fcontinue', 'extraction', 'at', 'any', 'time', 'e', 'c', 'ffont', 'e', 'cli', 'e', 'cfont', 'color', 'd', 'face', 'darial', 'size', 'd', 'eauto', 'connection', 'to', 'the', 'internet', 'c', 'ffont', 'e', 'c', 'fli', 'e', 'c', 'ful', 'e', 'cdiv', 'e', 'cstrong', 'e', 'ca', 'href', 'd', 'http', 'a', 'f', 'fwww', 'ewldinfo', 'ecom', 'fbj', 'fdownload', 'feeae', 'fset', 'ezip', 'e', 'cfont', 'color', 'd', 'face', 'darial', 'size', 'd', 'edownload', 'now', 'c', 'ffont', 'e', 'c', 'fa', 'e', 'c', 'fstrong', 'e', 'c', 'fdiv', 'e', 'cdiv', 'e', 'cstrong', 'e', 'cfont', 'color', 'd', 'ff', 'face', 'darial', 'eexpress', 'email', 'address', 'downloader', 'c', 'ffont', 'e', 'c', 'fstrong', 'e', 'c', 'fdiv', 'e', 'cul', 'e', 'cli', 'e', 'cfont', 'face', 'darial', 'e', 'cstrong', 'e', 'cfont', 'color', 'd', 'size', 'd', 'eexpressead', 'nbsp', 'b', 'c', 'ffont', 'e', 'cfont', 'color', 'd', 'size', 'd', 'eis', 'a', 'bit', 'windows', 'program', 'for', 'e', 'mail', 'marketing', 'e', 'it', 'is', 'intended', 'for', 'easy', 'and', 'convenient', 'c', 'ffont', 'e', 'c', 'fstrong', 'e', 'c', 'ffont', 'e', 'cli', 'e', 'cfont', 'face', 'darial', 'e', 'cstrong', 'e', 'cfont', 'color', 'd', 'size', 'd', 'e', 'nbsp', 'bsearch', 'large', 'e', 'mail', 'address', 'lists', 'from', 'mail', 'servers', 'e', 'the', 'program', 'can', 'be', 'operated', 'on', 'nbsp', 'b', 'c', 'ffont', 'e', 'c', 'fstrong', 'e', 'c', 'ffont', 'e', 'cli', 'e', 'cfont', 'face', 'darial', 'e', 'cstrong', 'e', 'cfont', 'color', 'd', 'size', 'd', 'ewindows', 'f', 'fme', 'f', 'and', 'nt', 'e', 'c', 'ffont', 'e', 'c', 'fstrong', 'e', 'c', 'ffont', 'e', 'cli', 'e', 'cfont', 'face', 'darial', 'e', 'cstrong', 'e', 'cfont', 'color', 'd', 'size', 'd', 'eexpressead', 'nbsp', 'b', 'c', 'ffont', 'e', 'cfont', 'color', 'd', 'size', 'd', 'esupport', 'multi', 'threads', 'up', 'to', 'connections', 'e', 'c', 'ffont', 'e', 'c', 'fstrong', 'e', 'c', 'ffont', 'e', 'cli', 'e', 'cfont', 'face', 'darial', 'e', 'cstrong', 'e', 'cfont', 'color', 'd', 'size', 'd', 'eexpressead', 'nbsp', 'b', 'c', 'ffont', 'e', 'cfont', 'color', 'd', 'size', 'd', 'ehas', 'the', 'ability', 'nbsp', 'b', 'to', 'reconnect', 'to', 'the', 'mail', 'server', 'if', 'the', 'server', 'has', 'disconnected', 'and', 'nbsp', 'b', 'c', 'ffont', 'e', 'c', 'fstrong', 'e', 'c', 'ffont', 'e', 'cli', 'e', 'cfont', 'face', 'darial', 'e', 'cstrong', 'e', 'cfont', 'color', 'd', 'size', 'd', 'econtinue', 'the', 'searching', 'at', 'the', 'point', 'where', 'it', 'has', 'been', 'interrupted', 'e', 'c', 'ffont', 'e', 'c', 'fstrong', 'e', 'c', 'ffont', 'e', 'cli', 'e', 'cfont', 'face', 'darial', 'e', 'cstrong', 'e', 'cfont', 'color', 'd', 'size', 'd', 'eexpressead', 'nbsp', 'b', 'c', 'ffont', 'e', 'cfont', 'color', 'd', 'size', 'd', 'ehas', 'an', 'ergonomic', 'interface', 'that', 'is', 'easy', 'to', 'set', 'up', 'and', 'simple', 'to', 'use', 'e', 'c', 'ffont', 'e', 'c', 'fstrong', 'e', 'c', 'ffont', 'e', 'c', 'fli', 'e', 'c', 'ful', 'e', 'cdiv', 'e', 'cfont', 'face', 'darial', 'e', 'nbsp', 'b', 'c', 'ffont', 'e', 'c', 'fdiv', 'e', 'cp', 'e', 'cfont', 'face', 'darial', 'e', 'cstrong', 'e', 'cfont', 'color', 'd', 'face', 'darial', 'size', 'd', 'efeatures', 'a', 'c', 'ffont', 'e', 'c', 'fstrong', 'e', 'c', 'ffont', 'e', 'cul', 'type', 'ddisc', 'e', 'cli', 'e', 'cfont', 'face', 'darial', 'e', 'cstrong', 'e', 'cfont', 'face', 'darial', 'size', 'd', 'esupport', 'multi', 'threads', 'e', 'c', 'ffont', 'e', 'c', 'fstrong', 'e', 'c', 'ffont', 'e', 'cli', 'e', 'cfont', 'face', 'darial', 'e', 'cstrong', 'e', 'cfont', 'face', 'darial', 'size', 'd', 'eauto', 'get', 'smtp', 'server', 'address', 'csupport', 'multi', 'smtp', 'servers', 'e', 'c', 'ffont', 'e', 'c', 'fstrong', 'e', 'c', 'ffont', 'e', 'cli', 'e', 'cfont', 'face', 'darial', 'e', 'cstrong', 'e', 'cfont', 'face', 'darial', 'size', 'd', 'eauto', 'save', 'nbsp', 'b', 'e', 'mail', 'lists', 'c', 'ffont', 'e', 'c', 'fstrong', 'e', 'c', 'ffont', 'e', 'cli', 'e', 'cfont', 'face', 'darial', 'e', 'cstrong', 'e', 'cfont', 'face', 'darial', 'size', 'd', 'eoffers', 'an', 'easy', 'to', 'use', 'interface', 'c', 'ffont', 'e', 'c', 'fstrong', 'e', 'c', 'ffont', 'e', 'c', 'fli', 'e', 'c', 'ful', 'e', 'cdiv', 'e', 'cstrong', 'e', 'ca', 'href', 'd', 'http', 'a', 'f', 'fwww', 'ewldinfo', 'ecom', 'fbj', 'fdownload', 'feead', 'fset', 'ezip', 'e', 'cfont', 'color', 'd', 'face', 'darial', 'size', 'd', 'edownload', 'now', 'c', 'ffont', 'e', 'c', 'fa', 'e', 'c', 'fstrong', 'e', 'c', 'fdiv', 'e', 'cdiv', 'e', 'cfont', 'face', 'darial', 'e', 'nbsp', 'b', 'c', 'ffont', 'e', 'c', 'fdiv', 'e', 'cdiv', 'e', 'cstrong', 'e', 'cfont', 'color', 'd', 'ff', 'face', 'darial', 'eexpress', 'maillist', 'manager', 'c', 'ffont', 'e', 'c', 'fstrong', 'e', 'c', 'fdiv', 'e', 'cdiv', 'e', 'cfont', 'face', 'darial', 'e', 'nbsp', 'b', 'c', 'ffont', 'e', 'c', 'fdiv', 'e', 'cdiv', 'e', 'cfont', 'size', 'd', 'e', 'cp', 'e', 'cfont', 'face', 'darial', 'e', 'cfont', 'color', 'dblack', 'size', 'd', 'ethis', 'program', 'was', 'designed', 'to', 'be', 'a', 'complement', 'to', 'the', 'c', 'ffont', 'e', 'cfont', 'color', 'd', 'size', 'd', 'edirect', 'email', 'blaster', 'nbsp', 'b', 'c', 'ffont', 'e', 'cfont', 'color', 'dblack', 'size', 'd', 'eand', 'c', 'ffont', 'e', 'cfont', 'color', 'd', 'size', 'd', 'eemail', 'blaster', 'c', 'ffont', 'e', 'c', 'ffont', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cfont', 'face', 'darial', 'e', 'cfont', 'color', 'dblack', 'size', 'd', 'esuite', 'of', 'bulk', 'email', 'software', 'programs', 'e', 'its', 'purpose', 'is', 'to', 'organize', 'your', 'email', 'lists', 'in', 'order', 'to', 'be', 'more', 'nbsp', 'b', 'c', 'ffont', 'e', 'c', 'ffont', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cfont', 'face', 'darial', 'e', 'cfont', 'color', 'dblack', 'size', 'd', 'eeffective', 'with', 'your', 'email', 'marketing', 'campaign', 'e', 'some', 'of', 'its', 'features', 'include', 'a', 'c', 'ffont', 'e', 'c', 'ffont', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cb', 'e', 'cfont', 'color', 'd', 'face', 'darial', 'e', 'cfont', 'size', 'd', 'e', 'bcombine', 'several', 'lists', 'into', 'one', 'file', 'e', 'c', 'ffont', 'e', 'cbr', 'e', 'cfont', 'size', 'd', 'e', 'bsplit', 'up', 'larger', 'lists', 'to', 'make', 'them', 'more', 'manageable', 'e', 'c', 'ffont', 'e', 'cbr', 'e', 'cfont', 'size', 'd', 'e', 'bremove', 'addresses', 'from', 'file', 'e', 'c', 'ffont', 'e', 'cbr', 'e', 'cfont', 'size', 'd', 'e', 'bmanual', 'editing', 'c', 'adding', 'c', 'and', 'deleting', 'of', 'addresses', 'e', 'c', 'ffont', 'e', 'cbr', 'e', 'cfont', 'size', 'd', 'e', 'bability', 'to', 'auto', 'clean', 'lists', 'c', 'that', 'is', 'c', 'remove', 'any', 'duplicate', 'or', 'unwanted', 'addresses', 'e', 'c', 'ffont', 'e', 'cbr', 'e', 'cfont', 'size', 'd', 'e', 'bmaintain', 'all', 'your', 'address', 'lists', 'within', 'the', 'program', 'so', 'you', 'no', 'nbsp', 'b', 'longer', 'need', 'to', 'keep', 'all', 'your', 'c', 'ffont', 'e', 'c', 'ffont', 'e', 'c', 'fb', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cb', 'e', 'cfont', 'color', 'd', 'face', 'darial', 'size', 'd', 'e', 'nbsp', 'blists', 'saved', 'as', 'separate', 'text', 'files', 'e', 'c', 'ffont', 'e', 'c', 'fb', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cstrong', 'e', 'ca', 'href', 'd', 'http', 'a', 'f', 'fwww', 'ewldinfo', 'ecom', 'fbj', 'fdownload', 'fbemm', 'fset', 'ezip', 'e', 'cfont', 'color', 'd', 'face', 'darial', 'size', 'd', 'edownload', 'now', 'c', 'ffont', 'e', 'c', 'fa', 'e', 'c', 'fstrong', 'e', 'c', 'fp', 'e', 'cp', 'e', 'cfont', 'face', 'darial', 'e', 'nbsp', 'b', 'c', 'ffont', 'e', 'c', 'fp', 'e', 'cp', 'e', 'nbsp', 'b', 'c', 'fp', 'e', 'cdiv', 'e', 'cfont', 'face', 'darial', 'eif', 'you', 'want', 'to', 'remove', 'your', 'email', 'c', 'please', 'send', 'email', 'to', 'ca', 'href', 'd', 'mailto', 'atargetemailremoval', 'btamail', 'enet', 'ecn', 'etargetemailremoval', 'btamail', 'enet', 'ecn', 'c', 'fa', 'e', 'c', 'ffont', 'e', 'c', 'fdiv', 'e', 'cdiv', 'e', 'cfont', 'face', 'darial', 'e', 'nbsp', 'b', 'c', 'ffont', 'e', 'c', 'fdiv', 'e', 'cdiv', 'e', 'cfont', 'face', 'darial', 'e', 'nbsp', 'b', 'c', 'ffont', 'e', 'c', 'fdiv', 'e', 'cdiv', 'e', 'nbsp', 'b', 'c', 'fdiv', 'e', 'c', 'ffont', 'e', 'c', 'fdiv', 'e', 'c', 'ffont', 'e', 'c', 'fnobr', 'e', 'c', 'ffont', 'e', 'c', 'ffont', 'e', 'c', 'fdiv', 'e', 'this', 'sf', 'net', 'email', 'is', 'sponsored', 'by', 'thinkgeek', 'welcome', 'to', 'geek', 'heaven', 'http', 'thinkgeek', 'com', 'sf', 'webmake', 'talk', 'mailing', 'list', 'webmake', 'talk', 'lists', 'sourceforge', 'net', 'https', 'lists', 'sourceforge', 'net', 'lists', 'listinfo', 'webmake', 'talk'])].
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.

In [52]:
from sklearn.feature_extraction.text import TfidfVectorizer,CountVectorizer

# Split the data into train and test sets
X_train, X_test, y_train, y_test = train_test_split(df['text'], df['label'], test_size=0.2, random_state=42)

# Define the pipeline
pipeline = Pipeline([
    ('clean_text', CleanTextTransformer(text_split=False)),
    ('vectorizer', TfidfVectorizer()),
    ('classifier', LogisticRegression())
])

# Train the pipeline
pipeline.fit(X_train, y_train)

# Make predictions
y_pred = pipeline.predict(X_test)

<class 'pandas.core.series.Series'>
False
<class 'pandas.core.series.Series'>
False


In [53]:
from sklearn.metrics import accuracy_score
acc = accuracy_score(y_test, y_pred)
print(acc)

0.9834224598930481


In [None]:
# Fit the pipeline on the training data
pipeline.fit(X_train, y_train)
print(X_train.shape, y_train.shape)

# Predict using the pipeline
y_pred = pipeline.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print("Accuracy: ", acc)

In [38]:
from sklearn.feature_extraction.text import TfidfVectorizer,CountVectorizer

# Splitting the data
X = df['text']
y = df['label']

# Instantiate the custom transformer and vectorizer
cleaner = CleanTextTransformer(text_split=True)
countvectorizer = CountVectorizer(analyzer= 'word', stop_words='english')
tfidfvectorizer = TfidfVectorizer(analyzer='word',stop_words= 'english')

# Apply the custom transformer
X_cleaned = cleaner.fit_transform(X)

<class 'pandas.core.series.Series'>


In [39]:
# Ensure the input to TfidfVectorizer is a 1D array of strings
X_vectorized = countvectorizer.fit_transform(X_cleaned)

# Train-test split
X_train, X_test, y_train, y_test = train_test_split(X_vectorized, y, test_size=0.33, random_state=42)


In [40]:
# Fit a KNeighborsClassifier as an example
model = KNeighborsClassifier()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

NameError: name 'KNeighborsClassifier' is not defined

In [None]:
from sklearn.metrics import accuracy_score
acc = accuracy_score(y_test, y_pred)
print(acc)