# Фильтрация документов


<p> В этой главе мы покажем, как можно классифицировать документы по их содержимому.
Это очень полезное применение искусственного интеллекта получает все большее распространение, и в первую 
очередь для фильтрации спама. Из-за легкодоступности и исключительной дешевизны отправки сообщений по электронной почте 
возникла серьезная проблема – любой человек, чей адрес попал в нечистоплотные руки, начинает получать непрошенную почту, а это 
затрудняет выделение действительных важных писем.</p>


<p> Разумеется, проблеме спама подвержена не только электронная почта.
Веб-сайты, ставшие со временем более интерактивными, предлагают
посетителям оставлять свои комментарии и даже создавать оригинальный контент. И это тоже оставляет возможность для спама. Публичные форумы, например Yahoo! Groups и Usenet, уже давно стали мишенями для размещения не относящихся к теме форума сообщений или
рекламы сомнительной продукции. Теперь от той же напасти страдают
сайты Википедии и блоги. При создании приложений, разрешающих
что-то публиковать любому желающему, необходимо заранее подумать
о том, как бороться со спамом.
Описанные в этой главе алгоритмы применимы не только для фильтрации спама. Они решают общую задачу обучения распознаванию того,
принадлежит ли документ к той или иной категории, а стало быть, могут применяться и для не столь дурно пахнущих целей. Например,
можно автоматически рассортировать поступающую в ваш ящик почту на письма, относящиеся к работе и к личной жизни. Или распознавать письма с запросом информации и автоматически направлять их
лицу, способному дать наиболее компетентный ответ. В конце главы
мы приведем пример автоматической классификации сообщений из
RSS-канала.</p>


## Фильтрация спама
Первые попытки фильтрации спама полагались на классификаторы на
основе правил, когда человек сам формулировал правила, в соответствии с которыми сообщение признавалось полезным или спамом.
Обычно правила касались слишком большого числа заглавных букв,
упоминания фармацевтической продукции или чрезмерно пестрой
раскраски. Но довольно быстро выявился очевидный недостаток подобных классификаторов – спамеры изучили все правила и перестали
явно выдавать себя, научившись обходить фильтры. И наоборот, люди,
чьи престарелые родители так и не научились нажимать клавишу Caps
Lock, обнаружили, что вполне нормальные сообщения от них классифицируются как спам.
У фильтров на основе правил есть и еще один минус. Признаки спама
меняются в зависимости от того, откуда отправлено сообщение и кому
оно адресовано. Ключевые слова, которые для одного пользователя,
форума или раздела Википедии служат несомненным признаком спама, в другой ситуации считаются совершенно нормальными. Чтобы
разрешить эту проблему, мы в данной главе рассмотрим программы,
которые обучаются по мере того, как вы сообщаете им, что считать
спамом, а что нет, причем это происходит как на начальной стадии,
так и в процессе получения новых сообщений. Таким образом можно
подготовить различные экземпляры и наборы данных для разных
пользователей, групп и сайтов, каждый из которых будет по-своему
уточнять, что такое спам.

## Документы и слова
Классификатору, который мы построим, будут необходимы признаки
для классификации различных образцов. Признаком можно считать
любое свойство, относительно которого можно сказать, присутствует
оно в образце или нет. Если классифицируются документы, то образцом считается документ, а признаками – встречающиеся в нем слова.
Когда слова рассматриваются как признаки, мы предполагаем, что некоторые слова вероятнее встретить в спаме, чем в нормальных сообщениях. Именно это допущение лежит в основе большинство антиспамных фильтров. Но никто не заставляет ограничиваться только словами. В качестве признаков можно рассматривать пары слов, целые фразы и вообще все, о чем можно сказать, присутствует оно в документе
или отсутствует.
Создадим функцию <b>getwords</b>,
которая будет извлекать признаки из текста:

In [40]:
import re
import math
def getwords(doc):
    splitter=re.compile('\s')
    # Split the words by non-alpha characters
    words=[s.lower() for s in splitter.split(doc) if len(s)>2 and len(s)<20] 
    # Return the unique set of words only
    return dict([(w,1) for w in words])

<p>Эта функция разбивает текст на слова по любому символу, отличномуот буквы. Она оставляет только сами слова, преобразованные в нижний регистр. Решить, что будет считаться признаками, – это самая сложная и самая важная задача. Признаки должны быть достаточно распространенными, чтобы встречаться часто, но не настолько распространенными, чтобы попадаться в каждом документе. Теоретически признаком может быть весь текст документа, но это почти всегда бессмысленно, разве что вы получаете одно и то же сообщение снова и снова. Другая крайность – объявить признаками отдельные символы. Но, поскольку они входят в каждое сообщение, то не позволят отделить зерна от плевел. Даже при выборе слов в качестве признаков возникает ряд вопросов: как выделять слова, какие знаки препинания в них включать и следует ли учитывать информацию в заголовке.</p>
<p>Еще один фактор, который нужно принимать во внимание, когда выбирается набор признаков, – насколько хорошо они смогут распределить документы по категориям. Например, приведенная выше функция getwords сокращает число признаков, приводя все слова к нижнему регистру. Это означает, что написанное заглавными буквами слово, встречающееся в начале предложения, ничем не отличается от такого же слова, написанного строчными буквами, в середине предложения. Но тем самым мы полностью игнорируем КРИКЛИВЫЙ стиль, характерный для многих спамных сообщений, а это мог бы быть важный классифицирующий признак спама. Альтернативной могло быть стать объявление признаком такой характеристики: более половины слов написаны заглавными буквами. 
<p>Как видите, при выборе признаков приходится идти на различные компромиссы и постоянно уточнять ранее принятые решения. Пока
    мы будем пользоваться простой функцией <b>getwords</b>, а в конце главы предложим ряд идей по совершенствованию механизма выделения
признаков.</p>

## Обучение классификатора
<p> Рассматриваемые в этой главе классификаторы способны обучаться тому, как надо классифицировать документы. Многие алгоритмы, в частности нейронные сети, обучаются, когда им предъявляют примеры правильных ответов. Чем больше документов и правильных способов классификации видит алгоритм, тем лучше он классифицирует последующие документы. Кроме того, в начальный момент классификатор намеренно делают очень «робким», так чтобы его «уверенность в себе» повышалась по мере того, как он узнает, какие признаки важны для проведения различий.</p>
<p>Прежде всего нам понадобится класс для представления классификатора. Он инкапсулирует те факты, которым классификатор успел обучиться. У такой структуры есть важное достоинство – можно создавать
разные экземпляры классификаторов, ориентированные на различных пользователей, группы или запросы, и обучать их в соответствии
с потребностями конкретной группы. Создадим следующий класс <b>classifier</b>:</p>


In [41]:
class classifier:
    def __init__(self,getfeatures,filename=None):
        # Counts of feature/category combinations
        self.fc={}
        # Counts of documents in each category
        self.cc={}
        self.getfeatures=getfeatures

<p>В этом классе есть три переменных экземпляра:<i> fc, cc и getfeatures.</i> В переменной <i>fc</i> хранятся счетчики признаков при различных классификациях: например:
    <i>{'python': {'bad': 0, 'good': 6}, 'the': {'bad': 3, 'good': 3}}</i>
Это означает, что слово the трижды появлялось в документах, классифицированных как плохие, и трижды – в документах, классифицированных как хорошие. Слово Python появлялось только в хороших документах.</p>
<p>Переменная <i>cc</i> – это словарь, в котором отражено, сколько раз применялась каждая классификация. Это необходимо для вычисления вероятности, о чем чуть позже. И последняя переменная экземпляра, <i>getfeatures</i>, – это функция, с помощью которой из классифицируемых образцов выделяются признаки. В нашем примере это функция <b>getwords</b>.</p>
Методы класса не будут пользоваться этими словарями напрямую, поскольку это ограничило бы возможности для сохранения данных
обучения – в файле, в базе или еще где-то. Создадим следующие вспомогательные функции для увеличения и получения счетчиков:

In [42]:
class classifier:
    def __init__(self,getfeatures,filename=None):
        # Counts of feature/category combinations
        self.fc={}
        # Counts of documents in each category
        self.cc={}
        self.getfeatures=getfeatures

    def incf(self,f,cat):  
        self.fc.setdefault(f,{})  
        self.fc[f].setdefault(cat,0)  
        self.fc[f][cat]+=1
        
    def incc(self,cat):  
        self.cc.setdefault(cat,0)  
        self.cc[cat]+=1
        
    def fcount(self,f,cat):  
        if (f in self.fc) and (cat in self.fc[f]):    
            return float(self.fc[f][cat])  
        return 0.0
    
    def catcount(self,cat):  
        if cat in self.cc:    
            return float(self.cc[cat])  
        return 0
    
    def totalcount(self):  
        return sum(self.cc.values( ))
    
    def categories(self):  
        return self.cc.keys( )
    
    def train(self,item,cat):  
        features=self.getfeatures(item)  
        # Увеличить счетчики для каждого признака в данной классификации
        for f in features:    
            self.incf(f,cat)  
            # Увеличить счетчик применений этой классификации  
        self.incc(cat)

Убедимся, что класс работает правильно

In [43]:
cl=classifier(getwords)
cl.train('the quick brown fox jumps over the lazy dog','good');
cl.train('make quick money in the online casino','bad');
cl.fcount('quick','good')

1.0

In [44]:
cl.fcount('quick','good')

1.0

Метод <i>train</i> принимает образец (в данном случае документ) и классификацию. С помощью функции getfeatures он выделяет из образца признаки. Затем он вызывает метод <i>incf</i>, чтобы увеличить счетчики для каждого признака в данной классификации. И наконец он увеличивает счетчик применений этой классификации:


Сейчас нам был бы полезен метод, который сохраняет в классификаторе некоторые данные, полученные в ходе обучения, чтобы не приходилось каждый раз проводить обучение заново. Добавим такую функцию:


In [45]:
def sampletrain(cl):
    cl.train('Nobody owns the water.','good')
    cl.train('the quick rabbit jumps fences','good')
    cl.train('buy pharmaceuticals now','bad')
    cl.train('make quick money at the online casino','bad')
    cl.train('the quick brown fox jumps','good')

## Вычисление вероятностей
Теперь у нас есть счетчики, показывающие, как сообщения были разнесены по категориям. Следующий шаг – превратить эти числа в вероятности. Вероятностью называется число от 0 до 1, показывающее частоту возникновения некоторого события. В данном случае мы вычисляем вероятность того, что слово принадлежит конкретной категории. Для этого нужно разделить количество вхождений данного слова в документ, отнесенный к этой категории, на общее число документов в той же категории.

Добавим в класс <i>classifier</i> метод <i>fprob</i>:

In [46]:
class classifier:
    def __init__(self,getfeatures,filename=None):
        # Counts of feature/category combinations
        self.fc={}
        # Counts of documents in each category
        self.cc={}
        self.getfeatures=getfeatures

    def incf(self,f,cat):  
        self.fc.setdefault(f,{})  
        self.fc[f].setdefault(cat,0)  
        self.fc[f][cat]+=1
        
    def incc(self,cat):  
        self.cc.setdefault(cat,0)  
        self.cc[cat]+=1
        
    def fcount(self,f,cat):  
        if (f in self.fc) and (cat in self.fc[f]):    
            return float(self.fc[f][cat])  
        return 0.0
    
    def catcount(self,cat):  
        if cat in self.cc:    
            return float(self.cc[cat])  
        return 0
    
    def totalcount(self):  
        return sum(self.cc.values( ))
    
    def categories(self):  
        return self.cc.keys( )
    
    def train(self,item,cat):  
        features=self.getfeatures(item)  
        # Увеличить счетчики для каждого признака в данной классификации
        for f in features:    
            self.incf(f,cat)  
            # Увеличить счетчик применений этой классификации  
        self.incc(cat)
        
        
    def fprob(self,f,cat):  
        if self.catcount(cat)==0: return 0  
        # Общее число раз, когда данный признак появлялся в этой категории,  
        # делим на количество образцов в той же категории  
        return self.fcount(f,cat)/self.catcount(cat)


Эта величина называется условной вероятностью, обычно записывается в виде Pr(A | B) и произносится так: «Вероятность A при условии B». Мы только что вычислили значение Pr(Слово | Классификация); то есть вероятность того, что некоторое слово появитсz в данной классификации. Протестируем эту функцию:


In [47]:
cl=classifier(getwords)
sampletrain(cl)
cl.fprob('quick','good')

0.6666666666666666

### Начинаем с разумной гипотезы
Метод fprob дает точный результат для тех признаков и классифика-ций, которые он уже видел, однако имеется небольшая проблема – ис-пользование лишь той информации, с которой метод уже сталкивался, делает его слишком чувствительным на ранних этапах обучения и по отношению к редко встречающимся словам. В нашем примере слово money (деньги) встретилось только в одном документе, который клас-сифицирован как плохой, потому что содержит рекламу казино. Раз это слово встретилось в одном плохом документе и не встречалось в хо-роших, то вероятность того, что оно может появиться в хороших доку-ментах, согласно функции fprob равна 0. Это, пожалуй, перебор, так как слово money вполне нейтральное, просто ему не повезло – угораздило первый раз встретиться в плохом документе. Было бы разумнее, если бы вероятность постепенно приближалась к нулю по мере того, как об-рабатывается все больше и больше документов в той же категории. 

Чтобы справиться с этой проблемой, мы выберем некую предполагае-мую  вероятность,  которой  будем  пользоваться,  когда  информации о рассматриваемом признаке слишком мало. Хорошей отправной точ-кой может послужить вероятность 0,5. Еще нужно решить, какой вес приписать предполагаемой вероятности, – 1 означает, что вес предпо-лагаемой вероятности равен одному слову. Взвешенная вероятность – это средневзвешенное значение, возвращаемое функцией getprobability, и предполагаемая вероятность.

В рассмотренном выше примере взвешенная вероятность слова money первоначально равна 0,5 во всех категориях. После того как классификатору был предъявлен один плохой документ и он узнал, что слово money  отнесено  к  категории  плохих,  вероятность,  что  оно  окажется плохим, возросла до 0,75. Это значение дает следующее вычисление:

(weight*assumedprob + count*fprob)/(count+weight)

= (1 x 1.0+1 x 0.5) / (1.0 + 1.0)

= 0.75

Добавим метод weightedprob в класс classifier:

In [48]:
class classifier:
    def __init__(self,getfeatures,filename=None):
        # Counts of feature/category combinations
        self.fc={}
        # Counts of documents in each category
        self.cc={}
        self.getfeatures=getfeatures

    def incf(self,f,cat):  
        self.fc.setdefault(f,{})  
        self.fc[f].setdefault(cat,0)  
        self.fc[f][cat]+=1
        
    def incc(self,cat):  
        self.cc.setdefault(cat,0)  
        self.cc[cat]+=1
        
    def fcount(self,f,cat):  
        if (f in self.fc) and (cat in self.fc[f]):    
            return float(self.fc[f][cat])  
        return 0.0
    
    def catcount(self,cat):  
        if cat in self.cc:    
            return float(self.cc[cat])  
        return 0
    
    def totalcount(self):  
        return sum(self.cc.values( ))
    
    def categories(self):  
        return self.cc.keys( )
    
    def train(self,item,cat):  
        features=self.getfeatures(item)  
        # Увеличить счетчики для каждого признака в данной классификации
        for f in features:    
            self.incf(f,cat)  
            # Увеличить счетчик применений этой классификации  
        self.incc(cat)
        
        
    def fprob(self,f,cat):  
        if self.catcount(cat)==0: return 0  
        # Общее число раз, когда данный признак появлялся в этой категории,  
        # делим на количество образцов в той же категории  
        return self.fcount(f,cat)/self.catcount(cat)    
    def weightedprob(self,f,cat,prf,weight=1.0,ap=0.5):
        # Calculate current probability
        basicprob=prf(f,cat)

        # Count the number of times this feature has appeared in
        # all categories
        totals=sum([self.fcount(f,c) for c in self.categories()])

        # Calculate the weighted average
        bp=((weight*ap)+(totals*basicprob))/(weight+totals)
        return bp


Протестируйм эту функцию в интерактивном сеансе. Перезагрузите модуль и повторно выполните метод sampletrain, поскольку при создании нового экземпляра класса вся накопленная за время обучения информация стирается:

In [49]:
cl=classifier(getwords)
sampletrain(cl)
print(cl.weightedprob('money','good',cl.fprob))
sampletrain(cl)
print(cl.weightedprob('money','good',cl.fprob))

0.25
0.16666666666666666


Как видите, после повторного запуска sampletrain классификатор еще сильнее утвердился во мнении относительно вероятностей различных слов – из-за вклада предполагаемой вероятности.

Мы выбрали для предполагаемой вероятности значение 0,5 просто потому, что оно лежит посередине между 0 и 1. Однако не исключено, что у вас имеется более точная априорная информация даже для необученного классификатора. Например, человек, приступающий к обучению антиспамного фильтра, может позаимствовать вероятности у фильтров, обученных другими людьми. Он по-прежнему сможет настроить фильтр под себя, но при этом классификатор будет лучше обрабатывать редко встречающиеся слова.

# Наивная классификация
Имея вероятности для слов, входящих в документ, вы должны выбрать какой-то способ комбинирования вероятностей отдельных слов для
вычисления вероятности того, что документ в целом принадлежит данной категории. В этой главе мы рассмотрим два разных метода классификации. Оба работают в большинстве случаев, но несколько отличаются по качеству при решении конкретных задач. Предметом этого раздела будет наивный байесовский классификатор.

Слово «наивный» в данном контексте означает следующее: классификатор предполагает, что комбинируемые вероятности независимы друг
от друга. Иными словами, вероятность того, что одно слово в документе относится к некоторой категории, никак не связана с вероятностями отнесения к той же категории других слов. Это предположение неверно, так как шансы, что документы, содержащие слово casino, содержат также и слово money, гораздо выше, чем шансы встретить слово money в документах о программировании на языке Python.

Следовательно, из-за ложного допущения о независимости нельзя использовать вероятность, вычисленную наивным байесовским классификатором, как истинную вероятность того, что документ принадлежит к некоторой категории. Однако можно сравнить результаты, полученные для разных категорий, и посмотреть, для какой из них вероятность оказалась самой большой. На практике, несмотря на ложность сходного предположения, этот метод классификации документов казывается на удивление эффективным.

## Вероятность для всего документа
Чтобы воспользоваться наивным байесовским классификатором, нужно сначала вычислить вероятность для документа в целом в рамках
данной классификации. Поскольку мы предположили, что вероятности независимы, то для этого достаточно их перемножить.

Предположим, например, что слово Python встречается в 20% плохих документов, то есть

*Pr(Python | Плохой) = 0,2,*

а слово casino – в 80% плохих документов:

*Pr(Casino | Плохой) = 0,8.*

Тогда в предположении независимости вероятность появления обоих слов в плохом документе

*Pr(Python & Casino | Плохой) = 0,8 × 0,2 = 0,16.*

Стало быть, вычисление вероятности для документа в целом сводится к перемножению вероятностей отдельных встречающихся в нем слов.

Создадим подкласс naivebayes класса classifier и включим в него метод docprob, который выделяет признаки (слова) и перемножает их вероятности:


In [50]:
class naivebayes(classifier):
    
    def docprob(self,item,cat):
        features=self.getfeatures(item)   

    # Multiply the probabilities of all the features together
        p=1
        for f in features: p*=self.weightedprob(f,cat,self.fprob)
        return p

Теперь вы знаете, как вычислить вероятность Pr(Документ | Категория), но само по себе это не слишком полезно. Для классификации документов нужно знать, чему равно значение Pr(Категория | Документ).

Иными словами, при условии наличия конкретного документа какова вероятность, что он попадает в данную категорию? К счастью, английский математик Томас Байес еще 250 лет назад понял, как это сделать

## Краткое введение в теорему Байеса
Теорема Байеса описывает соотношение между условными вероятностями. Обычно она записывается в виде

*Pr(A | B) = Pr(B | A) × Pr(A) / Pr(B)*

В применении к нашему примеру эта формула принимает следующий вид:

*Pr(Категория | Документ) = Pr(Документ | Категория) × Pr(Категория) / Pr(Документ)*

В предыдущем разделе мы показали, как вычислить Pr(Документ | Категория), но как быть с остальными двумя членами? Ничего сложного.

Pr(Категория) – это вероятность попадания случайно выбранного документа в данную категорию, поэтому она просто равна числу документов из этой категории, поделенному на общее число документов.

Что касается вероятности Pr(Документ), то ее тоже можно было бы вычислить, но это лишний труд. Напомним, что конечный результат не  будет использоваться как истинная вероятность. Мы лишь по отдельности вычислим вероятности попадания в каждую категорию, а затем сравним их. Поскольку величина Pr(Документ) одна и та же для всех категорий, то ее можно попросту игнорировать.

Метод prob вычисляет вероятность попадания в категорию и возвращает произведение Pr(Документ | Категория) и Pr(Категория). Добавим его в класс naivebayes:

In [51]:
class naivebayes(classifier):
        
    def docprob(self,item,cat):
        features=self.getfeatures(item)   

    # Multiply the probabilities of all the features together
        p=1
        for f in features: p*=self.weightedprob(f,cat,self.fprob)
        return p
  
    def prob(self,item,cat):
        catprob=self.catcount(cat)/self.totalcount()
        docprob=self.docprob(item,cat)
        return docprob*catprob


Протестируем эту функцию и посмотрим, как изменяются числа для разных строк и категорий:


In [52]:
cl=naivebayes(getwords)
sampletrain(cl)
print(cl.prob('quick rabbit','good'))
print(cl.prob('quick rabbit','bad'))


0.15624999999999997
0.05


По результатам обучения оказывается следующее: вероятность того, что фраза quick rabbit является частью хорошего документа, гораздо выше, чем плохого.


## Выбор категории
Последним шагом построения наивного байесовского классификатора является выбор категории, к которой следует отнести новый образец. Простейший подход состоит в том, чтобы вычислить вероятности попадания образца в каждую категорию и выбрать ту, для которой вероятность максимальна. Если вам просто нужно определить самое подходящее место, куда положить образец, то такая стратегия годится, но во многих приложениях категории нельзя считать равноценными, а иногда лучше, чтобы классификатор признал, что не знает точного ответа, и не пытался выдать за ответ категорию, для которой вероятность оказалась лишь чуть выше, чем для прочих.

В случае фильтрации спама гораздо важнее избежать классификации хороших сообщений как спама, чем отловить все спамные сообщения
без исключения. С редкими появлениями спамных сообщений в своем почтовом ящике вы готовы будете смириться, а вот помещение важного письма в ящик «Сомнительные» легко может остаться незамеченным. Если же вы внимательно просматриваете этот ящик в поисках важных сообщений, то к чему тогда вообще антиспамный фильтр?

Для решения этой проблемы можно задать для каждой категории минимальное пороговое значение. Чтобы новый образец был отнесен к некоторой категории, его вероятность должна быть по крайней мере на эту величину больше вероятности попадания в любую другую категорию. Эта величина называется порогом. Для фильтрации спама порог отнесения к категории плохих документов можно было бы установить равным 3. Это означает, что вероятность оказаться хорошим документом должна быть хотя бы в 3 раза выше, чем плохим. Для категории «Хороший» задается порог 1, то есть документ будет признаваться хорошим, если вероятность этого хоть чуть-чуть выше, чем для категории «Плохой». Все сообщения, для которых вероятность оказаться «плохим» выше, чем «хорошим», но менее чем в 3 раза, классифицируются как «Неизвестный».

Для задания порогов добавим в класс classifier новую переменную экземпляра, изменив метод инициализации:

In [53]:
class naivebayes(classifier):
  
    def __init__(self,getfeatures):
        classifier.__init__(self,getfeatures)
        self.thresholds={}
        
    def docprob(self,item,cat):
        features=self.getfeatures(item)   

    # Multiply the probabilities of all the features together
        p=1
        for f in features: p*=self.weightedprob(f,cat,self.fprob)
        return p
  
    def prob(self,item,cat):
        catprob=self.catcount(cat)/self.totalcount()
        docprob=self.docprob(item,cat)
        return docprob*catprob

Добавьте два простых метода для установки и получения значений, причем по умолчанию пусть возвращается значение 1,0:


In [54]:
class naivebayes(classifier):
  
    def __init__(self,getfeatures):
        classifier.__init__(self,getfeatures)
        self.thresholds={}
        
    def docprob(self,item,cat):
        features=self.getfeatures(item)   

    # Multiply the probabilities of all the features together
        p=1
        for f in features: p*=self.weightedprob(f,cat,self.fprob)
        return p
  
    def prob(self,item,cat):
        catprob=self.catcount(cat)/self.totalcount()
        docprob=self.docprob(item,cat)
        return docprob*catprob
    
    def setthreshold(self,cat,t):
        self.thresholds[cat]=t
    
    def getthreshold(self,cat):
        if cat not in self.thresholds: return 1.0
        return self.thresholds[cat]


Теперь все готово для написания метода classify. Он вычисляет вероятность для каждой категории, ищет среди них максимальную и проверяет, отличается ли она от следующей по порядку более чем в пороговоечисло раз. Если такую категорию найти не удается, то метод просто возвращает значение по умолчанию. Добавим в класс classifier такой код

In [55]:
import time
class naivebayes(classifier):
  
    def __init__(self,getfeatures):
        classifier.__init__(self,getfeatures)
        self.thresholds={}
    
    def docprob(self,item,cat):
        features=self.getfeatures(item)   
        p=1
        for f in features: p*=self.weightedprob(f,cat,self.fprob)
        return p
    def prob(self,item,cat):
        catprob=self.catcount(cat)/self.totalcount()
        docprob=self.docprob(item,cat)
        return docprob*catprob

  
    def setthreshold(self,cat,t):
        self.thresholds[cat]=t
    
    def getthreshold(self,cat):
        if cat not in self.thresholds: return 1.0
        return self.thresholds[cat]
  
    def classify (self, item, default = None):
        probs={}
        
        max = 0
        for cat in self.categories():
            probs[cat]=self.prob(item,cat)
            if probs[cat]>max: 
                max=probs[cat]
                best = cat

        # Make sure the probability exceeds threshold*next best
        for cat in probs:
            if cat==best: 
                continue
            
            if probs[cat]*self.getthreshold(best)>probs[best]: 
                return default
        return best


Все сделано! Вы построили законченную систему классификации документов. Ее можно обобщить на классификацию других образцов, написав методы для выделения признаков. Протестируйте свой классификатор в интерактивном сеансе:

In [56]:
сl6=naivebayes(getwords)

sampletrain(сl6);

print(сl6.classify('quick rabbit',default='unknown'))

print(сl6.classify('quick money',default='unknown'))

сl6.setthreshold('bad',3.0)
print(сl6.classify('quick money',default='unknown'))

for i in range(10):
    sampletrain(сl6);

print(сl6.classify('quick money',default='unknown'))


good
bad
unknown
bad


## Метод Фишера
Метод Фишера, названный по имени Р. А. Фишера (R. A. Fisher), – этоальтернативный метод классификации, который дает очень точные результаты, особенно применительно к фильтрации спама. Он используется в подключаемом к программе Outlook фильтре SpamBayes, который написан на языке Python. В отличие от наивной байесовской фильтрации, когда для вычисления вероятности всего документа перемножаются вероятности отдельных признаков, по методу Фишера вычисляетсявероятность отнесения к той или иной категории для каждого признака  документа, после чего эти вероятности комбинируются и проверяется, насколько получившееся множество похоже на случайное. Хотя этот метод более сложен, с ним стоит ознакомиться, так как он обеспечивает большую гибкость при настройке параметров классификации.

## Вероятности отнесения признаков к категориям
В наивном байесовском фильтре, который обсуждался выше, мы комбинировали вероятности Pr(Признак| Категория) для получения полной вероятности документа, а затем сравнивали их. В этом разделе мы начнем с вычисления вероятности попадания документа в некоторую категорию при условии наличия у этого документа конкретного признака, то есть с вычисления величины Pr(Категория | Признак).
Если слово casino встречается в 500 документах, из которых 499 плохие, то оценка casino относительно категории «Плохой» будет очень близка к 1.

Обычно значение Pr(Категория | Признак) вычисляется так:
(Количество документов с данным признаком в этой категории) / (Общее количество документов с данным признаком)

Эта формула не учитывает, что для одной категории могло быть предъявлено гораздо больше документов, чем для другой. Если у вас есть много хороших документов и совсем мало плохих, то у слова, встречающегося во всех плохих документах, будет высокая вероятность оказаться плохим, пусть даже сообщение с равным успехом могло бы быть и хорошим. Методы работают лучше в предположении, что в будущем будет получено равное количество документов из каждой категории,
поскольку это позволяет в полной мере воспользоваться признаками, по которым различаются категории.

Чтобы выполнить такую нормализацию, в методе Фишера вычисляются три величины:

clf = Pr(Признак | Категория) для этой категории

freqsum = сумма Pr(Признак | Категория) для всех категорий

cprob = clf / (clf + nclf)

Создадим новый подкласс fisherclassifier класса classifier и включите в него такой метод:


In [57]:
class fisherclassifier(classifier):
    def cprob(self,f,cat):
        # Частота появления данного признака в данной категории
        clf=self.fprob(f,cat)
        if clf==0: return 0
        # Частота появления данного признака во всех категориях
        freqsum=sum([self.fprob(f,c) for c in self.categories( )])
        # Вероятность равна частоте появления в данной категории, поделенной на
        # частоту появления во всех категориях
        p=clf/(freqsum)
        return p

Эта функция возвращает вероятность того, что образец с указанным признаком принадлежит указанной категории, в предположении, что
в каждой категории будет одинаковое число образцов. Можете посмотреть в интерактивном сеансе, какие получаются цифры:


In [58]:
cl7 = fisherclassifier(getwords);
sampletrain(cl7);
print(cl7.cprob('quick','good'))
print(cl7.cprob('money','bad'))

0.5714285714285715
1.0


Как видите, документы, содержащие слово casino с вероятностью 0,9, классифицируются как спам. Это соответствует данным обучения, но остается все та же проблема – недостоверность для редко встречающихся слов, когда вероятность может оказаться сильно завышенной.
Поэтому, как и раньше, лучше пользоваться взвешенной вероятностью, начав со значения 0,5 и постепенно улучшая точность по мере обучения класса:


In [59]:
cl7.weightedprob('money','bad',cl7.cprob)

0.75

## Комбинирование вероятностей
Теперь надо из вероятностей отдельных признаков получить полную вероятность. Теоретически их можно просто перемножить и сравнить
результат для данной категории с результатами для других категорий. Конечно, из-за того что признаки не являются независимыми, истинной вероятности мы так не получим, но все же этот алгоритм работает гораздо лучше байесовского классификатора, разработанного в предыдущем разделе. Метод Фишера дает существенно более точную оценку вероятности, что может оказаться крайне полезным в отчетах или при решении вопроса об уровне отсечки.
По методу Фишера все вероятности перемножаются, затем берется натуральный логарифм (math.log в Python) и результат умножается на –2.
Добавим следующий метод в класс fisherclassifier:

In [60]:
class fisherclassifier(classifier):
    def cprob(self,f,cat):
        # Частота появления данного признака в данной категории
        clf=self.fprob(f,cat)
        if clf==0: return 0
        # Частота появления данного признака во всех категориях
        freqsum=sum([self.fprob(f,c) for c in self.categories( )])
        # Вероятность равна частоте появления в данной категории, поделенной на
        # частоту появления во всех категориях
        p=clf/(freqsum)
        return p
    def fisherprob(self,item,cat):
        # Переменожить все вероятности
        p=1
        features=self.getfeatures(item)
        for f in features:
            p*=(self.weightedprob(f,cat,self.cprob))
        # Взять натуральный логарифм и умножить на -2
        fscore=-2*math.log(p)
        # Для получения вероятности пользуемся обратной функцией хи-квадрат
        return self.invchi2(fscore,len(features)*2)


Фишер доказал, что если бы вероятности были независимы и случайны, то результат этого вычисления подчинялся бы распределению хиквадрат. Следует ожидать, что образец, не принадлежащий некоторой категории, будет содержать слова с различными вероятностями признаков для данной категории (их распределение было бы случайным), а в образце, принадлежащем категории, будет много признаков с высокими вероятностями. Подав результат вычисления по формуле Фишера на вход обратной функции хи-квадрат, мы получаем вероятность того, что случайный набор вероятностей вернет такое большое число.
Добавьте обратную функцию хи-квадрат в класс fisherclassifier:

In [61]:
class fisherclassifier(classifier):
    def cprob(self,f,cat):
        # Частота появления данного признака в данной категории
        clf=self.fprob(f,cat)
        if clf==0: return 0
        # Частота появления данного признака во всех категориях
        freqsum=sum([self.fprob(f,c) for c in self.categories( )])
        # Вероятность равна частоте появления в данной категории, поделенной на
        # частоту появления во всех категориях
        p=clf/(freqsum)
        return p
    def fisherprob(self,item,cat):
        # Переменожить все вероятности
        p=1
        features=self.getfeatures(item)
        for f in features:
            p*=(self.weightedprob(f,cat,self.cprob))
        # Взять натуральный логарифм и умножить на -2
        fscore=-2*math.log(p)
        # Для получения вероятности пользуемся обратной функцией хи-квадрат
        return self.invchi2(fscore,len(features)*2)
    def invchi2(self,chi,df):
        m = chi / 2.0
        sum = term = math.exp(-m)

        for i in range(1, df//2):
            term *= m / i
        sum += term
        return min(sum, 1.0)

Протестируйте метод Фишера и посмотрите, как он оценивает различные строки:


In [62]:
cl8=fisherclassifier(getwords)
sampletrain(cl8)
print(cl8.cprob('quick','good'))

print(cl8.fisherprob('quick rabbit','good'))

print(cl8.fisherprob('quick rabbit','bad'))

0.5714285714285715
0.78013986588958
0.35633596283335256


Как видите, результаты всегда оказываются в диапазоне от 0 до 1. Сами по себе они являются хорошей оценкой того, насколько точно документ соответствует категории. Поэтому классификатор можно сделать более изощренным.

## Классификация образцов
Значения, возвращенные функцией fisherprob, можно использовать для классификации. Вместо того чтобы задавать мультипликативные пороги, как в байесовском фильтре, можно определить нижние границы для каждой классификации. Тогда классификатор вернет максимальное значение, укладывающееся в эти границы. Для антиспамного фильтра минимальную границу для категории «Плохой» можно задать достаточно высокой, например 0,6. А для категории «Хороший» можно задать гораздо меньшую границу, скажем 0,2. Это уменьшает шансы попадания в эту категорию хороших сообщений, но допускает «просачивание» небольшого числа спамных сообщений в ящик для входящей почты. Любое сообщение, для которого оценка для категории «Хороший» меньше 0,2, а для категории «Плохой» меньше 0,6, классифицируется как «Неизвестный».

Создайте в классе fisherclassifier метод init, инициализирующий еще одну переменную экземпляра для хранения отсечек:

In [63]:
class fisherclassifier(classifier):
    def __init__(self,getfeatures):
        classifier.__init__(self,getfeatures)
        self.minimums={}

    def cprob(self,f,cat):
        # Частота появления данного признака в данной категории
        clf=self.fprob(f,cat)
        if clf==0: return 0
        # Частота появления данного признака во всех категориях
        freqsum=sum([self.fprob(f,c) for c in self.categories( )])
        # Вероятность равна частоте появления в данной категории, поделенной на
        # частоту появления во всех категориях
        p=clf/(freqsum)
        return p
    def fisherprob(self,item,cat):
        # Переменожить все вероятности
        p=1
        features=self.getfeatures(item)
        for f in features:
            p*=(self.weightedprob(f,cat,self.cprob))
        # Взять натуральный логарифм и умножить на -2
        fscore=-2*math.log(p)
        # Для получения вероятности пользуемся обратной функцией хи-квадрат
        return self.invchi2(fscore,len(features)*2)
    def invchi2(self,chi,df):
        m = chi / 2.0
        sum = term = math.exp(-m)

        for i in range(1, df//2):
            term *= m / i
        sum += term
        return min(sum, 1.0)

Добавьте методы получения и установки значений, считая, что по умолчанию принимается значение 0:

In [64]:
class fisherclassifier(classifier):
    def __init__(self,getfeatures):
        classifier.__init__(self,getfeatures)
        self.minimums={}

    def cprob(self,f,cat):
        # Частота появления данного признака в данной категории
        clf=self.fprob(f,cat)
        if clf==0: return 0
        # Частота появления данного признака во всех категориях
        freqsum=sum([self.fprob(f,c) for c in self.categories( )])
        # Вероятность равна частоте появления в данной категории, поделенной на
        # частоту появления во всех категориях
        p=clf/(freqsum)
        return p
    def fisherprob(self,item,cat):
        # Переменожить все вероятности
        p=1
        features=self.getfeatures(item)
        for f in features:
            p*=(self.weightedprob(f,cat,self.cprob))
        # Взять натуральный логарифм и умножить на -2
        fscore=-2*math.log(p)
        # Для получения вероятности пользуемся обратной функцией хи-квадрат
        return self.invchi2(fscore,len(features)*2)
    def invchi2(self,chi,df):
        m = chi / 2.0
        sum = term = math.exp(-m)

        for i in range(1, df//2):
            term *= m / i
        sum += term
        return min(sum, 1.0)
    def setminimum(self,cat,min):
        self.minimums[cat]=min
    def getminimum(self,cat):
        if cat not in self.minimums: return 0
        return self.minimums[cat]


И наконец добавим метод вычисления вероятностей для каждой категории и определения наилучшего результата, превышающего заданный минимум:

In [65]:
class fisherclassifier(classifier):
    def __init__(self,getfeatures):
        classifier.__init__(self,getfeatures)
        self.minimums={}

    def cprob(self,f,cat):
        # Частота появления данного признака в данной категории
        clf=self.fprob(f,cat)
        if clf==0: return 0
        # Частота появления данного признака во всех категориях
        freqsum=sum([self.fprob(f,c) for c in self.categories( )])
        # Вероятность равна частоте появления в данной категории, поделенной на
        # частоту появления во всех категориях
        p=clf/(freqsum)
        return p
    def fisherprob(self,item,cat):
        # Переменожить все вероятности
        p=1
        features=self.getfeatures(item)
        for f in features:
            p*=(self.weightedprob(f,cat,self.cprob))
        # Взять натуральный логарифм и умножить на -2
        fscore=-2*math.log(p)
        # Для получения вероятности пользуемся обратной функцией хи-квадрат
        return self.invchi2(fscore,len(features)*2)
    def invchi2(self,chi,df):
        m = chi / 2.0
        sum = term = math.exp(-m)

        for i in range(1, df//2):
            term *= m / i
        sum += term
        return min(sum, 1.0)
    def setminimum(self,cat,min):
        self.minimums[cat]=min
    def getminimum(self,cat):
        if cat not in self.minimums: return 0
        return self.minimums[cat]
    def classify(self,item,default=None):
        # Цикл для поиска наилучшего результата
        best=default
        max=0.0
        for c in self.categories( ):
            p=self.fisherprob(item,c)
        # Проверяем, что значение больше минимума
            if p>self.getminimum(c) and p>max:
                best=c
                max=p
        return best

Испытаем классификатор по методу Фишера на тестовых данных. Введите в интерактивном сеансе следующие команды:



In [66]:
cl9=fisherclassifier(getwords)
sampletrain(cl9)
cl9.classify('quick rabbit')

print(cl9.classify('quick money'))

print(cl9.setminimum('bad',0.8))
print(cl9.classify('quick money'))

print(cl9.setminimum('good',0.4))
print(cl9.classify('quick money'))

bad
None
good
None
good


Результаты аналогичны полученным от наивного байесовского классификатора. Но считается, что на практике классификатор Фишера фильтрует спам лучше; правда, убедиться в этом на небольшом обучающем наборе вряд ли получится. Какой классификатор использовать – зависит от приложения. Заранее не скажешь, что будет работать лучше и какие выбирать отсечки. Впрочем, приведенный код позволяет поэкспериментировать с обоими алгоритмами, задавая разные параметры.

## Сохранение обученных классификаторов
В реальном приложении маловероятно, что обучение и классификацию удастся полностью провести в рамках одного сеанса. Если классификатор – часть веб-приложения, то, наверное, вы захотите сохранить результаты обучения, проведенного пользователем, и восстановить их, когда пользователь придет в следующий раз.
### Использование SQLite
В этом разделе мы покажем, как сохранить результаты обучения классификатора в базе данных, в данном случае SQLite. Если у вашего приложения много пользователей, одновременно обучающих и опрашивающих классификатор, то, вероятно, имеет смысл хранить счетчики
в базе. 

In [67]:
!pip install pysqlite3;

[33mYou are using pip version 19.0.2, however version 19.0.3 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [68]:
from sqlite3 import dbapi2 as sqlite

Код, приведенный в этом разделе, предназначен для замены словарей,
которые сейчас имеются в классе classifier, постоянным хранилищем
данных. Добавим в класс classifier метод *setdb* для открытия базы данных
и создания необходимых таблиц. Структура таблиц повторяет структуру заменяемых ими словарей.

Если вы собираетесь адаптировать классификатор для другой базы
данных, то, возможно, потребуется изменить предложения create table
в соответствии с диалектом SQL в используемой СУБД.

Необходимо заменить вспомогательные методы получения и увеличения счетчиков, также необходимо заменить методы для получения списка всех категорий и общего числа документов.

Также нужно добавить вызов commit в метод *train*, чтобы
сохранить обновленные счетчики.

In [69]:
class classifier:
    def __init__(self,getfeatures,filename=None):
        # Counts of feature/category combinations
        self.fc={}
        # Counts of documents in each category
        self.cc={}
        self.getfeatures=getfeatures
        
    def setdb(self,dbfile):
        self.con=sqlite.connect(dbfile)    
        self.con.execute('create table if not exists fc(feature,category,count)')
        self.con.execute('create table if not exists cc(category,count)')


    def incf(self,f,cat):
        count=self.fcount(f,cat)
        if count==0:
            self.con.execute("insert into fc values ('%s','%s',1)" % (f.replace("'",'').replace('"','').replace('<b>','').replace('</b>',''),cat))
        else:
            self.con.execute("update fc set count=%d where feature='%s' and category='%s'" % (count+1,f.replace("'",'').replace('"','').replace('<b>','').replace('</b>',''),cat)) 

    def fcount(self,f,cat):
        res=self.con.execute('select count from fc where feature="%s" and category="%s"' %(f.replace("'",'').replace('"','').replace('<b>','').replace('</b>',''),cat)).fetchone()
        if res==None: return 0
        else: return float(res[0])

    def incc(self,cat):
        count=self.catcount(cat)
        if count==0:
            self.con.execute("insert into cc values ('%s',1)" % (cat))
        else:
            self.con.execute("update cc set count=%d where category='%s'" % (count+1,cat))    

    def catcount(self,cat):
        res=self.con.execute('select count from cc where category="%s"' %(cat)).fetchone()
        if res==None: return 0
        else: return float(res[0])

    def categories(self):
        cur=self.con.execute('select category from cc');
        return [d[0] for d in cur]

    def totalcount(self):
        res=self.con.execute('select sum(count) from cc').fetchone();
        if res==None: return 0
        return res[0]

    
    def train(self,item,cat):  
        features=self.getfeatures(item)
        # Увеличить счетчики для каждого признака в данной классификации
        for f in features:  
            self.incf(f,cat)  
            # Увеличить счетчик применений этой классификации  
        self.incc(cat)
        self.con.commit()
        
        
    def fprob(self,f,cat):  
        if self.catcount(cat)==0: return 0  
        # Общее число раз, когда данный признак появлялся в этой категории,  
        # делим на количество образцов в той же категории  
        return self.fcount(f,cat)/self.catcount(cat)   
    
    def weightedprob(self,f,cat,prf,weight=1.0,ap=0.5):
        # Calculate current probability
        basicprob=prf(f,cat)

        # Count the number of times this feature has appeared in
        # all categories
        totals=sum([self.fcount(f,c) for c in self.categories()])

        # Calculate the weighted average
        bp=((weight*ap)+(totals*basicprob))/(weight+totals)
        return bp

Обновим классификаторы, чтобы добавились методы, которые мы изменили

In [70]:
class fisherclassifier(classifier):
    def __init__(self,getfeatures):
        classifier.__init__(self,getfeatures)
        self.minimums={}

    def cprob(self,f,cat):
        # Частота появления данного признака в данной категории
        clf=self.fprob(f,cat)
        if clf==0: return 0
        # Частота появления данного признака во всех категориях
        freqsum=sum([self.fprob(f,c) for c in self.categories( )])
        # Вероятность равна частоте появления в данной категории, поделенной на
        # частоту появления во всех категориях
        p=clf/(freqsum)
        return p
    def fisherprob(self,item,cat):
        # Переменожить все вероятности
        p=1
        features=self.getfeatures(item)
        for f in features:
            p*=(self.weightedprob(f,cat,self.cprob))
        # Взять натуральный логарифм и умножить на -2
        fscore=-2*math.log(p)
        # Для получения вероятности пользуемся обратной функцией хи-квадрат
        return self.invchi2(fscore,len(features)*2)
    def invchi2(self,chi,df):
        m = chi / 2.0
        sum = term = math.exp(-m)

        for i in range(1, df//2):
            term *= m / i
        sum += term
        return min(sum, 1.0)
    def setminimum(self,cat,min):
        self.minimums[cat]=min
    def getminimum(self,cat):
        if cat not in self.minimums: return 0
        return self.minimums[cat]
    def classify(self,item,default=None):
        # Цикл для поиска наилучшего результата
        best=default
        max=0.0
        for c in self.categories( ):
            p=self.fisherprob(item,c)
        # Проверяем, что значение больше минимума
            if p>self.getminimum(c) and p>max:
                best=c
                max=p
        return best

In [71]:
class naivebayes(classifier):
  
    def __init__(self,getfeatures):
        classifier.__init__(self,getfeatures)
        self.thresholds={}
    
    def docprob(self,item,cat):
        features=self.getfeatures(item)   
        p=1
        for f in features: p*=self.weightedprob(f,cat,self.fprob)
        return p
    def prob(self,item,cat):
        catprob=self.catcount(cat)/self.totalcount()
        docprob=self.docprob(item,cat)
        return docprob*catprob

  
    def setthreshold(self,cat,t):
        self.thresholds[cat]=t
    
    def getthreshold(self,cat):
        if cat not in self.thresholds: return 1.0
        return self.thresholds[cat]
  
    def classify (self, item, default = None):
        probs={}
        
        max = 0
        for cat in self.categories():
            probs[cat]=self.prob(item,cat)
            if probs[cat]>max: 
                max=probs[cat]
                best = cat

        # Make sure the probability exceeds threshold*next best
        for cat in probs:
            if cat==best: 
                continue
            
            if probs[cat]*self.getthreshold(best)>probs[best]: 
                return default
        return best

In [72]:
cl11 = fisherclassifier(getwords)
cl11.setdb('test1.db')
sampletrain(cl11)

In [73]:
cl12 = naivebayes(getwords)
cl12.setdb('test2.db')
sampletrain(cl12)

In [74]:
cl12.classify('quick money')

'bad'

## Фильтрация блогов
Для тестирования классификатора на реальных данных и демонстрации различных способов использования можно применить его к записям из блогов или других RSS-каналов. Для этого потребуется библиотека Universal Feed Parser


In [75]:
!pip install feedparser

[33mYou are using pip version 19.0.2, however version 19.0.3 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


Хотя в записях блога спама может и не быть, но многие блоги содержат
как интересующие вас заметки, так и не представляющие никакого
интереса. Например, иногда вы хотите читать только материалы из какой-то одной категории или написанные определенным автором, хотя
часто ситуация бывает и сложнее. Как и раньше, можно задать правила, описывающие, что именно представляет для вас интерес, а что
нет, – например, при чтении блога, посвященного электронным устройствам, вы хотите пропускать все записи, содержащие фразу cell
phone (сотовый телефон). Но гораздо проще воспользоваться классификатором, который сам выработает такие правила.
Классификация записей в RSS-каналах удобна тем, что можно воспользоваться каким-нибудь инструментом поиска по блогам, например Google Blog Search, и подготовить результаты поиска для подачи
на вход программе чтения канала. Многие делают так для отслеживания товаров, других интересных для них вещей и даже собственных
имен. Однако при этом вы будете находить заспамленные или бесполезные блоги, создатели которых пытаются сделать деньги на трафике.

Мы рассмотрим результаты поиска по слову Python, возвращенных Google Blog Search и представленных в формате RSS, хранящиеся в файле python_search.xml

In [76]:
import feedparser
import re

# Takes a filename of URL of a blog feed and classifies the entries
def read(feed,classifier):
    # Get feed entries and loop over them
    f=feedparser.parse(feed)
    for entry in f['entries']:
        print('')
        print ('-----')
        # Print the contents of the entry
        print ('Title:     '+ entry['title'])
        print ('Publisher: '+entry['publisher'])
        print('')
        print (entry['summary'])


        # Combine all the text to create one item for the classifier
        fulltext='%s\n%s\n%s' % (entry['title'],entry['publisher'],entry['summary'])

        # Print the best guess at the current category
        print ('Guess: '+str(classifier.classify(fulltext)))

        # Ask the user to specify the correct category and train on that
        cl=input('Enter category: ')
        classifier.train(fulltext,cl)



Эта функция перебирает все записи и с помощью классификатора вырабатывает наилучшую гипотезу о принадлежности к той или иной категории. Она сообщает об этой гипотезе пользователю и просит ввести
правильную категорию. Поначалу классификатор вырабатывает гипотезы случайным образом, но со временем его решения должны улучшаться.

Построенный классификатор по природе своей весьма общий. Мы воспользовались в качестве примера фильтрацией спама, чтобы объяснить все детали кода, но, в принципе, категории могут быть любыми.
Так, в файле python_search.xml можно выделить четыре категории:
о языке программирования, о комедийном шоу «Monty Python», о питонах и обо всем остальном.

In [77]:
cl22 = fisherclassifier(getwords)
cl22.setdb('python_feed.db') 

Попробуем обучить классификатор:

In [78]:
read('python_search.xml',cl22)


-----
Title:     My new baby boy!
Publisher: Shetan Noir, the zombie belly dancer! - MySpace Blog

THis is my new baby, Anthem. He is a 3 and half month old ball <b>python</b>, orange shaded normal pattern. I have held him about 5 time since I brought him home tonight at 8:00pm...
Guess: 3


Enter category:  snake



-----
Title:     If you need a laugh...
Publisher: Kate&#39;s space

Even does funny walks; from Monty <b>Python</b>. He talks about all the ol' ladies that are after him. He teases me about my horror obsession. He attempts suicide. And best of all, he talks about poo. Who doesn't think poo is funny???!
Guess: snake


Enter category:  monty



-----
Title:     And another one checked off the list..New pix comment ppl
Publisher: Python Guru - MySpace Blog

Now the one of a kind NERD bred Carplot male is in our possesion. His name is Broken (not because he is sterile) lol But check out the pic and leave one bitches..............
Guess: snake


Enter category:  snake



-----
Title:     <b>Python</b> vs Java - It’s not only the language, it’s the tools
Publisher: A Drop In The Stream

Well, I’ve done a bit of <b>Python</b> coding by now in my new job and here’s my take on the <b>Python</b> vs. Java question. <b>Python</b> is concise and just rocks for doing tricky, complicated things using simple semantics. I just learned of a chunk of <b>...</b>
Guess: snake


Enter category:  snake



-----
Title:     BF 2142 ads successfully hacked - add your own and/or block the <b>...</b>
Publisher: Aaron Tiensivu&#39;s Blog

One <b>Python</b> script exports the graphics and a different one imports the graphics. I'm not posting the source code/scripts because I don't know who to credit as the source, and I don't want any weird DMCA lawsuits sent my way for posting <b>...</b>
Guess: 4


Enter category:  snake



-----
Title:     Ruby, <b>Python</b>, JavaScript, Perl, C++
Publisher: Програм Хөгжүүлэх Техник, Технологууд

Ruby (String), <b>Python</b> (str), JavaScript (String), Perl, C++  (std::string). s = “abc”, s = “abc”, s = “abc”, $s = “abc”, string s = “abc”. s = x + y, s = x + y, s = x + y, $s = $x . $y, s = x + y*1 <b>...</b>
Guess: 2


Enter category:  snake



-----
Title:     My Gift to Him... Check out the picture.
Publisher: Insignificant Rambling...

It looks just like our little Jasper. Except it may be bigger than "ours" or his rather. Ball <b>Python</b> by the way. That's also not the one I bought. I found that particular picture on the internet. Jas...
Guess: 4


Enter category:  snake



-----
Title:     Monty <b>Python&#39;s</b> Flying Circus - Set 4: Season 2
Publisher: barterbee.com :: Movies

"Monty <b>Python's</b> Flying Circus - Set 4: Season 2" starring Monty <b>Python</b> Cast was listed for 6 points on 2006-10-23 at 18:24.
Guess: 3


Enter category:  snake



-----
Title:     Microsoft Hires Inventor of RubyCLR
Publisher: Rajlogs

And Hugunin's group  managed to deliver an implementation of <b>Python</b> on .Net earlier this year. That implementation, IronPython 1.0, went live last month. John Lam Blog. "I’ve decided to stage a friendly takeover of Microsoft. <b>...</b>
Guess: 2


Enter category:  snake



-----
Title:     Sisters of Perpetual Indugence trike drag (queen) race, SF
Publisher: The Smorgasbord - technology, open source, Ubuntu, Drupal, xBox, opinion, news, and more!

The scene along the sidewalk was Fellini meets Almodovar meet Monty <b>Python</b>: contestants only sprinted for 10 or 20 feet at a time on their tricycles, then ducked in to air-conditioned bars for pomegranate martinis. <b>...</b>
Guess: 3


Enter category:  monty



-----
Title:     Another Updated Survey. same old same old
Publisher: Python! - MySpace Blog

TELL ME ABOUT YOURSELF - The SurveyName:AndrewBirthday:Oct. 24. Its Tomorrow!!! :)Birthplace:IslipCurrent Location:IslipHair Color:BrownHeight:6'5"Right Handed or Left Handed:Righty ...
Guess: 3


Enter category:  monty



-----
Title:     <b>Python</b> - Chris Buck
Publisher: eMusic albums: New This Month - Freshly Ripped - Electronic

<b>Python</b> - Chris Buck. Listen, Genre: Electronic Styles: Drum 'n' Bass/ Jungle, House, Techno Label: Million Seller Records Inc. / INgrooves.
Guess: 2


Enter category:  monty



-----
Title:     QotD: All My Computers
Publisher: Vodka and fairy-bread

I've also got an old Bondi Blue iMac which is pretty much only used to run Skittles and Monty <b>Python</b> and the Holy Grail. There's also a few computers lying around for spare parts and countless monitors that I have no idea why we're <b>...</b>
Guess: 2


Enter category:  monty



-----
Title:     OSS: Code Generation for the Rails Generation
Publisher: Snakes, Gems &amp; Coffee

Since nobody really likes writing boilerplate C++ code, we wrote a code generation toolkit in <b>Python</b> that read in MOF, UML and XML schema metamodel representations and passed in-memory metamodels to our code templates, which produced <b>...</b>
Guess: 3


Enter category:  snake



-----
Title:     Run for your Code!
Publisher: Book - New Releases

recently helped to organize such sprints for the <b>Python</b> world. He's <b>...</b> http://www.onlamp.com/pub/a/<b>python</b>/2006/10/19/running-a-sprint.html <b>...</b> Jeremy Jones noted a new release of SQLAlchemy, a <b>Python</b> SQL toolkit and ORM: <b>...</b>
Guess: monty


Enter category:  snake



-----
Title:     Re: using mmap on large (&gt; 2 Gig) files
Publisher: comp.lang.python :: The Python computer language

But the question remains whether <b>Python's</b> "mmap" qualifies as a "memory mapping" at all. <b>...</b> How would you use <b>Python's</b> mmap for something like this? I haven't looked at the source, but I'd be surprised if <b>Python</b> actually maps the file <b>...</b>
Guess: 3


Enter category:  snake



-----
Title:     Monty <b>Python&#39;s</b> The Meaning Of Life
Publisher: Sexy and Funny Forums

Does anyone have the clip from Meaning of Life where a guy is chased over a cliff by a squad of topless chicks?
Guess: monty


Enter category:  snake



-----
Title:     [SECURITY] [DSA 1198-1] New python2.3 packages fix arbitrary code <b>...</b>
Publisher: ericakmal[dot]com

Wiley Sittler discovered that the repr() of the <b>Python</b> interpreter allocates insufficient memory when parsing UCS-4 <b>...</b> We recommend that you upgrade your <b>Python</b> 2.3 packages. Upgrade Instructions - --------------------. wget url <b>...</b>
Guess: 2


Enter category:  snake



-----
Title:     Re: pretty basic instantiation question
Publisher: comp.lang.python :: The Python computer language

<b>...</b> as you end up creating <b>Python</b> statements on the fly using eval() and exec and other such dangerous and insanity-inducing tricks :-) Instead use a container structure like a list to hold them, and then use an appropriate technique to <b>...</b>
Guess: 4


Enter category:  snake



-----
Title:     Re: classroom constraint satisfaction problem
Publisher: comp.lang.python :: The Python computer language

Carl Banks wrote: > Steven Bethard wrote: >> Basically, I want to build groups of two teachers and four students such >> that [1]:  >> >> * Students are assigned to exactly one group >> * Teachers are assigned to approximately the same <b>...</b>
Guess: monty


Enter category:  snake



-----
Title:     Re: How to get each pixel value from a picture file!
Publisher: comp.lang.python :: The Python computer language

http://www.pythonware.com/library/pil/handbook/image.htm im.load() said.... Leif K-Brooks wrote: > Lucas wrote: > > 1)I just copy the tutorial to run "print pix[44,55]". I really dont > > know why they wrote that?! > > What tutorial? <b>...</b>
Guess: 4


Enter category:  snake



-----
Title:     Re: numpy error
Publisher: comp.lang.python :: The Python computer language

Therefor I installed: > > <b>python</b> 2.5 > matplotlib-0.87.6.win32-py2.5.exe > numpy-1.0rc3.win32-py2.5.exe > > on WinXP SP2  > > The result is a version mismatch (see below). > > Numpy version 1000002 seems to be numpy-1.0b5 which is not <b>...</b>
Guess: 4


Enter category:  snake



-----
Title:     Re: using mmap on large (&gt; 2 Gig) files
Publisher: comp.lang.python :: The Python computer language

On a 64-bit architecture, this is a known limitation of <b>Python</b> 2.4: > you can't have containers with more than 2Gi items. This limitation > was removed in <b>Python</b> 2.5, so I recommend to upgrade. Notice that > the code has seen little <b>...</b>
Guess: snake


Enter category:  snake



-----
Title:     Monty <b>Python</b> Star Terry Jones Undergoes Cancer Surgery
Publisher: Starpulse News Blog - Movie News, New Movies On DVD

Monty <b>Python</b> And The Holy GrailLatest: Monty <b>Python</b> star Terry Jones has undergone surgery for colon cancer. The 64 year old was "in good spirits and the operation went very well",according to his agent Jodi Shields. <b>...</b>
Guess: monty


Enter category:  snake



-----
Title:     60 SECONDS: Eric Idle
Publisher: Home

Eric Idle is best known as one-sixth of the Monty <b>Python</b> team and for his song Always Look  On The Bright Side Of Life. <b>...</b> His Tony  Award-winning musical, Spamalot, based on Monty <b>Python</b> And The Holy Grail, is on at Londons Palace <b>...</b>
Guess: snake


Enter category:  snake



-----
Title:     AppleScript to merge MS Word Section PDFs
Publisher: www.entropy.ch blog

The script is unfortunately a bit ugly because I embedded a <b>python</b> script for the <b>...</b> I originally kept the <b>python</b> script in my home directory’s “bin” <b>...</b> In case you’re interested in the <b>python</b> code alone, this is what it looks like: <b>...</b>
Guess: snake


Enter category:  snake



-----
Title:     Some of my Fav snakes
Publisher: Tailfeathers Bird Community

Green Tree <b>Python</b> Piebald Ball <b>Python</b> Pinstripe Ball <b>python</b> About any other mutations of Ball <b>Pythons</b>... Mexican Black Kingsnake And the most gorgeous snake on earth... The Colombian Rainbow Boa.. *swoons* <b>...</b>
Guess: monty


Enter category:  prog



-----
Title:     Destructor for <b>Python</b>
Publisher: Ubuntu Forums

Forum: Programming Talk Posted By: Nonno Bassotto Post Time: October 23rd, 2006 at 06:19 PM.
Guess: 3


Enter category:  prog



-----
Title:     time delay syntax error
Publisher: DaniWeb IT Discussion Community

Forum: <b>Python</b> Posted By: HLA91 Post Time: Oct 23rd 2006 at 3:47 pm.
Guess: snake


Enter category:  prog



-----
Title:     Good Luck, Terry
Publisher: A Big Fat Slob

Terry is, of course, known for his work with Monty <b>Python</b>, in its various incarnations. Less known here in the US are his political commentaries for The Guardian. Columns, like this classic from 2003, demonstrating how the Bush Iraq <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     <b>python</b> upgrade broke system tools
Publisher: LinuxQuestions.org

Forum: Linux - Software Posted By: bilkay Post Time: 10-23-2006 at 04:50 PM.
Guess: 4


Enter category:  prog



-----
Title:     Dangerous Feet and Good Diction
Publisher: eclecticism: Comments

It may be a bit tricky, though, in that my southern drawl and my Monty <b>Python</b>-inspired British tend to be close enough that they often end up sliding into one another if I’m not careful. Once that starts happening, I’d assume that all <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     &quot;My name is Kollamoolitumarellipawkyrollo!&quot; said Mr Whatisname <b>...</b>
Publisher: &quot;Full of grandiose schemes&quot;

The title was taken from a rousing song which they played many times. Monty <b>Python</b> fans might want to listen to it— go here and play the sample of the first track— and they might discover that a certain song was unexpectedly a filk.
Guess: monty


Enter category:  prog



-----
Title:     Topic #2
Publisher: Midgitman Will’s blog

(those of you who did see it will understand that quote) of course  it was good it was written by Eric Idle(monty <b>python</b> member). Those of you who didnt see it should see it even more if you like monty <b>python</b>! What made the play evenmore <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     Textmate
Publisher: The Caffeinated Mac Blog

It was so easy to program in <b>Python</b> I almost ditched Smultron, except one thing held me back. The price. Sadly, I am broke and do not use Euros so as far as I can tell, I can’t buy TextMate. Someone PLEASE comment me if I’m wrong. <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     Reply to Introduce yourself
Publisher: Grand Rapids, Michigan

Tim" ( I hope Monte <b>Python</b> references are welcome here - at  least it's different from the 12 step intro). I grew up in Caledonia but moved away for college and didn't live in the area for almost ten years. Like Nate (see above), <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     dev-util/scons 0.96.92
Publisher: packages.gentoo.org [ ]

Description: Extensible <b>Python</b>-based  build utility. Changes: *scons-0.96.92 (23 Oct 2006) 23 Oct 2006; (twp) -scons-0.96.90.ebuild, scons-0.96.91.ebuild, +scons-0.96.92.ebuild: Version bump and clean up .py[co] files. <b>...</b>
Guess: 1


Enter category:  prog



-----
Title:     ARGH!!!!!!! DEPENDENCY HELL!!!!!
Publisher: Just Another Tech Blog

First it comes up with a message saying that I need <b>python</b>-gtk. So, I go about trying to get <b>python</b>-gtk. Of course, it is not in YaST. <b>...</b> First I try to install <b>python</b>-cairo. You know what error message comes up? <b>PYTHON</b>-CAIRO REQUIRES <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     No Reason to Celebrate: Confetti
Publisher: Four Magazine

While there will always be Monty <b>Python</b> and The Office to secure a spot in the comedic Hall of Fame, Americans tend to turn their backs to its super dry humor in favor of slapstick and toilet gags. Perhaps this preference is why the US <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     erotic mens underwear
Publisher: :underwear mens erotic

In a second drawer, he checks his pet <b>python</b>. As "the perfect ending" to the "wonderful evening," Alex switches on a cassette tape of Beethoven's Ninth Symphony. While musically appreciating his favorite composer and classical piece, <b>...</b>
Guess: 2


Enter category:  prog



-----
Title:     Church girls get inspired by these worshipworthy
Publisher: Italian Charm - Links, Information, News and Articles.

<b>Python</b> clutch and floral pin, 630 Lenox by Ayesha Ouattara. Suede sling backs, Cole Haan. (Right) Cot ton-Lycra spanrtex dress, $275, Inez Silk camisole with lace trim, $26, Mary Green Leather belt, Sandy Duftler. <b>...</b>
Guess: 1


Enter category:  prog



-----
Title:     Ex-<b>Python</b> Star Has Cancer Surgery
Publisher: Kerry Fox Live!

BBC News Former Monty <b>Python</b> star Terry Jones has undergone surgery for colon <b>...</b> He last week joined former Monty <b>Python</b> colleagues Eric Idle, Terry Gilliam and Michael Palin for the London opening of Idle’s <b>Python</b> musical Spamalot. <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     DVD wish list part 1
Publisher: (¯`•&#39;¯)`•&#39;¯)♥ Christina&#39;s Stuff ♥

Monty <b>Python</b>. · Rocky collection. · The Godfather  collection. Action:. · Any superhero movie. · Mr. & Mrs. Smith. · War of The Worlds. · Ong-Bak The Thai Warrior. · Gladiator. · Troy. · Alexandar The Great. · John Grisham movies <b>...</b>
Guess: 2


Enter category:  prog



-----
Title:     ATHF Flaunts Censors - <b>Python</b> Member Fights Cancer...
Publisher: The Run Down

Terry Jones, former member of Monty <b>Python</b> and director of their films, as well as others, such as The Wind in the Willows, is recovering from surgery undergone to fight cancer. I'm sure I speak for us all in wishing him a speedy <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     Announce: PySVN 1.5.0
Publisher: MailBucket: subversion-users

New options to setup.py: --enable-debug and --svn-root-dir * Windows binary kit for <b>Python</b> 2.5 * Mac OS X 10.4 binary kit for <b>Python</b> 2.5 * Support for building on AIX Features of PySVN: * Natural <b>python</b> interface to Subversion <b>...</b>
Guess: monty


Enter category:  prog



-----
Title:     Threaded data collection with <b>Python</b>
Publisher: bender

http://www.davidnaylor.co.uk/archives/2006/10/19/threaded-data-collection-with- <b>python</b>-including-examples. technorati tags: <b>python</b>.
Guess: prog


Enter category:  prog



-----
Title:     [Question] Can you control the speed at which units move from one <b>...</b>
Publisher: Civilization Fanatics&#39; Forums

I'm not at home, so I can't scour the code at the moment, but I was just wondering if it's possible, either via XML, <b>Python</b> or SDK to  change how fast a unit moves between spaces.
Guess: snake


Enter category:  prog



-----
Title:     Eric Idle Blasts <b>Pythons</b>
Publisher: Starpulse News Blog

Idle, who wrote the musical which is based on 1975 film Monty <b>Python</b> And The Holy Grail, insists he's not bothered if his former castmates are unhappy with the result, because the flood of new <b>Python</b> fans he's attracted makes it a <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     Eric Idle Blasts <b>Pythons</b>
Publisher: Fashion

Monty <b>Python</b> funnyman Eric Idle has branded his old comedy partners two-faced for reaping the financial rewards of his hit musical Spamalot, despite expressing reservations about the show. Idle, who wrote the musical which is based on <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Ex-<b>Python</b> star has cancer surgery
Publisher: News/Activism

Former Monty <b>Python</b> star Terry Jones has undergone surgery for colon cancer. <b>...</b> He last week joined former Monty <b>Python</b> colleagues Eric Idle, Terry Gilliam and Michael Palin for the London opening of Idle's <b>Python</b> musical Spamalot. <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     Find files with an emblem
Publisher: as days pass by

aquarius@giles:~$ <b>python</b> findemblem.py money /home/aquarius/Sam presents /home/aquarius/Work/quotation.xml. The actual script is: import re, glob, sys, urllib, os from  xml.dom import minidom def grep(pattern, files): search <b>...</b>
Guess: 4


Enter category:  prog



-----
Title:     Anyone have Gnuplot working?
Publisher: MacNN Forums

Anyone know what the deal is with this? Anyone have Gnuplot sucessfully running on a Mac? I want to use <b>python</b> or ruby to generate simple graphs and have them served on my server... nothing too crazy. Any help would be appreciated ;-)
Guess: prog


Enter category:  prog



-----
Title:     <b>Python</b> Kye 0.9.2 (Default branch)
Publisher: The Open Source Pimp - Open Source and Linux, breaking news, Libertarian politics, diary of a Linux geek in a Windows shop

Kye is a puzzle game which takes ideas from Sokoban and the genre of falling-rocks puzzle games. However, it includes a wider range of objects, allowing a larger variety of puzzles to be constructed. It is a clone of the original, <b>...</b>
Guess: 4


Enter category:  prog



-----
Title:     <b>Python</b> Kye 0.9.2 (Default branch)
Publisher: Rebellion Coffee Company Libertarian Blog

Kye is a puzzle game which takes ideas from Sokoban and the genre of falling-rocks puzzle games. However, it includes a wider range of objects, allowing a larger variety of puzzles to be constructed. It is a clone of the original, ...
Guess: snake


Enter category:  prog



-----
Title:     moving from infogami.com
Publisher: online.effbot.org

Earlier this year, I put up rough copies of the <b>Python</b> tutorial, the FAQ, and the language reference on Aaron Schwartz' infogami site. However, Aaron has moved on to other projects, and has left the infogami site behind. <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     New <b>Python</b> ShowMeDo: Introducing the pydb Debugger
Publisher: ShowMeDo Blog

Rocky Bernstein introduces his work on the pydb debugger, an improvement over the stock pdb debugger. He shows how to debug a sample problem (gcd.py) and discusses some of the merits of the new debugger. There is some work in progress <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     xmlBlaster 1.4 (Default branch)
Publisher: freshmeat.net announcements (Global)

C/C++, Java, Perl, <b>Python</b>, VisualBasic.net, C#, and PHP client demos are included in the xmlBlaster test suite, and Tcl and <b>Python</b> demo clients are scheduled. XmlBlaster also provides a browser callback framework, allowing browsers <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     <b>Python&#39;s</b> health scare
Publisher: Arts and Entertainment

Just a week after attending the premiere of Spamalot, former Monty <b>Python</b> member Terry Jones has undergone surgery for colon cancer. Jones, whose most memorable contribution to the early TV series was his naked organ playing, <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     BerkeleyDB Backend Storage Engine for DURUS 20061023 (Default branch)
Publisher: freshmeat.net announcements (Global)

BerkeleyDB Backend Storage Engine for DURUS provides a storage engine for DURUS, a persistence system for the <b>Python</b> programming language. License: GNU General Public License (GPL). Changes: By default, this release does database <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     Good ol&#39; Monday
Publisher: Riders Paradise

Since it's Monday I feel that some humerous Monty <b>Python</b> clips are in order. Here's one making fun of religion/politics, and another to cheer you up. Also, I  highly recommend everyone catch the final Moto GP race this weekend. <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Text files with <b>Python</b>
Publisher: dennogumi.org

Mood : tired. Finally I cleaned up my code enough to post it here. It’s probably still ugly, but not as ugly as when I wrote it down the first time. It’s all about manipulating text files, to be precise tab-delimited files. <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Interview with Martin Dougiamas, Creator of Moodle
Publisher: Steve Hargadon

Jeff Elkner's work teaching FOSS programs like <b>Python</b> to students at Yorktown High School in Arlington, Virginia, is an example of this. What makes FOSS more than just a "cheaper" replacement of proprietary programs is this second <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     MIDIsense, Now for for Windows: Real World to MIDI Interface
Publisher: Create Digital Music

Now, the good news: the software for programming the board is now available for Windows, and it’s much faster and more reliable than its previous <b>python</b>-based iteration:. Windows MIDIsense software [ladyada’s ranting, which has lots of <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     Embedding <b>Python</b> and Multithreading
Publisher: Jesses!

Note that all that still means that you can't have one <b>Python</b> interpreter running in multiple threads. If I understood things as they are, <b>Python</b> currently needs a 1:1 relationship between <b>Python</b> interpreters and threads. <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     History Lesson #452
Publisher: evilutionary virtual log

Rather than aspire to the skilled impressionism of SCTV or the cultured absurdity of Monty <b>Python</b>, the sketches come across as actors workshop pieces at times - though occasionally written as sharply as either of those shows. <b>...</b>
Guess: monty


Enter category:  prog



-----
Title:     Yet Another Use For (<b>Python</b>) Decorators
Publisher: h4ck3r+=boi

<b>Python</b> 2.4 came with this neat feature called decorators. For the longest time I didn't know what to do with this new feature, but I've since found a library of decorators. Today I found another clever decorator trick: check to see if a <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     Crocodile and <b>Python</b> Care
Publisher: The Purse Forum

I recently ventured into purchasing crocodile and <b>python</b> bags and wonder how do YOU care for them? :flowers: I want to keep my purse collection in tip top shape so I can enjoy them for years to come. <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     dev-<b>python</b>/httplib2 0.2.0
Publisher: packages.gentoo.org [ x86 ]

alpha, amd64, arm, hppa, ia64, mips, ppc, ppc64, ppc macos, s390, sparc, sparc fbsd, x86, x86 fbsd. 0.2.0, -, ~, -, -, -, -, -, -, -, -, -, -, ~, -. Category, Homepage, License, ChangeLog, Similar, Bugs, Forums. dev-<b>python</b>, MIT.
Guess: 1


Enter category:  prog



-----
Title:     snakecommunity @ 2006-10-23T19:33:00
Publisher: the snake community

Several months ago, I lost a carpet <b>python</b>, followed by another carpet <b>python</b>, <b>...</b> I have one remaining boid in my home, my loving ball <b>python</b>, who also has an <b>...</b> I am pretty sure that he'll be alright, because IBD kills <b>pythons</b> very <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Interview with Martin Dougiamas, Founder of Moodle
Publisher: K12 OpenSource Webcasts

Jeff Elkner’s work teaching FOSS programs like <b>Python</b> to students at Yorktown High School in Arlington, Virginia, is an example of this. What makes FOSS more than just a “cheaper” replacement of proprietary programs is this second <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     numpy error
Publisher: coding.derkeiler.com: comp.lang.python

comp.lang.<b>python</b>: numpy error.
Guess: snake


Enter category:  prog



-----
Title:     Star Trek meets Monty <b>Python</b>
Publisher: Reign of Elysian

Forum: Common Blood Posted By: Ladon Post Time: 10-23-2006 at 07:14 PM.
Guess: prog


Enter category:  prog



-----
Title:     Looking for a <b>Python</b>-on-Windows person to help with SpamBayes
Publisher: coding.derkeiler.com: comp.lang.python

comp.lang.<b>python</b>: Looking for a <b>Python</b>-on-Windows person to help with SpamBayes.
Guess: prog


Enter category:  prog



-----
Title:     Cosas mal diseñadas
Publisher: Elucubrando

Y como no estoy en <b>python</b> , que me permitiría usar un fabuloso duck typing, ahora me veo forzado a hacer un mugroso wrapper que lo único  que hace es, de acuerdo con una bandera, leer una o la otra y regresar el dato que me interesa. <b>...</b>
Guess: 1


Enter category:  prog



-----
Title:     Introduction article on Ruby on Rail published
Publisher: coding.derkeiler.com: comp.lang.python

comp.lang.<b>python</b>: Introduction article on Ruby on Rail published.
Guess: prog


Enter category:  prog



-----
Title:     ZODB for inverted index?
Publisher: coding.derkeiler.com: comp.lang.python

comp.lang.<b>python</b>: ZODB for inverted index?
Guess: snake


Enter category:  prog



-----
Title:     See You in Chicago
Publisher: Book - New Releases

helped put together a couple of well-regarded sprints for the <b>Python</b> community. He wrote about his experiences organizing <b>...</b> http://www.onlamp.com/pub/a/<b>python</b>/2006/10/19/running-a-sprint.html. Your  editor questioned the conventional <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     The Ultimate showdown of ultimate Destiny
Publisher: Alessandro... è qui che mi posso sfogare!

"Monty <b>Python</b> and the Holy Grail"'s Black Knight and Benito Mussolini and The Blue Meanie and Cowboy Curtis and Jambi the Genie Robocop, the Terminator, Captain Kirk, and Darth Vader Lo Pan, Superman, every single Power Ranger <b>...</b>
Guess: 4


Enter category:  prog



-----
Title:     www : bugs
Publisher: wikispaces.com : www - all changes

<b>Python</b> requires indentations in order to delimit functions, if statements etc. These are lost when you insert <b>Python</b> code into the wiki. <b>...</b> pilot1001 Apr 3, 2006 5:42 am It now appears that it is best to paste the <b>python</b> code in using <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     [SECURITY] [DSA 1197-1] New python2.4 packages fix arbitrary code <b>...</b>
Publisher: ericakmal[dot]com

Wiley Sittler discovered that the repr() of the <b>Python</b> interpreter allocates insufficient memory when parsing UCS-4 <b>...</b> We recommend that you upgrade your <b>Python</b> 2.4 packages. Upgrade Instructions - --------------------. wget url <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Suzanne
Publisher: And you know you&amp;#39;re gonna lie to you, in your own way

So Micheal and April went to the Paulding County pound today to see about a snake (they were told it was a boa, but it was a <b>python</b>). While they were there, this dude came in with a bunch of puppies (...
Guess: prog


Enter category:  prog



-----
Title:     <b>Python</b> Cookbook
Publisher: Giga Blog

Portable, powerful, and a breeze to use, <b>Python</b> is the popular open source object-oriented programming language used for both standalone programs and scripting applications. It is now being used by an increasing number of  major <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     Comment on Finally, a ‘third party’ with broad appeal by ollie
Publisher: Comments for Peoria Pundit

So long it isn’t that horrible “People’s Front of Judea”. Or the “Judean People’s Front.” Or the “Popular People’s Judean Front.” Or the “Judean Popular People’s Front”. (Monty <b>Python</b> fans will get the reference….)
Guess: snake


Enter category:  prog



-----
Title:     Welcome John Lam to MS
Publisher: A blog to the tune of James

This is exciting news as MS opens up the CRL for Dynamic Languages like <b>Python</b> and Ruby. Now I just have to find some free time to come up to speed on Ruby... John gives a better take on the move and...(read more)
Guess: prog


Enter category:  prog



-----
Title:     White Gold
Publisher: Stellblog

Meeting up with Mere et Pere for a spot of déjeuner at the weekend, we were greeted by waiters who's French-ness appears to have come straight out of a Monty <b>Python</b> sketch... "Bonjour! And 'ow are we today?" <b>...</b>
Guess: prog


Enter category:  prog


Можно увидеть, что со временем гипотезы улучшаются. Примеров о змеях
довольно мало, поэтому классификатор часто допускает для них ошибки.

Далее можно посмотреть вероятности для указанного признака – как вероятность слова при условии категории, так и вероятность категории при условии слова:

In [79]:
cl22.cprob('eric','monty')

0

In [80]:
cl22.cprob('<b>python</b>','snake')

0.25749199883619434

In [81]:
cl22.cprob('language','programming')

0

In [82]:
cl22.fprob('eric','monty')

0.0

### Усовершенствование алгоритма обнаружения признаков
Во всех рассмотренных до сих пор примерах функция создания списка
признаков просто разбивает текст на слова по символам, отличным от
букв и цифр. Кроме того, она преобразует слова в нижний регистр, поэтому пропадает возможность обнаружить чрезмерное количество
слов, написанных заглавными буквами. Ситуацию можно улучшить
несколькими способами:

-Не считая слова, записанные заглавными и строчными буквами, совершенно различными, признать наличие большого количества
«кричащих» слов признаком.<br>
-Использовать помимо отдельных слов еще и словосочетания.<br>
-Собирать дополнительную метаинформацию, например, о том, кто
отправил письмо или в какую категорию была помещена запись
блога, и помечать, что это именно метаданные.<br>
-Сохранять URL и числа неизменными.

Не забывайте, что недостаточно просто выбрать более специфичные
признаки. Чтобы классификатор мог воспользоваться признаком, последний должен встречаться во многих документах.

Класс classifier может принять в качестве getfeatures любую функцию
и применять ее к предъявляемым образцам. Он ожидает лишь, что функция вернет список или словарь выделенных из образца признаков.
В силу общности природы классификатора вы можете написать функцию, которая работает с более сложными типами, чем строки. Например, для классификации записей в блоге можно придумать функцию, которая принимает всю запись целиком, а не только извлеченный из
нее текст, и вставляет аннотации о том, откуда взялось каждое слово.

Можно также выбирать пары слов из тела текста и отдельные слова из
темы. По всей видимости, разбивать на части поле creator бессмысленно, так как сообщения от некоего «Джона Смита» ничего не скажут
о сообщениях какого-нибудь другого «Джона».

Добавим следующую функцию выделения признаков. 

In [83]:
def entryfeatures(entry):
    splitter=re.compile('\s')
    f={}

    # Extract the title words and annotate
    titlewords=[s.lower() for s in splitter.split(entry['title']) if len(s)>2 and len(s)<20]
    for w in titlewords: f['Title:'+w]=1

    # Extract the summary words
    summarywords=[s.lower() for s in splitter.split(entry['summary'])  if len(s)>2 and len(s)<20]

    # Count uppercase words
    uc=0
    for i in range(len(summarywords)):
        w=summarywords[i]
        f[w]=1
        if w.isupper(): uc+=1

    # Get word pairs in summary as features
        if i<len(summarywords)-1:
            twowords=' '.join(summarywords[i:i+1])
            f[twowords]=1

    # Keep creator and publisher whole
    f['Publisher:'+entry['publisher']]=1

    # UPPERCASE is a virtual word flagging too much shouting  
    if float(uc)/len(summarywords)>0.3: f['UPPERCASE']=1

    return f

Эта функция извлекает слова из заголовка и резюме так же, как написанная ранее функция getwords. Все слова из заголовка она рассматривает как отдельные признаки. Слова из резюме тоже помещаются
в список слов, но дополнительно признаками считаются пары соседних слов. Информация об авторе трактуется как неделимый признак.
Напоследок функция подсчитывает количество слов, написанных заглавными буквами. Если их доля больше 30% от общего числа слов, то
функция добавляет в список специальный признак UPPERCASE. В отличие от правила, которое говорит, что написанные заглавными буквами
слова означают нечто особенное, мы просто включаем еще один признак, который можно использовать для обучения классификатора.
В некоторых случаях классификатор может решить, что этот признак
бесполезен для распознавания категории документа.

Если вы хотите применить новую версию выделения признаков совместно с функцией
read, то последнюю придется изменить, так чтобы она передавала
записи непосредственно классификатору, а не функции fulltext. Достаточно изменить функцию так:

In [84]:
# Takes a filename of URL of a blog feed and classifies the entries
def read(feed,classifier):
    # Get feed entries and loop over them
    f=feedparser.parse(feed)
    for entry in f['entries']:
        print('')
        print ('-----')
        # Print the contents of the entry
        print ('Title:     '+ entry['title'])
        print ('Publisher: '+entry['publisher'])
        print('')
        print (entry['summary'])


        # Combine all the text to create one item for the classifier
        fulltext='%s\n%s\n%s' % (entry['title'],entry['publisher'],entry['summary'])

        # Print the best guess at the current category
        print ('Guess: '+str(classifier.classify(entry)))

        # Ask the user to specify the correct category and train on that
        cl=input('Enter category: ')
        classifier.train(entry,cl)

In [85]:
cl31 = fisherclassifier(entryfeatures)
cl31.setdb('python_feed1.db')

In [86]:
read('python_search.xml',cl31)


-----
Title:     My new baby boy!
Publisher: Shetan Noir, the zombie belly dancer! - MySpace Blog

THis is my new baby, Anthem. He is a 3 and half month old ball <b>python</b>, orange shaded normal pattern. I have held him about 5 time since I brought him home tonight at 8:00pm...
Guess: None


Enter category:  prog



-----
Title:     If you need a laugh...
Publisher: Kate&#39;s space

Even does funny walks; from Monty <b>Python</b>. He talks about all the ol' ladies that are after him. He teases me about my horror obsession. He attempts suicide. And best of all, he talks about poo. Who doesn't think poo is funny???!
Guess: prog


Enter category:  prog



-----
Title:     And another one checked off the list..New pix comment ppl
Publisher: Python Guru - MySpace Blog

Now the one of a kind NERD bred Carplot male is in our possesion. His name is Broken (not because he is sterile) lol But check out the pic and leave one bitches..............
Guess: prog


Enter category:  prog



-----
Title:     <b>Python</b> vs Java - It’s not only the language, it’s the tools
Publisher: A Drop In The Stream

Well, I’ve done a bit of <b>Python</b> coding by now in my new job and here’s my take on the <b>Python</b> vs. Java question. <b>Python</b> is concise and just rocks for doing tricky, complicated things using simple semantics. I just learned of a chunk of <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     BF 2142 ads successfully hacked - add your own and/or block the <b>...</b>
Publisher: Aaron Tiensivu&#39;s Blog

One <b>Python</b> script exports the graphics and a different one imports the graphics. I'm not posting the source code/scripts because I don't know who to credit as the source, and I don't want any weird DMCA lawsuits sent my way for posting <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Ruby, <b>Python</b>, JavaScript, Perl, C++
Publisher: Програм Хөгжүүлэх Техник, Технологууд

Ruby (String), <b>Python</b> (str), JavaScript (String), Perl, C++  (std::string). s = “abc”, s = “abc”, s = “abc”, $s = “abc”, string s = “abc”. s = x + y, s = x + y, s = x + y, $s = $x . $y, s = x + y*1 <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     My Gift to Him... Check out the picture.
Publisher: Insignificant Rambling...

It looks just like our little Jasper. Except it may be bigger than "ours" or his rather. Ball <b>Python</b> by the way. That's also not the one I bought. I found that particular picture on the internet. Jas...
Guess: prog


Enter category:  prog



-----
Title:     Monty <b>Python&#39;s</b> Flying Circus - Set 4: Season 2
Publisher: barterbee.com :: Movies

"Monty <b>Python's</b> Flying Circus - Set 4: Season 2" starring Monty <b>Python</b> Cast was listed for 6 points on 2006-10-23 at 18:24.
Guess: prog


Enter category:  prog



-----
Title:     Microsoft Hires Inventor of RubyCLR
Publisher: Rajlogs

And Hugunin's group  managed to deliver an implementation of <b>Python</b> on .Net earlier this year. That implementation, IronPython 1.0, went live last month. John Lam Blog. "I’ve decided to stage a friendly takeover of Microsoft. <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Sisters of Perpetual Indugence trike drag (queen) race, SF
Publisher: The Smorgasbord - technology, open source, Ubuntu, Drupal, xBox, opinion, news, and more!

The scene along the sidewalk was Fellini meets Almodovar meet Monty <b>Python</b>: contestants only sprinted for 10 or 20 feet at a time on their tricycles, then ducked in to air-conditioned bars for pomegranate martinis. <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Another Updated Survey. same old same old
Publisher: Python! - MySpace Blog

TELL ME ABOUT YOURSELF - The SurveyName:AndrewBirthday:Oct. 24. Its Tomorrow!!! :)Birthplace:IslipCurrent Location:IslipHair Color:BrownHeight:6'5"Right Handed or Left Handed:Righty ...
Guess: prog


Enter category:  prog



-----
Title:     <b>Python</b> - Chris Buck
Publisher: eMusic albums: New This Month - Freshly Ripped - Electronic

<b>Python</b> - Chris Buck. Listen, Genre: Electronic Styles: Drum 'n' Bass/ Jungle, House, Techno Label: Million Seller Records Inc. / INgrooves.
Guess: prog


Enter category:  prog



-----
Title:     QotD: All My Computers
Publisher: Vodka and fairy-bread

I've also got an old Bondi Blue iMac which is pretty much only used to run Skittles and Monty <b>Python</b> and the Holy Grail. There's also a few computers lying around for spare parts and countless monitors that I have no idea why we're <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     OSS: Code Generation for the Rails Generation
Publisher: Snakes, Gems &amp; Coffee

Since nobody really likes writing boilerplate C++ code, we wrote a code generation toolkit in <b>Python</b> that read in MOF, UML and XML schema metamodel representations and passed in-memory metamodels to our code templates, which produced <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Run for your Code!
Publisher: Book - New Releases

recently helped to organize such sprints for the <b>Python</b> world. He's <b>...</b> http://www.onlamp.com/pub/a/<b>python</b>/2006/10/19/running-a-sprint.html <b>...</b> Jeremy Jones noted a new release of SQLAlchemy, a <b>Python</b> SQL toolkit and ORM: <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Re: using mmap on large (&gt; 2 Gig) files
Publisher: comp.lang.python :: The Python computer language

But the question remains whether <b>Python's</b> "mmap" qualifies as a "memory mapping" at all. <b>...</b> How would you use <b>Python's</b> mmap for something like this? I haven't looked at the source, but I'd be surprised if <b>Python</b> actually maps the file <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Monty <b>Python&#39;s</b> The Meaning Of Life
Publisher: Sexy and Funny Forums

Does anyone have the clip from Meaning of Life where a guy is chased over a cliff by a squad of topless chicks?
Guess: prog


Enter category:  prog



-----
Title:     [SECURITY] [DSA 1198-1] New python2.3 packages fix arbitrary code <b>...</b>
Publisher: ericakmal[dot]com

Wiley Sittler discovered that the repr() of the <b>Python</b> interpreter allocates insufficient memory when parsing UCS-4 <b>...</b> We recommend that you upgrade your <b>Python</b> 2.3 packages. Upgrade Instructions - --------------------. wget url <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Re: pretty basic instantiation question
Publisher: comp.lang.python :: The Python computer language

<b>...</b> as you end up creating <b>Python</b> statements on the fly using eval() and exec and other such dangerous and insanity-inducing tricks :-) Instead use a container structure like a list to hold them, and then use an appropriate technique to <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Re: classroom constraint satisfaction problem
Publisher: comp.lang.python :: The Python computer language

Carl Banks wrote: > Steven Bethard wrote: >> Basically, I want to build groups of two teachers and four students such >> that [1]:  >> >> * Students are assigned to exactly one group >> * Teachers are assigned to approximately the same <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Re: How to get each pixel value from a picture file!
Publisher: comp.lang.python :: The Python computer language

http://www.pythonware.com/library/pil/handbook/image.htm im.load() said.... Leif K-Brooks wrote: > Lucas wrote: > > 1)I just copy the tutorial to run "print pix[44,55]". I really dont > > know why they wrote that?! > > What tutorial? <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Re: numpy error
Publisher: comp.lang.python :: The Python computer language

Therefor I installed: > > <b>python</b> 2.5 > matplotlib-0.87.6.win32-py2.5.exe > numpy-1.0rc3.win32-py2.5.exe > > on WinXP SP2  > > The result is a version mismatch (see below). > > Numpy version 1000002 seems to be numpy-1.0b5 which is not <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Re: using mmap on large (&gt; 2 Gig) files
Publisher: comp.lang.python :: The Python computer language

On a 64-bit architecture, this is a known limitation of <b>Python</b> 2.4: > you can't have containers with more than 2Gi items. This limitation > was removed in <b>Python</b> 2.5, so I recommend to upgrade. Notice that > the code has seen little <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Monty <b>Python</b> Star Terry Jones Undergoes Cancer Surgery
Publisher: Starpulse News Blog - Movie News, New Movies On DVD

Monty <b>Python</b> And The Holy GrailLatest: Monty <b>Python</b> star Terry Jones has undergone surgery for colon cancer. The 64 year old was "in good spirits and the operation went very well",according to his agent Jodi Shields. <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     60 SECONDS: Eric Idle
Publisher: Home

Eric Idle is best known as one-sixth of the Monty <b>Python</b> team and for his song Always Look  On The Bright Side Of Life. <b>...</b> His Tony  Award-winning musical, Spamalot, based on Monty <b>Python</b> And The Holy Grail, is on at Londons Palace <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     AppleScript to merge MS Word Section PDFs
Publisher: www.entropy.ch blog

The script is unfortunately a bit ugly because I embedded a <b>python</b> script for the <b>...</b> I originally kept the <b>python</b> script in my home directory’s “bin” <b>...</b> In case you’re interested in the <b>python</b> code alone, this is what it looks like: <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Some of my Fav snakes
Publisher: Tailfeathers Bird Community

Green Tree <b>Python</b> Piebald Ball <b>Python</b> Pinstripe Ball <b>python</b> About any other mutations of Ball <b>Pythons</b>... Mexican Black Kingsnake And the most gorgeous snake on earth... The Colombian Rainbow Boa.. *swoons* <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Destructor for <b>Python</b>
Publisher: Ubuntu Forums

Forum: Programming Talk Posted By: Nonno Bassotto Post Time: October 23rd, 2006 at 06:19 PM.
Guess: prog


Enter category:  prog



-----
Title:     time delay syntax error
Publisher: DaniWeb IT Discussion Community

Forum: <b>Python</b> Posted By: HLA91 Post Time: Oct 23rd 2006 at 3:47 pm.
Guess: prog


Enter category:  prog



-----
Title:     Good Luck, Terry
Publisher: A Big Fat Slob

Terry is, of course, known for his work with Monty <b>Python</b>, in its various incarnations. Less known here in the US are his political commentaries for The Guardian. Columns, like this classic from 2003, demonstrating how the Bush Iraq <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     <b>python</b> upgrade broke system tools
Publisher: LinuxQuestions.org

Forum: Linux - Software Posted By: bilkay Post Time: 10-23-2006 at 04:50 PM.
Guess: prog


Enter category:  prog



-----
Title:     Dangerous Feet and Good Diction
Publisher: eclecticism: Comments

It may be a bit tricky, though, in that my southern drawl and my Monty <b>Python</b>-inspired British tend to be close enough that they often end up sliding into one another if I’m not careful. Once that starts happening, I’d assume that all <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     &quot;My name is Kollamoolitumarellipawkyrollo!&quot; said Mr Whatisname <b>...</b>
Publisher: &quot;Full of grandiose schemes&quot;

The title was taken from a rousing song which they played many times. Monty <b>Python</b> fans might want to listen to it— go here and play the sample of the first track— and they might discover that a certain song was unexpectedly a filk.
Guess: prog


Enter category:  prog



-----
Title:     Topic #2
Publisher: Midgitman Will’s blog

(those of you who did see it will understand that quote) of course  it was good it was written by Eric Idle(monty <b>python</b> member). Those of you who didnt see it should see it even more if you like monty <b>python</b>! What made the play evenmore <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Textmate
Publisher: The Caffeinated Mac Blog

It was so easy to program in <b>Python</b> I almost ditched Smultron, except one thing held me back. The price. Sadly, I am broke and do not use Euros so as far as I can tell, I can’t buy TextMate. Someone PLEASE comment me if I’m wrong. <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Reply to Introduce yourself
Publisher: Grand Rapids, Michigan

Tim" ( I hope Monte <b>Python</b> references are welcome here - at  least it's different from the 12 step intro). I grew up in Caledonia but moved away for college and didn't live in the area for almost ten years. Like Nate (see above), <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     dev-util/scons 0.96.92
Publisher: packages.gentoo.org [ ]

Description: Extensible <b>Python</b>-based  build utility. Changes: *scons-0.96.92 (23 Oct 2006) 23 Oct 2006; (twp) -scons-0.96.90.ebuild, scons-0.96.91.ebuild, +scons-0.96.92.ebuild: Version bump and clean up .py[co] files. <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     ARGH!!!!!!! DEPENDENCY HELL!!!!!
Publisher: Just Another Tech Blog

First it comes up with a message saying that I need <b>python</b>-gtk. So, I go about trying to get <b>python</b>-gtk. Of course, it is not in YaST. <b>...</b> First I try to install <b>python</b>-cairo. You know what error message comes up? <b>PYTHON</b>-CAIRO REQUIRES <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     No Reason to Celebrate: Confetti
Publisher: Four Magazine

While there will always be Monty <b>Python</b> and The Office to secure a spot in the comedic Hall of Fame, Americans tend to turn their backs to its super dry humor in favor of slapstick and toilet gags. Perhaps this preference is why the US <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     erotic mens underwear
Publisher: :underwear mens erotic

In a second drawer, he checks his pet <b>python</b>. As "the perfect ending" to the "wonderful evening," Alex switches on a cassette tape of Beethoven's Ninth Symphony. While musically appreciating his favorite composer and classical piece, <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Church girls get inspired by these worshipworthy
Publisher: Italian Charm - Links, Information, News and Articles.

<b>Python</b> clutch and floral pin, 630 Lenox by Ayesha Ouattara. Suede sling backs, Cole Haan. (Right) Cot ton-Lycra spanrtex dress, $275, Inez Silk camisole with lace trim, $26, Mary Green Leather belt, Sandy Duftler. <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Ex-<b>Python</b> Star Has Cancer Surgery
Publisher: Kerry Fox Live!

BBC News Former Monty <b>Python</b> star Terry Jones has undergone surgery for colon <b>...</b> He last week joined former Monty <b>Python</b> colleagues Eric Idle, Terry Gilliam and Michael Palin for the London opening of Idle’s <b>Python</b> musical Spamalot. <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     DVD wish list part 1
Publisher: (¯`•&#39;¯)`•&#39;¯)♥ Christina&#39;s Stuff ♥

Monty <b>Python</b>. · Rocky collection. · The Godfather  collection. Action:. · Any superhero movie. · Mr. & Mrs. Smith. · War of The Worlds. · Ong-Bak The Thai Warrior. · Gladiator. · Troy. · Alexandar The Great. · John Grisham movies <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     ATHF Flaunts Censors - <b>Python</b> Member Fights Cancer...
Publisher: The Run Down

Terry Jones, former member of Monty <b>Python</b> and director of their films, as well as others, such as The Wind in the Willows, is recovering from surgery undergone to fight cancer. I'm sure I speak for us all in wishing him a speedy <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Announce: PySVN 1.5.0
Publisher: MailBucket: subversion-users

New options to setup.py: --enable-debug and --svn-root-dir * Windows binary kit for <b>Python</b> 2.5 * Mac OS X 10.4 binary kit for <b>Python</b> 2.5 * Support for building on AIX Features of PySVN: * Natural <b>python</b> interface to Subversion <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Threaded data collection with <b>Python</b>
Publisher: bender

http://www.davidnaylor.co.uk/archives/2006/10/19/threaded-data-collection-with- <b>python</b>-including-examples. technorati tags: <b>python</b>.
Guess: prog


Enter category:  prog



-----
Title:     [Question] Can you control the speed at which units move from one <b>...</b>
Publisher: Civilization Fanatics&#39; Forums

I'm not at home, so I can't scour the code at the moment, but I was just wondering if it's possible, either via XML, <b>Python</b> or SDK to  change how fast a unit moves between spaces.
Guess: prog


Enter category:  prog



-----
Title:     Eric Idle Blasts <b>Pythons</b>
Publisher: Starpulse News Blog

Idle, who wrote the musical which is based on 1975 film Monty <b>Python</b> And The Holy Grail, insists he's not bothered if his former castmates are unhappy with the result, because the flood of new <b>Python</b> fans he's attracted makes it a <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Eric Idle Blasts <b>Pythons</b>
Publisher: Fashion

Monty <b>Python</b> funnyman Eric Idle has branded his old comedy partners two-faced for reaping the financial rewards of his hit musical Spamalot, despite expressing reservations about the show. Idle, who wrote the musical which is based on <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Ex-<b>Python</b> star has cancer surgery
Publisher: News/Activism

Former Monty <b>Python</b> star Terry Jones has undergone surgery for colon cancer. <b>...</b> He last week joined former Monty <b>Python</b> colleagues Eric Idle, Terry Gilliam and Michael Palin for the London opening of Idle's <b>Python</b> musical Spamalot. <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Find files with an emblem
Publisher: as days pass by

aquarius@giles:~$ <b>python</b> findemblem.py money /home/aquarius/Sam presents /home/aquarius/Work/quotation.xml. The actual script is: import re, glob, sys, urllib, os from  xml.dom import minidom def grep(pattern, files): search <b>...</b>
Guess: prog


Enter category:  prog



-----
Title:     Anyone have Gnuplot working?
Publisher: MacNN Forums

Anyone know what the deal is with this? Anyone have Gnuplot sucessfully running on a Mac? I want to use <b>python</b> or ruby to generate simple graphs and have them served on my server... nothing too crazy. Any help would be appreciated ;-)
Guess: prog


Enter category:  prog



-----
Title:     <b>Python</b> Kye 0.9.2 (Default branch)
Publisher: The Open Source Pimp - Open Source and Linux, breaking news, Libertarian politics, diary of a Linux geek in a Windows shop

Kye is a puzzle game which takes ideas from Sokoban and the genre of falling-rocks puzzle games. However, it includes a wider range of objects, allowing a larger variety of puzzles to be constructed. It is a clone of the original, <b>...</b>
Guess: prog


Enter category:  snake



-----
Title:     <b>Python</b> Kye 0.9.2 (Default branch)
Publisher: Rebellion Coffee Company Libertarian Blog

Kye is a puzzle game which takes ideas from Sokoban and the genre of falling-rocks puzzle games. However, it includes a wider range of objects, allowing a larger variety of puzzles to be constructed. It is a clone of the original, ...
Guess: prog


Enter category:  prog



-----
Title:     moving from infogami.com
Publisher: online.effbot.org

Earlier this year, I put up rough copies of the <b>Python</b> tutorial, the FAQ, and the language reference on Aaron Schwartz' infogami site. However, Aaron has moved on to other projects, and has left the infogami site behind. <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     New <b>Python</b> ShowMeDo: Introducing the pydb Debugger
Publisher: ShowMeDo Blog

Rocky Bernstein introduces his work on the pydb debugger, an improvement over the stock pdb debugger. He shows how to debug a sample problem (gcd.py) and discusses some of the merits of the new debugger. There is some work in progress <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     xmlBlaster 1.4 (Default branch)
Publisher: freshmeat.net announcements (Global)

C/C++, Java, Perl, <b>Python</b>, VisualBasic.net, C#, and PHP client demos are included in the xmlBlaster test suite, and Tcl and <b>Python</b> demo clients are scheduled. XmlBlaster also provides a browser callback framework, allowing browsers <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     <b>Python&#39;s</b> health scare
Publisher: Arts and Entertainment

Just a week after attending the premiere of Spamalot, former Monty <b>Python</b> member Terry Jones has undergone surgery for colon cancer. Jones, whose most memorable contribution to the early TV series was his naked organ playing, <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     BerkeleyDB Backend Storage Engine for DURUS 20061023 (Default branch)
Publisher: freshmeat.net announcements (Global)

BerkeleyDB Backend Storage Engine for DURUS provides a storage engine for DURUS, a persistence system for the <b>Python</b> programming language. License: GNU General Public License (GPL). Changes: By default, this release does database <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     Good ol&#39; Monday
Publisher: Riders Paradise

Since it's Monday I feel that some humerous Monty <b>Python</b> clips are in order. Here's one making fun of religion/politics, and another to cheer you up. Also, I  highly recommend everyone catch the final Moto GP race this weekend. <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     Text files with <b>Python</b>
Publisher: dennogumi.org

Mood : tired. Finally I cleaned up my code enough to post it here. It’s probably still ugly, but not as ugly as when I wrote it down the first time. It’s all about manipulating text files, to be precise tab-delimited files. <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     Interview with Martin Dougiamas, Creator of Moodle
Publisher: Steve Hargadon

Jeff Elkner's work teaching FOSS programs like <b>Python</b> to students at Yorktown High School in Arlington, Virginia, is an example of this. What makes FOSS more than just a "cheaper" replacement of proprietary programs is this second <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     MIDIsense, Now for for Windows: Real World to MIDI Interface
Publisher: Create Digital Music

Now, the good news: the software for programming the board is now available for Windows, and it’s much faster and more reliable than its previous <b>python</b>-based iteration:. Windows MIDIsense software [ladyada’s ranting, which has lots of <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     Embedding <b>Python</b> and Multithreading
Publisher: Jesses!

Note that all that still means that you can't have one <b>Python</b> interpreter running in multiple threads. If I understood things as they are, <b>Python</b> currently needs a 1:1 relationship between <b>Python</b> interpreters and threads. <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     History Lesson #452
Publisher: evilutionary virtual log

Rather than aspire to the skilled impressionism of SCTV or the cultured absurdity of Monty <b>Python</b>, the sketches come across as actors workshop pieces at times - though occasionally written as sharply as either of those shows. <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     Yet Another Use For (<b>Python</b>) Decorators
Publisher: h4ck3r+=boi

<b>Python</b> 2.4 came with this neat feature called decorators. For the longest time I didn't know what to do with this new feature, but I've since found a library of decorators. Today I found another clever decorator trick: check to see if a <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     Crocodile and <b>Python</b> Care
Publisher: The Purse Forum

I recently ventured into purchasing crocodile and <b>python</b> bags and wonder how do YOU care for them? :flowers: I want to keep my purse collection in tip top shape so I can enjoy them for years to come. <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     dev-<b>python</b>/httplib2 0.2.0
Publisher: packages.gentoo.org [ x86 ]

alpha, amd64, arm, hppa, ia64, mips, ppc, ppc64, ppc macos, s390, sparc, sparc fbsd, x86, x86 fbsd. 0.2.0, -, ~, -, -, -, -, -, -, -, -, -, -, ~, -. Category, Homepage, License, ChangeLog, Similar, Bugs, Forums. dev-<b>python</b>, MIT.
Guess: prog


Enter category:  prog



-----
Title:     snakecommunity @ 2006-10-23T19:33:00
Publisher: the snake community

Several months ago, I lost a carpet <b>python</b>, followed by another carpet <b>python</b>, <b>...</b> I have one remaining boid in my home, my loving ball <b>python</b>, who also has an <b>...</b> I am pretty sure that he'll be alright, because IBD kills <b>pythons</b> very <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     Interview with Martin Dougiamas, Founder of Moodle
Publisher: K12 OpenSource Webcasts

Jeff Elkner’s work teaching FOSS programs like <b>Python</b> to students at Yorktown High School in Arlington, Virginia, is an example of this. What makes FOSS more than just a “cheaper” replacement of proprietary programs is this second <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     numpy error
Publisher: coding.derkeiler.com: comp.lang.python

comp.lang.<b>python</b>: numpy error.
Guess: prog


Enter category:  prog



-----
Title:     Star Trek meets Monty <b>Python</b>
Publisher: Reign of Elysian

Forum: Common Blood Posted By: Ladon Post Time: 10-23-2006 at 07:14 PM.
Guess: snake


Enter category:  prog



-----
Title:     Looking for a <b>Python</b>-on-Windows person to help with SpamBayes
Publisher: coding.derkeiler.com: comp.lang.python

comp.lang.<b>python</b>: Looking for a <b>Python</b>-on-Windows person to help with SpamBayes.
Guess: snake


Enter category:  prog



-----
Title:     Cosas mal diseñadas
Publisher: Elucubrando

Y como no estoy en <b>python</b> , que me permitiría usar un fabuloso duck typing, ahora me veo forzado a hacer un mugroso wrapper que lo único  que hace es, de acuerdo con una bandera, leer una o la otra y regresar el dato que me interesa. <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     Introduction article on Ruby on Rail published
Publisher: coding.derkeiler.com: comp.lang.python

comp.lang.<b>python</b>: Introduction article on Ruby on Rail published.
Guess: snake


Enter category:  prog



-----
Title:     ZODB for inverted index?
Publisher: coding.derkeiler.com: comp.lang.python

comp.lang.<b>python</b>: ZODB for inverted index?
Guess: prog


Enter category:  prog



-----
Title:     See You in Chicago
Publisher: Book - New Releases

helped put together a couple of well-regarded sprints for the <b>Python</b> community. He wrote about his experiences organizing <b>...</b> http://www.onlamp.com/pub/a/<b>python</b>/2006/10/19/running-a-sprint.html. Your  editor questioned the conventional <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     The Ultimate showdown of ultimate Destiny
Publisher: Alessandro... è qui che mi posso sfogare!

"Monty <b>Python</b> and the Holy Grail"'s Black Knight and Benito Mussolini and The Blue Meanie and Cowboy Curtis and Jambi the Genie Robocop, the Terminator, Captain Kirk, and Darth Vader Lo Pan, Superman, every single Power Ranger <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     www : bugs
Publisher: wikispaces.com : www - all changes

<b>Python</b> requires indentations in order to delimit functions, if statements etc. These are lost when you insert <b>Python</b> code into the wiki. <b>...</b> pilot1001 Apr 3, 2006 5:42 am It now appears that it is best to paste the <b>python</b> code in using <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     [SECURITY] [DSA 1197-1] New python2.4 packages fix arbitrary code <b>...</b>
Publisher: ericakmal[dot]com

Wiley Sittler discovered that the repr() of the <b>Python</b> interpreter allocates insufficient memory when parsing UCS-4 <b>...</b> We recommend that you upgrade your <b>Python</b> 2.4 packages. Upgrade Instructions - --------------------. wget url <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     Suzanne
Publisher: And you know you&amp;#39;re gonna lie to you, in your own way

So Micheal and April went to the Paulding County pound today to see about a snake (they were told it was a boa, but it was a <b>python</b>). While they were there, this dude came in with a bunch of puppies (...
Guess: snake


Enter category:  prog



-----
Title:     <b>Python</b> Cookbook
Publisher: Giga Blog

Portable, powerful, and a breeze to use, <b>Python</b> is the popular open source object-oriented programming language used for both standalone programs and scripting applications. It is now being used by an increasing number of  major <b>...</b>
Guess: snake


Enter category:  prog



-----
Title:     Comment on Finally, a ‘third party’ with broad appeal by ollie
Publisher: Comments for Peoria Pundit

So long it isn’t that horrible “People’s Front of Judea”. Or the “Judean People’s Front.” Or the “Popular People’s Judean Front.” Or the “Judean Popular People’s Front”. (Monty <b>Python</b> fans will get the reference….)
Guess: snake


Enter category:  prog



-----
Title:     Welcome John Lam to MS
Publisher: A blog to the tune of James

This is exciting news as MS opens up the CRL for Dynamic Languages like <b>Python</b> and Ruby. Now I just have to find some free time to come up to speed on Ruby... John gives a better take on the move and...(read more)
Guess: snake


Enter category:  prog



-----
Title:     White Gold
Publisher: Stellblog

Meeting up with Mere et Pere for a spot of déjeuner at the weekend, we were greeted by waiters who's French-ness appears to have come straight out of a Monty <b>Python</b> sketch... "Bonjour! And 'ow are we today?" <b>...</b>
Guess: snake


Enter category:  prog


С признаками можно еще много чего сделать. Построенный базовый
каркас позволяет определить функцию выделения признаков и настроить классификатор для работы с ней. Он будет классифицировать любой предъявленный образец при условии, что написанная функция
способна выделить из него признаки.
## Альтернативные методы
Оба рассмотренных в данной главе классификатора – это примеры *обучения с учителем*, когда программе предъявляются правильные результаты и она постепенно улучшает качество вырабатываемых гипотез. Рассмотренная в главе 4 искусственная нейронная сеть, которая
взвешивала результаты поиска на предмет их ранжирования, – еще
один пример обучения с учителем. Нейронную сеть можно было бы
адаптировать для решения задач из этой главы, если интерпретировать
признаки как входные сигналы, а выходные сигналы сопоставить всем
возможным классификациям. Аналогично, к задачам из этой главы
применим метод опорных векторов, который описывается в главе 9.

Для классификации документов используется именно байесовская
фильтрация просто потому, что она требует гораздо меньше вычислительных ресурсов, чем прочие методы. В почтовом сообщении могут
быть сотни и даже тысячи слов, а для простого обновления счетчиков
требуется куда меньше памяти и процессорного времени, чем для обучения нейронной сети такого размера. Как было показано, все это можно сделать в рамках базы данных. В зависимости от необходимой скорости обучения и получения ответа, а также от окружения, нейронная
сеть иногда может оказаться приемлемой альтернативой. Но сложность нейронной сети препятствует какому-либо взаимодействию
с ней. В этой главе вы видели, что вычисленные вероятности слов легкодоступны и известно, какой вклад они вносят в окончательную оценку. А для весов связей между нейронами сети нет столь же простой интерпретации.

С другой стороны, у нейронных сетей и машин опорных векторов есть
одно весомое преимущество над описанными выше классификаторами: они могут улавливать более сложные взаимосвязи между подаваемыми на вход признаками. В байесовском классификаторе у каждого
признака имеется вероятность принадлежности к каждой категории,
и для получения полной вероятности они комбинируются. В нейронной сети вероятность признака может изменяться в зависимости от наличия или отсутствия других признаков. Например, вы хотели бы блокировать спам от онлайновых казино, но интересуетесь ставками на
бегах; тогда слово casino следует считать плохим, если еще где-то в сообщении не встречается слово horse (лошадь). Наивный байесовский
классификатор не способен уловить такую перекрестную зависимость,
а нейронная сеть может.
