**Source of the materials**: Biopython cookbook (adapted)
<font color='red'>Status: Draft</font>


**Fonte dos materiais** : livro de receitas Biopython (adaptado)

 &lt;font color = &#39;red&#39;&gt; Status: Rascunho &lt;/font&gt;


Supervised learning methods
===========================

Note the supervised learning methods described in this chapter all
require Numerical Python (numpy) to be installed.

The Logistic Regression Model {#sec:LogisticRegression}
-----------------------------

### Background and Purpose

Logistic regression is a supervised learning approach that attempts to
distinguish $K$ classes from each other using a weighted sum of some
predictor variables $x_i$. The logistic regression model is used to
calculate the weights $\beta_i$ of the predictor variables. In
Biopython, the logistic regression model is currently implemented for
two classes only ($K = 2$); the number of predictor variables has no
predefined limit.

As an example, let’s try to predict the operon structure in bacteria. An
operon is a set of adjacent genes on the same strand of DNA that are
transcribed into a single mRNA molecule. Translation of the single mRNA
molecule then yields the individual proteins. For <span>*Bacillus
subtilis*</span>, whose data we will be using, the average number of
genes in an operon is about 2.4.

As a first step in understanding gene regulation in bacteria, we need to
know the operon structure. For about 10% of the genes in <span>*Bacillus
subtilis*</span>, the operon structure is known from experiments. A
supervised learning method can be used to predict the operon structure
for the remaining 90% of the genes.

For such a supervised learning approach, we need to choose some
predictor variables $x_i$ that can be measured easily and are somehow
related to the operon structure. One predictor variable might be the
distance in base pairs between genes. Adjacent genes belonging to the
same operon tend to be separated by a relatively short distance, whereas
adjacent genes in different operons tend to have a larger space between
them to allow for promoter and terminator sequences. Another predictor
variable is based on gene expression measurements. By definition, genes
belonging to the same operon have equal gene expression profiles, while
genes in different operons are expected to have different expression
profiles. In practice, the measured expression profiles of genes in the
same operon are not quite identical due to the presence of measurement
errors. To assess the similarity in the gene expression profiles, we
assume that the measurement errors follow a normal distribution and
calculate the corresponding log-likelihood score.

We now have two predictor variables that we can use to predict if two
adjacent genes on the same strand of DNA belong to the same operon:

-   $x_1$: the number of base pairs between them;

-   $x_2$: their similarity in expression profile.

In a logistic regression model, we use a weighted sum of these two
predictors to calculate a joint score $S$:
$$S = \beta_0 + \beta_1 x_1 + \beta_2 x_2.$$ The logistic regression
model gives us appropriate values for the parameters $\beta_0$,
$\beta_1$, $\beta_2$ using two sets of example genes:

-   OP: Adjacent genes, on the same strand of DNA, known to belong to
    the same operon;

-   NOP: Adjacent genes, on the same strand of DNA, known to belong to
    different operons.

In the logistic regression model, the probability of belonging to a
class depends on the score via the logistic function. For the two
classes OP and NOP, we can write this as $$\begin{aligned}
\Pr(\mathrm{OP}|x_1, x_2) & = & \frac{\exp(\beta_0 + \beta_1 x_1 + \beta_2 x_2)}{1+\exp(\beta_0 + \beta_1 x_1 + \beta_2 x_2)} \label{eq:OP} \\
\Pr(\mathrm{NOP}|x_1, x_2) & = & \frac{1}{1+\exp(\beta_0 + \beta_1 x_1 + \beta_2 x_2)} \label{eq:NOP}\end{aligned}$$
Using a set of gene pairs for which it is known whether they belong to
the same operon (class OP) or to different operons (class NOP), we can
calculate the weights $\beta_0$, $\beta_1$, $\beta_2$ by maximizing the
log-likelihood corresponding to the probability functions (\[eq:OP\])
and (\[eq:NOP\]).

### Training the logistic regression model {#subsec:LogisticRegressionTraining}

                    Gene pair                    Intergene distance ($x_1$)   Gene expression score ($x_2$)   Class
  --------------------------------------------- ---------------------------- ------------------------------- -------
   <span>*cotJA*</span> — <span>*cotJB*</span>              -53                          -200.78               OP
    <span>*yesK*</span> — <span>*yesL*</span>               117                          -267.14               OP
    <span>*lplA*</span> — <span>*lplB*</span>                57                          -163.47               OP
    <span>*lplB*</span> — <span>*lplC*</span>                16                          -190.30               OP
    <span>*lplC*</span> — <span>*lplD*</span>                11                          -220.94               OP
    <span>*lplD*</span> — <span>*yetF*</span>                85                          -193.94               OP
    <span>*yfmT*</span> — <span>*yfmS*</span>                16                          -182.71               OP
    <span>*yfmF*</span> — <span>*yfmE*</span>                15                          -180.41               OP
    <span>*citS*</span> — <span>*citT*</span>               -26                          -181.73               OP
    <span>*citM*</span> — <span>*yflN*</span>                58                          -259.87               OP
    <span>*yfiI*</span> — <span>*yfiJ*</span>               126                          -414.53               NOP
    <span>*lipB*</span> — <span>*yfiQ*</span>               191                          -249.57               NOP
    <span>*yfiU*</span> — <span>*yfiV*</span>               113                          -265.28               NOP
    <span>*yfhH*</span> — <span>*yfhI*</span>               145                          -312.99               NOP
    <span>*cotY*</span> — <span>*cotX*</span>               154                          -213.83               NOP
    <span>*yjoB*</span> — <span>*rapA*</span>               147                          -380.85               NOP
    <span>*ptsI*</span> — <span>*splA*</span>                93                          -291.13               NOP

  : Adjacent gene pairs known to belong to the same operon (class OP) or
  to different operons (class NOP). Intergene distances are negative if
  the two genes overlap.

\[table:training\]

Table \[table:training\] lists some of the <span>*Bacillus
subtilis*</span> gene pairs for which the operon structure is known.
Let’s calculate the logistic regression model from these data:




Métodos de aprendizagem supervisionada

 =============================

 Observe os métodos de aprendizagem supervisionada descritos neste capítulo, todos

 requer Numerical Python (numpy) para ser instalado.

 O modelo de regressão logística {#sec: LogisticRegression}

###  Antecedentes e Objetivo

 A regressão logística é uma abordagem de aprendizagem supervisionada que tenta

 distinguir classes $ K $ umas das outras usando uma soma ponderada de alguns

 variáveis preditoras $ x_i $. O modelo de regressão logística é usado para

 calcular os pesos $ \ beta_i $ das variáveis preditoras. Dentro

 Biopython, o modelo de regressão logística está implementado atualmente para

 apenas duas classes ($ K = 2 $); o número de variáveis preditoras não tem

 limite predefinido.

 Como exemplo, vamos tentar prever a estrutura do operon em bactérias. A

 operon é um conjunto de genes adjacentes na mesma fita de DNA que são

 transcrito em uma única molécula de mRNA. Tradução do único mRNA

 molécula então produz as proteínas individuais. Para &lt;span&gt; * Bacillus

 subtilis * &lt;/span&gt;, cujos dados usaremos, o número médio de

 genes em um operon é cerca de 2,4.

 Como primeiro passo para compreender a regulação gênica em bactérias, precisamos

 conhecer a estrutura do operon. Por cerca de 10% dos genes em &lt;span&gt; * Bacillus

 subtilis * &lt;/span&gt;, a estrutura do operon é conhecida por experimentos. UMA

 método de aprendizado supervisionado pode ser usado para prever a estrutura do operon

 para os 90% restantes dos genes.

 Para tal abordagem de aprendizagem supervisionada, precisamos escolher alguns

 variáveis preditoras $ x_i $ que podem ser medidas facilmente e são de alguma forma

 relacionadas à estrutura do operon. Uma variável preditora pode ser o

 distância em pares de bases entre genes. Genes adjacentes pertencentes ao

 mesmo operon tende a ser separado por uma distância relativamente curta, enquanto

 genes adjacentes em diferentes operons tendem a ter um espaço maior entre

 para permitir sequências promotoras e terminadoras. Outro preditor

 variável é baseada em medições de expressão gênica. Por definição, genes

 pertencentes ao mesmo operon têm perfis de expressão gênica iguais, enquanto

 Espera-se que genes em diferentes operons tenham expressões diferentes

 perfis. Na prática, os perfis de expressão medidos de genes no

 mesmo operon não são totalmente idênticos devido à presença de medição

 erros. Para avaliar a similaridade nos perfis de expressão gênica, nós

 assumir que os erros de medição seguem uma distribuição normal e

 calcular a pontuação de log-verossimilhança correspondente.

 Agora temos duas variáveis preditoras que podemos usar para prever se dois

 genes adjacentes na mesma fita de DNA pertencem ao mesmo operon:
-  $ x_1 $: o número de pares de bases entre eles;
-  $ x_2 $: sua similaridade no perfil de expressão.

 Em um modelo de regressão logística, usamos uma soma ponderada desses dois

 preditores para calcular uma pontuação conjunta $ S $:

 $$ S = \ beta_0 + \ beta_1 x_1 + \ beta_2 x_2. $$ A regressão logística

 modelo nos dá os valores apropriados para os parâmetros $ \ beta_0 $,

 $ \ beta_1 $, $ \ beta_2 $ usando dois conjuntos de exemplos de genes:
-  OP: genes adjacentes, na mesma fita de DNA, pertencentes a o mesmo operon;
-  NOP: genes adjacentes, na mesma fita de DNA, pertencentes a diferentes operons.

 No modelo de regressão logística, a probabilidade de pertencer a um

 classe depende da pontuação por meio da função logística. Para os dois

 classes OP e NOP, podemos escrever isso como $$ \ begin {alinhados}

 \ Pr (\ mathrm {OP} | x_1, x_2) &amp; = &amp; \ frac {\ exp (\ beta_0 + \ beta_1 x_1 + \ beta_2 x_2)} {1+ \ exp (\ beta_0 + \ beta_1 x_1 + \ beta_2 x_2 )} \ label {eq: OP} \

 \ Pr (\ mathrm {NOP} | x_1, x_2) &amp; = &amp; \ frac {1} {1+ \ exp (\ beta_0 + \ beta_1 x_1 + \ beta_2 x_2)} \ label {eq: NOP} \ end {alinhado } $$

 Usando um conjunto de pares de genes para os quais se sabe se pertencem a

 o mesmo operon (classe OP) ou para diferentes operons (classe NOP), podemos

 calcular os pesos $ \ beta_0 $, $ \ beta_1 $, $ \ beta_2 $ maximizando o

 log-verossimilhança correspondente às funções de probabilidade ([eq: OP])

 e ([eq: NOP]).

###  Treinando o modelo de regressão logística {#subsec: LogisticRegressionTraining}

```
 Gene pair Intergene distance ($x_1$) Gene expression score ($x_2$) Class
```

 &lt;span&gt; * cotJA * &lt;/span&gt; - &lt;span&gt; * cotJB * &lt;/span&gt; -53 -200,78 OP

 : Pares de genes adjacentes conhecidos por pertencerem ao mesmo operon (classe OP) ou

 para diferentes operons (classe NOP). As distâncias intergênicas são negativas se

 os dois genes se sobrepõem.

 [mesa: treinamento]

 Tabela [tabela: treinamento] lista alguns dos &lt;span&gt; * Bacillus

 subtilis * &lt;/span&gt; pares de genes para os quais a estrutura do operon é conhecida.

 Vamos calcular o modelo de regressão logística a partir destes dados:


In [1]:
from Bio import LogisticRegression
xs = [[-53, -200.78], [117, -267.14], [57, -163.47], [16, -190.30],
      [11, -220.94], [85, -193.94], [16, -182.71], [15, -180.41],
      [-26, -181.73], [58, -259.87], [126, -414.53], [191, -249.57],
      [113, -265.28], [145, -312.99], [154, -213.83], [147, -380.85],[93, -291.13]]
ys = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0]
model = LogisticRegression.train(xs, ys)


Here, `xs` and `ys` are the training data: `xs` contains the predictor
variables for each gene pair, and `ys` specifies if the gene pair
belongs to the same operon (`1`, class OP) or different operons (`0`,
class NOP). The resulting logistic regression model is stored in
`model`, which contains the weights $\beta_0$, $\beta_1$, and $\beta_2$:




Aqui, `xs` e `ys` são os dados de treinamento: `xs` contém o preditor

 variáveis para cada par de genes, e `ys` especifica se o par de genes

 pertence ao mesmo operon ( `1` , classe OP) ou operons diferentes ( `0` ,

 classe NOP). O modelo de regressão logística resultante é armazenado em

 `model` , que contém os pesos $ \ beta_0 $, $ \ beta_1 $ e $ \ beta_2 $:


In [2]:
model.beta

[8.983029015714472, -0.035968960444850887, 0.021813956629835204]


Note that $\beta_1$ is negative, as gene pairs with a shorter intergene
distance have a higher probability of belonging to the same operon
(class OP). On the other hand, $\beta_2$ is positive, as gene pairs
belonging to the same operon typically have a higher similarity score of
their gene expression profiles. The parameter $\beta_0$ is positive due
to the higher prevalence of operon gene pairs than non-operon gene pairs
in the training data.

The function `train` has two optional arguments: `update_fn` and
`typecode`. The `update_fn` can be used to specify a callback function,
taking as arguments the iteration number and the log-likelihood. With
the callback function, we can for example track the progress of the
model calculation (which uses a Newton-Raphson iteration to maximize the
log-likelihood function of the logistic regression model):




Observe que $ \ beta_1 $ é negativo, pois pares de genes com um intergene mais curto

 distância tem uma probabilidade maior de pertencer ao mesmo operon

 (classe OP). Por outro lado, $ \ beta_2 $ é positivo, pois pares de genes

 pertencentes ao mesmo operon normalmente têm uma pontuação de similaridade mais alta de

 seus perfis de expressão gênica. O parâmetro $ \ beta_0 $ é positivo devido

 à maior prevalência de pares de genes operon do que pares de genes não operon

 nos dados de treinamento.

 A função `train` tem dois argumentos opcionais: `update_fn` e

 `typecode` . O `update_fn` pode ser usado para especificar uma função de retorno de chamada,

 tomando como argumentos o número da iteração e a probabilidade de log. Com

 a função de retorno de chamada, podemos, por exemplo, monitorar o progresso do

 cálculo do modelo (que usa uma iteração de Newton-Raphson para maximizar o

 função log-verossimilhança do modelo de regressão logística):


In [8]:
def show_progress(iteration, loglikelihood):
    print("Iteration:", iteration, "Log-likelihood function:", loglikelihood)

model = LogisticRegression.train(xs, ys, update_fn=show_progress)

Iteration: <built-in function iter> Log-likelihood function: -11.7835020695
Iteration: <built-in function iter> Log-likelihood function: -7.15886767672
Iteration: <built-in function iter> Log-likelihood function: -5.76877209868
Iteration: <built-in function iter> Log-likelihood function: -5.11362294338
Iteration: <built-in function iter> Log-likelihood function: -4.74870642433
Iteration: <built-in function iter> Log-likelihood function: -4.50026077146
Iteration: <built-in function iter> Log-likelihood function: -4.31127773737
Iteration: <built-in function iter> Log-likelihood function: -4.16015043396
Iteration: <built-in function iter> Log-likelihood function: -4.03561719785
Iteration: <built-in function iter> Log-likelihood function: -3.93073282192
Iteration: <built-in function iter> Log-likelihood function: -3.84087660929
Iteration: <built-in function iter> Log-likelihood function: -3.76282560605
Iteration: <built-in function iter> Log-likelihood function: -3.69425027154
Iteration: <


The iteration stops once the increase in the log-likelihood function is
less than 0.01. If no convergence is reached after 500 iterations, the
`train` function returns with an `AssertionError`.

The optional keyword `typecode` can almost always be ignored. This
keyword allows the user to choose the type of Numeric matrix to use. In
particular, to avoid memory problems for very large problems, it may be
necessary to use single-precision floats (Float8, Float16, etc.) rather
than double, which is used by default.

### Using the logistic regression model for classification

Classification is performed by calling the `classify` function. Given a
logistic regression model and the values for $x_1$ and $x_2$ (e.g. for a
gene pair of unknown operon structure), the `classify` function returns
`1` or `0`, corresponding to class OP and class NOP, respectively. For
example, let’s consider the gene pairs <span>*yxcE*</span>,
<span>*yxcD*</span> and <span>*yxiB*</span>, <span>*yxiA*</span>:

                   Gene pair                   Intergene distance $x_1$   Gene expression score $x_2$
  ------------------------------------------- -------------------------- -----------------------------
   <span>*yxcE*</span> — <span>*yxcD*</span>              6                     -173.143442352
   <span>*yxiB*</span> — <span>*yxiA*</span>             309                    -271.005880394

  : Adjacent gene pairs of unknown operon status.

The logistic regression model classifies <span>*yxcE*</span>,
<span>*yxcD*</span> as belonging to the same operon (class OP), while
<span>*yxiB*</span>, <span>*yxiA*</span> are predicted to belong to
different operons:




A iteração para quando o aumento na função de log-verossimilhança é

 menos de 0,01. Se nenhuma convergência for alcançada após 500 iterações, o

 `train` função `train` retorna com um `AssertionError` .

 O `typecode` palavra-chave opcional quase sempre pode ser ignorado. este

 A palavra-chave permite ao usuário escolher o tipo de matriz numérica a ser usada. Dentro

 em particular, para evitar problemas de memória para problemas muito grandes, pode ser

 necessário usar flutuadores de precisão simples (Float8, Float16, etc.) em vez

 do que o dobro, que é usado por padrão.

###  Usando o modelo de regressão logística para classificação

 A classificação é realizada chamando a função `classify` . Dado um

 modelo de regressão logística e os valores para $ x_1 $ e $ x_2 $ (por exemplo, para um

 par de genes de estrutura de operon desconhecida), a função de `classify` retorna

 `1` ou `0` , correspondendo à classe OP e classe NOP, respectivamente. Para

 exemplo, vamos considerar os pares de genes &lt;span&gt; * yxcE * &lt;/span&gt;,

 &lt;span&gt; * yxcD * &lt;/span&gt; e &lt;span&gt; * yxiB * &lt;/span&gt;, &lt;span&gt; * yxiA * &lt;/span&gt;:

```
 Gene pair Intergene distance $x_1$ Gene expression score $x_2$
```

 &lt;span&gt; * yxcE * &lt;/span&gt; - &lt;span&gt; * yxcD * &lt;/span&gt; 6 -173,143442352

 &lt;span&gt; * yxiB * &lt;/span&gt; - &lt;span&gt; * yxiA * &lt;/span&gt; 309 -271.005880394

 : Pares de genes adjacentes de status de operon desconhecido.

 O modelo de regressão logística classifica &lt;span&gt; * yxcE * &lt;/span&gt;,

 &lt;span&gt; * yxcD * &lt;/span&gt; como pertencente ao mesmo operon (classe OP), enquanto

 Prevê-se que &lt;span&gt; * yxiB * &lt;/span&gt;, &lt;span&gt; * yxiA * &lt;/span&gt; pertença a

 diferentes operons:


In [5]:
print("yxcE, yxcD:", LogisticRegression.classify(model, [6, -173.143442352]))
print("yxiB, yxiA:", LogisticRegression.classify(model, [309, -271.005880394]))

yxcE, yxcD: 1
yxiB, yxiA: 0



(which, by the way, agrees with the biological literature).

To find out how confident we can be in these predictions, we can call
the `calculate` function to obtain the probabilities (equations
(\[eq:OP\]) and \[eq:NOP\]) for class OP and NOP. For
<span>*yxcE*</span>, <span>*yxcD*</span> we find




(o que, aliás, está de acordo com a literatura biológica).

 Para descobrir o quão confiantes podemos estar nessas previsões, podemos chamar

 a função de `calculate` para obter as probabilidades (equações

 ([eq: OP]) e [eq: NOP]) para a classe OP e NOP. Para

 &lt;span&gt; * yxcE * &lt;/span&gt;, &lt;span&gt; * yxcD * &lt;/span&gt; encontramos


In [6]:
q, p = LogisticRegression.calculate(model, [6, -173.143442352])
print("class OP: probability =", p, "class NOP: probability =", q)

class OP: probability = 0.993242163503 class NOP: probability = 0.00675783649744



and for <span>*yxiB*</span>, <span>*yxiA*</span>




e para &lt;span&gt; * yxiB * &lt;/span&gt;, &lt;span&gt; * yxiA * &lt;/span&gt;


In [7]:
q, p = LogisticRegression.calculate(model, [309, -271.005880394])
print("class OP: probability =", p, "class NOP: probability =", q)

class OP: probability = 0.000321211251817 class NOP: probability = 0.999678788748



To get some idea of the prediction accuracy of the logistic regression
model, we can apply it to the training data:




Para ter uma ideia da precisão da previsão da regressão logística

 modelo, podemos aplicá-lo aos dados de treinamento:


In [9]:
for i in range(len(ys)):
    print("True:", ys[i], "Predicted:", LogisticRegression.classify(model, xs[i]))

True: 1 Predicted: 1
True: 1 Predicted: 0
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 0 Predicted: 0
True: 0 Predicted: 0
True: 0 Predicted: 0
True: 0 Predicted: 0
True: 0 Predicted: 0
True: 0 Predicted: 0
True: 0 Predicted: 0



showing that the prediction is correct for all but one of the gene
pairs. A more reliable estimate of the prediction accuracy can be found
from a leave-one-out analysis, in which the model is recalculated from
the training data after removing the gene to be predicted:




mostrando que a previsão está correta para todos, exceto um dos genes

 pares. Uma estimativa mais confiável da precisão da previsão pode ser encontrada

 de uma análise de deixar um de fora, em que o modelo é recalculado a partir de

 os dados de treinamento após a remoção do gene a ser previsto:


In [10]:
for i in range(len(ys)):
    print("True:", ys[i], "Predicted:", LogisticRegression.classify(model, xs[i]))


True: 1 Predicted: 1
True: 1 Predicted: 0
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 0 Predicted: 0
True: 0 Predicted: 0
True: 0 Predicted: 0
True: 0 Predicted: 0
True: 0 Predicted: 0
True: 0 Predicted: 0
True: 0 Predicted: 0



The leave-one-out analysis shows that the prediction of the logistic
regression model is incorrect for only two of the gene pairs, which
corresponds to a prediction accuracy of 88%.

### Logistic Regression, Linear Discriminant Analysis, and Support Vector Machines

The logistic regression model is similar to linear discriminant
analysis. In linear discriminant analysis, the class probabilities also
follow equations (\[eq:OP\]) and (\[eq:NOP\]). However, instead of
estimating the coefficients $\beta$ directly, we first fit a normal
distribution to the predictor variables $x$. The coefficients $\beta$
are then calculated from the means and covariances of the normal
distribution. If the distribution of $x$ is indeed normal, then we
expect linear discriminant analysis to perform better than the logistic
regression model. The logistic regression model, on the other hand, is
more robust to deviations from normality.

Another similar approach is a support vector machine with a linear
kernel. Such an SVM also uses a linear combination of the predictors,
but estimates the coefficients $\beta$ from the predictor variables $x$
near the boundary region between the classes. If the logistic regression
model (equations (\[eq:OP\]) and (\[eq:NOP\])) is a good description for
$x$ away from the boundary region, we expect the logistic regression
model to perform better than an SVM with a linear kernel, as it relies
on more data. If not, an SVM with a linear kernel may perform better.

Trevor Hastie, Robert Tibshirani, and Jerome Friedman: <span>*The
Elements of Statistical Learning. Data Mining, Inference, and
Prediction*</span>. Springer Series in Statistics, 2001. Chapter 4.4.

$k$-Nearest Neighbors
---------------------

### Background and purpose

The $k$-nearest neighbors method is a supervised learning approach that
does not need to fit a model to the data. Instead, data points are
classified based on the categories of the $k$ nearest neighbors in the
training data set.

In Biopython, the $k$-nearest neighbors method is available in
`Bio.kNN`. To illustrate the use of the $k$-nearest neighbor method in
Biopython, we will use the same operon data set as in section
\[sec:LogisticRegression\].

### Initializing a $k$-nearest neighbors model

Using the data in Table \[table:training\], we create and initialize a
$k$-nearest neighbors model as follows:




A análise leave-one-out mostra que a previsão da logística

 modelo de regressão está incorreto para apenas dois dos pares de genes, que

 corresponde a uma precisão de previsão de 88%.

###  Regressão Logística, Análise Discriminante Linear e Máquinas de Vetores de Suporte

 O modelo de regressão logística é semelhante ao discriminante linear

 análise. Na análise discriminante linear, as probabilidades de classe também

 siga as equações ([eq: OP]) e ([eq: NOP]). No entanto, em vez de

 estimando os coeficientes $ \ beta $ diretamente, primeiro ajustamos um normal

 distribuição às variáveis preditoras $ x $. Os coeficientes $ \ beta $

 são então calculados a partir das médias e covariâncias do normal

 distribuição. Se a distribuição de $ x $ é realmente normal, então nós

 esperar que a análise discriminante linear tenha um desempenho melhor do que a logística

 modelo de regressão. O modelo de regressão logística, por outro lado, é

 mais robusto a desvios da normalidade.

 Outra abordagem semelhante é uma máquina de vetores de suporte com uma

 núcleo. Tal SVM também usa uma combinação linear dos preditores,

 mas estima os coeficientes $ \ beta $ a partir das variáveis preditoras $ x $

 perto da região de fronteira entre as classes. Se a regressão logística

 modelo (equações ([eq: OP]) e ([eq: NOP])) é uma boa descrição para

 $ x $ longe da região limite, esperamos a regressão logística

 modelo para ter um desempenho melhor do que um SVM com um kernel linear, pois depende

 em mais dados. Caso contrário, um SVM com um kernel linear pode ter um desempenho melhor.

 Trevor Hastie, Robert Tibshirani e Jerome Friedman: &lt;span&gt; * O

 Elementos de aprendizagem estatística. Mineração de dados, inferência e

 Predição * &lt;/span&gt;. Springer Series in Statistics, 2001. Capítulo 4.4.

 $ k $ - Vizinhos mais próximos

###  Antecedentes e propósito

 O método $ k $ -nearest neighbors é uma abordagem de aprendizagem supervisionada que

 não precisa ajustar um modelo aos dados. Em vez disso, os pontos de dados são

 classificados com base nas categorias dos $ k $ vizinhos mais próximos no

 conjunto de dados de treinamento.

 No Biopython, o método $ k $ -nearest neighbors está disponível em

 `Bio.kNN` . Para ilustrar o uso do método $ k $ -nearest Neighbor em

 Biopython, usaremos o mesmo conjunto de dados de operon da seção

 [sec: LogisticRegression].

###  Inicializando um modelo de vizinhos $ k $ -nearest

 Usando os dados da Tabela [tabela: treinamento], criamos e inicializamos um

 $ k $ -modelo de vizinhos mais próximos da seguinte forma:


In [11]:
from Bio import kNN
k = 3
model = kNN.train(xs, ys, k)


where `xs` and `ys` are the same as in Section
\[subsec:LogisticRegressionTraining\]. Here, `k` is the number of
neighbors $k$ that will be considered for the classification. For
classification into two classes, choosing an odd number for $k$ lets you
avoid tied votes. The function name `train` is a bit of a misnomer,
since no model training is done: this function simply stores `xs`, `ys`,
and `k` in `model`.

### Using a $k$-nearest neighbors model for classification

To classify new data using the $k$-nearest neighbors model, we use the
`classify` function. This function takes a data point $(x_1,x_2)$ and
finds the $k$-nearest neighbors in the training data set `xs`. The data
point $(x_1, x_2)$ is then classified based on which category (`ys`)
occurs most among the $k$ neighbors.

For the example of the gene pairs <span>*yxcE*</span>,
<span>*yxcD*</span> and <span>*yxiB*</span>, <span>*yxiA*</span>, we
find:




onde `xs` e `ys` são iguais aos da Seção

 [subsec: LogisticRegressionTraining]. Aqui, `k` é o número de

 vizinhos $ k $ que serão considerados para a classificação. Para

 classificação em duas classes, escolher um número ímpar para $ k $ permite que você

 evitar votos empatados. O nome da função `train` é um pouco impróprio,

 já que nenhum treinamento de modelo é feito: esta função simplesmente armazena `xs` , `ys` ,

 e `k` no `model` .

###  Usando um modelo de vizinhos $ k $ mais próximos para classificação

 Para classificar novos dados usando o modelo de vizinhos $ k $ -nearest, usamos o

 `classify` função. Esta função leva um ponto de dados $ (x_1, x_2) $ e

 encontra os $ k $ -vizinhos mais próximos no conjunto de dados de treinamento `xs` . Os dados

 o ponto $ (x_1, x_2) $ é então classificado com base em qual categoria ( `ys` )

 ocorre mais entre os vizinhos $ k $.

 Para o exemplo dos pares de genes &lt;span&gt; * yxcE * &lt;/span&gt;,

 &lt;span&gt; * yxcD * &lt;/span&gt; e &lt;span&gt; * yxiB * &lt;/span&gt;, &lt;span&gt; * yxiA * &lt;/span&gt;, nós

 encontrar:


In [12]:
x = [6, -173.143442352]
print("yxcE, yxcD:", kNN.classify(model, x))

yxcE, yxcD: 1


In [13]:
x = [309, -271.005880394]
print("yxiB, yxiA:", kNN.classify(model, x))

yxiB, yxiA: 0



In agreement with the logistic regression model, <span>*yxcE*</span>,
<span>*yxcD*</span> are classified as belonging to the same operon
(class OP), while <span>*yxiB*</span>, <span>*yxiA*</span> are predicted
to belong to different operons.

The `classify` function lets us specify both a distance function and a
weight function as optional arguments. The distance function affects
which $k$ neighbors are chosen as the nearest neighbors, as these are
defined as the neighbors with the smallest distance to the query point
$(x, y)$. By default, the Euclidean distance is used. Instead, we could
for example use the city-block (Manhattan) distance:




De acordo com o modelo de regressão logística, &lt;span&gt; * yxcE * &lt;/span&gt;,

 &lt;span&gt; * yxcD * &lt;/span&gt; são classificados como pertencentes ao mesmo operon

 (classe OP), enquanto &lt;span&gt; * yxiB * &lt;/span&gt;, &lt;span&gt; * yxiA * &lt;/span&gt; são previstos

 pertencer a diferentes operons.

 A função de `classify` nos permite especificar uma função de distância e um

 função de peso como argumentos opcionais. A função de distância afeta

 quais $ k $ vizinhos são escolhidos como os vizinhos mais próximos, pois estes são

 definido como os vizinhos com a menor distância para o ponto de consulta

 $ (x, y) $. Por padrão, a distância euclidiana é usada. Em vez disso, poderíamos

 por exemplo, use a distância do quarteirão (Manhattan):


In [15]:
def cityblock(x1, x2):
    assert len(x1)==2
    assert len(x2)==2
    distance = abs(x1[0]-x2[0]) + abs(x1[1]-x2[1])
    return distance

x = [6, -173.143442352]
print("yxcE, yxcD:", kNN.classify(model, x, distance_fn = cityblock))

yxcE, yxcD: 1



The weight function can be used for weighted voting. For example, we may
want to give closer neighbors a higher weight than neighbors that are
further away:




A função de peso pode ser usada para votação ponderada. Por exemplo, podemos

 querem dar aos vizinhos mais próximos um peso maior do que os vizinhos que são

 mais longe:


In [17]:
from math import exp
def weight(x1, x2):
    assert len(x1)==2
    assert len(x2)==2
    return exp(-abs(x1[0]-x2[0]) - abs(x1[1]-x2[1]))

x = [6, -173.143442352]
print("yxcE, yxcD:", kNN.classify(model, x, weight_fn = weight))

yxcE, yxcD: 1



By default, all neighbors are given an equal weight.

To find out how confident we can be in these predictions, we can call
the `calculate` function, which will calculate the total weight assigned
to the classes OP and NOP. For the default weighting scheme, this
reduces to the number of neighbors in each category. For
<span>*yxcE*</span>, <span>*yxcD*</span>, we find




Por padrão, todos os vizinhos recebem um peso igual.

 Para descobrir o quão confiantes podemos estar nessas previsões, podemos chamar

 a função `calculate` , que irá calcular o peso total atribuído

 para as classes OP e NOP. Para o esquema de ponderação padrão, este

 reduz ao número de vizinhos em cada categoria. Para

 &lt;span&gt; * yxcE * &lt;/span&gt;, &lt;span&gt; * yxcD * &lt;/span&gt;, encontramos


In [18]:
x = [6, -173.143442352]
weight = kNN.calculate(model, x)
print("class OP: weight =", weight[0], "class NOP: weight =", weight[1])


class OP: weight = 0.0 class NOP: weight = 3.0



which means that all three neighbors of `x1`, `x2` are in the NOP class.
As another example, for <span>*yesK*</span>, <span>*yesL*</span> we find




o que significa que todos os três vizinhos de `x1` , `x2` estão na classe NOP.

 Como outro exemplo, para &lt;span&gt; * yesK * &lt;/span&gt;, &lt;span&gt; * yesL * &lt;/span&gt; encontramos


In [19]:
x = [117, -267.14]
weight = kNN.calculate(model, x)
print("class OP: weight =", weight[0], "class NOP: weight =", weight[1])


class OP: weight = 2.0 class NOP: weight = 1.0



which means that two neighbors are operon pairs and one neighbor is a
non-operon pair.

To get some idea of the prediction accuracy of the $k$-nearest neighbors
approach, we can apply it to the training data:




o que significa que dois vizinhos são pares de operons e um vizinho é um

 par não operon.

 Para se ter uma ideia da precisão da previsão dos vizinhos $ k $ mais próximos

 abordagem, podemos aplicá-la aos dados de treinamento:


In [20]:
for i in range(len(ys)):
    print("True:", ys[i], "Predicted:", kNN.classify(model, xs[i]))

True: 1 Predicted: 1
True: 1 Predicted: 0
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 0
True: 0 Predicted: 0
True: 0 Predicted: 0
True: 0 Predicted: 0
True: 0 Predicted: 0
True: 0 Predicted: 0
True: 0 Predicted: 0
True: 0 Predicted: 0



showing that the prediction is correct for all but two of the gene
pairs. A more reliable estimate of the prediction accuracy can be found
from a leave-one-out analysis, in which the model is recalculated from
the training data after removing the gene to be predicted:




mostrando que a previsão está correta para todos, exceto dois do gene

 pares. Uma estimativa mais confiável da precisão da previsão pode ser encontrada

 de uma análise de deixar um de fora, em que o modelo é recalculado a partir de

 os dados de treinamento após a remoção do gene a ser previsto:


In [25]:
for i in range(len(ys)):
    model = kNN.train(xs[:i]+xs[i+1:], ys[:i]+ys[i+1:], 3)
    print("True:", ys[i], "Predicted:", kNN.classify(model, xs[i]))

True: 1 Predicted: 1
True: 1 Predicted: 0
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 1
True: 1 Predicted: 0
True: 0 Predicted: 0
True: 0 Predicted: 0
True: 0 Predicted: 1
True: 0 Predicted: 0
True: 0 Predicted: 0
True: 0 Predicted: 0
True: 0 Predicted: 1
