<a href="https://colab.research.google.com/github/juancuevas-ops/analisis-molecular-covid19/blob/main/prediccion_Molecular_Operon.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
!pip install Bio

Collecting Bio
  Downloading bio-1.3.3-py3-none-any.whl (271 kB)
[K     |████████████████████████████████| 271 kB 6.1 MB/s 
[?25hCollecting biopython>=1.79
  Downloading biopython-1.79-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (2.3 MB)
[K     |████████████████████████████████| 2.3 MB 28.6 MB/s 
Collecting mygene
  Downloading mygene-3.2.2-py2.py3-none-any.whl (5.4 kB)
Collecting biothings-client>=0.2.6
  Downloading biothings_client-0.2.6-py2.py3-none-any.whl (37 kB)
Installing collected packages: biothings-client, mygene, biopython, Bio
Successfully installed Bio-1.3.3 biopython-1.79 biothings-client-0.2.6 mygene-3.2.2


**La regresión logística es un enfoque de aprendizaje supervisado que intenta distinguir K clases entre sí utilizando una suma ponderada de algunas variables predictoras x i . El modelo de regresión logística se utiliza para calcular los pesos β i de las variables predictoras. En Biopython, el modelo de regresión logística se implementa actualmente solo para dos clases ( K = 2); el número de variables predictoras no tiene un límite predefinido.

Como ejemplo, intentemos predecir la estructura del operón en bacterias. Un operón es un conjunto de genes adyacentes en la misma hebra de ADN que se transcriben en una sola molécula de ARNm. La traducción de la única molécula de mRNA luego produce las proteínas individuales. Para Bacillus subtilis , cuyos datos usaremos, el número promedio de genes en un operón es de aproximadamente 2,4.

Como primer paso para comprender la regulación génica en bacterias, necesitamos conocer la estructura del operón. Para alrededor del 10% de los genes en Bacillus subtilis , la estructura del operón se conoce a partir de experimentos. Se puede utilizar un método de aprendizaje supervisado para predecir la estructura del operón para el 90% restante de los genes.

Para tal enfoque de aprendizaje supervisado, necesitamos elegir algunas variables predictoras x ique se pueden medir fácilmente y están relacionados de alguna manera con la estructura del operón. Una variable predictora podría ser la distancia en pares de bases entre genes. Los genes adyacentes que pertenecen al mismo operón tienden a estar separados por una distancia relativamente corta, mientras que los genes adyacentes en diferentes operones tienden a tener un espacio más grande entre ellos para permitir secuencias promotoras y terminadoras. Otra variable predictora se basa en mediciones de expresión génica. Por definición, los genes que pertenecen al mismo operón tienen perfiles de expresión de genes iguales, mientras que se espera que los genes en diferentes operones tengan diferentes perfiles de expresión. En la práctica, los perfiles de expresión medidos de genes en el mismo operón no son del todo idénticos debido a la presencia de errores de medición. Para evaluar la similitud en los perfiles de expresión génica,

Ahora tenemos dos variables predictoras que podemos usar para predecir si dos genes adyacentes en la misma hebra de ADN pertenecen al mismo operón:

x 1 : el número de pares de bases entre ellos;
x 2 : su similitud en el perfil de expresión.
En un modelo de regresión logística, usamos una suma ponderada de estos dos predictores para calcular una puntuación conjunta S :

S  = β 0  + β 1  X 1  + β 2  X 2 .(16.1)
El modelo de regresión logística nos da valores apropiados para los parámetros β 0 , β 1 , β 2 utilizando dos conjuntos de genes de ejemplo:

OP: genes adyacentes, en la misma hebra de ADN, que se sabe que pertenecen al mismo operón;
NOP: genes adyacentes, en la misma hebra de ADN, que se sabe que pertenecen a diferentes operones.
En el modelo de regresión logística, la probabilidad de pertenecer a una clase depende de la puntuación a través de la función logística. Para las dos clases OP y NOP, podemos escribir esto como

     	
Pr( PO | x 1 ,  x 2 )	 =	
 	
Exp(β 0  + β 1  x 1  + β 2  x 2 )
1+exp(β 0  + β 1  x 1  + β 2  x 2 )
  ‍ 
(16.2)
Pr( NOP | x 1 ,  x 2 )	 =	
 	
1
1+exp(β 0  + β 1  x 1  + β 2  x 2 )
  ‍
(16.3)
Utilizando un conjunto de pares de genes para los que se sabe si pertenecen al mismo operón (clase OP) o a diferentes operones (clase NOP), podemos calcular los pesos β 0 , β 1 , β 2 maximizando el log-verosimilitud correspondientes a las funciones de probabilidad ( 16.2 ) y ( 16.3 ).

16.1.2 Entrenamiento del modelo de regresión logística

Tabla 16.1: Pares de genes adyacentes que se sabe que pertenecen al mismo operón (clase OP) oa diferentes operones (clase NOP). Las distancias entre genes son negativas si los dos genes se superponen.
par de genes	Distancia entre genes ( x 1 )	Puntuación de expresión génica ( x 2 )	Clase
cotJA — cotJB	-53	-200.78	OP
síK — síL	117	-267.14	OP
lplA — lplB	57	-163.47	OP
lplB — lplC	dieciséis	-190.30	OP
lplC — lplD	11	-220.94	OP
lplD — todavíaF	85	-193.94	OP
yfmt — yfmS	dieciséis	-182.71	OP
yfmf — yfmE	15	-180.41	OP
citS — citT	-26	-181.73	OP
citM — yflN	58	-259.87	OP
yfiI — yfiJ	126	-414.53	NOP
lipB — yfiQ	191	-249.57	NOP
yfiU — yfiV	113	-265.28	NOP
yfhH — yfhI	145	-312.99	NOP
cotY — cotX	154	-213.83	NOP
yjoB — rapA	147	-380.85	NOP
ptsI — splA	93	-291.13	NOP
**

In [2]:
from Bio import LogisticRegression

In [3]:
x = [[-53, -200.78],
[117, -267.14],
[57, -163.47],
[16, -190.30],
[11, -220.94],
[85, -193.94],
[16, -182.71],
[15, -180.41],
[-26, -181.73],
[58, -259.87],
[126, -414.53],
[191, -249.57],
[113, -265.28],
[145, -312.99],
[154, -213.83],
[147, -380.85],
[93, -291.13]]

In [4]:
y = [1,
1,
1,
1,
1,
1,
1,
1,
1,
1,
0,
0,
0,
0,
0,
0,
0]



In [6]:
modelo = LogisticRegression.train(x, y)

In [7]:
modelo.beta
[8.9830290157144681, -0.035968960444850887, 0.02181395662983519]

[8.983029015714468, -0.035968960444850887, 0.02181395662983519]

In [8]:
def show_progress(iteration, loglikelihood):
        print("Iteration:", iteration, "Log-likelihood function:", loglikelihood)

In [9]:
model = LogisticRegression.train(x, y, update_fn=show_progress)

Iteration: <built-in function iter> Log-likelihood function: -11.78350206951907
Iteration: <built-in function iter> Log-likelihood function: -7.158867676721056
Iteration: <built-in function iter> Log-likelihood function: -5.768772098679432
Iteration: <built-in function iter> Log-likelihood function: -5.113622943382592
Iteration: <built-in function iter> Log-likelihood function: -4.748706424325652
Iteration: <built-in function iter> Log-likelihood function: -4.50026077146048
Iteration: <built-in function iter> Log-likelihood function: -4.311277737371034
Iteration: <built-in function iter> Log-likelihood function: -4.1601504339559465
Iteration: <built-in function iter> Log-likelihood function: -4.035617197847367
Iteration: <built-in function iter> Log-likelihood function: -3.93073282192017
Iteration: <built-in function iter> Log-likelihood function: -3.8408766092914273
Iteration: <built-in function iter> Log-likelihood function: -3.762825606050504
Iteration: <built-in function iter> Log-

funciones registradas en Documentacion Biopython.
algoritmo ejecutado por el BioInformatico Juan Cuevas Vasquez