Se ha encontrado una nueva fuente, GreenNC, que posee lncRNAs de plantas (http://greenc.sciencedesigners.com).
Se va a realizar el conteo para compararlo contra CantataDB.

Estamos listos para realizar el conteo. Se tiene en la base de datos local una tabla conteo_lncrna_especie, que posee la lista de especies de referencia para el maíz, con una columna de conteo, donde insertaremos el resultado de las consultas. El código será enteramente en R.

In [24]:
%%R

library(RMySQL)

dsn_database = "tesis2"
dsn_hostname = "localhost"
dsn_port = 3306
dsn_uid = "root"
dsn_pwd = ""

conn = dbConnect(MySQL(), user=dsn_uid, password=dsn_pwd, dbname=dsn_database, host=dsn_hostname)
rs = dbSendQuery(conn, "select especie from conteo_lncrna_especie where para_especie like 'Zea mays%'")
especies = dbFetch(rs)
dbClearResult(rs)

library(biomaRt)
library(stringr)
ensembl_mart=useMart("plants_mart", host="plants.ensembl.org")
lista_datasets = listDatasets(ensembl)

for(i in 1:nrow(especies)) {
    la_especie = especies[i,]
    especie = paste("^", la_especie, sep="")
    
    conteo = 0
    tryCatch({
        dataset = lista_datasets[which(str_detect(lista_datasets$description, especie)), 1]
        ensembl = useDataset(dataset,mart=ensembl_mart)
        genes = getBM(attributes=c('ensembl_gene_id'), filters = 'biotype', values = 'protein_coding', mart = ensembl)
        conteo = nrow(genes)
    }, error = function(err) {
        conteo = 0
    })
    query = sprintf("update conteo_lncrna_especie set conteo_pct = %d where especie='%s'", conteo, la_especie)
    dbSendQuery(conn, query)
}

dbDisconnect(conn)

In [28]:
import mysql.connector
import pandas as pd

conn = mysql.connector.connect(
   host="localhost",
   database="tesis2",
   user="root",
   passwd=""
)

df = pd.read_sql_query("select * from conteo_lncrna_especie order by 6 desc", conn)
display(df)

conn.close()

Unnamed: 0,para_especie,especie,conteo_ncRNA,conteo_lncRNA,conteo_lincRNA,conteo_pct
0,Zea mays2,Brassica napus,0,0,0,101040
1,Zea mays,Triticum dicoccoides,0,0,0,62569
2,Zea mays,Triticum dicoccoides,0,0,0,62569
3,Zea mays,Triticum dicoccoides,0,0,0,62569
4,Zea mays2,Brassica oleracea,0,0,0,59220
5,Zea mays2,Helianthus annuus,4659,0,0,52191
6,Zea mays,Oryza sativa Indica Group,0,0,0,40745
7,Zea mays,Aegilops tauschii,0,0,0,39614
8,Zea mays2,Solanum tuberosum,0,0,0,39021
9,Zea mays2,Gossypium raimondii,2,0,0,38208


Tras ejecutar las consultas, descubrimos que no existe ningún lincRNA, apenas una especie con lncRNA, y 4 especies con ncRNA.
Será mejor obtener la cantidad de lncRNA en cantatadb. Para ello, ya se descargaron los archivos fasta de transcriptomas de la web de cantatadb: http://cantata.amu.edu.pl

In [45]:
import os
import mysql.connector
import pandas as pd

#método para leer los primeros num transcriptomas de un archivo fasta en cantatadb
def num_transcriptomas_cantatadb(archivo):
    num = 0
    f = open(archivo, "r")
    for linea in f:
        if linea.startswith(">"):
            num += 1
    return num

conn = mysql.connector.connect(
   host="localhost",
   database="tesis2",
   user="root",
   passwd=""
)

cur = conn.cursor()
cur.execute("DELETE FROM conteo_lncrna_especie WHERE para_especie = 'Zea mays cantatadb'")
conn.commit()

directory = '.\\httpcantata.amu.edu.pldownload.php\\Otros'

for filename in os.listdir(directory):
    if filename.endswith(".fasta"):
        especie = os.path.splitext(filename)[0].split("_lncrnas")[:-1][0]
        query = "INSERT INTO conteo_lncrna_especie (para_especie, especie, conteo_lncrna) VALUES (%s, %s, %s)"
        conteo = num_transcriptomas_cantatadb(directory + "\\" + filename)
        cur.execute(query, ('Zea mays cantatadb', especie, conteo))
conn.commit()

df = pd.read_sql_query("select * from conteo_lncrna_especie WHERE para_especie = 'Zea mays cantatadb' order by 4 desc", conn)
display(df)

conn.close()

Unnamed: 0,para_especie,especie,conteo_ncRNA,conteo_lncRNA,conteo_lincRNA,conteo_pct
0,Zea mays cantatadb,Chenopodium_quinoa,,17526,,
1,Zea mays cantatadb,Brassica_napus,,12010,,
2,Zea mays cantatadb,Malus_domestica,,10924,,
3,Zea mays cantatadb,Ananas_comosus,,10404,,
4,Zea mays cantatadb,Oryza_rufipogon,,10261,,
5,Zea mays cantatadb,Trifolium_pratense,,10179,,
6,Zea mays cantatadb,Manihot_esculenta,,9504,,
7,Zea mays cantatadb,Oryza_nivara,,8955,,
8,Zea mays cantatadb,Brassica_rapa,,8501,,
9,Zea mays cantatadb,Hordeum_vulgare,,7970,,
