# Crear una filogenia representativa para las especies encontradas

## Idea

Buscar posibles reemplazos para las especies que no están en Genbank, ya sean especies en el mismo subgénero, género, o en el peor de los casos, el género hermano.

Dado que no existen filogenias publicadas para cada grupo, la posición de algunos taxones es incierta, por ende, incluiré múltiples secuencias para múltiples especies en los grupos de interés. De esta forma podré ver si la secuencia en genbank se agrupa en clados monofiléticos, evitando así que dos congéneres NO esten en clados separados.
Esto evita potenciales errores de identificación en Genbank, o problemas con complejos taxonómicos.

Luego se seleccionará una secuencia de COI por especie o representante, buscando que mantengan en clados monofiléticos. Por ejemplo, si las muestras incluidad de Copris son polifiléticas, se seleccionarán solo 2 Copris que estén en el mismo clado.

Con esto se producirá la filogenia final.

## Alternativas de cambios y reemplazos de especies para la filogenia

### Euniticellus
¡Double check ortofrafía de: Euniticellus o Euoniticellus! Ninguna de las dos se encuentra en Genbank y en varias filogénias aparecen ambas escrituras

Posibles hermanos basado en https://www.publish.csiro.au/is/pdf/IS03030:
Euniticellus: Oniticellus, Tragiscus

Reemplazos basado en: https://www.sciencedirect.com/science/article/pii/S1055790307002126
Euniticellus: Oniticellus, Tiniocellus (parafiletico), lamentablemente Oniticellus no está en genbank

### Copris
Quizás el mejor reemplazo para Copris es otra especie del mismo género, la subunidad ribosomal de Copris aeneus es muy parecida a Copris laeviceps.

### Canthon
Canthon euryscelis no tiene datos y al parecer no está en el mismo subgénero que Canthon cyanellus (subg. Canthon) según https://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S0065-17372007000100008
Por ello otra especie del subgenero Glaphyrocanthon como Canthon subhyalinus quien si tiene buenas secuencias.

### Canthidium
Canthidium pseudoperceptible necesita un reemplazo. Desafortunadamente no hay otra especie del subgénero Eucanthidium, agregué otras de Canthidium.

### Ataenius
Para Ataenius fue complicado dado la falta de especies, identificación y relaciones filogenéticas. Se seleccionaron especies que mantuvieran no crearan clados entre hermanas. 

### Outgroup
Siguiendo a: https://www.sciencedirect.com/science/article/pii/S1055790307002126
quizás Aphodius  es un buen grupo externo

## Producción de primer árbol

In [1]:
#contatenar secuencias de coi
!cat ./COI/*.fasta > concatenated_coi.fasta

In [2]:
#alinear sequencias
!muscle -in concatenated_coi.fasta -out concatenated_coi.aligned.fasta


MUSCLE v3.8.1551 by Robert C. Edgar

http://www.drive5.com/muscle
This software is donated to the public domain.
Please cite: Edgar, R.C. Nucleic Acids Res 32(5), 1792-97.

concatenated_coi 142 seqs, lengths min 400, max 1244, avg 751
00:00:00    20 MB(-1%)  Iter   1  100.00%  K-mer dist pass 1
00:00:00    20 MB(-1%)  Iter   1  100.00%  K-mer dist pass 2
00:00:01    97 MB(-5%)  Iter   1  100.00%  Align node       
00:00:01    97 MB(-5%)  Iter   1  100.00%  Root alignment
00:00:02    97 MB(-5%)  Iter   2  100.00%  Refine tree   
00:00:02    97 MB(-5%)  Iter   2  100.00%  Root alignment
00:00:02    97 MB(-5%)  Iter   2  100.00%  Root alignment
00:00:11    97 MB(-5%)  Iter   3  100.00%  Refine biparts
00:00:20    97 MB(-5%)  Iter   4  100.00%  Refine biparts
00:00:20    97 MB(-5%)  Iter   5  100.00%  Refine biparts
00:00:20    97 MB(-5%)  Iter   5  100.00%  Refine biparts


In [None]:
!mafft concatenated_coi.fasta > concatenated_coi.aligned_mafft.fasta

In [3]:
#Reemplazar nombres para que IQtree no falle.

with open("./concatenated_coi.aligned.renamed.fasta", "w") as output:
    with open("./concatenated_coi.aligned.fasta", "r") as file:
        for line in file:
            if line.startswith(">"):
                names = line.split("|")
                genus, epit = names[4].split(" ")[1], names[4].split(" ")[2]
                gb = names[3]
                output.write(f">{genus}_{epit}_gb-{gb}\n")
            else:
                output.write(line)

In [None]:
#Producir árbol
!iqtree -s concatenated_coi.aligned.renamed.fasta \
-alrt 1000 \
-bb 1000 \
-nt 4 \
-redo \
-pre ./analysis_iqtree/tree \
-m TEST \
-T AUTO \ 

In [9]:
#Visualizar árbol
import toytree

tree = toytree.tree("./analysis_iqtree/tree.treefile", tree_format=1)
OUTGROUP = "Aphodius"
tree = tree.root(wildcard=OUTGROUP)
tree.draw(use_edge_lengths=False, height=1500)

(<toyplot.canvas.Canvas at 0x2aca6844d9f0>,
 <toyplot.coordinates.Cartesian at 0x2aca68704940>,
 <toytree.Render.ToytreeMark at 0x2aca68705d50>)

## Selección de potenciales representantes para árbol final

Esta seleeción está basada en los principio arriba mencionados

Eurysternus mexicanus -->    Eurysternus_magnus_gb-JQ972195.1  
Eurysternus maya -->   Eurysternus_angustulus_gb-JQ972259.1  
Ataenius aff crenulatus -->   Ataenius_imbricatus_gb-EU156751.1  
Ataenius aff sculptor -->   Ataenius_strigatus_gb-MG055219.1  
Ataenius Sp2 -->   Ataenius_sp._gb-OP141658.2  
Ataenius Sp3 -->   Ataenius_spretulus_gb-HM905906.1  
Ataenius Sp4 -->  Ataenius_spretulus2_gb-MG056201.1  
Digitonthophagus gazella -->   Digitonthophagus_gazella_gb-HQ984465.1  
Ateuchus illaesum -->  Ateuchus_chrysopyge_gb-AY131866.1    
Copris laeviceps --> Copris_aeneus_gb-AY131856.1  
Canthon cyanellus -->   Canthon_cyanellus_gb-JQ972192.1  
Canthon euryscelis -->  Canthon_subhyalinus_gb-JQ972144.1  
Euniticellus intermedius -->   Tragiscus_dimidiatus_gb-EF188227.1    
Canthidium centrale -->   Canthidium_centrale_gb-JQ972160.1  
Canthidium pseudoperceptibile -->   Canthidium_haroldi_gb-AY131868.1   
Onthophagus batesi -->   Onthophagus_batesi_gb-EF656738.1    
Outgroup -->   Aphodius_satellitius_gb-AY039373.1   


Estas secuencias fueron separadas en un archivo fasta independiente `selected_samples.fasta`

In [8]:
#Diccionario para facilitar cambios de nombres en el árbol final
representation = {"Eurysternus_magnus":"Eurysternus_mexicanus",
                  "Eurysternus_angustulus":"Eurysternus_maya",
                  "Ataenius_imbricatus":"Ataenius_aff_crenulatus",
                  "Ataenius_strigatus":"Ataenius_aff_sculptor",
                  "Ataenius_sp.":"Ataenius_sp2",
                  "Ataenius_spretulus":"Ataenius_sp3",
                  "Ataenius_spretulus2":"Ataenius_sp4",
                  "Digitonthophagus_gazella":"tDigitonthophagus_gazella",
                  "Ateuchus_chrysopyge":"Ateuchus_illaesum",
                  "Copris_aeneus":"Copris_laeviceps",
                  "Canthon_cyanellus":"tCanthon_cyanellus",
                  "Canthon_subhyalinus":"Canthon_euryscelis",
                  "Tragiscus_dimidiatus":"Euniticellus_intermedius",
                  "Canthidium_centrale":"tCanthidium_centrale",
                  "Canthidium_haroldi":"Canthidium_pseudoperceptibile",
                  "Onthophagus_batesi":"tOnthophagus_batesi",
                  "Aphodius_satellitius":"Outgroup",
                 }


In [None]:
#alinear sequencias
!muscle -in selected_samples.fasta -out selected_samples.aligned.fasta

In [10]:
#Reemplazar nombres asociados a secuencias por nombres encontrados en el muestreo

with open("./selected_samples.aligned.renamed.fasta", "w") as output:
    with open("./selected_samples.aligned.fasta", "r") as file:
        for line in file:
            if line.startswith(">"):
                names = line.split("|")
                genus, epit = names[4].split(" ")[1], names[4].split(" ")[2]
                gbname = f"{genus}_{epit}"
                sampledname = representation[gbname]
                gb = names[3]
                
                print(gbname, sampledname, gb)
                output.write(f">{sampledname}-gb_{gb}\n")
            else:
                output.write(line)

Digitonthophagus_gazella tDigitonthophagus_gazella HQ984465.1
Ataenius_imbricatus Ataenius_aff_crenulatus EU156751.1
Ataenius_strigatus Ataenius_aff_sculptor MG055219.1
Ataenius_sp. Ataenius_sp2 OP141658.2
Ataenius_spretulus Ataenius_sp3 HM905906.1
Ataenius_spretulus2 Ataenius_sp4 MG056201.1
Aphodius_satellitius Outgroup AY039373.1
Tragiscus_dimidiatus Euniticellus_intermedius EF188227.1
Copris_aeneus Copris_laeviceps AY131856.1
Onthophagus_batesi tOnthophagus_batesi EF656738.1
Eurysternus_magnus Eurysternus_mexicanus JQ972195.1
Eurysternus_angustulus Eurysternus_maya JQ972259.1
Canthidium_centrale tCanthidium_centrale JQ972160.1
Canthidium_haroldi Canthidium_pseudoperceptibile AY131868.1
Canthon_subhyalinus Canthon_euryscelis JQ972144.1
Ateuchus_chrysopyge Ateuchus_illaesum AY131866.1
Canthon_cyanellus tCanthon_cyanellus JQ972192.1


In [None]:
#Producir árbol
!iqtree -s selected_samples.aligned.renamed.fasta \
-alrt 1000 \
-bb 1000 \
-nt 4 \
-redo \
-pre ./analysis_iqtree/selected_samples \
-m TEST \
-T AUTO \ 

In [20]:
#Visualizar árbol
import toytree

tree = toytree.tree("./analysis_iqtree/selected_samples.treefile", tree_format=1)
OUTGROUP = "Outgroup"
tree = tree.root(wildcard=OUTGROUP)
tree.draw(use_edge_lengths=False, height=500)

(<toyplot.canvas.Canvas at 0x2b8246c70820>,
 <toyplot.coordinates.Cartesian at 0x2b8246c712d0>,
 <toytree.Render.ToytreeMark at 0x2b8246c71b10>)

Comparar árbol con el siguiente:  
![image.png](attachment:0b2cc050-ff39-47b4-a4d5-1600adc008e0.png)

Fuente: https://besjournals.onlinelibrary.wiley.com/doi/10.1111/1365-2664.14185

Y comparar con esta otra filogénia:  
![image.png](attachment:ab7d1eef-5711-4365-a02c-06f8e08e04f6.png)!

Fuente: https://www.sciencedirect.com/science/article/pii/S1055790307002126

## Conclusión

Creo que no está muy interesante el árbol 😒