## ¿Cómo se identifican los genotipos cuando se tienen las secuencias de ADN?

Cuando un investigador quiere saber si una población está en equilibrio de Hardy–Weinberg, necesita genotipos de los individuos (por ejemplo: AA, Aa, aa).

En la práctica, esos genotipos no aparecen escritos directamente en la muestra. Lo que tenemos normalmente es el ADN secuenciado en el locus de interés.

**Ejemplo:** En un locus con dos alelos

- Queremos estudiar una posición del genoma (un **SNP**) donde algunos individuos tienen una A y otros una G.

  SNP son las siglas de Polimorfismo de Nucleótido Único (Single Nucleotide Polymorphism), un tipo de variación genética que ocurre cuando un solo nucleótido (A, T, C o G) en la secuencia de ADN difiere entre individuos de una misma especie. Los SNP son el tipo de variación genética más común.

Para esto, conviene conocer el código IUPAC para los nucleótidos, que suele utilizarse para representar bases ambiguas cuando un individuo es heterocigoto en un sitio (tiene dos alelos distintos, uno en cada cromosoma).

| Símbolo | Significado                  | Bases posibles | Ejemplo de uso             |
| ------- | ---------------------------- | -------------- | -------------------------- |
| **A**   | Adenina                      | A              | Homocigoto A               |
| **C**   | Citosina                     | C              | Homocigoto C               |
| **G**   | Guanina                      | G              | Homocigoto G               |
| **T**   | Timina                       | T              | Homocigoto T               |
| **U**   | Uracilo                      | U              | Solo en ARN                |
| **R**   | puRina                       | A o G          | Heterocigoto A/G           |
| **Y**   | pYrimidina                   | C o T          | Heterocigoto C/T           |
| **S**   | Strong (fuerte, 3 enlaces H) | G o C          | SNP G/C                    |
| **W**   | Weak (débil, 2 enlaces H)    | A o T          | SNP A/T                    |
| **K**   | Keto                         | G o T          | SNP G/T                    |
| **M**   | aMino                        | A o C          | SNP A/C                    |
| **B**   | not A                        | C o G o T      | Variantes C/G/T            |
| **D**   | not C                        | A o G o T      | Variantes A/G/T            |
| **H**   | not G                        | A o C o T      | Variantes A/C/T            |
| **V**   | not T                        | A o C o G      | Variantes A/C/G            |
| **N**   | aNy                          | A o C o G o T  | N = nucleótido desconocido |


| Símbolo | Significado                        | Nota                                                     |
| ------- | ---------------------------------- | -------------------------------------------------------- |
| **-**   | GAP (inserción/deleción en alineo) | **No es IUPAC**; indica ausencia de base en esa posición |

**Nota:** Cuando haces genotipado a partir de secuencias, lo más común es ver R, Y, M, K, S, W porque indican heterocigotos claros.

Los códigos de 3 bases (B, D, H, V) y el N suelen aparecer en secuencias de baja calidad, cuando el secuenciador no puede asignar un alelo único.

- Ahora, imagina que secuencias un locus de 7 bases en 6 individuos. 
En la posición 4 hay variación: algunos tienen A, otros G.

**Secuencias de los individuos**

Ind1: ATCAAAA

Ind2: ATCGAAA

Ind3: ATCGAAA

Ind4: ATCAAAA

Ind5: ATCRAAA

Ind6: ATCAAAA

**Identificar el SNP (posición 4)**, aquí es donde está el polimorfismo:

| Individuo | Posición 4 | Código IUPAC | Interpretación   |
| --------- | ---------- | ------------ | ---------------- |
| Ind1      | A          | A            | Homocigoto A/A   |
| Ind2      | G          | G            | Homocigoto G/G   |
| Ind3      | G          | G            | Homocigoto G/G   |
| Ind4      | A          | A            | Homocigoto A/A   |
| Ind5      | R          | R = A/G      | Heterocigoto A/G |
| Ind6      | A          | A            | Homocigoto A/A   |

**Convertir a genotipos**

Ind1 → AA

Ind2 → GG

Ind3 → GG

Ind4 → AA

Ind5 → AG

Ind6 → AA

**Conteo de genotipos observados**

| Genotipo | Conteo |
| -------- | ------ |
| **AA**   | 3      |
| **AG**   | 1      |
| **GG**   | 2      |

Ahora ya tienes la tabla de genotipos observados que se usa en el test de Hardy–Weinberg.

Lo que hicimos fue leer un SNP en un conjunto de secuencias, usar el código IUPAC para interpretar heterocigotos y convertir los datos a genotipos contables.

Sin embargo, es importante considerar que en casos más complejos los conteos observados pueden cambiar por datos faltantes, ambigüedades, indels, errores de secuenciación, multialelismo..., lo que obliga a filtrar, excluir o redefinir cómo se cuentan los genotipos antes de probar Hardy–Weinberg. Además, la gran cantidad de datos que pueden surgir de secuencias muy largas y multiples sitios variantes (SNPs) hace necesario el uso de métodos optimizados.

**Bonus:**

**Definición de locus**

Un locus (plural loci) es una región con una posición, usualmente fija, en un cromosoma.

Esta región puede referirse a:

- Un gen completo, un microsatélite, o cualquier fragmento de ADN definido.

Los cromosomas son numerados por tamaño, por ejemplo, en humanos los 23 pares de cromosomas (excepto: XY) reciben una numeración en la que 1 corresponde al par de cromosomas homologos más largos, 2 al par que sigue en tamaño y así sucesivamente.

Para localizar regiones en los cromosomas, tradicionalmente se ha utilizado como referencia al conjunto de bandas que se observa cuando se usa una tinción sobre el cromosoma que hace que las regiones más enrolladas y, por tanto, más densas, se vean más oscuras dándoles esa apariencia característica de banda. Junto con este patrón de bandas, se utiliza también su posición de acuerdo a los brazos cortos y largos que son definidos con respecto al centrómero. Con esta información cada banda oscura y clara recibe una localización alfanumérica. A este método se le conoce como localización citogenética.

Con la secuenciación de los genomas, se viene adoptando la localización molecular. En la que cada cromosoma es secuenciado y organizado de manera que a cada nucleótido le correponde la numeración del lugar que ocupa dentro de la secuencia ordenada (5'- 3'). De esta manera, las regiones de interés son nombradas de acuerdo a su tamaño y a su localización con respecto a esta secuencia de nucleótidos. Esto hace de este método mucho más específico.