# Práctica con ordenador 5. Proporciones de mestizaje.

## Objetivo
Aprener cómo se hacen y cómo se interpretan los gráficos de **proporciones de mestizaje**, como el de la figura siguiente, obtenida de [Friedlaender et al. (2008)](https://doi.org/10.1371/journal.pgen.0040019). El estudio se encaminaba a estudiar en detalle y la estructura genética de las poblaciones humanas del Pacífico.

![](exemple.png)

<center><b>Figura 1</b>. Proporciones de ancestralidad estimadas en 1893 individuos de 91 poblaciones, a partir de los genotipos en 687 microsatélites y 203 inserciones (Friedlaender et al., 2008).</center>

### Ejercicio 1. Revisamos la interpretación intuitiva de esta figura:
1. ¿Qué indican los colores?
2. ¿Qué son las barras verticales? Què són les barres verticals?
3. ¿Crees que existe un valor de *K* más adecuado que los otros?
4. Con $K=2$, ¿crees que es razonable la separación observada entre laspoblaciones oceánicas y prácticamente el resto del mundo?
5. ¿Qué otro detalle te llama la atención?

## El modelo
Las figuras como la anterior asumen un modelo demográfico concreto con las asunciones siguientes:
1. Las poblaciones ancestrales vivieron separadas, divergieron por deriva genética y pueden haberse mezclado recientemente.
2. Las poblaciones mestizas no han sufrido deriva genética desde el mestizaje: su constitución genética se explica adecuadamente por las proporciones de mestizaje y las frecuencias alélicas iniciales.
3. Todas las poblaciones ancestrales están bien representadas en la muestra.

La figura siguiente, de Lawson et al. (2018), representa un ejemplo de este modelo.

<center>
<img src="model.png" alt="Drawing" style="width: 200px;"/>
</center>
<center><b>Figura 2</b>. Modelo demográfico de diferenciación y mestizaje entre 4 poblaciones (a) y proporciones de mestizaje correspondientes en una muestra de individuos de las 4 poblaciones (Lawson et al. 2018).</center>

### Ejercicio 2. ¿Qué poblaciones humanas conoces que podrían haber tenido una evolución similar?

## Los datos
Los datos de partida son:

1. Una gran matriz **G**, de los genotipos en *M* loci (normalmente miles de SNPs) de *N* individuos;
2. y un número de poblaciones ancestrales que suponemos que existieron, *K*.

Friedlaender et al. (2008) utilizaron datos genéticos de 890 loci en 1893 individuos de 91 poblaciones diferentes. Nosotros utilizaremos los genotipos de 12 lobos y 74 perros de tres razas, con cerca de 77000 SNPs. Los datos están en la carpeta `data`, en un formato binario propio del programa `plink` (Chang et al. 2015). Para poder transformarlos en un formato de texto plano, es necesario tener instalado el programa `plink`. Ejecutando el bloque de código siguiente se instalarán los tres programas que utilizaremos alo largo de la práctica: `plink`, `admixture` y `evalAdmix`. Este bloque sólo se ejecutará una vez.

In [None]:
system2('chmod 744 installacio.sh')
system2('./installacio.sh')

Desde este cuaderno solo podemos ejecutar órdenes en lenguaje R. Para ejecutar los comandos del sistema debemos de englobarlos con la función system2() de R.

El bloque siguiente generará una versión legible de los datos genéticos (la matriz G):

Tanto en esta celda de comando como en algunas posteriores será necesario que reemplaces la palabra "usuario" por tu nombre de usuario en el path para ejecutar el programa.

In [6]:
if (! file.exists('data/cf6.ped')) 
   system2('/home/VMAULES/usuario/.local/bin/./plink', args = c('--bfile', 'data/cf6',
                             '--out', 'data/cf6',
                             '--recode',
                             '--dog'),
          stdout = FALSE, stderr = FALSE)

### Ejercicio 3. ¿Qué estructura tiene el archivo `data/cf6.ped`?

## Métodos
El programa `admixture` utiliza la matriz **G** y el númer de poblaciones ancestrales *K* para *estimar* dos matrices: la matriz **P** de las frecuencias alélicas de los *M* loci en cada una de las *K* poblaciones ancestrales; y la matriz **Q** ($N\times K$), de las proporciones de loci que cada individuo ha heredado de cada una de las poblaciones *K*. EL bloque de código siguiente realiza la estimación para $K=2$. La opción `--cv` (*Cross Validation*) instruye el programa para estimar también una tasa de error en la asignación de ancestralidades:

In [2]:
if (! file.exists('cf6.2.Q'))
    system2('/home/VMAULES/usuario/.local/bin/./admixture', args = c('--cv', 'data/cf6.bed', '2'),
           stdout = 'cf6.2.log')

### Ejercicio 4. En otro bloque de código a continación escribe tú y ejecuta las órdenes para estimar las matrices **P** y **Q** con los valores de *K* entre 3 y 6.

## Resultados
Es hora de visualizar los resultados. Explora alguna de las matrices de proporciones de mestizaje **Q**. Verás que cada matriz tiene tantas filas como individuos y tantas columnas como poblaciones ancestrales hemos asumido. Las filas suman 1, porque cada columna representa la proporción estimada del genoma que cada individuo ha heredado de cada población ancestral. El código siguiente representa cada fila de **Q** como una barra vertical con fragmentos de colores diferentes proporcionales a la fracción del genoma heredada de cada supuesta población ancestral.

In [None]:
Q2 <- matrix(scan('cf6.2.Q'), ncol = 2, byrow = TRUE)
options(repr.plot.width = 21, repr.plot.height = 7, repr.plot.res = 100)
barplot(t(Q2), col = c(2,3))

### Ejercicio 5. En bloques de código adicionales, genera gráficos como el anterior par cada valor de *K*.

Un aspecto importante es que el método utilizado por `admixture` ignora por completo las *etiquetas* que podemos haber asignado a los individuos. El conocimiento previo sobre el origen de las muestras puede utilizarse para interpretar los resultados. Los individuos (es decir, las filas en la matriz **Q**) están dispuestas en el mismo orden que aparecen los individuos en la matriz **G** de genotipos. La identidad de los individuos podemos encontrarla en las primeras columnas de aquella matriz **G** (es decir, en el archivo `data/cf6.ped`) o, para mayor comodidad, en el archivo `data/cf6.fam`. Abre este último y observa las dos primeras columnas, que corresponden a una población asignada y un identificador único de individuo. Las cuatro poblaciones a las cuales pertenecen nuestras muestras son:

Un aspecte important és que el mètode utilitzat per `admixture` ignora per complet les *etiquetes* que podem haver assignat als individus. El coneixement previ sobre l'origen de les mostres pot utilitzar-se per interpretar els resultats. Els individus (és a dir, les files en la matriu **Q**) estan disposats en el mateix ordre en què apareixen els individus en la matriu **G** de genotips. La identitat dels individus podem trobar-la en les primeres columnes d'aquella matriu **G** (és a dir, a l'arxiu `data/cf6.ped`) o, per més comoditat, en l'arxiu `data/cf6.fam`. Obri aquest últim i observa les dues primeres columnes, que corresponen a una població assignada i un identificador únic d'individu. Les quatre poblacions a les quals pertanyen les nostres mostres són:

  | Etiqueta | Población            | N  |
  | -------- | -------------------- | -- |
  |  GERSHP  | Pastor aleman        | 12 |
  |  WLFDG1  | Perro-lobo tipo 1    | 18 |
  |  WLFDG2  | Perro-lobo tipo 2    | 18 |
  |  EUWOLF  | Lobo europeo         | 12 |

Podemos añadir esta información a los gráficos anteriores con las instrucciones siguientes:

In [None]:
metadata <- read.table('data/cf6.fam', col.names = c('pop', 'ind', 'dad', 'mom', 'sex', 'phe'),
                       colClasses = c('factor', 'character', 'NULL', 'NULL', 'NULL', 'NULL'))
row.names(Q2) <- metadata$ind
# "space=0" anula el espacio entre barras, haciendo que la posición de cada individuo sea igual a su número de orden.
# "las=2" hace que los nombres de los individuos se escriban perpendiculares al eje.
barplot(t(Q2), col = c(2, 3), space = 0, las = 2)
popPosition <- sapply(split(1:dim(metadata)[1], metadata$pop), mean)
popMaximum  <- sapply(split(1:dim(metadata)[1], metadata$pop), max)
axis(3, at = popPosition, labels = names(popPosition), tick = 0)
abline(v = popMaximum, lwd = 2, col = 'white')

### Ejercicio 6. Añade las etiquetas a los gráficos con valores de *K* mayores y comenta los resultados.

## Evaluación de los resultados
El programa `admixture` ofrece un método para evaluar qué valor de *K* es más adecuado para los datos. Consiste en identificar el valor de *K* con un *error de validación cruzada* menor. Estos errores se encuentran al final de los archivos `.log`.

### Ejercicio 7. Completa el vector `CVerrors` del bloque siguiente manualmente con los valores que encontrarás en los archivos `.log`, y después ejecuta el bloque para obtener una representación gráfica.

In [None]:
CVerrors <- c(0, 0, 0, 0, 0)
K <- c(2, 3, 4, 5, 6)
options(repr.plot.width = 7, repr.plot.height = 7, repr.plot.res = 100)
plot(K, CVerrors, type = 'b')

Los errores de validación cruzada nos indican qué valor de *K* es más adecuado. Pero este método no cuestiona el modelo demográfico asumido por el programa, a saber, que las poblaciones provienen de *K* poblaciones ancestrales, que habrían divergido en aislamiento y que pueden haberse mezclado solo recientemente. El programa `evalAdmix` (Garcia-Erill i Albrechtsen, 2020) compueba si los datos se ajustan a este modelo, la lógica de este programa es que si los genotipos de todos los individuos pueden ser explicados adecuadamente por el modelo, las diferencias entre los genotipos observados y los que predice el modelo para un individuo (los *residuales*) no tienen por qué estar correlacionadas con los residuales de ningún otro individuo. Los bloques de código siguientes calculan y representan la matriz de correlaciones entre residuales de parejas de individuos con $K=2$.

In [None]:
source('visFuns.R')
pop <- read.table('data/cf6.fam')
palette(c("#A6CEE3", "#1F78B4", "#B2DF8A", "#33A02C", "#FB9A99", "#E31A1C", "#FDBF6F",
          "#FF7F00", "#CAB2D6", "#6A3D9A", "#FFFF99", "#B15928", "#1B9E77", "#999999"))

In [None]:
K <- 2
EvalFile <- paste0('Eval.', K, '.txt')
if (! file.exists(EvalFile)) {
   system2('/home/VMAULES/usuario/.local/bin/./evalAdmix', 
           args = c('-plink', 'data/cf6', 
                    '-fname', paste0('cf6.', K, '.P'),
                    '-qname', paste0('cf6.', K, '.Q'),
                    '-o', EvalFile, '-P', '1'),
           stdout = paste0('Eval.', K, '.log'))
}
q <- read.table(paste0('cf6.', K, '.Q'), stringsAsFactors = TRUE)
ord <- orderInds(pop = as.vector(pop[,1]), q = q)
r <- as.matrix(read.table(EvalFile))
plotCorRes(cor_mat = r, pop = as.vector(pop[, 1]), ord = ord,
           title = paste0('Evaluation of admixture proportions with K =', K),
           max_z = 0.5, min_z = -0.5)

### Ejercicio 8. ¿Crees que los datos se ajustan al modelo de mensaje entre dos poblaciones ancestrales?

### Ejercicio 9. Haz copias del bloque de cógigo anterior y modifica el valor de *K* para calcular y representar las matrices de correlación de residuales para $K=3$, $K=4$, $K=5$ i $K=6$. Observa y comenta los resultados.

### Bibliografía

- Chang et al. 2015. Second-generation PLINK: rising to the challenge of larger and richer datasets. *GigaScience* 4(1):s13742-015-0047-8. [https://doi.org/10.1186/s13742-015-0047-8](https://doi.org/10.1186/s13742-015-0047-8).
- Friedlaender et al. 2008. The genetic structure of Pacific islanders. *PLoS Genetics* 4(1):1-18. [https://doi.org/10.1371/journal.pgen.0040019](https://doi.org/10.1371/journal.pgen.0040019).
- Garcia-Erill, G. & Albrechtsen, A. 2020. Evaluation of model fit of inferred admixture proportions. *Mol. Ecol. Res.* 20:936-949. [https://doi.org/10.1111/1755-0998.13171](https://doi.org/10.1111/1755-0998.13171).
- Lawson, D.J., van Dorp, L. & Falush, D. 2018. A tutorial on how not to over-interpret STRUCTURE and ADMIXTURE bar plots. *Nat. Commun.* 9:3258. [https://doi.org/10.1038/s41467-018-05257-7](https://doi.org/10.1038/s41467-018-05257-7).