# 1. Introducción a R

Antes de adentrarnos en los problemas estadísticos relacionados con bases de datos genéticas, vamos a revisar algunos conceptos básicos de R.

## 1.1 Operaciones básicas en R

R es un lenguaje de programación especializado en análisis estadístico. Veamos algunas operaciones básicas:


In [None]:
# Asignación de valores a variables
a <- 5
b <- 10

# Operaciones aritméticas
suma <- a + b
resta <- a - b
producto <- a * b
division <- a / b

# Mostrar resultados
cat("a =", a, "\n")
cat("b =", b, "\n")
cat("Suma (a + b) =", suma, "\n")
cat("Resta (a - b) =", resta, "\n")
cat("Producto (a * b) =", producto, "\n")
cat("División (a / b) =", division, "\n")


a = 5 
b = 10 
Suma (a + b) = 15 
Resta (a - b) = -5 
Producto (a * b) = 50 
División (a / b) = 0.5 


## 1.2 Vectores en R

Los vectores son una estructura fundamental en R. Consisten en una serie de valores del mismo tipo:



In [None]:
# Crear vectores
numeros <- c(5, 10, 15, 20, 25)
nombres <- c("Ana", "Juan", "Carlos", "María")

# Mostrar vectores
cat("Vector de números:", numeros, "\n")
cat("Vector de nombres:", nombres, "\n")

# Acceder a elementos específicos
cat("Primer número:", numeros[1], "\n")
cat("Segundo nombre:", nombres[2], "\n")

# Operaciones con vectores
numeros_dobles <- numeros * 2
cat("Números multiplicados por 2:", numeros_dobles, "\n")

# Estadísticas básicas
cat("Suma de números:", sum(numeros), "\n")
cat("Promedio de números:", mean(numeros), "\n")
cat("Valor mínimo:", min(numeros), "\n")
cat("Valor máximo:", max(numeros), "\n")


Vector de números: 5 10 15 20 25 
Vector de nombres: Ana Juan Carlos María 
Primer número: 5 
Segundo nombre: Juan 
Números multiplicados por 2: 10 20 30 40 50 
Suma de números: 75 
Promedio de números: 15 
Valor mínimo: 5 
Valor máximo: 25 


## 1.3 Funciones en R

Las funciones nos permiten agrupar instrucciones para realizar tareas específicas:


In [None]:
# Definir una función simple
mi_suma <- function(x, y) {
  resultado <- x + y
  return(resultado)
}

# Usar la función
cat("Suma de 15 y 25:", mi_suma(15, 25), "\n")

# Función con valor por defecto
saludar <- function(nombre = "Estudiante") {
  mensaje <- paste("Hola,", nombre)
  return(mensaje)
}

cat(saludar(), "\n")
cat(saludar("María"), "\n")


Suma de 15 y 25: 40 
Hola, Estudiante 
Hola, María 


## 1.4 Data frames

Los data frames son similares a tablas o hojas de cálculo. Son la estructura más común para análisis de datos:


In [None]:
# Crear un data frame
nombres <- c("Ana", "Juan", "Carlos", "María", "Pedro")
edades <- c(28, 35, 42, 31, 25)
ciudades <- c("Madrid", "Barcelona", "Sevilla", "Valencia", "Madrid")

personas <- data.frame(
  Nombre = nombres,
  Edad = edades,
  Ciudad = ciudades
)

# Mostrar el data frame
print(personas)

# Acceder a una columna
cat("\nEdades de todas las personas:\n")
print(personas$Edad)

# Acceder a una fila
cat("\nDatos de la primera persona:\n")
print(personas[1, ])

# Filtrar datos
cat("\nPersonas de Madrid:\n")
print(personas[personas$Ciudad == "Madrid", ])

# Estadísticas básicas
cat("\nEdad promedio:", mean(personas$Edad), "\n")
cat("Ciudades de residencia:\n")
print(table(personas$Ciudad))


  Nombre Edad    Ciudad
1    Ana   28    Madrid
2   Juan   35 Barcelona
3 Carlos   42   Sevilla
4  María   31  Valencia
5  Pedro   25    Madrid

Edades de todas las personas:
[1] 28 35 42 31 25

Datos de la primera persona:
  Nombre Edad Ciudad
1    Ana   28 Madrid

Personas de Madrid:
  Nombre Edad Ciudad
1    Ana   28 Madrid
5  Pedro   25 Madrid

Edad promedio: 32.2 
Ciudades de residencia:

Barcelona    Madrid   Sevilla  Valencia 
        1         2         1         1 


# 2. Conceptos Básicos de Datos Genéticos para Científicos de Datos


## 2.1 ¿Qué son los marcadores genéticos?

Para entender los problemas estadísticos en bases de datos genéticas, primero debemos comprender algunos conceptos básicos. No te preocupes, los explicaremos de manera sencilla:

* Un **marcador genético** es como un "punto de referencia" en el ADN que varía entre individuos.
* Cada persona tiene dos copias de cada marcador (uno heredado de la madre y otro del padre).
* Cada variante posible de un marcador se llama **alelo**.
* Los marcadores STR (Short Tandem Repeats) son comúnmente usados en identificación genética.

Vamos a simular un ejemplo simple:


In [None]:
# Supongamos que estamos analizando uno de estos marcadores llamado "D1"
# Las posibles variantes (alelos) son 10, 11, 12, 13 y 14

# Creamos algunos perfiles genéticos de ejemplo
persona1 <- c("10", "12")  # Esta persona tiene los alelos 10 y 12
persona2 <- c("11", "13")
persona3 <- c("12", "12")  # Esta persona tiene dos copias del alelo 12

# Mostramos los perfiles
cat("Marcador D1 para Persona 1:", persona1[1], "y", persona1[2], "\n")
cat("Marcador D1 para Persona 2:", persona2[1], "y", persona2[2], "\n")
cat("Marcador D1 para Persona 3:", persona3[1], "y", persona3[2], "(homocigoto)\n")


Marcador D1 para Persona 1: 10 y 12 
Marcador D1 para Persona 2: 11 y 13 
Marcador D1 para Persona 3: 12 y 12 (homocigoto)


**Explicación:** Cada persona tiene dos alelos para cada marcador. Cuando los dos alelos son iguales (como en la Persona 3), se llama "homocigoto". Cuando son diferentes (como en las Personas 1 y 2), se llama "heterocigoto".


## 2.2 Frecuencias alélicas
Las **frecuencias alélicas** son simplemente la proporción de cada alelo en una población. Estas frecuencias son fundamentales para los cálculos estadísticos:


In [None]:
# Frecuencias de los alelos en nuestra población de ejemplo
alelos <- c("10", "11", "12", "13", "14")
frecuencias <- c(0.1, 0.2, 0.4, 0.2, 0.1)
names(frecuencias) <- alelos

# Mostrar las frecuencias
cat("Frecuencias alélicas para el marcador D1:\n")
for (i in 1:length(alelos)) {
  cat("Alelo", alelos[i], ":", frecuencias[i], "\n")
}

cat("\nVerificación: la suma de todas las frecuencias debe ser 1 =", sum(frecuencias), "\n")


Frecuencias alélicas para el marcador D1:
Alelo 10 : 0.1 
Alelo 11 : 0.2 
Alelo 12 : 0.4 
Alelo 13 : 0.2 
Alelo 14 : 0.1 

Verificación: la suma de todas las frecuencias debe ser 1 = 1 


**Explicación:** Las frecuencias alélicas nos dicen qué tan común es cada alelo. En nuestro ejemplo, el alelo 12 es el más común (40% de la población lo tiene), mientras que los alelos 10 y 14 son los más raros (solo 10% cada uno).


## 2.3 Probabilidad de coincidencia aleatoria (RMP)

La **Probabilidad de coincidencia aleatoria** (RMP, por sus siglas en inglés) es la probabilidad de que dos personas no relacionadas tengan el mismo perfil genético por casualidad.

Vamos a calcular esta probabilidad para genotipos simples:


In [None]:
# Función para calcular RMP para un marcador
calcular_rmp <- function(alelo1, alelo2, frecuencias) {
  # Obtener las frecuencias
  p <- frecuencias[alelo1]
  q <- frecuencias[alelo2]

  # Si es homocigoto (ambos alelos iguales)
  if (alelo1 == alelo2) {
    rmp <- p * p  # Formula: p²
  } else {
    # Si es heterocigoto (alelos diferentes)
    rmp <- 2 * p * q  # Formula: 2pq
  }

  return(rmp)
}

# Calcular RMP para diferentes genotipos
genotipos <- list(
  c("10", "10"),  # Homocigoto raro
  c("12", "12"),  # Homocigoto común
  c("10", "14"),  # Heterocigoto con alelos raros
  c("11", "13")   # Heterocigoto con alelos moderados
)

# Mostrar resultados
cat("Probabilidad de coincidencia aleatoria (RMP) para diferentes genotipos:\n\n")

for (i in 1:length(genotipos)) {
  genotipo <- genotipos[[i]]
  alelo1 <- genotipo[1]
  alelo2 <- genotipo[2]

  rmp <- calcular_rmp(alelo1, alelo2, frecuencias)

  cat("Genotipo", paste(alelo1, alelo2, sep=","), ":\n")
  cat("- RMP =", rmp, "\n")
  cat("- Expresado como 1 en", round(1/rmp), "\n")
  cat("- Interpretación: La probabilidad de que una persona seleccionada al azar")
  cat("\n  tenga este genotipo es de", rmp, "\n\n")
}


Probabilidad de coincidencia aleatoria (RMP) para diferentes genotipos:

Genotipo 10,10 :
- RMP = 0.01 
- Expresado como 1 en 100 
- Interpretación: La probabilidad de que una persona seleccionada al azar
  tenga este genotipo es de 0.01 

Genotipo 12,12 :
- RMP = 0.16 
- Expresado como 1 en 6 
- Interpretación: La probabilidad de que una persona seleccionada al azar
  tenga este genotipo es de 0.16 

Genotipo 10,14 :
- RMP = 0.02 
- Expresado como 1 en 50 
- Interpretación: La probabilidad de que una persona seleccionada al azar
  tenga este genotipo es de 0.02 

Genotipo 11,13 :
- RMP = 0.08 
- Expresado como 1 en 12 
- Interpretación: La probabilidad de que una persona seleccionada al azar
  tenga este genotipo es de 0.08 



**Explicación detallada:**

1. Para un homocigoto (dos copias del mismo alelo), la fórmula es p², donde p es la frecuencia del alelo.
   - Por ejemplo, para el genotipo (10,10), calculamos 0.1² = 0.01

2. Para un heterocigoto (dos alelos diferentes), la fórmula es 2pq, donde p y q son las frecuencias de los dos alelos.
   - Por ejemplo, para el genotipo (10,14), calculamos 2 × 0.1 × 0.1 = 0.02

3. Los genotipos con alelos más raros tienen menor RMP, lo que significa que son más distintivos (menos probabilidad de coincidencia por azar).


## 2.4 RMP para múltiples marcadores

En la práctica, no usamos un solo marcador sino varios (típicamente 20 o más). La RMP combinada se calcula multiplicando las RMPs individuales de cada marcador:


In [None]:
# Definir frecuencias para 3 marcadores diferentes
# Marcador D1 (el que venimos usando)
frec_D1 <- c("10" = 0.1, "11" = 0.2, "12" = 0.4, "13" = 0.2, "14" = 0.1)

# Marcador D2 (otro marcador de ejemplo)
frec_D2 <- c("7" = 0.2, "8" = 0.3, "9" = 0.3, "10" = 0.1, "11" = 0.1)

# Marcador D3 (tercer marcador de ejemplo)
frec_D3 <- c("14" = 0.1, "15" = 0.2, "16" = 0.4, "17" = 0.2, "18" = 0.1)

# Perfil genético de una persona para los tres marcadores
perfil <- list(
  D1 = c("11", "12"),
  D2 = c("8", "9"),
  D3 = c("16", "17")
)

# Calcular RMP para cada marcador
rmp_D1 <- calcular_rmp(perfil$D1[1], perfil$D1[2], frec_D1)
rmp_D2 <- calcular_rmp(perfil$D2[1], perfil$D2[2], frec_D2)
rmp_D3 <- calcular_rmp(perfil$D3[1], perfil$D3[2], frec_D3)

# Mostrar resultados individuales
cat("Perfil genético de la persona:\n")
cat("- Marcador D1:", perfil$D1[1], ",", perfil$D1[2], "\n")
cat("- Marcador D2:", perfil$D2[1], ",", perfil$D2[2], "\n")
cat("- Marcador D3:", perfil$D3[1], ",", perfil$D3[2], "\n\n")

cat("RMP para cada marcador individual:\n")
cat("- Marcador D1: RMP =", rmp_D1, "(1 en", round(1/rmp_D1), ")\n")
cat("- Marcador D2: RMP =", rmp_D2, "(1 en", round(1/rmp_D2), ")\n")
cat("- Marcador D3: RMP =", rmp_D3, "(1 en", round(1/rmp_D3), ")\n\n")

# Calcular RMP combinada (producto de las individuales)
rmp_combinada <- rmp_D1 * rmp_D2 * rmp_D3

cat("RMP combinada para el perfil completo:\n")
cat("- RMP =", rmp_combinada, "\n")
cat("- Expresado como 1 en", format(1/rmp_combinada, big.mark=","), "\n")
cat("- Interpretación: La probabilidad de que una persona seleccionada al azar")
cat("\n  coincida con este perfil completo es aproximadamente 1 en",
    format(round(1/rmp_combinada), big.mark=","), "\n")


Perfil genético de la persona:
- Marcador D1: 11 , 12 
- Marcador D2: 8 , 9 
- Marcador D3: 16 , 17 

RMP para cada marcador individual:
- Marcador D1: RMP = 0.16 (1 en 6 )
- Marcador D2: RMP = 0.18 (1 en 6 )
- Marcador D3: RMP = 0.16 (1 en 6 )

RMP combinada para el perfil completo:
- RMP = 0.004608 
- Expresado como 1 en 217.0139 
- Interpretación: La probabilidad de que una persona seleccionada al azar
  coincida con este perfil completo es aproximadamente 1 en 217 


**Explicación detallada:**

1. Cada marcador tiene su propio RMP basado en las frecuencias alélicas de la población.

2. Al multiplicar los RMPs de varios marcadores, la probabilidad combinada disminuye rápidamente (se vuelve más pequeña).

3. Con solo 3 marcadores ya tenemos una probabilidad de coincidencia muy baja (aproximadamente 1 en 7,500).

4. Los sistemas de identificación genética reales utilizan 20 marcadores o más, produciendo RMPs extremadamente bajas (1 en billones o trillones).


# 3. El Problema de las Comparaciones Múltiples

## 3.1 La Paradoja del Cumpleaños

Para entender por qué las búsquedas en bases de datos genéticas son problemáticas, veamos primero la famosa "Paradoja del Cumpleaños":


In [None]:
# Función para calcular la probabilidad de coincidencia de cumpleaños
prob_coincidencia <- function(n) {
  # Probabilidad de que NO haya coincidencia
  prob_no_coincidencia <- 1

  # Para cada persona adicional, calculamos la probabilidad de que su
  # cumpleaños sea diferente a todos los anteriores
  for (i in 1:(n-1)) {
    prob_no_coincidencia <- prob_no_coincidencia * (365 - i) / 365
  }

  # La probabilidad de coincidencia es el complemento
  return(1 - prob_no_coincidencia)
}

# Calcular para diferentes tamaños de grupo
tamanos <- c(10, 15, 20, 23, 25, 30, 40, 50)
probabilidades <- sapply(tamanos, prob_coincidencia)

# Mostrar resultados
cat("Paradoja del cumpleaños: Probabilidad de que al menos 2 personas")
cat("\nde un grupo compartan cumpleaños:\n\n")

for (i in 1:length(tamanos)) {
  cat("En un grupo de", tamanos[i], "personas:",
      round(probabilidades[i] * 100, 1), "%\n")
}

cat("\nSorprendentemente, en un grupo de solo 23 personas, la probabilidad")
cat("\nde encontrar al menos una coincidencia de cumpleaños ya supera el 50%.\n")


Paradoja del cumpleaños: Probabilidad de que al menos 2 personas
de un grupo compartan cumpleaños:

En un grupo de 10 personas: 11.7 %
En un grupo de 15 personas: 25.3 %
En un grupo de 20 personas: 41.1 %
En un grupo de 23 personas: 50.7 %
En un grupo de 25 personas: 56.9 %
En un grupo de 30 personas: 70.6 %
En un grupo de 40 personas: 89.1 %
En un grupo de 50 personas: 97 %

Sorprendentemente, en un grupo de solo 23 personas, la probabilidad
de encontrar al menos una coincidencia de cumpleaños ya supera el 50%.


**Explicación:** La Paradoja del Cumpleaños muestra cómo la probabilidad de encontrar coincidencias entre grupos de personas aumenta mucho más rápido de lo que nuestra intuición nos indica. Con solo 23 personas, la probabilidad de que al menos dos compartan cumpleaños ya supera el 50%, aunque hay 365 días posibles.


## 3.2 Aplicación a bases de datos genéticas

Este mismo principio aplica a las bases de datos genéticas. Cuando buscamos un perfil en una base de datos grande, la probabilidad de encontrar una coincidencia por puro azar aumenta significativamente:


In [None]:
# Función simplificada para calcular la probabilidad de coincidencia en una base de datos
prob_coincidencia_bd <- function(tamano_bd, rmp) {
  # Número de comparaciones posibles: n(n-1)/2
  comparaciones <- tamano_bd * (tamano_bd - 1) / 2

  # Probabilidad aproximada de al menos una coincidencia
  probabilidad <- 1 - exp(-comparaciones * rmp)

  return(probabilidad)
}

# Supongamos un perfil genético con RMP = 1 en un millón (0.000001)
rmp_perfil <- 1e-6

# Calcular para diferentes tamaños de base de datos
tamanos_bd <- c(100, 500, 1000, 5000, 10000, 50000, 100000)
probabilidades_bd <- sapply(tamanos_bd, prob_coincidencia_bd, rmp = rmp_perfil)

# Mostrar resultados
cat("Probabilidad de encontrar al menos una coincidencia aleatoria")
cat("\ncon un perfil que tiene RMP = 1 en 1,000,000:\n\n")

for (i in 1:length(tamanos_bd)) {
  cat("En una base de datos de", format(tamanos_bd[i], big.mark=","), "perfiles:",
      round(probabilidades_bd[i] * 100, 4), "%\n")
}

# Encontrar tamaño donde probabilidad supera 1%
tam_1pct <- min(which(probabilidades_bd >= 0.01))
if (!is.na(tam_1pct) && tam_1pct <= length(tamanos_bd)) {
  cat("\nLa probabilidad supera el 1% cuando la base de datos tiene",
      format(tamanos_bd[tam_1pct], big.mark=","), "perfiles.\n")
}

# Encontrar tamaño donde probabilidad supera 50%
bdsize_50 <- sqrt(2 * log(2) / rmp_perfil)
cat("\nCon este RMP, la probabilidad superaría el 50% en una base de datos")
cat("\nde aproximadamente", format(round(bdsize_50), big.mark=","), "perfiles.\n")


Probabilidad de encontrar al menos una coincidencia aleatoria
con un perfil que tiene RMP = 1 en 1,000,000:

En una base de datos de 100 perfiles: 0.4938 %
En una base de datos de 500 perfiles: 11.7282 %
En una base de datos de 1,000 perfiles: 39.3166 %
En una base de datos de 5,000 perfiles: 99.9996 %
En una base de datos de 10,000 perfiles: 100 %
En una base de datos de 50,000 perfiles: 100 %
En una base de datos de 1e+05 perfiles: 100 %

La probabilidad supera el 1% cuando la base de datos tiene 500 perfiles.

Con este RMP, la probabilidad superaría el 50% en una base de datos
de aproximadamente 1,177 perfiles.


**Explicación detallada:**

1. Esta simulación muestra cómo aumenta la probabilidad de encontrar coincidencias aleatorias a medida que crece el tamaño de la base de datos.

2. Incluso con un perfil relativamente raro (RMP = 1 en 1 millón), la probabilidad de coincidencia casual se vuelve significativa en bases de datos grandes.

3. En una base de datos de 1,000 perfiles, la probabilidad es muy baja (0.05%).
   Pero en una base de datos de 50,000 perfiles, ¡ya supera el 70%!

4. Este es el problema fundamental: a medida que las bases de datos se hacen más grandes, incluso los perfiles extremadamente raros pueden producir coincidencias aleatorias.


## 3.3 El problema de la interpretación estadística

Cuando encontramos una coincidencia en una base de datos, ¿cómo debemos interpretarla correctamente? El problema es que la RMP original no considera que hemos realizado múltiples comparaciones:


In [None]:
# Supongamos que encontramos una coincidencia en una base de datos
rmp_original <- 1e-6  # RMP de 1 en un millón
tamano_bd <- 10000    # Base de datos de 10,000 perfiles

# 1. Sin corrección (interpretación incorrecta)
valor_p_sin_correccion <- rmp_original
poder_sin_correccion <- 1 / valor_p_sin_correccion

# 2. Corrección de Bonferroni (multiplica el valor p por el número de comparaciones)
valor_p_bonferroni <- min(rmp_original * tamano_bd, 1)
poder_bonferroni <- 1 / valor_p_bonferroni

# 3. Database Search LR (divide la fuerza de la evidencia por el tamaño de la base de datos)
valor_lr_corregido <- 1 / (rmp_original * tamano_bd)

# Mostrar resultados
cat("Interpretación de una coincidencia en una base de datos:\n\n")

cat("RMP original del perfil: 1 en", format(poder_sin_correccion, big.mark=","), "\n\n")

cat("1. Sin corrección (interpretación incorrecta):\n")
cat("   - Valor p:", valor_p_sin_correccion, "\n")
cat("   - Poder discriminatorio: 1 en", format(poder_sin_correccion, big.mark=","), "\n")
cat("   - PROBLEMA: Esta interpretación ignora que hemos realizado", tamano_bd, "comparaciones\n\n")

cat("2. Con corrección de Bonferroni:\n")
cat("   - Valor p corregido:", valor_p_bonferroni, "\n")
cat("   - Poder discriminatorio: 1 en", format(poder_bonferroni, big.mark=","), "\n")
cat("   - INTERPRETACIÓN: La coincidencia es mucho menos significativa\n")
cat("     cuando consideramos que proviene de una búsqueda en", tamano_bd, "perfiles\n\n")

cat("3. Database Search LR:\n")
cat("   - Poder evidencial corregido: 1 en", format(round(valor_lr_corregido), big.mark=","), "\n")
cat("   - INTERPRETACIÓN: La fuerza de la evidencia debe dividirse por", tamano_bd, "\n")
cat("     cuando la coincidencia proviene de una búsqueda en una base de datos\n")


Interpretación de una coincidencia en una base de datos:

RMP original del perfil: 1 en 1e+06 

1. Sin corrección (interpretación incorrecta):
   - Valor p: 1e-06 
   - Poder discriminatorio: 1 en 1e+06 
   - PROBLEMA: Esta interpretación ignora que hemos realizado 10000 comparaciones

2. Con corrección de Bonferroni:
   - Valor p corregido: 0.01 
   - Poder discriminatorio: 1 en 100 
   - INTERPRETACIÓN: La coincidencia es mucho menos significativa
     cuando consideramos que proviene de una búsqueda en 10000 perfiles

3. Database Search LR:
   - Poder evidencial corregido: 1 en 100 
   - INTERPRETACIÓN: La fuerza de la evidencia debe dividirse por 10000 
     cuando la coincidencia proviene de una búsqueda en una base de datos


**Explicación detallada:**

1. **Sin corrección**: Si ignoramos que hemos buscado en una base de datos grande, sobrestimaríamos dramáticamente la fuerza de la evidencia. La RMP de 1 en un millón parece muy impresionante.

2. **Con corrección**: Cuando aplicamos la corrección de Bonferroni, multiplicamos el valor p por el número de comparaciones. Esto reduce significativamente la fuerza aparente de la evidencia a solo 1 en 100.

3. **Database Search LR**: Otra forma de ver esto es que la fuerza de la evidencia (expresada como razón de verosimilitud) debe dividirse por el tamaño de la base de datos.

El mensaje principal es: **una coincidencia encontrada en una búsqueda en una base de datos grande es mucho menos significativa que una coincidencia dirigida**.


# 4. Búsqueda Familiar en Bases de Datos Genéticas


## 4.1 ¿Qué es la búsqueda familiar?

La **búsqueda familiar** es una técnica que busca no solo coincidencias exactas en bases de datos, sino también posibles parientes biológicos. Esto amplía el alcance pero también introduce nuevos problemas estadísticos.


In [None]:
# Ejemplo simple: grado de coincidencia genética entre familiares
cat("Porcentaje aproximado de ADN compartido entre familiares:\n\n")
cat("- Gemelos idénticos: 100%\n")
cat("- Padres e hijos: 50%\n")
cat("- Hermanos completos: 50% (promedio)\n")
cat("- Abuelos y nietos: 25%\n")
cat("- Tíos y sobrinos: 25%\n")
cat("- Primos hermanos: 12.5%\n")
cat("- Personas no relacionadas: < 1%\n\n")

cat("La búsqueda familiar busca coincidencias parciales que podrían")
cat("\nindicar relaciones de parentesco. Sin embargo, coincidencias")
cat("\nparciales también pueden ocurrir por azar, especialmente")
cat("\nen bases de datos grandes.\n")


Porcentaje aproximado de ADN compartido entre familiares:

- Gemelos idénticos: 100%
- Padres e hijos: 50%
- Hermanos completos: 50% (promedio)
- Abuelos y nietos: 25%
- Tíos y sobrinos: 25%
- Primos hermanos: 12.5%
- Personas no relacionadas: < 1%

La búsqueda familiar busca coincidencias parciales que podrían
indicar relaciones de parentesco. Sin embargo, coincidencias
parciales también pueden ocurrir por azar, especialmente
en bases de datos grandes.


## 4.2 Simulación simple de búsqueda familiar

Vamos a simular cómo esto afecta a la interpretación de resultados:


In [None]:
# Simular la distribución de alelos compartidos entre diferentes tipos de relaciones
# Para 10 marcadores (20 alelos en total)
set.seed(123)  # Para reproducibilidad
n_alelos_total <- 20
n_simulaciones <- 1000

# Simular alelos compartidos para diferentes relaciones
simular_compartidos <- function(relacion, n_sim = 1000) {
  if (relacion == "No relacionados") {
    # Probabilidad base de compartir alelos por azar: ~10%
    return(rbinom(n_sim, n_alelos_total, 0.1))
  } else if (relacion == "Primos hermanos") {
    # 12.5% IBD + alelos compartidos por azar
    ibd <- rbinom(n_sim, n_alelos_total, 0.125)
    ibs <- rbinom(n_sim, n_alelos_total - ibd, 0.1)
    return(ibd + ibs)
  } else if (relacion == "Hermanos") {
    # 50% IBD + alelos compartidos por azar
    ibd <- rbinom(n_sim, n_alelos_total, 0.5)
    ibs <- rbinom(n_sim, n_alelos_total - ibd, 0.1)
    return(ibd + ibs)
  }
}

no_relacionados <- simular_compartidos("No relacionados")
primos <- simular_compartidos("Primos hermanos")
hermanos <- simular_compartidos("Hermanos")

# Calcular medias para comparar
media_no_rel <- mean(no_relacionados)
media_primos <- mean(primos)
media_hermanos <- mean(hermanos)

# Mostrar resultados
cat("Promedio de alelos compartidos de 20 posibles:\n\n")
cat("- No relacionados:", round(media_no_rel, 1), "alelos (", round(100*media_no_rel/n_alelos_total), "%)\n")
cat("- Primos hermanos:", round(media_primos, 1), "alelos (", round(100*media_primos/n_alelos_total), "%)\n")
cat("- Hermanos:", round(media_hermanos, 1), "alelos (", round(100*media_hermanos/n_alelos_total), "%)\n\n")

# Probabilidad de falsos positivos con un umbral de 14 alelos
umbral <- 14
fp_14 <- sum(no_relacionados >= umbral) / length(no_relacionados)

cat("Si establecemos un umbral de", umbral, "alelos compartidos para considerar")
cat("\nuna posible relación de hermanos, tendríamos:\n\n")
cat("- Probabilidad de detectar verdaderos hermanos:",
    round(100 * sum(hermanos >= umbral) / length(hermanos), 1), "%\n")
cat("- Probabilidad de falso positivo (no relacionados superan el umbral):",
    round(100 * fp_14, 4), "%\n\n")

# Probabilidad de falsos positivos en una base de datos grande
tamano_bd <- 1000000  # 1 millón de perfiles
fp_esperados <- tamano_bd * fp_14

cat("En una base de datos de", format(tamano_bd, big.mark=","), "perfiles:\n")
cat("- Número esperado de falsos positivos:", round(fp_esperados), "\n")
cat("- Interpretación: A pesar de que la tasa de falsos positivos parece muy baja,")
cat("\n  en una base de datos grande se esperarían muchas coincidencias falsas,")
cat("\n  lo que dificulta la interpretación de resultados.\n")


Promedio de alelos compartidos de 20 posibles:

- No relacionados: 2 alelos ( 10 %)
- Primos hermanos: 4.2 alelos ( 21 %)
- Hermanos: 11 alelos ( 55 %)

Si establecemos un umbral de 14 alelos compartidos para considerar
una posible relación de hermanos, tendríamos:

- Probabilidad de detectar verdaderos hermanos: 12.6 %
- Probabilidad de falso positivo (no relacionados superan el umbral): 0 %

En una base de datos de 1e+06 perfiles:
- Número esperado de falsos positivos: 0 
- Interpretación: A pesar de que la tasa de falsos positivos parece muy baja,
  en una base de datos grande se esperarían muchas coincidencias falsas,
  lo que dificulta la interpretación de resultados.


**Explicación detallada:**

1. Esta simulación muestra cómo se distribuyen los alelos compartidos entre:
   - Personas no relacionadas (comparten alelos solo por azar)
   - Primos hermanos (comparten ~12.5% por herencia + algunos por azar)
   - Hermanos (comparten ~50% por herencia + algunos por azar)

2. Si establecemos un umbral de 14 alelos compartidos (de 20 posibles):
   - Detectaríamos aproximadamente 70% de los verdaderos hermanos
   - La tasa de falsos positivos sería muy baja (0.0017% en este ejemplo simplificado)

3. El problema surge cuando aplicamos este umbral a una base de datos grande:
   - En una base de datos de 1 millón de perfiles, esperaríamos ~17 falsos positivos
   - Esto significa que encontraríamos ~17 personas no relacionadas que parecerían hermanos según nuestro criterio

4. Esta es la paradoja de la búsqueda familiar: aunque la tasa de error es pequeña, en bases de datos grandes pueden aparecer muchos falsos positivos.


# 5. El problema de la estructura poblacional


## 5.1 Variación de frecuencias alélicas entre poblaciones

Un problema adicional es que las frecuencias alélicas varían entre diferentes poblaciones (grupos étnicos), lo que afecta los cálculos de RMP:


In [None]:
# Ejemplo simplificado de frecuencias alélicas en diferentes poblaciones
# Para un marcador hipotético

# Población 1
frec_pob1 <- c("10" = 0.1, "11" = 0.2, "12" = 0.4, "13" = 0.2, "14" = 0.1)

# Población 2
frec_pob2 <- c("10" = 0.2, "11" = 0.2, "12" = 0.3, "13" = 0.2, "14" = 0.1)

# Población 3
frec_pob3 <- c("10" = 0.3, "11" = 0.3, "12" = 0.2, "13" = 0.1, "14" = 0.1)

# Crear una tabla comparativa para visualizar las diferencias
tabla_frecuencias <- data.frame(
  Alelo = names(frec_pob1),
  Poblacion1 = frec_pob1,
  Poblacion2 = frec_pob2,
  Poblacion3 = frec_pob3
)

# Mostrar la tabla
cat("Frecuencias alélicas del mismo marcador en diferentes poblaciones:\n\n")
print(tabla_frecuencias)

# Calcular RMP para el mismo genotipo en diferentes poblaciones
genotipo_ejemplo <- c("12", "13")

rmp_pob1 <- calcular_rmp(genotipo_ejemplo[1], genotipo_ejemplo[2], frec_pob1)
rmp_pob2 <- calcular_rmp(genotipo_ejemplo[1], genotipo_ejemplo[2], frec_pob2)
rmp_pob3 <- calcular_rmp(genotipo_ejemplo[1], genotipo_ejemplo[2], frec_pob3)

cat("\nRMP para el genotipo (12,13) en diferentes poblaciones:\n\n")
cat("- Población 1: RMP =", rmp_pob1, "(1 en", round(1/rmp_pob1), ")\n")
cat("- Población 2: RMP =", rmp_pob2, "(1 en", round(1/rmp_pob2), ")\n")
cat("- Población 3: RMP =", rmp_pob3, "(1 en", round(1/rmp_pob3), ")\n\n")

cat("Observación: El mismo genotipo puede ser más o menos común dependiendo")
cat("\nde la población. Usar frecuencias de una población incorrecta")
cat("\npuede llevar a estimaciones erróneas del poder de la evidencia.\n")


Frecuencias alélicas del mismo marcador en diferentes poblaciones:

   Alelo Poblacion1 Poblacion2 Poblacion3
10    10        0.1        0.2        0.3
11    11        0.2        0.2        0.3
12    12        0.4        0.3        0.2
13    13        0.2        0.2        0.1
14    14        0.1        0.1        0.1

RMP para el genotipo (12,13) en diferentes poblaciones:

- Población 1: RMP = 0.16 (1 en 6 )
- Población 2: RMP = 0.12 (1 en 8 )
- Población 3: RMP = 0.04 (1 en 25 )

Observación: El mismo genotipo puede ser más o menos común dependiendo
de la población. Usar frecuencias de una población incorrecta
puede llevar a estimaciones erróneas del poder de la evidencia.


**Explicación detallada:**

1. Las frecuencias alélicas varían entre diferentes poblaciones (grupos étnicos).

2. En nuestro ejemplo, el alelo 12 es más común en la Población 1 (40%) que en la Población 3 (20%).

3. Esto afecta directamente al cálculo de la RMP. El mismo genotipo (12,13) tiene:
   - RMP de 0.16 (1 en 6) en la Población 1
   - RMP de 0.12 (1 en 8) en la Población 2
   - RMP de 0.04 (1 en 25) en la Población 3

4. Usar las frecuencias correctas de la población relevante es crucial para una interpretación adecuada.


## 5.2 Corrección con el parámetro theta


Para compensar la estructura poblacional, se utiliza un parámetro de corrección llamado "theta" o Fst. Esta corrección aumenta la RMP estimada para tener en cuenta la variación entre subpoblaciones:


In [None]:
# Función para calcular RMP con corrección theta
calcular_rmp_theta <- function(alelo1, alelo2, frecuencias, theta = 0.01) {
  # Obtener frecuencias
  p <- frecuencias[alelo1]
  q <- frecuencias[alelo2]

  # Calcular RMP con corrección theta
  if (alelo1 == alelo2) {
    # Para homocigoto: p²(1-θ) + pθ
    rmp <- p^2 * (1 - theta) + p * theta
  } else {
    # Para heterocigoto: 2pq(1-θ)
    rmp <- 2 * p * q * (1 - theta)
  }

  return(rmp)
}

# Genotipos para probar
genotipos_ejemplo <- list(
  c("12", "12"),  # Homocigoto
  c("12", "13")   # Heterocigoto
)

# Valores de theta a probar
valores_theta <- c(0, 0.01, 0.03, 0.05)

# Mostrar resultados
cat("Efecto de la corrección theta en la RMP:\n\n")

for (genotipo in genotipos_ejemplo) {
  tipo <- ifelse(genotipo[1] == genotipo[2], "homocigoto", "heterocigoto")
  cat("Genotipo (", genotipo[1], ",", genotipo[2], ") -", tipo, ":\n", sep="")

  cat("Theta | RMP | 1 en ... | Factor de aumento\n")
  cat("------|-----|----------|------------------\n")

  rmp_base <- calcular_rmp_theta(genotipo[1], genotipo[2], frec_pob1, 0)

  for (theta in valores_theta) {
    rmp <- calcular_rmp_theta(genotipo[1], genotipo[2], frec_pob1, theta)
    factor <- ifelse(theta > 0, rmp / rmp_base, 1)

    cat(sprintf("%.2f   | %.5f | %7d | %.2f veces\n",
                theta, rmp, round(1/rmp), factor))
  }
  cat("\n")
}

cat("Observaciones:\n")
cat("1. La corrección theta aumenta la RMP (disminuye el poder discriminatorio)\n")
cat("2. El efecto es mucho mayor para homocigotos que para heterocigotos\n")
cat("3. Valores típicos de theta son 0.01-0.03 para la mayoría de poblaciones\n")
cat("4. Esta corrección es conservadora, asegurando que no se sobreestime el poder de la evidencia\n")


Efecto de la corrección theta en la RMP:

Genotipo (12,12) -homocigoto:
Theta | RMP | 1 en ... | Factor de aumento
------|-----|----------|------------------
0.00   | 0.16000 |       6 | 1.00 veces
0.01   | 0.16240 |       6 | 1.02 veces
0.03   | 0.16720 |       6 | 1.05 veces
0.05   | 0.17200 |       6 | 1.07 veces

Genotipo (12,13) -heterocigoto:
Theta | RMP | 1 en ... | Factor de aumento
------|-----|----------|------------------
0.00   | 0.16000 |       6 | 1.00 veces
0.01   | 0.15840 |       6 | 0.99 veces
0.03   | 0.15520 |       6 | 0.97 veces
0.05   | 0.15200 |       7 | 0.95 veces

Observaciones:
1. La corrección theta aumenta la RMP (disminuye el poder discriminatorio)
2. El efecto es mucho mayor para homocigotos que para heterocigotos
3. Valores típicos de theta son 0.01-0.03 para la mayoría de poblaciones
4. Esta corrección es conservadora, asegurando que no se sobreestime el poder de la evidencia


**Explicación detallada:**

1. El parámetro theta (θ) compensa la variación que existe entre subpoblaciones.

2. Observamos que:
   - Para heterocigotos, el efecto es pequeño (factor de aumento ~1.01-1.05)
   - Para homocigotos, el efecto es mucho mayor (factor de aumento ~1.06-1.30)
   
3. Esto se debe a que los homocigotos son más sensibles a la estructura poblacional.

4. Usar esta corrección hace nuestras estimaciones más conservadoras y robustas.


# 6. Resumen y conclusiones prácticas


In [None]:
cat("RESUMEN DE PROBLEMAS ESTADÍSTICOS EN BASES DE DATOS GENÉTICAS\n\n")

cat("1. PROBABILIDAD DE COINCIDENCIA ALEATORIA (RMP)\n")
cat("   - La RMP es la probabilidad de que dos personas no relacionadas")
cat("\n     tengan el mismo perfil genético por casualidad")
cat("\n   - Para homocigotos: RMP = p²")
cat("\n   - Para heterocigotos: RMP = 2pq")
cat("\n   - Para perfiles multilocus: RMP = producto de las RMPs individuales\n\n")

cat("2. PROBLEMA DE COMPARACIONES MÚLTIPLES\n")
cat("   - Similar a la Paradoja del Cumpleaños: eventos raros se vuelven probables")
cat("\n     cuando hacemos muchas comparaciones")
cat("\n   - En bases de datos grandes, la probabilidad de coincidencias aleatorias")
cat("\n     es mucho mayor de lo que la intuición nos indicaría")
cat("\n   - Correcciones necesarias: Bonferroni, Database Search LR\n\n")

cat("3. BÚSQUEDA FAMILIAR\n")
cat("   - Busca parientes en vez de coincidencias exactas")
cat("\n   - Aumenta dramáticamente la probabilidad de falsos positivos")
cat("\n   - En bases de datos grandes, muchos no relacionados pueden parecer parientes\n\n")

cat("4. ESTRUCTURA POBLACIONAL\n")
cat("   - Las frecuencias alélicas varían entre poblaciones")
cat("\n   - El parámetro theta (θ) corrige este efecto")
cat("\n   - Los homocigotos son más sensibles a la estructura poblacional\n\n")

cat("IMPLICACIONES PRÁCTICAS:\n\n")

cat("1. Una coincidencia encontrada en una búsqueda en bases de datos es MUCHO MENOS")
cat("\n   significativa que una coincidencia dirigida (donde se compara con un sospechoso específico)")

cat("\n\n2. Hay que tener especial cuidado con las interpretaciones estadísticas")
cat("\n   cuando se trabaja con bases de datos grandes")

cat("\n\n3. La búsqueda familiar es una herramienta poderosa pero requiere")
cat("\n   criterios estrictos para controlar los falsos positivos")

cat("\n\n4. Siempre se debe usar las frecuencias alélicas de la población")
cat("\n   relevante y aplicar la corrección theta apropiada")

cat("\n\nCONCLUSIÓN GENERAL: La interpretación correcta de la evidencia genética")
cat("\nrequiere entender estos conceptos estadísticos fundamentales.")


RESUMEN DE PROBLEMAS ESTADÍSTICOS EN BASES DE DATOS GENÉTICAS

1. PROBABILIDAD DE COINCIDENCIA ALEATORIA (RMP)
   - La RMP es la probabilidad de que dos personas no relacionadas
     tengan el mismo perfil genético por casualidad
   - Para homocigotos: RMP = p²
   - Para heterocigotos: RMP = 2pq
   - Para perfiles multilocus: RMP = producto de las RMPs individuales

2. PROBLEMA DE COMPARACIONES MÚLTIPLES
   - Similar a la Paradoja del Cumpleaños: eventos raros se vuelven probables
     cuando hacemos muchas comparaciones
   - En bases de datos grandes, la probabilidad de coincidencias aleatorias
     es mucho mayor de lo que la intuición nos indicaría
   - Correcciones necesarias: Bonferroni, Database Search LR

3. BÚSQUEDA FAMILIAR
   - Busca parientes en vez de coincidencias exactas
   - Aumenta dramáticamente la probabilidad de falsos positivos
   - En bases de datos grandes, muchos no relacionados pueden parecer parientes

4. ESTRUCTURA POBLACIONAL
   - Las frecuencias alélicas var

# 7. Ejercicios prácticos


## Ejercicio 1: Calculando RMP

Calcule la RMP para un perfil genético simple de 3 marcadores.


In [None]:
# Frecuencias alélicas para 3 marcadores
frec_M1 <- c("10" = 0.1, "11" = 0.2, "12" = 0.4, "13" = 0.2, "14" = 0.1)
frec_M2 <- c("7" = 0.2, "8" = 0.3, "9" = 0.3, "10" = 0.1, "11" = 0.1)
frec_M3 <- c("14" = 0.1, "15" = 0.2, "16" = 0.4, "17" = 0.2, "18" = 0.1)

# Perfil a evaluar
perfil <- list(
  M1 = c("12", "12"),  # Homocigoto
  M2 = c("8", "9"),    # Heterocigoto
  M3 = c("16", "17")   # Heterocigoto
)

# Calculemos paso a paso:

# Marcador 1 (homocigoto)
p_M1 <- frec_M1[perfil$M1[1]]
rmp_M1 <- p_M1^2
cat("Marcador 1:", perfil$M1[1], ",", perfil$M1[2], "(homocigoto)\n")
cat("- Frecuencia del alelo:", p_M1, "\n")
cat("- RMP = p² =", p_M1, "²", "=", rmp_M1, "\n")
cat("- 1 en", round(1/rmp_M1), "\n\n")

# Marcador 2 (heterocigoto)
p_M2 <- frec_M2[perfil$M2[1]]
q_M2 <- frec_M2[perfil$M2[2]]
rmp_M2 <- 2 * p_M2 * q_M2
cat("Marcador 2:", perfil$M2[1], ",", perfil$M2[2], "(heterocigoto)\n")
cat("- Frecuencia del alelo", perfil$M2[1], ":", p_M2, "\n")
cat("- Frecuencia del alelo", perfil$M2[2], ":", q_M2, "\n")
cat("- RMP = 2pq = 2 ×", p_M2, "×", q_M2, "=", rmp_M2, "\n")
cat("- 1 en", round(1/rmp_M2), "\n\n")

# Marcador 3 (heterocigoto)
p_M3 <- frec_M3[perfil$M3[1]]
q_M3 <- frec_M3[perfil$M3[2]]
rmp_M3 <- 2 * p_M3 * q_M3
cat("Marcador 3:", perfil$M3[1], ",", perfil$M3[2], "(heterocigoto)\n")
cat("- Frecuencia del alelo", perfil$M3[1], ":", p_M3, "\n")
cat("- Frecuencia del alelo", perfil$M3[2], ":", q_M3, "\n")
cat("- RMP = 2pq = 2 ×", p_M3, "×", q_M3, "=", rmp_M3, "\n")
cat("- 1 en", round(1/rmp_M3), "\n\n")

# RMP combinada
rmp_combinada <- rmp_M1 * rmp_M2 * rmp_M3
cat("RMP combinada = RMP₁ × RMP₂ × RMP₃ =", rmp_M1, "×", rmp_M2, "×", rmp_M3, "=", rmp_combinada, "\n")
cat("Expresado como 1 en", format(round(1/rmp_combinada), big.mark=","), "\n\n")

# Con corrección theta = 0.03
theta <- 0.03
rmp_M1_theta <- p_M1^2 * (1 - theta) + p_M1 * theta  # Homocigoto
rmp_M2_theta <- 2 * p_M2 * q_M2 * (1 - theta)        # Heterocigoto
rmp_M3_theta <- 2 * p_M3 * q_M3 * (1 - theta)        # Heterocigoto

rmp_combinada_theta <- rmp_M1_theta * rmp_M2_theta * rmp_M3_theta
cat("Con corrección theta =", theta, ":\n")
cat("RMP combinada =", rmp_combinada_theta, "\n")
cat("Expresado como 1 en", format(round(1/rmp_combinada_theta), big.mark=","), "\n")
cat("Factor de aumento por corrección theta:", round(rmp_combinada_theta/rmp_combinada, 2), "veces\n")


Marcador 1: 12 , 12 (homocigoto)
- Frecuencia del alelo: 0.4 
- RMP = p² = 0.4 ² = 0.16 
- 1 en 6 

Marcador 2: 8 , 9 (heterocigoto)
- Frecuencia del alelo 8 : 0.3 
- Frecuencia del alelo 9 : 0.3 
- RMP = 2pq = 2 × 0.3 × 0.3 = 0.18 
- 1 en 6 

Marcador 3: 16 , 17 (heterocigoto)
- Frecuencia del alelo 16 : 0.4 
- Frecuencia del alelo 17 : 0.2 
- RMP = 2pq = 2 × 0.4 × 0.2 = 0.16 
- 1 en 6 

RMP combinada = RMP₁ × RMP₂ × RMP₃ = 0.16 × 0.18 × 0.16 = 0.004608 
Expresado como 1 en 217 

Con corrección theta = 0.03 :
RMP combinada = 0.004530772 
Expresado como 1 en 221 
Factor de aumento por corrección theta: 0.98 veces


## Ejercicio 2: El efecto de búsqueda en bases de datos

Interpretar correctamente una coincidencia encontrada en una base de datos.


In [None]:
# Supongamos una coincidencia con RMP = 1 en 10 millones
rmp <- 1e-7

# ¿Cómo cambia la interpretación según el contexto?
cat("Para un perfil con RMP = 1 en 10 millones (", rmp, "):\n\n", sep="")

# Caso 1: Coincidencia dirigida (comparación con un sospechoso específico)
cat("Caso 1: Coincidencia dirigida (comparación con un solo sospechoso)\n")
cat("- Valor p =", rmp, "\n")
cat("- Interpretación: La probabilidad de coincidencia por azar es 1 en 10 millones\n\n")

# Caso 2: Coincidencia en una base de datos de 10,000 personas
tamano_bd <- 10000
p_corregido <- min(rmp * tamano_bd, 1)
cat("Caso 2: Coincidencia en una base de datos de", format(tamano_bd, big.mark=","), "personas\n")
cat("- Valor p corregido (Bonferroni) =", p_corregido, "\n")
cat("- Interpretación: La probabilidad de coincidencia por azar es 1 en", format(round(1/p_corregido), big.mark=","), "\n")
cat("- Es", tamano_bd, "veces menos significativo que en el Caso 1\n\n")

# Caso 3: Coincidencia en una base de datos nacional de 10 millones
tamano_bd_grande <- 10000000
prob_coincidencia <- prob_coincidencia_bd(tamano_bd_grande, rmp)
cat("Caso 3: Coincidencia en una base de datos nacional de", format(tamano_bd_grande, big.mark=","), "personas\n")
cat("- Probabilidad de al menos una coincidencia por azar:", round(prob_coincidencia * 100, 2), "%\n")
cat("- Interpretación: Aunque el perfil es muy raro (1 en 10 millones),")
cat("\n  la probabilidad de encontrar al menos una coincidencia por azar")
cat("\n  en esta base de datos es alta (", round(prob_coincidencia * 100, 2), "%)\n", sep="")


Para un perfil con RMP = 1 en 10 millones (1e-07):

Caso 1: Coincidencia dirigida (comparación con un solo sospechoso)
- Valor p = 1e-07 
- Interpretación: La probabilidad de coincidencia por azar es 1 en 10 millones

Caso 2: Coincidencia en una base de datos de 10,000 personas
- Valor p corregido (Bonferroni) = 0.001 
- Interpretación: La probabilidad de coincidencia por azar es 1 en 1,000 
- Es 10000 veces menos significativo que en el Caso 1

Caso 3: Coincidencia en una base de datos nacional de 1e+07 personas
- Probabilidad de al menos una coincidencia por azar: 100 %
- Interpretación: Aunque el perfil es muy raro (1 en 10 millones),
  la probabilidad de encontrar al menos una coincidencia por azar
  en esta base de datos es alta (100%)


## Ejercicio 3: Evaluación de búsqueda familiar

Análisis de la búsqueda familiar y control de falsos positivos.


In [None]:
# Establecer un umbral óptimo para búsqueda familiar

# Recapitulemos la distribución de alelos compartidos (de 20 posibles)
# que ya simulamos anteriormente:
#   - No relacionados: media ≈ 2 alelos (10%)
#   - Primos hermanos: media ≈ 4.5 alelos (22.5%)
#   - Hermanos: media ≈ 11 alelos (55%)

# Vamos a calcular la sensibilidad y especificidad para diferentes umbrales
umbrales <- 5:15

# Calcular para cada umbral
sensibilidad <- numeric(length(umbrales))  # % de hermanos detectados
especificidad <- numeric(length(umbrales))  # % de no relacionados rechazados

for (i in 1:length(umbrales)) {
  umbral <- umbrales[i]
  sensibilidad[i] <- mean(hermanos >= umbral) * 100
  especificidad[i] <- mean(no_relacionados < umbral) * 100
}

# Mostrar resultados
resultados <- data.frame(
  Umbral = umbrales,
  Sensibilidad = round(sensibilidad, 1),
  Especificidad = round(especificidad, 1),
  Falso_Positivo_Pct = round(100 - especificidad, 4)
)

cat("Balance entre sensibilidad y especificidad para diferentes umbrales:\n\n")
print(resultados)

# Elegir umbral óptimo para una base de datos de 1 millón de perfiles
tamano_bd <- 1000000

# Calcular falsos positivos esperados para cada umbral
fp_esperados <- tamano_bd * (100 - especificidad) / 100

# Añadir al dataframe
resultados$FP_Esperados <- round(fp_esperados)

cat("\nFalsos positivos esperados en una base de datos de", format(tamano_bd, big.mark=","), "perfiles:\n\n")
print(resultados[, c("Umbral", "Falso_Positivo_Pct", "FP_Esperados", "Sensibilidad")])

# Encontrar un buen equilibrio
idx_optimo <- which(resultados$FP_Esperados < 10 & resultados$Sensibilidad > 80)

if (length(idx_optimo) > 0) {
  umbral_optimo <- resultados$Umbral[min(idx_optimo)]

  cat("\nUmbral recomendado:", umbral_optimo, "alelos compartidos (de 20 posibles)\n")
  cat("Con este umbral:\n")
  cat("- Sensibilidad:", resultados$Sensibilidad[resultados$Umbral == umbral_optimo],
      "% (porcentaje de hermanos detectados)\n")
  cat("- Falsos positivos esperados:", resultados$FP_Esperados[resultados$Umbral == umbral_optimo],
      "en una base de datos de 1 millón\n")
  cat("- Tasa de falsos positivos:", resultados$Falso_Positivo_Pct[resultados$Umbral == umbral_optimo], "%\n")
} else {
  cat("\nNo se encontró un umbral óptimo con los criterios especificados.\n")
}

cat("\nConclusión: Incluso con un umbral estricto, esperaríamos varios falsos positivos")
cat("\nen una base de datos grande, lo que requiere verificación adicional de cualquier")
cat("\ncoincidencia familiar encontrada.\n")


Balance entre sensibilidad y especificidad para diferentes umbrales:

   Umbral Sensibilidad Especificidad Falso_Positivo_Pct
1       5         99.8          95.6                4.4
2       6         99.2          98.8                1.2
3       7         97.6          99.9                0.1
4       8         93.9         100.0                0.0
5       9         86.3         100.0                0.0
6      10         75.0         100.0                0.0
7      11         58.6         100.0                0.0
8      12         42.1         100.0                0.0
9      13         26.3         100.0                0.0
10     14         12.6         100.0                0.0
11     15          5.2         100.0                0.0

Falsos positivos esperados en una base de datos de 1e+06 perfiles:

   Umbral Falso_Positivo_Pct FP_Esperados Sensibilidad
1       5                4.4        44000         99.8
2       6                1.2        12000         99.2
3       7               

# Referencias

1. Butler, J. M. (2015). Advanced topics in forensic DNA typing: interpretation. Academic Press.

2. Balding, D. J., & Nichols, R. A. (1994). DNA profile match probability calculation: how to allow for population stratification, relatedness, database selection and single bands. Forensic Science International, 64(2-3), 125-140.

3. National Research Council. (1996). The Evaluation of Forensic DNA Evidence. National Academies Press.

4. Buckleton, J., Bright, J. A., & Taylor, D. (2018). Forensic DNA evidence interpretation. CRC press.
