## 🧬 Diferencias_entre_duplicados_en_numero_genes_scytonemin.ipynb

**Autor:** Johanna Atenea Carreon Baltazar  
**Contacto:** johannaatenea13@gmail.com 
**Fecha de última modificación:** junio de 2025

---

### 🎯 Objetivo

Analizar la distribución de los genes que conforman el **clúster responsable de la producción de scytonemin** en los genomas del grupo de estudio. El análisis se realiza en términos de la **distancia (en número de genes)** entre los genes del clúster dentro de cada genoma, con el fin de evaluar si su distribución es compacta o dispersa.

---

### 📥 Entradas requeridas

- `diccionario.txt`:  
  Diccionario cuyas claves son los identificadores de los genomas que contienen el clúster de scytonemin y cuyos valores son listas con los identificadores de los genes del clúster en orden genómico.

- Archivos `.gbk`:  
  Archivos de anotación por genoma generados con RAST, utilizados para contar el número total de genes en cada genoma.

---

### 📤 Salidas generadas

- `resultados_en_numero_genes_scytonemin.pkl`:  
  Diccionario que almacena las diferencias (en número de genes) entre genes del clúster de scytonemin para cada genoma. Incluye tanto diferencias consecutivas como la distancia circular (último-primer gen).

- Estadísticas descriptivas de las diferencias calculadas:
  - Promedio
  - Mediana
  - Desviación estándar
  - Rango intercuartílico (IQR)
  - Número de genomas analizados

---

### 🧰 Librerías requeridas

```python
import pickle
import pandas as pd
import numpy as np


# Pipeline
---


### 1. Importación de los archivos `diccionario.txt`.

Estos archivos contienen diccionarios con información sobre los genes que forman parte del clúster responsable de producit scytonemin. Las claves corresponden a los identificadores de los genomas, mientras que los valores son listas de identificadores de los genes del clúster en cada genoma.

Un aspecto importante es que estos identificadores mantienen el orden en el que los genes están localizados dentro del genoma. Esta organización se puede verificar en detalle en los archivos .gbk, obtenidos tras la anotación de cada genoma con RAST.

**Ejemplo de estructura del diccionario:**

```python
genes_en_clúster_scytonemin = {
    2914041.10: [4092, 4899, 903, 1259, 3694, 2151, 936, 4764, 5875, 2666, 1072, 1013, 655, 1058, 5341, 977],
    ...
```
---
### 2. Ordenamos los identificadores de los genes  para cada genoma.
---
### 3. Contamos los genes para cada genoma
De manera análoga al cálculo de diferencias entre genes duplicados en el caso general, donde utilizamos la longitud del genoma en pares de bases para calcular la diferencia entre el primer y el último gen duplicado, en este caso, para determinar la diferencia entre estos genes en términos del número de genes que los separan, es necesario conocer el número total de genes en cada genoma.

Para obtener esta información, utilizamos archivos de anotación generados por RAST. A partir de estos archivos, aplicamos un filtrado que nos permitió contar el número total de genes en cada genoma, incluyendo tanto los genes codificantes de proteínas como aquellos que codifican ARN.

---
### 4. Calcular la diferencia entre genes  de cada genoma en número de genes.
 Se calculan las diferencias entre los genes en el clúster de cada genoma, . Estas diferencias se almacenan en el diccionario  llamado `resultados_en_numero_genes_scytonemin.pkl',` enes que separan a cada par de genes duplicados dentro del mismo genoma.

---
### 4. Estadisticas descriptivas para el diccionario anterior

## Importar los diccionarios

In [2]:
import pickle
import pandas as pd
import numpy as np

### genes con presencia de scytonemin

In [34]:
import ast

with open("diccionario.txt", "r") as f:
    genes = ast.literal_eval(f.read())

# Ya puedes usar genes_dict como un diccionario normal
print(genes)

{'1472755.9': [6283, 6285, 6286, 6287, 5043, 6288, 6289, 6290, 6291, 6292, 6293, 6294, 6295, 6297, 6298, 6299, 6301, 6305, 6306, 5281, 5280, 5279, 5278, 5277], '1618022.9': [3450, 2310, 2308, 2307, 4346, 2306, 2304, 2301, 2300, 2299, 2298, 2297, 2296, 2295, 2293, 2292, 2291, 2290, 2287, 5954, 5955, 5956, 5957, 5958], '1751286.15': [1871, 1872, 1873, 5018, 1875, 1876, 1877, 1890], '1914872.23': [3633, 3632, 3631, 4367, 3630, 3628, 3614, 3613], '2038116.21': [5474, 819, 818, 816, 6104, 815, 814, 813, 812, 811, 809, 808, 807, 805, 804, 803, 801, 800, 5958, 5956, 5955, 5954, 5953], '2572090.7': [3000, 3001, 3003, 3004, 6795, 3005, 3007, 3008, 3009, 3010, 3010, 3011, 3012, 3014, 3015, 3016, 3017, 3019, 3020, 455, 456, 457, 458, 459], '2576902.6': [3073, 349, 348, 347, 346, 345], '2576903.5': [7148, 7147, 7146, 7145, 5291, 7144, 7143, 7142, 7141, 7140, 7139, 7138, 7137, 7136, 7135, 7134, 7133, 7132, 7129, 7128, 2818, 2817, 2816, 2815, 2814], '2653204.7': [2225, 2224, 2223, 5806, 2222, 2220, 

## Ordenamiento de los indices de los genes duplicados los diccionarios `genes_scytonemin`

In [12]:
#quitar comillas
genes_scytonemin1 = {float(k): v for k, v in genes.items()}
#ordenar valores de cada clave
genes_scytonemin = {k: sorted(v) for k, v in genes_scytonemin1.items()}

In [13]:
print(genes_scytonemin)

{1472755.9: [5043, 5277, 5278, 5279, 5280, 5281, 6283, 6285, 6286, 6287, 6288, 6289, 6290, 6291, 6292, 6293, 6294, 6295, 6297, 6298, 6299, 6301, 6305, 6306], 1618022.9: [2287, 2290, 2291, 2292, 2293, 2295, 2296, 2297, 2298, 2299, 2300, 2301, 2304, 2306, 2307, 2308, 2310, 3450, 4346, 5954, 5955, 5956, 5957, 5958], 1751286.15: [1871, 1872, 1873, 1875, 1876, 1877, 1890, 5018], 1914872.23: [3613, 3614, 3628, 3630, 3631, 3632, 3633, 4367], 2038116.21: [800, 801, 803, 804, 805, 807, 808, 809, 811, 812, 813, 814, 815, 816, 818, 819, 5474, 5953, 5954, 5955, 5956, 5958, 6104], 2572090.7: [455, 456, 457, 458, 459, 3000, 3001, 3003, 3004, 3005, 3007, 3008, 3009, 3010, 3010, 3011, 3012, 3014, 3015, 3016, 3017, 3019, 3020, 6795], 2576902.6: [345, 346, 347, 348, 349, 3073], 2576903.5: [2814, 2815, 2816, 2817, 2818, 5291, 7128, 7129, 7132, 7133, 7134, 7135, 7136, 7137, 7138, 7139, 7140, 7141, 7142, 7143, 7144, 7145, 7146, 7147, 7148], 2653204.7: [2204, 2205, 2208, 2209, 2210, 2211, 2213, 2215, 2216, 

## Conteo del número de genes de cada genoma
En el archivo .txt los tres tipos que aparecen (peg, rna y repeat) corresponden a diferentes tipos de características funcionales o estructurales identificadas en los genomas

    peg: Genes codificantes de proteínas.
    rna: Genes que codifican ARN.
    repeat: Secuencias repetitivas en el genoma.(Los repeat no son genes en sí mismos, sino secuencias repetitivas, por lo que no se deben contar como genes.)

¿Cómo contar solo los genes?

Si queremos contar únicamente  los genes funcionales, sólo se deben contar únicamente los registros de tipo peg.

cat 103690.82.txt | grep 'peg' | wc -l

Este comando te dará el número total de genes codificadores de proteínas (PEG) en el archivo.

Incluir los genes de ARN

Si también te interesa contar los genes de ARN (por ejemplo, los tRNA o rRNA), puedes incluir los registros de tipo rna:

cat 103690.82.txt | grep -E 'peg|rna' | wc -l


### nosotros sólo contaremos los genes funcionales

In [17]:
import pandas as pd
# tabla que contiene el numero de genes
numero_genes = pd.read_csv('numero_de_genes.csv')
print(numero_genes)

     genome_id  number_of_genes
0    103690.82             5854
1   1472755.90             7399
2   1618022.90             7179
3   1647413.14             5966
4   1751286.15             5882
5   1869241.20             6531
6   1914872.23             5088
7   2038116.21             9232
8    211165.20             7334
9   2490939.10             6410
10  2572090.70             7690
11  2576902.60             7330
12  2576903.50             7252
13  2576904.60             6433
14  2653204.70             6637
15   272123.44             6072
16  2764711.14             6648
17    28072.26             6098
18  2914041.10             5991
19  3025190.14             6937
20  3134896.70             8176
21   317936.27             5929
22  3349875.40             7207
23  3349876.50             6605
24   446679.11             6802
25   449208.14             7442
26    46234.36             4261
27    63737.69             7857
28    76335.23             6838


# Función para calcular medir la distancia en número de genes entre genes duplicados

In [18]:
# Función para calcular las diferencias considerando la circularidad
def calcular_diferencias_circulares(posiciones, num_genes):
    # Ordenamos las posiciones de menor a mayor
    posiciones_ordenadas = sorted(posiciones)
    
    diferencias = []
    # Calculamos las diferencias entre un gen y el siguiente considerando la circularidad
    for i in range(1, len(posiciones_ordenadas)):
        diferencia = (posiciones_ordenadas[i] - posiciones_ordenadas[i - 1])
        diferencias.append(diferencia)
    
    # Diferencia circular entre el último gen y el primero
    diferencia_circular = (posiciones_ordenadas[0] - posiciones_ordenadas[-1] + num_genes)
    diferencias.append(diferencia_circular)
    
    return diferencias

### scytonemin

In [21]:
# Calculamos las diferencias para cada genoma con circularidad
resultados_diferencias_scytonemin = {}

for genome_id, posiciones in genes_scytonemin.items():
    num_genes = numero_genes[numero_genes["genome_id"] == genome_id]["number_of_genes"].item()# Usamos el número total de genes
    # Calculamos las diferencias para cada genoma considerando la circularidad
    resultados_diferencias_scytonemin[genome_id] = calcular_diferencias_circulares(posiciones, num_genes)

print(resultados_diferencias_scytonemin)

{1472755.9: [234, 1, 1, 1, 1, 1002, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 2, 4, 1, 6136], 1618022.9: [3, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 3, 2, 1, 1, 2, 1140, 896, 1608, 1, 1, 1, 1, 3508], 1751286.15: [1, 1, 2, 1, 1, 13, 3128, 2735], 1914872.23: [1, 14, 2, 1, 1, 1, 734, 4334], 2038116.21: [1, 2, 1, 1, 2, 1, 1, 2, 1, 1, 1, 1, 1, 2, 1, 4655, 479, 1, 1, 1, 2, 146, 3928], 2572090.7: [1, 1, 1, 1, 2541, 1, 2, 1, 1, 2, 1, 1, 1, 0, 1, 1, 2, 1, 1, 1, 2, 1, 3775, 1350], 2576902.6: [1, 1, 1, 1, 2724, 4602], 2576903.5: [1, 1, 1, 1, 2473, 1837, 1, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2918], 2653204.7: [1, 3, 1, 1, 1, 2, 2, 1, 2, 1, 1, 2, 1, 1, 1, 362, 1, 1, 1, 1, 3215, 3035], 2764711.14: [1, 1, 2, 1, 15, 2212, 4416], 3025190.14: [1, 1, 1, 1, 1384, 1698, 884, 239, 1, 1, 1, 1, 3, 1, 1, 2, 1, 1, 2, 1, 1, 1, 2, 2708], 3134896.7: [2, 1, 3, 1, 11, 1, 1, 14, 2147, 140, 1522, 1781, 2552], 3349875.4: [1, 3, 2, 1, 1, 3, 1, 1, 1, 1, 1, 1, 2, 1, 1, 451, 3727, 1, 1, 1, 1, 3004], 3349876.5: [1, 1,

### Ejemplo de como funciona el código

In [22]:
# Datos de prueba
genome_id = 103690.82
genes_copia_prueba =  {
    103690.82: [446, 1364, 1440, 2280, 2281, 2547, 2562, 2772, 
                3614, 3879, 4087, 4164, 4265, 4537, 4984, 5106, 5242, 5250]
}
num_genes = numero_genes.loc[numero_genes['genome_id'] == 103690.82, 'number_of_genes'].item()
print("genome_id:",genome_id)
print("genes copia:",genes_copia_prueba)
print("número total de genes:",num_genes)

resultado_test = {}
# Ejecutamos la función
resultado_test[genome_id] = calcular_diferencias_circulares(genes_copia_prueba[genome_id], num_genes)

# Mostramos el resultado
print("diferencias en número de genes",resultado_test)


genome_id: 103690.82
genes copia: {103690.82: [446, 1364, 1440, 2280, 2281, 2547, 2562, 2772, 3614, 3879, 4087, 4164, 4265, 4537, 4984, 5106, 5242, 5250]}
número total de genes: 5854
diferencias en número de genes {103690.82: [918, 76, 840, 1, 266, 15, 210, 842, 265, 208, 77, 101, 272, 447, 122, 136, 8, 1050]}


## Estadísticas descriptivas para cada uno de los 18 genomas

### k-means

In [26]:
import numpy as np
# Crear un nuevo diccionario para almacenar las estadísticas
estadisticas_scytonemin = {}

# Calcular estadísticas para cada genoma
for id_genoma, diferencias in resultados_diferencias_scytonemin.items():
    diferencias = np.array(diferencias)  # Convertir a un array de NumPy para evitar errores
    estadisticas_scytonemin[id_genoma] = {
        'media (KB)': np.mean(diferencias) if diferencias.size > 0 else np.nan,
        'mediana (KB)': np.median(diferencias) if diferencias.size > 0 else np.nan,
        'desviación estándar (KB)': np.std(diferencias, ddof=1) if diferencias.size > 1 else np.nan,
        'máximo (KB)': np.max(diferencias) if diferencias.size > 0 else np.nan,
        'mínimo (KB)': np.min(diferencias) if diferencias.size > 0 else np.nan
    }

# Convertir a DataFrame
df_estadisticas_scytonemin = pd.DataFrame.from_dict(estadisticas_scytonemin, orient='index')

# Mostrar el DataFrame
df_estadisticas_scytonemin

Unnamed: 0,media (KB),mediana (KB),desviación estándar (KB),máximo (KB),mínimo (KB)
1472755.9,308.291667,1.0,1258.505859,6136,1
1618022.9,299.125,1.0,803.437469,3508,1
1751286.15,735.25,1.5,1359.624187,3128,1
1914872.23,636.0,1.5,1515.941386,4334,1
2038116.21,401.391304,1.0,1236.625825,4655,1
2572090.7,320.416667,1.0,934.038306,3775,0
2576902.6,1221.666667,1.0,1982.108339,4602,1
2576903.5,290.08,1.0,813.976654,2918,1
2653204.7,301.681818,1.0,917.456909,3215,1
2764711.14,949.714286,2.0,1735.921054,4416,1


## Estadisticas globales

### k-means

In [27]:
# Concatenar todas las diferencias en una sola lista
todas_diferencias_scytonemin = np.concatenate(list(resultados_diferencias_scytonemin.values()))

# Calcular estadísticas globales
estadisticas_globales_scytonemin = {
    'media (KB)': np.mean(todas_diferencias_scytonemin),
    'mediana (KB)': np.median(todas_diferencias_scytonemin),
    'desviación estándar (KB)': np.std(todas_diferencias_scytonemin),
    'máximo (KB)': np.max(todas_diferencias_scytonemin),
    'mínimo (KB)': np.min(todas_diferencias_scytonemin)
}

# Mostrar estadísticas globales
print('Estadísticas globales:')
for key, value in estadisticas_globales_scytonemin.items():
    print(f'  {key}: {value:.2f}')

Estadísticas globales:
  media (KB): 360.12
  mediana (KB): 1.00
  desviación estándar (KB): 993.07
  máximo (KB): 6136.00
  mínimo (KB): 0.00


## Exportar los datos 

In [32]:
import pickle 
## Guardar el df * * en un archivo .csv para poder importarlo para el siguiente notebook
# Guardar como pkl
# Guardar el diccionario en un archivo
with open('resultados_en_numero_genes_scytonemin.pkl', 'wb') as file:
    pickle.dump(resultados_diferencias_scytonemin, file)

In [28]:
%autosave 30

Autosaving every 30 seconds


In [33]:
print(type(resultados_diferencias_scytonemin))
print(len(resultados_diferencias_scytonemin))


<class 'dict'>
18
