Vamos a mostrar en este ejemplo cómo podemos iterar dentro de un texto por línea e ir guardando información de forma interactiva en un diccionario:

In [1]:
molecula = """
ATOM    232  N   CYS A  28       3.977   8.402   0.487  1.00 10.53           N
ATOM    233  CA  CYS A  28       3.295   9.146   1.517  1.00 10.04           C
ATOM    234  C   CYS A  28       4.174  10.264   2.053  1.00 10.31           C
ATOM    235  O   CYS A  28       5.378  10.108   2.202  1.00 12.91           O
ATOM    236  CB  CYS A  28       2.912   8.210   2.680  1.00  9.81           C
ATOM    237  SG  CYS A  28       1.804   6.853   2.197  1.00  9.93           S
ATOM    238  N   GLY A  29       3.546  11.391   2.430  1.00 10.76           N
ATOM    239  CA  GLY A  29       4.295  12.472   3.049  1.00 11.93           C
ATOM    240  C   GLY A  29       3.416  13.524   3.596  1.00 12.60           C
ATOM    241  O   GLY A  29       3.985  14.574   4.052  1.00 15.82           O
ATOM    242  OXT GLY A  29       2.168  13.386   3.672  1.00 11.37           O
"""

In [2]:
# Tenemos preparado ya un string con el contenido de dos aminoácidos. Cada línea representa un átomo.
# Vamos a iterar línea por línea porque nos conviene así, ya que cada línea se corresponde con un átomo.

# Qué ha pasado? Cuál es el problema? Básicamente, estre string está compuesto por líneas, pero la forma de iterarlo es primero
# de todo separarlo por saltos de línea. Vamos a intentarlo de nuevo:

import os
lines = molecula.split(os.linesep)

# Fijaos que hemos importado una librería, os, que se trata de la parte de Python que contiene funciones útiles para
# interactuar con el sistema operativo. En nuestro caso, os.linesep contiene el carácter '\n' que es el salto de línea en
# Linux.

# Vamos a ejecutar esta última parte para ver qué contiene lines:
print(lines)

['', 'ATOM    232  N   CYS A  28       3.977   8.402   0.487  1.00 10.53           N', 'ATOM    233  CA  CYS A  28       3.295   9.146   1.517  1.00 10.04           C', 'ATOM    234  C   CYS A  28       4.174  10.264   2.053  1.00 10.31           C', 'ATOM    235  O   CYS A  28       5.378  10.108   2.202  1.00 12.91           O', 'ATOM    236  CB  CYS A  28       2.912   8.210   2.680  1.00  9.81           C', 'ATOM    237  SG  CYS A  28       1.804   6.853   2.197  1.00  9.93           S', 'ATOM    238  N   GLY A  29       3.546  11.391   2.430  1.00 10.76           N', 'ATOM    239  CA  GLY A  29       4.295  12.472   3.049  1.00 11.93           C', 'ATOM    240  C   GLY A  29       3.416  13.524   3.596  1.00 12.60           C', 'ATOM    241  O   GLY A  29       3.985  14.574   4.052  1.00 15.82           O', 'ATOM    242  OXT GLY A  29       2.168  13.386   3.672  1.00 11.37           O', '']


In [None]:
# lines es una lista con cada una de las líneas, pero fijaos que aún hay algunos elementos ''. Esto quiere decir que hay más
# saltos de línea de los que pensábamos a simple vista. Como nos interesan solo las líneas que contienen 'ATOM' al principio,
# vamos a utilizar eso mismo para filtrar:

for line in lines:
    if line.startswith('ATOM'):
        print(line)

ATOM    232  N   CYS A  28       3.977   8.402   0.487  1.00 10.53           N
ATOM    233  CA  CYS A  28       3.295   9.146   1.517  1.00 10.04           C
ATOM    234  C   CYS A  28       4.174  10.264   2.053  1.00 10.31           C
ATOM    235  O   CYS A  28       5.378  10.108   2.202  1.00 12.91           O
ATOM    236  CB  CYS A  28       2.912   8.210   2.680  1.00  9.81           C
ATOM    237  SG  CYS A  28       1.804   6.853   2.197  1.00  9.93           S
ATOM    238  N   GLY A  29       3.546  11.391   2.430  1.00 10.76           N
ATOM    239  CA  GLY A  29       4.295  12.472   3.049  1.00 11.93           C
ATOM    240  C   GLY A  29       3.416  13.524   3.596  1.00 12.60           C
ATOM    241  O   GLY A  29       3.985  14.574   4.052  1.00 15.82           O
ATOM    242  OXT GLY A  29       2.168  13.386   3.672  1.00 11.37           O


In [None]:
# Correcto! Esta es la forma en la que podemos quedarnos con las líneas que nos interesan. Vamos a guardarlas en una lista:

# Primero la lista está vacía
lineas_atom = []
for line in lines:
    if line.startswith('ATOM'):
        lineas_atom.append(line) # Añadimos la línea a la lista si empieza por ATOM

# Una vez fuera del bucle, podemos comprobar el valor de las líneas que hemos guardado:
print(lineas_atom)

['ATOM    232  N   CYS A  28       3.977   8.402   0.487  1.00 10.53           N', 'ATOM    233  CA  CYS A  28       3.295   9.146   1.517  1.00 10.04           C', 'ATOM    234  C   CYS A  28       4.174  10.264   2.053  1.00 10.31           C', 'ATOM    235  O   CYS A  28       5.378  10.108   2.202  1.00 12.91           O', 'ATOM    236  CB  CYS A  28       2.912   8.210   2.680  1.00  9.81           C', 'ATOM    237  SG  CYS A  28       1.804   6.853   2.197  1.00  9.93           S', 'ATOM    238  N   GLY A  29       3.546  11.391   2.430  1.00 10.76           N', 'ATOM    239  CA  GLY A  29       4.295  12.472   3.049  1.00 11.93           C', 'ATOM    240  C   GLY A  29       3.416  13.524   3.596  1.00 12.60           C', 'ATOM    241  O   GLY A  29       3.985  14.574   4.052  1.00 15.82           O', 'ATOM    242  OXT GLY A  29       2.168  13.386   3.672  1.00 11.37           O']


In [None]:
# Correcto!

# Ahora imaginaos que por cada una de estas líneas, queremos quedarnos con el tipo de cada una y guardarlas en un diccionario donde
# la clave sea el propio tipo. Sería un diccionario del tipo:


# dic_tipos = {'N': [linea1, linea2]}

# Recordad que por tipo nos referimos al tipo de átomo. En cada una de nuestras líneas, el tipo de átomo es el último carácter.
# Vamos a comprobarlo:

for line in lineas_atom:
    print(line[-1])


N
C
C
O
C
S
N
C
C
O
O


In [None]:
# Correcto! Vamos a crear entonces el diccionario:

dic_tipos = {} #Diccionario vacío

for line in lineas_atom:
    tipo = line[-1]
    # Una vez tenemos el tipo guardado, queremos ver si existe ya en el diccionario.
    # Si no existe, crearemos la clave que contendrá una lista en la que añadiremos nuestra línea:
    if tipo not in dic_tipos: # No existe la clave:
        dic_tipos[tipo] = [line]
    else:
        # Si ya existía, añadimos a la lista nuestra frase:
        dic_tipos[tipo].append(line)

# Y eso es todo, vamos a comprobar si hemos creado el diccionario correctamente:
print(dic_tipos)

{'N': ['ATOM    232  N   CYS A  28       3.977   8.402   0.487  1.00 10.53           N', 'ATOM    238  N   GLY A  29       3.546  11.391   2.430  1.00 10.76           N'], 'C': ['ATOM    233  CA  CYS A  28       3.295   9.146   1.517  1.00 10.04           C', 'ATOM    234  C   CYS A  28       4.174  10.264   2.053  1.00 10.31           C', 'ATOM    236  CB  CYS A  28       2.912   8.210   2.680  1.00  9.81           C', 'ATOM    239  CA  GLY A  29       4.295  12.472   3.049  1.00 11.93           C', 'ATOM    240  C   GLY A  29       3.416  13.524   3.596  1.00 12.60           C'], 'O': ['ATOM    235  O   CYS A  28       5.378  10.108   2.202  1.00 12.91           O', 'ATOM    241  O   GLY A  29       3.985  14.574   4.052  1.00 15.82           O', 'ATOM    242  OXT GLY A  29       2.168  13.386   3.672  1.00 11.37           O'], 'S': ['ATOM    237  SG  CYS A  28       1.804   6.853   2.197  1.00  9.93           S']}


In [None]:
# Correcto! Ahora podemos iterar nuestro nuevo diccionario como queramos:

for clave, lineas in dic_tipos.items():
    print('Líneas con %s: %s' % (clave, str(lineas)))



Líneas con N: ['ATOM    232  N   CYS A  28       3.977   8.402   0.487  1.00 10.53           N', 'ATOM    238  N   GLY A  29       3.546  11.391   2.430  1.00 10.76           N']
Líneas con C: ['ATOM    233  CA  CYS A  28       3.295   9.146   1.517  1.00 10.04           C', 'ATOM    234  C   CYS A  28       4.174  10.264   2.053  1.00 10.31           C', 'ATOM    236  CB  CYS A  28       2.912   8.210   2.680  1.00  9.81           C', 'ATOM    239  CA  GLY A  29       4.295  12.472   3.049  1.00 11.93           C', 'ATOM    240  C   GLY A  29       3.416  13.524   3.596  1.00 12.60           C']
Líneas con O: ['ATOM    235  O   CYS A  28       5.378  10.108   2.202  1.00 12.91           O', 'ATOM    241  O   GLY A  29       3.985  14.574   4.052  1.00 15.82           O', 'ATOM    242  OXT GLY A  29       2.168  13.386   3.672  1.00 11.37           O']
Líneas con S: ['ATOM    237  SG  CYS A  28       1.804   6.853   2.197  1.00  9.93           S']
