<a href="https://colab.research.google.com/github/marcusRB/uoc-ub-bioinformatics-programming-language/blob/master/Iteracio_Python_3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Mostrarem en aquest exemple com podem iterar dins d'un text per línia i anar guardant informació de manera interactiva en un diccionari:

In [None]:
molecula = """
ATOM    232  N   CYS A  28       3.977   8.402   0.487  1.00 10.53           N
ATOM    233  CA  CYS A  28       3.295   9.146   1.517  1.00 10.04           C
ATOM    234  C   CYS A  28       4.174  10.264   2.053  1.00 10.31           C
ATOM    235  O   CYS A  28       5.378  10.108   2.202  1.00 12.91           O
ATOM    236  CB  CYS A  28       2.912   8.210   2.680  1.00  9.81           C
ATOM    237  SG  CYS A  28       1.804   6.853   2.197  1.00  9.93           S
ATOM    238  N   GLY A  29       3.546  11.391   2.430  1.00 10.76           N
ATOM    239  CA  GLY A  29       4.295  12.472   3.049  1.00 11.93           C
ATOM    240  C   GLY A  29       3.416  13.524   3.596  1.00 12.60           C
ATOM    241  O   GLY A  29       3.985  14.574   4.052  1.00 15.82           O
ATOM    242  OXT GLY A  29       2.168  13.386   3.672  1.00 11.37           O
"""

In [None]:
# Tenim preparat ja un string amb el contingut de dos aminoàcids. Cada línia representa un àtom.
# Iterarem línia per línia perquè ens convé així, ja que cada línia es correspon amb un àtom.

# Què ha passat? Quin és el problema? Bàsicament, aquest string està compost per línies, però la manera d'iterar-ho és primer
# de tot separar-ho per salts de línia. Ho intentarem de nou:

import os
lines = molecula.split(os.linesep)

# Fixeu-vos que hem importat una llibreria, os, que es tracta de la part de Python que conté funcions útils per a
# interactuar amb el sistema operatiu. En el nostre cas, os.linesep conté el caràcter '\n' que és el salt de línia en
# Linux.

# Executarem aquesta última part per a veure què conté lines:
print(lines)

['', 'ATOM    232  N   CYS A  28       3.977   8.402   0.487  1.00 10.53           N', 'ATOM    233  CA  CYS A  28       3.295   9.146   1.517  1.00 10.04           C', 'ATOM    234  C   CYS A  28       4.174  10.264   2.053  1.00 10.31           C', 'ATOM    235  O   CYS A  28       5.378  10.108   2.202  1.00 12.91           O', 'ATOM    236  CB  CYS A  28       2.912   8.210   2.680  1.00  9.81           C', 'ATOM    237  SG  CYS A  28       1.804   6.853   2.197  1.00  9.93           S', 'ATOM    238  N   GLY A  29       3.546  11.391   2.430  1.00 10.76           N', 'ATOM    239  CA  GLY A  29       4.295  12.472   3.049  1.00 11.93           C', 'ATOM    240  C   GLY A  29       3.416  13.524   3.596  1.00 12.60           C', 'ATOM    241  O   GLY A  29       3.985  14.574   4.052  1.00 15.82           O', 'ATOM    242  OXT GLY A  29       2.168  13.386   3.672  1.00 11.37           O', '']


In [None]:
# *ines és una llista amb cadascuna de les línies, però fixeu-vos que encara hi ha alguns elements ''. Això vol dir que hi ha més
# salts de línia dels quals pensàvem a simple vista. Com ens interessen només les línies que contenen 'ATOM' al principi,
# utilitzarem això mateix per a filtrar:

for line in lines:
    if line.startswith('ATOM'):
        print(line)

ATOM    232  N   CYS A  28       3.977   8.402   0.487  1.00 10.53           N
ATOM    233  CA  CYS A  28       3.295   9.146   1.517  1.00 10.04           C
ATOM    234  C   CYS A  28       4.174  10.264   2.053  1.00 10.31           C
ATOM    235  O   CYS A  28       5.378  10.108   2.202  1.00 12.91           O
ATOM    236  CB  CYS A  28       2.912   8.210   2.680  1.00  9.81           C
ATOM    237  SG  CYS A  28       1.804   6.853   2.197  1.00  9.93           S
ATOM    238  N   GLY A  29       3.546  11.391   2.430  1.00 10.76           N
ATOM    239  CA  GLY A  29       4.295  12.472   3.049  1.00 11.93           C
ATOM    240  C   GLY A  29       3.416  13.524   3.596  1.00 12.60           C
ATOM    241  O   GLY A  29       3.985  14.574   4.052  1.00 15.82           O
ATOM    242  OXT GLY A  29       2.168  13.386   3.672  1.00 11.37           O


In [None]:
# Correcte! Aquesta és la forma en la qual podem quedar-nos amb les línies que ens interessen. Les guardarem en una llista:

# Primer la llista està buida
linies_atom = []
for line in lines:
    if line.startswith('ATOM'):
        linies_atom.append(line) # Afegim la línia a la llista si comença per ATOM

# Una vegada fora del bucle, podem comprovar el valor de les línies que hem guardat:
print(linies_atom)

['ATOM    232  N   CYS A  28       3.977   8.402   0.487  1.00 10.53           N', 'ATOM    233  CA  CYS A  28       3.295   9.146   1.517  1.00 10.04           C', 'ATOM    234  C   CYS A  28       4.174  10.264   2.053  1.00 10.31           C', 'ATOM    235  O   CYS A  28       5.378  10.108   2.202  1.00 12.91           O', 'ATOM    236  CB  CYS A  28       2.912   8.210   2.680  1.00  9.81           C', 'ATOM    237  SG  CYS A  28       1.804   6.853   2.197  1.00  9.93           S', 'ATOM    238  N   GLY A  29       3.546  11.391   2.430  1.00 10.76           N', 'ATOM    239  CA  GLY A  29       4.295  12.472   3.049  1.00 11.93           C', 'ATOM    240  C   GLY A  29       3.416  13.524   3.596  1.00 12.60           C', 'ATOM    241  O   GLY A  29       3.985  14.574   4.052  1.00 15.82           O', 'ATOM    242  OXT GLY A  29       2.168  13.386   3.672  1.00 11.37           O']


In [None]:
# Correcte!

# Ara imagineu-vos que per cadascuna d'aquestes línies, volem quedar-nos amb el tipus de cadascuna i guardar-les en un diccionari on
# la clau sigui el propi tipus. Seria un diccionari del tipus:


# dic_tipus = {'N': [linia1, linia2]}

# Recordeu que per tipus ens referim al tipus d'àtom. En cadascuna de les nostres línies, el tipus d'àtom és l'últim caràcter.
# Ho comprovarem:

for line in linies_atom:
    print(line[-1])


N
C
C
O
C
S
N
C
C
O
O


In [None]:
# Correcte! Crearem llavors el diccionari:

dic_tipus = {} #Diccionario buit

for line in linies_atom:
    tipus = line[-1]
    # Una vegada tenim el tipus guardat, volem veure si existeix ja en el diccionari.
    # Si no existeix, crearem la clau que contindrà una llista en la qual afegirem la nostra línia:
    if tipus not in dic_tipus: # No existeix la clau:
        dic_tipus[tipus] = [line]
    else:
        # Si ja existia, afegim a la llista la nostra frase:
        dic_tipus[tipus].append(line)

# I això és tot, comprovarem si hem creat el diccionari correctament:
print(dic_tipus)

{'N': ['ATOM    232  N   CYS A  28       3.977   8.402   0.487  1.00 10.53           N', 'ATOM    238  N   GLY A  29       3.546  11.391   2.430  1.00 10.76           N'], 'C': ['ATOM    233  CA  CYS A  28       3.295   9.146   1.517  1.00 10.04           C', 'ATOM    234  C   CYS A  28       4.174  10.264   2.053  1.00 10.31           C', 'ATOM    236  CB  CYS A  28       2.912   8.210   2.680  1.00  9.81           C', 'ATOM    239  CA  GLY A  29       4.295  12.472   3.049  1.00 11.93           C', 'ATOM    240  C   GLY A  29       3.416  13.524   3.596  1.00 12.60           C'], 'O': ['ATOM    235  O   CYS A  28       5.378  10.108   2.202  1.00 12.91           O', 'ATOM    241  O   GLY A  29       3.985  14.574   4.052  1.00 15.82           O', 'ATOM    242  OXT GLY A  29       2.168  13.386   3.672  1.00 11.37           O'], 'S': ['ATOM    237  SG  CYS A  28       1.804   6.853   2.197  1.00  9.93           S']}


In [None]:
# Correcte! Ara podem iterar el nostre nou diccionari com vulguem:

for clau, linies in dic_tipus.items():
    print('Líneas con %s: %s' % (clau, str(linies)))



Líneas con N: ['ATOM    232  N   CYS A  28       3.977   8.402   0.487  1.00 10.53           N', 'ATOM    238  N   GLY A  29       3.546  11.391   2.430  1.00 10.76           N']
Líneas con C: ['ATOM    233  CA  CYS A  28       3.295   9.146   1.517  1.00 10.04           C', 'ATOM    234  C   CYS A  28       4.174  10.264   2.053  1.00 10.31           C', 'ATOM    236  CB  CYS A  28       2.912   8.210   2.680  1.00  9.81           C', 'ATOM    239  CA  GLY A  29       4.295  12.472   3.049  1.00 11.93           C', 'ATOM    240  C   GLY A  29       3.416  13.524   3.596  1.00 12.60           C']
Líneas con O: ['ATOM    235  O   CYS A  28       5.378  10.108   2.202  1.00 12.91           O', 'ATOM    241  O   GLY A  29       3.985  14.574   4.052  1.00 15.82           O', 'ATOM    242  OXT GLY A  29       2.168  13.386   3.672  1.00 11.37           O']
Líneas con S: ['ATOM    237  SG  CYS A  28       1.804   6.853   2.197  1.00  9.93           S']
