# Otras estructuras de datos, operadores relacionales, operadores lógicos y sentencias condicionales

## Tuplas y diccionarios

Hay otras dos estructuras de datos que es útil conocer.

La primera son las **tuplas**, que también son colecciones de datos como las listas, pero son *inmutable*. Esto es, una vez que se crea no se pueden modificar más. Es por este motivo que no se usan tanto como las listas. Son útiles, por ejemplo, para casos donde no queremos hacer modificaciones accidentales de los datos.

A diferencia de las listas, las tuplas se delimitan con paréntesis.

In [1]:
fin_de_semana = ('sabado', 'domingo')

In [2]:
type(fin_de_semana)

tuple

Para refernciar los elementos individuales se usan corchetes:

In [3]:
fin_de_semana[0]

'sabado'

Otra estructura emparentada con las listas y tuplas son los **diccionarios**. Estas son estructuras de uso común y más sofisitcadas que las listas.

Mientras que las listas son colecciones de elementos que se referencian por su posición dentro de la colección, en los diccionarios cada elemento es una dupla: una clave y un valor, y los elementos se pueden referenciar por su clave.

Vamos a construir un diciconario con nombres científicos de algunas bacterias y como clave el correspondiente taxid del NCBI.

In [4]:
enterobacteriaceae = {
    'txid562' : 'Escherichia coli',
    'txid1748967': 'Citrobacter cronae',
    'txid158877': 'Yokenella regensburgei',
    'txid548': 'Klebsiella aerogenes'
}


In [5]:
type(enterobacteriaceae)

dict

Prestar atención a los siguientes ejemplos:

In [6]:
enterobacteriaceae['txid562']

'Escherichia coli'

In [7]:
enterobacteriaceae.values()

dict_values(['Escherichia coli', 'Citrobacter cronae', 'Yokenella regensburgei', 'Klebsiella aerogenes'])

In [8]:
enterobacteriaceae.keys()

dict_keys(['txid562', 'txid1748967', 'txid158877', 'txid548'])

Para agregar un nuevo par:

In [9]:
enterobacteriaceae.update( {'txid1423': 'Bacillus subitilis'} )

In [10]:
enterobacteriaceae.values()

dict_values(['Escherichia coli', 'Citrobacter cronae', 'Yokenella regensburgei', 'Klebsiella aerogenes', 'Bacillus subitilis'])

¡*Bacillus subtilis* no pertenece a la familia enterobacteriaceae!

In [11]:
variable1 = enterobacteriaceae.pop('txid1748967')
print(variable1)

Citrobacter cronae


In [12]:
enterobacteriaceae.values()

dict_values(['Escherichia coli', 'Yokenella regensburgei', 'Klebsiella aerogenes', 'Bacillus subitilis'])

Para recuperar un elemento en particular se puede usar *get()* y también *pop()*. La diferencia es que *get()* no remueve el elemento de la lista:

In [13]:
len(enterobacteriaceae)

4

In [14]:
una_bacteria = enterobacteriaceae.get("txid562")

In [15]:
print(una_bacteria)

Escherichia coli


In [16]:
len(enterobacteriaceae)

4

In [17]:
otra_bacteria = enterobacteriaceae.pop("txid562")

In [18]:
otra_bacteria

'Escherichia coli'

In [19]:
len(enterobacteriaceae)

3

## Operadores relacionales y operadores lógicos

En la construcción de programas siempre surge la necesidad de determinar si una condición se cumple o no. Supongamos que tenemos una lista de transcriptos de un experimento de RNASeq y queremos extraer aquellos que con expresión diferencial. En este caso vamos a determinar para cada transcripto si tiene o no, por ejemplo, un P ajustado menor a 0.05. Si el valor es menor lo guardamos en un tabla separada, si no, seguimos adelante.

Los lenguajes de programación incluyen operadores relacionales para determinar condiciones como las del párrafo anterior. En el caso de comparaciones numéricas estos son:

* == &nbsp; &nbsp; &nbsp; igual
* != &nbsp; &nbsp; &nbsp; diferente
* \> &nbsp; &nbsp; &nbsp; &nbsp; mayor
* \>= &nbsp; &nbsp; &nbsp; mayor o igual
* < &nbsp; &nbsp; &nbsp; &nbsp; menor
* <= &nbsp; &nbsp; &nbsp; menor o igual

Y van a devolver valores *True* o *False* de acuerdo al resultado de la evaluación. Veamos un ejemplo muy sencillo relacionado con los transcriptos con expresión diferencial de más arriba:

In [20]:
p_ajustado_transc_1 = 0.0002
p_ajustado_transc_2 = 0.2

p_critico = 0.05

p_ajustado_transc_1 < p_critico

True

In [21]:
p_ajustado_transc_2 < p_critico

False

Una aclaración, en un caso real de datos de RNAseq, tendríamos una estructura de datos donde almacenar todos los transcriptos y sus datos asociados.

A veces es necesario evaluar dos condiciones al mismo tiempo y determinar si ambas condiciones son ciertas o si al menos una lo es. Para esto tenemos los operadores lógicos:

* and
* or
* not

Es fácil entender cómo funcona mirando y modificando ejemplos.

In [22]:
a = 10
b = 2
c = 5

a > c and b <= a

True

In [23]:
a > c or b > 3

True

In [24]:
a > c and b > 3

False

In [25]:
not a > c

False

Para mayor claridad o para condiciones complejas se pueden encerrar entre paréntesis.

La palabra clave *not* niega una condición. En el código anterior a es mayor que c, y si solo preguntáramos esto, la condición sería verdadera, pero al anteponer *not* lo negamos, invertimos su valor. Estos dos ejemplos pueden aclarar un poco más:

In [26]:
not True

False

In [27]:
not False

True

## Sentencias condicionales

La ejecución de un programa casi nunca es absolutamente lineal. En uno o más pasos es necesaro determinar si se cumple o no una condición para decidir cómo continúa el programa.

Supongamos que tenemos un diccionario con nueve nombres de genes de *Saccharomyces cerevisiae* y como valor el largo en nucleótidos de esos genes. Necesitamos extraer los nombres de los genes con un largo igual o menor de 200 nucleótidos.

In [28]:
genes_dict_1 = {
    'TMC1': 453,
    'TUM1': 915,
    'TOM6': 186,
    'TLG2': 1194,
    'TSR4': 1227,
    'TPO4': 1980,
    'TSR3': 942,
    'TRM10': 882,
    'TRM11': 1302
}

Primero necesitamos saber cómo iterar un diccionario, en Python es mu sencillo:

In [29]:
for key in genes_dict_1:
    print(key, genes_dict_1[key])

TMC1 453
TUM1 915
TOM6 186
TLG2 1194
TSR4 1227
TPO4 1980
TSR3 942
TRM10 882
TRM11 1302


Ahora necesitamos que para cada gen con un largo de secuencia menor o igual de 200 imprima el nombre del gen:

In [30]:
for key in genes_dict_1:
    if  genes_dict_1[key] <= 200:
        print(key, genes_dict_1[key])

TOM6 186


La sentencia *if* nos sirvió para agregar código que se ejecuta en formal condicional a que el gen tenga un alongitud menor de 200 nucleótidos.

Presten atrención: la línea de código donde va el *if* termina con dos puntos, y el código que se va a ejecutar si se cumple la condición va indentando.

Supongamos ahora que queremos extraer los genes de largo intemedio, entre 600 y 1200 nucléotidos:

In [31]:
for key in genes_dict_1:
    if  genes_dict_1[key] >= 600 and genes_dict_1[key] <= 1200:
        print(key)

TUM1
TLG2
TSR3
TRM10


¡Espectacular!

Y ahora supongamos que queremos encontrar los genes más cortos y más largos, imprimiendo una etiqueta que nos avise si es de uno u otro tipo:

In [32]:
for key in genes_dict_1:
    if  genes_dict_1[key] < 600:
        print("gen corto: " + key + ", (longitud = " + str(genes_dict_1[key]) + ")")
    elif genes_dict_1[key] > 1200:
        print("gen largo: " + key + ", (longitud = " + str(genes_dict_1[key]) + ")")

gen corto: TMC1, (longitud = 453)
gen corto: TOM6, (longitud = 186)
gen largo: TSR4, (longitud = 1227)
gen largo: TPO4, (longitud = 1980)
gen largo: TRM11, (longitud = 1302)


*elif* es la abreviatura de "else if". Esto es, si el primer condicional no es verdadero, se evalúa el segundo.

Finalmente, podemos agregar algo más para asegurarnos que todos los genes fueron evaluados:

In [33]:
for key in genes_dict_1:
    if  genes_dict_1[key] < 600:
        print("gen corto: " + key + ", (longitud = " + str(genes_dict_1[key]) + ")")
    elif genes_dict_1[key] > 1200:
        print("gen largo: " + key + ", (longitud = " + str(genes_dict_1[key]) + ")")
    else:
        print(key + ", (largo normal)")

gen corto: TMC1, (longitud = 453)
TUM1, (largo normal)
gen corto: TOM6, (longitud = 186)
TLG2, (largo normal)
gen largo: TSR4, (longitud = 1227)
gen largo: TPO4, (longitud = 1980)
TSR3, (largo normal)
TRM10, (largo normal)
gen largo: TRM11, (longitud = 1302)


## Repaso

Al llegar aquí deberías entender estos puntos:

* Qué es un diccionario
* Cuáles son y para qué sirven los operadores relacionales y los operadores lógicos
* Cómo se usan las sentencias condicionales para modificar el flujo de un programa