In [2]:
#load libraries
import numpy as np

# Tipos de datos básicos
En python tenemos los siguientes tipos de datos base:
* Integers: **int** 
* Floating point: **float**
* Complex numbers: **complex**
* Boolean: **bool**
* No value: **None**
* Strings: **str**

Para saber en cualquier momento cuál es el tipo de una variable puedes usar el comando **type** así

In [3]:
NGenes = 1500 # number of genes measured
type(NGenes)

int

In [4]:
Km = 0.015 # Michaelis constant for chymotrypsin type(Km) # float
type(Km)

float

In [5]:
isTransFactor = True # is protein a transcription factor?
type(isTransFactor) # bool

In [7]:
name = 'Félix'
surname = "Rodríguez"
type(name)

str

# Tipos de operadores 
Para operar con estos datos usaremos diferentes tipos de operadores :

* **Aritméticos**: +, -, *, /, //,  %, ** 
* **Relacionales**: ==, !=, <, >, <=, >=, in 
* **Lógicos**: not, and, or

En Python muchos de estos operadores están sobrecargados ("overloaded"), es decir, que actúan diferente en función del tipo de dato que estemos usando.

In [102]:
# + aplicado a números
3+8

3

In [9]:
# + aplicado a str
"ho" + "la"

'hola'

In [10]:
# * aplicado a números
3*5

15

In [12]:
# * aplicado a str repite la secuenca n veces
# Repeat the sequence "actg" 5 times
mySeq = "Mola"
mySeq*5

'MolaMolaMolaMolaMola'

In [14]:
# detectar si una cadena está dentro de otra
dna1 = "acgtttgacgtaaacgttgacgttaa"
motif = "acgtaaa"
motif in dna1

True

In [15]:
3 in 365

TypeError: argument of type 'int' is not iterable

In [16]:
"3" in "365"

True

**Slicing** [ ...] : Este operador os permite acceder a componentes de un array, como por ejemplo una variable **str**

**¡¡OJO!!** En Python empezamos a contar desde 0, y no desde 1!

In [20]:
name = "Félix Rodríguez"
name[0] # first letter in name

'F'

In [21]:
name[0:5] # the first four letters in name

'Félix'

In [23]:
name[6:] # from the sixth letter until the end

'Rodríguez'

In [24]:
name[-1] # the last letter in name

'z'

In [26]:
name[-4:] # the last three letters in name

'guez'

In [29]:
name[0:10:2] # Slice in steps of two up to (not including) character 10

'FlxRd'

## Función print
Se escribe de la siguiente forma

In [30]:
#básico
print("Hello world")

Hello world


In [31]:
#Incluyendo variables int
NSamples = 10 # number of samples we RNA-sequenced
NGenes = 18173 # number of genes measured
print("We sequenced %d samples and measured %d genes" % (NSamples, NGenes))

We sequenced 10 samples and measured 18173 genes


In [41]:
# Incluyendo floats
pi = 3.14159265359
print("pi to 2 decimal is %.2f" % (pi))
print("pi to 2 decimal is %.2f" % (pi))

pi to 2 decimal is 3.14
pi to 2 decimal is 3.14


# Tipos de Contenedores de datos

En general nunca trabajamos sólo con datos base, sino que los organizamos dentro de unas estructuras llamadas **contenedores**. Estos contenedores tienen además unos métodos asociados (unas funciones propias) que nos dejaran operar con los datos que están en su interior (acceder, modificar, imprimir, etc...)

## 1 - listas [], sets {}, tuples ()

Pueden ser confusas porque todas son un "array" de datos encerrados entre "paréntesis", pero se crean de diferente forma y tienen diferentes propiedades:

### Listas [] 

Se crean usando **[]**. Son un array **ORDENADO** y **MUTABLE** de elementos.

In [49]:
genes = ["Irf1", "Ccl3", "Il12rb1", "Ifng","Ccl3", "Cxcl10"]
type(genes)

list

In [50]:
# accedemos a cada elemento con el operador Slicing []
print(genes[0], genes[-1])

Irf1 Cxcl10


In [51]:
# podemos cambiarlos
genes[0]="XXXX"
print(genes[0], genes[-1])

XXXX Cxcl10


Podemos **iterar** sobre los elementos de una lista

In [52]:
for gene in genes:
    print(gene)

XXXX
Ccl3
Il12rb1
Ifng
Ccl3
Cxcl10


## Sets {} 
Se crean usando {}. Son un array **NO ORDENADO** y **MUTABLE** de elementos **ÚNICOS**. Se utilizand para hacer operaciones de sets (unión, intersección). Así por ejemplo si tenemos dos sets de genes y queremos saber su intersección (los genes que están en ambos sets) haremos:


In [71]:
DEGs = set(["Irf1", "Ccl3", "Il12rb1", "Ifng", "Cxcl10", "Ccl4", "Hist1h2ah", "Iigp2"
, "Ifit3"]) # list of DEGs
IFG = set(["Irf1", "Ifng", "Ifit1", "Ifit2", "Ifit3", "Cxcl10", "Cxcl9"]) # genes in interferon gamma pathway
commonGenes = DEGs.intersection(IFG)
print(commonGenes)
print(DEGs & IFG) # same as "intersection" using relational operators

{'Irf1', 'Ifng', 'Ifit3', 'Cxcl10'}
{'Irf1', 'Ifng', 'Ifit3', 'Cxcl10'}


Y otra operación que podemos hacer es encontrar los elementos que están o en un set o en otro (evitando repeticiones), así:

In [73]:
edgeR = set(["Irf1", "Ccl3", "Il12rb1", "Ccl4", "Hist1h2ah", "Iigp2", "Ifit3"]) # identified by edgeR
DESeq2 = set(["Irf1", "Ccl3", "Il12rb1", "Ifng", "Cxcl10"]) # identified by DESeq2
print(edgeR.union(DESeq2))
print(edgeR | DESeq2) # using relational operators

{'Ifng', 'Hist1h2ah', 'Ifit3', 'Iigp2', 'Il12rb1', 'Ccl4', 'Irf1', 'Cxcl10', 'Ccl3'}
{'Ifng', 'Hist1h2ah', 'Ifit3', 'Iigp2', 'Il12rb1', 'Ccl4', 'Irf1', 'Cxcl10', 'Ccl3'}


Los sets son muy útiles para eliminar elementos repetidos de una lista, por ejemplo:

In [74]:
my_list=["cat","dog","cat","bird", "snake"] #lista con elementos repetidos
clean_list=list(set(my_list)) #al hacer set(list) eliminamos los elementos repetidos en la lista, y al hacer list(set) convertimos en lista un set.
print(clean_list)

['dog', 'bird', 'cat', 'snake']


## Tuples ()
Se crean usando (). Son un array **ORDENADO**, e **INMUTABLE** de elementos. Esto significa que una vez creados **no pueden ser modificados**.

In [75]:
geneList = ["Irf1", "Ccl3", "Il12rb1"] # list of genes
geneTuple = ("Irf1", "Ccl3", "Il12rb1") # tuple of genes

geneList[0] = "Irf2" # this is allowed
geneTuple[0] = "Irf2" # this will throw an error

TypeError: 'tuple' object does not support item assignment

Lo que podemos hacer para modificarlo es simplemente generar un tuple nuevo, y destruir el anterior.

In [76]:
geneTuple = ("Irf1", "Ccl3", "Il12rb1") # tuple of genes
geneTuple = ("Irf2", "Ccl3", "Il12rb1") # destroy geneTuple and create a new one

Un tipo especial de tuples son los **rangos**, que se usan para iterar de esta forma:

In [65]:
for i in range(1, 10, 2): # create integers from 1 to 10 (not inclusive) in steps of 2
    print(i)

1
3
5
7
9


## 2 - Diccionarios: {"key" : value}
Son una de las herramientas más potentes de Python, una especie de array con nombres. 
Son contenedores **ORDENADOS** (recuerdan el orden de entrada y lo mantienen) y **MUTABLES**.

In [77]:
#Dictionaries are particularly useful to store parameters of a model for example. It is easier to access these parameters by their name, 
#rather than remembering in what order they were put in a list.
myParam = {"beta": 0.2, "gamma": 1.3, "delta": 0.4}
myParam["delta"] # access the delta parameter

0.4

Sin embargo pueden estar **ANIDADOS**, y contener todo tipo de contenedores dentro, por lo que son especialemente buenos para guardar **DATOS NO ESTRUCTURADOS** (como por ejemplo redes de interacción con información de los nodos y links).

In [79]:
Estudiantes={"María"  : {"Inglés": 4.5, "Matemáticas":9, "Música":8, "Grupo":["Antonio", "Lola", "Enrique"] } ,
             "Antonio": {"Inglés": 8, "Matemáticas":6, "Música":3, "Grupo":["Antonio", "Lola"] },
             "Luisa"  : {"Inglés": 5, "Matemáticas":7, "Música":5, "Grupo":["Enrique", "Manoli","Julio"] }}

In [81]:
Estudiantes["Luisa"]["Matemáticas"]

7

## 3 - Numpy Arrays: ndarray
Son arrays usualmente numéricos (aunque pueden contener cualquier tipo de los datos básicos vistos) que pueden tener varias dimensiones. Se usan para el cálculo matricial, y vectorizar operaciones.

In [83]:
a = np.array([2, 3, 4])
type(a)

numpy.ndarray

In [85]:
a = np.arange(15).reshape(3, 5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [86]:
a.shape

(3, 5)

## 4 - DataFrames: pd.DataFrame

Las DataFrames son similares a las de R, y se usan para contener datos **ESTRUCTURADOS**, **ORDENADOS**, y **MUTABLES**. 
Son una forma de guardar información INDEXADA.
Para trabajar con ellos usaremos la libreria Pandas, que vamos a ver más en detalle, ya que el trabajo con este tipo de datos es la parte central del taller.