In [None]:
#load libraries
import numpy as np

# Introducción a Python
### Virginia Domínguex García - Estación Biológica de Doñana - CSIC

# Tipos de datos básicos
En python tenemos los siguientes tipos de datos base:
* Integers: **int** 
* Floating point: **float**
* Complex numbers: **complex**
* Boolean: **bool**
* No value: **None**
* Strings: **str**

Para saber en cualquier momento cuál es el tipo de una variable puedes usar el comando **type** así

In [None]:
NGenes = 1500 # number of genes measured
type(NGenes)

In [None]:
Km = 0.015 # Michaelis constant for chymotrypsin type(Km) # float
type(Km)

In [None]:
isTransFactor = True # is protein a transcription factor?
type(isTransFactor) # bool

In [None]:
name = 'Félix'
surname = "Rodríguez"
type(name)

# Tipos de operadores 
Para operar con estos datos usaremos diferentes tipos de operadores :

* **Aritméticos**: +, -, *, /, //,  %, ** 
* **Relacionales**: ==, !=, <, >, <=, >=, in 
* **Lógicos**: not, and, or

En Python muchos de estos operadores están sobrecargados ("overloaded"), es decir, que actúan diferente en función del tipo de dato que estemos usando.

In [None]:
# + aplicado a números
3+8

In [None]:
# + aplicado a str
"ho" + "la"

In [None]:
# * aplicado a números
3*5

In [None]:
# * aplicado a str repite la secuenca n veces
# Repeat the sequence "actg" 5 times
mySeq = "Mola"
mySeq*5

In [None]:
# detectar si una cadena está dentro de otra
dna1 = "acgtttgacgtaaacgttgacgttaa"
motif = "acgtaaa"
motif in dna1

In [None]:
3 in 365

In [None]:
"3" in "365"

**Slicing** [ ...] : Este operador os permite acceder a componentes de un array, como por ejemplo una variable **str**

**¡¡OJO!!** En Python empezamos a contar desde 0, y no desde 1!

In [None]:
name = "Félix Rodríguez"
name[0] # first letter in name

In [None]:
name[0:5] # the first four letters in name

In [None]:
name[6:] # from the sixth letter until the end

In [None]:
name[-1] # the last letter in name

In [None]:
name[-4:] # the last three letters in name

In [None]:
name[0:10:2] # Slice in steps of two up to (not including) character 10

## Función print
Se escribe de la siguiente forma

In [None]:
#básico
print("Hello world")

In [None]:
#Incluyendo variables int
NSamples = 10 # number of samples we RNA-sequenced
NGenes = 18173 # number of genes measured
print("We sequenced %d samples and measured %d genes" % (NSamples, NGenes))

In [None]:
# Incluyendo floats
pi = 3.14159265359
print("pi to 2 decimal is %.2f" % (pi))
print("pi to 2 decimal is %.2f" % (pi))

# Tipos de Contenedores de datos

En general nunca trabajamos sólo con datos base, sino que los organizamos dentro de unas estructuras llamadas **contenedores**. Estos contenedores tienen además unos métodos asociados (unas funciones propias) que nos dejaran operar con los datos que están en su interior (acceder, modificar, imprimir, etc...)

## 1 - listas [], sets {}, tuples ()

Pueden ser confusas porque todas son un "array" de datos encerrados entre "paréntesis", pero se crean de diferente forma y tienen diferentes propiedades:

### Listas [] 

Se crean usando **[]**. Son un array **ORDENADO** y **MUTABLE** de elementos.

In [None]:
genes = ["Irf1", "Ccl3", "Il12rb1", "Ifng","Ccl3", "Cxcl10"]
type(genes)

In [None]:
# accedemos a cada elemento con el operador Slicing []
print(genes[0], genes[-1])

In [None]:
# podemos cambiarlos
genes[0]="XXXX"
print(genes[0], genes[-1])

Podemos **iterar** sobre los elementos de una lista

In [None]:
for gene in genes:
    print(gene)

## Sets {} 
Se crean usando {}. Son un array **NO ORDENADO** y **MUTABLE** de elementos **ÚNICOS**. Se utilizand para hacer operaciones de sets (unión, intersección). Así por ejemplo si tenemos dos sets de genes y queremos saber su intersección (los genes que están en ambos sets) haremos:


In [None]:
DEGs = set(["Irf1", "Ccl3", "Il12rb1", "Ifng", "Cxcl10", "Ccl4", "Hist1h2ah", "Iigp2"
, "Ifit3"]) # list of DEGs
IFG = set(["Irf1", "Ifng", "Ifit1", "Ifit2", "Ifit3", "Cxcl10", "Cxcl9"]) # genes in interferon gamma pathway
commonGenes = DEGs.intersection(IFG)
print(commonGenes)
print(DEGs & IFG) # same as "intersection" using relational operators

Y otra operación que podemos hacer es encontrar los elementos que están o en un set o en otro (evitando repeticiones), así:

In [None]:
edgeR = set(["Irf1", "Ccl3", "Il12rb1", "Ccl4", "Hist1h2ah", "Iigp2", "Ifit3"]) # identified by edgeR
DESeq2 = set(["Irf1", "Ccl3", "Il12rb1", "Ifng", "Cxcl10"]) # identified by DESeq2
print(edgeR.union(DESeq2))
print(edgeR | DESeq2) # using relational operators

Los sets son muy útiles para eliminar elementos repetidos de una lista, por ejemplo:

In [None]:
my_list=["cat","dog","cat","bird", "snake"] #lista con elementos repetidos
clean_list=list(set(my_list)) #al hacer set(list) eliminamos los elementos repetidos en la lista, y al hacer list(set) convertimos en lista un set.
print(clean_list)

## Tuples ()
Se crean usando (). Son un array **ORDENADO**, e **INMUTABLE** de elementos. Esto significa que una vez creados **no pueden ser modificados**.

In [None]:
geneList = ["Irf1", "Ccl3", "Il12rb1"] # list of genes
geneTuple = ("Irf1", "Ccl3", "Il12rb1") # tuple of genes

geneList[0] = "Irf2" # this is allowed
geneTuple[0] = "Irf2" # this will throw an error

Lo que podemos hacer para modificarlo es simplemente generar un tuple nuevo, y destruir el anterior.

In [None]:
geneTuple = ("Irf1", "Ccl3", "Il12rb1") # tuple of genes
geneTuple = ("Irf2", "Ccl3", "Il12rb1") # destroy geneTuple and create a new one

Un tipo especial de tuples son los **rangos**, que se usan para iterar de esta forma:

In [None]:
for i in range(1, 10, 2): # create integers from 1 to 10 (not inclusive) in steps of 2
    print(i)

## 2 - Diccionarios: {"key" : value}
Son una de las herramientas más potentes de Python, una especie de array con nombres. 
Son contenedores **ORDENADOS** (recuerdan el orden de entrada y lo mantienen) y **MUTABLES**.

In [None]:
#Dictionaries are particularly useful to store parameters of a model for example. It is easier to access these parameters by their name, 
#rather than remembering in what order they were put in a list.
myParam = {"beta": 0.2, "gamma": 1.3, "delta": 0.4}
myParam["delta"] # access the delta parameter

Sin embargo pueden estar **ANIDADOS**, y contener todo tipo de contenedores dentro, por lo que son especialemente buenos para guardar **DATOS NO ESTRUCTURADOS** (como por ejemplo redes de interacción con información de los nodos y links).

In [None]:
Estudiantes={"María"  : {"Inglés": 4.5, "Matemáticas":9, "Música":8, "Grupo":["Antonio", "Lola", "Enrique"] } ,
             "Antonio": {"Inglés": 8, "Matemáticas":6, "Música":3, "Grupo":["Antonio", "Lola"] },
             "Luisa"  : {"Inglés": 5, "Matemáticas":7, "Música":5, "Grupo":["Enrique", "Manoli","Julio"] }}

In [None]:
Estudiantes["Luisa"]["Matemáticas"]

## 3 - Numpy Arrays: ndarray
Son arrays usualmente numéricos (aunque pueden contener cualquier tipo de los datos básicos vistos) que pueden tener varias dimensiones. Se usan para el cálculo matricial, y vectorizar operaciones.

In [None]:
a = np.array([2, 3, 4])
type(a)

In [None]:
a = np.arange(15).reshape(3, 5)
a

In [None]:
a.shape

## 4 - DataFrames: pd.DataFrame

Las DataFrames son similares a las de R, y se usan para contener datos **ESTRUCTURADOS**, **ORDENADOS**, y **MUTABLES**. 
Son una forma de guardar información INDEXADA.
Para trabajar con ellos usaremos la libreria Pandas, que vamos a ver más en detalle, ya que el trabajo con este tipo de datos es la parte central del taller.