## Diplomado Python para Ciencia de Datos

### Módulo 2

## Introducción

Python es un gran lenguaje de programación de uso general por sí solo, pero con la ayuda de algunas bibliotecas populares (numpy, scipy, matplotlib) se convierte en un entorno poderoso para la informática científica.

Esta sección servirá como un curso rápido tanto en el lenguaje de programación Python como en el uso de Python para la computación científica.


En este tutorial, cubriremos:

* Python básico: tipos de datos básicos (contenedores, listas, diccionarios, conjuntos, tuplas), funciones, clases
* Numpy: matrices, indexación de matrices, tipos de datos, matemática de matrices, difusión
* Matplotlib: trazado, subtramas, imágenes
* IPython: creación de cuadernos, flujos de trabajo típicos

## Fundamentos de Python

Python es un lenguaje de programación multiparadigma de alto nivel, tipado dinámicamente. A menudo se dice que el código de Python es casi como un pseudocódigo, ya que le permite expresar ideas muy poderosas en muy pocas líneas de código mientras es muy legible. Como ejemplo, aquí hay una implementación del clásico algoritmo de clasificación rápida en Python:

In [2]:
def quicksort(arr):
    if len(arr) <= 1:
        return arr
    pivot = arr[len(arr) // 2]
    left = [x for x in arr if x < pivot]
    middle = [x for x in arr if x == pivot]
    right = [x for x in arr if x > pivot]
    return quicksort(left) + middle + quicksort(right)

print(quicksort([3,6,8,10,1,2,1]))

[1, 1, 2, 3, 6, 8, 10]


### Versiones de Python

Actualmente hay dos versiones diferentes compatibles de Python, 2.7 y 3.4. De manera algo confusa, Python 3.0 introdujo muchos cambios incompatibles con el lenguaje, por lo que el código escrito para 2.7 puede no funcionar en 3.4 y viceversa. Para esta clase, todo el código usará Python 2.7.

Puede verificar su versión de Python en la línea de comando ejecutando `python --version`.

### Tipos de datos básicos

#### Numbers

Los enteros y flotantes funcionan como cabría esperar de otros idiomas:

In [3]:
x = 3
print(x, type(x))

3 <class 'int'>


In [4]:
print(x + 1)   # Addition;
print(x - 1)   # Subtraction;
print(x * 2)   # Multiplication;
print(x ** 2)  # Exponentiation;

4
2
6
9


In [5]:
x += 1
print(x)  # Prints "4"
x *= 2
print(x)  # Prints "8"

4
8


In [6]:
y = 2.5
print(type(y)) # Prints "<type 'float'>"
print(y, y + 1, y * 2, y ** 2) # Prints "2.5 3.5 5.0 6.25"

<class 'float'>
2.5 3.5 5.0 6.25


Tenga en cuenta que, a diferencia de muchos lenguajes, Python no tiene operadores de incremento (x ++) o decremento (x--) unarios.

Python también tiene tipos incorporados para enteros largos y números complejos; Puede encontrar todos los detalles en la [documentación] (https://docs.python.org/2/library/stdtypes.html#numeric-types-int-float-long-complex).

#### Boleanos

Python implementa todos los operadores habituales para la lógica booleana, pero usa palabras en inglés en lugar de símbolos (`&&`, `||`, etc.):

In [7]:
t, f = True, False
print(type(t)) # Prints "<type 'bool'>"

<class 'bool'>


Ahora veamos las operaciones:

In [8]:
print(t and f) # Logical AND;
print(t or f)  # Logical OR;
print(not t)   # Logical NOT;
print(t != f)  # Logical XOR;

False
True
False
True


#### Cadenas (Strings)

In [9]:
hello = 'hello'   # String literals can use single quotes
world = "world"   # or double quotes; it does not matter.
print(hello, len(hello))

hello 5


In [10]:
hw = hello + ' ' + world  # String concatenation
print(hw)  # prints "hello world"

hello world


In [11]:
hw12 = '%s %s %d' % (hello, world, 12)  # sprintf style string formatting
print(hw12)  # prints "hello world 12"

hello world 12


Los objetos de cadena tienen un montón de métodos útiles; por ejemplo:

In [12]:
s = "hello"
print(s.capitalize())  # Capitalize a string; prints "Hello"
print(s.upper())       # Convert a string to uppercase; prints "HELLO"
print(s.rjust(7))      # Right-justify a string, padding with spaces; prints "  hello"
print(s.center(7))     # Center a string, padding with spaces; prints " hello "
print(s.replace('l', '(ell)'))  # Replace all instances of one substring with another;# prints "he(ell)(ell)o"
print('  world '.strip())      # Strip leading and trailing whitespace; prints "world"

Hello
HELLO
  hello
 hello 
he(ell)(ell)o
world


Puede encontrar una lista de todos los métodos de cadena en la [documentación] (https://docs.python.org/2/library/stdtypes.html#string-methods).

### Contenedores (Containers)

Python incluye varios tipos de contenedores integrados: listas, diccionarios, conjuntos y tuplas.

#### Listas 

Una lista es el equivalente a Python de una matriz, pero es redimensionable y puede contener elementos de diferentes tipos:

In [13]:
xs = [3, 1, 2]   # Create a list
print(xs, xs[2])
print(xs[-1])     # Negative indices count from the end of the list; prints "2"

[3, 1, 2] 2
2


In [14]:
xs[2] = 'foo'    # Lists can contain elements of different types
print(xs)

[3, 1, 'foo']


In [15]:
xs.append('bar') # Add a new element to the end of the list
print(xs)  

[3, 1, 'foo', 'bar']


In [16]:
x = xs.pop()     # Remove and return the last element of the list
print(x, xs) 

bar [3, 1, 'foo']


Nota: puede encontrar todos los detalles sobre las listas en la [documentación] (https://docs.python.org/2/tutorial/datastructures.html#more-on-lists).

#### Slicing

Además de acceder a los elementos de la lista de uno en uno, Python proporciona una sintaxis concisa para acceder a las sublistas; esto se conoce como slice:

In [18]:
nums = range(5)    # range is a built-in function that creates a list of integers
print(nums)         # Prints "[0, 1, 2, 3, 4]"
print(nums[2:4])    # Get a slice from index 2 to 4 (exclusive); prints "[2, 3]"
print(nums[2:])     # Get a slice from index 2 to the end; prints "[2, 3, 4]"
print(nums[:2])     # Get a slice from the start to index 2 (exclusive); prints "[0, 1]"
print(nums[:])      # Get a slice of the whole list; prints ["0, 1, 2, 3, 4]"
print(nums[:-1])    # Slice indices can be negative; prints ["0, 1, 2, 3]"


range(0, 5)
range(2, 4)
range(2, 5)
range(0, 2)
range(0, 5)
range(0, 4)


#### Ciclos

Puede recorrer los elementos de una lista como esta:

In [19]:
animals = ['cat', 'dog', 'monkey']
for animal in animals:
    print(animal)

cat
dog
monkey


Si desea contar los elementos de la lista, dentro del cuerpo de un bucle, use la función incorporada `enumerate`:

In [20]:
animals = ['cat', 'dog', 'monkey']
for idx, animal in enumerate(animals):
    print('#%d: %s' % (idx + 1, animal))

#1: cat
#2: dog
#3: monkey


#### List comprehensions:

Python provee una manera consistente de crear listas desde otros tipos iterables. Un list comprenhension regresará una lista, consisten en corchetes que contienen la expresión, que se ejecuta para cada elemento junto con el ciclo for para iterar sobre cada elemento.

In [21]:
nums = [0, 1, 2, 3, 4]
squares = []
for x in nums:
    squares.append(x ** 2)
print(squares)

[0, 1, 4, 9, 16]


Puede simplificar este código utilizando una lista de comprensión:

In [22]:
nums = [0, 1, 2, 3, 4]
squares = [x ** 2 for x in nums]
print(squares)

[0, 1, 4, 9, 16]


Las comprensiones de listas también pueden contener condiciones:

In [23]:
nums = [0, 1, 2, 3, 4]
even_squares = [x ** 2 for x in nums if x % 2 == 0]
print(even_squares)

[0, 4, 16]


#### Diccionarios

Un diccionario almacena pares (clave, valor), similares a un `Map` en Java o un objeto en Javascript. Puedes usarlo así:

In [24]:
d = {'cat': 'cute', 'dog': 'furry'}  # Create a new dictionary with some data
print(d['cat'])       # Get an entry from a dictionary; prints "cute"
print('cat' in d)    # Check if a dictionary has a given key; prints "True"

cute
True


In [25]:
d['fish'] = 'wet'    # Set an entry in a dictionary
print(d['fish'])      # Prints "wet"

wet


In [26]:
print(d['monkey'])  # KeyError: 'monkey' not a key of d

KeyError: 'monkey'

In [27]:
print(d.get('monkey', 'N/A'))  # Get an element with a default; prints "N/A"
print(d.get('fish', 'N/A'))    # Get an element with a default; prints "wet"

N/A
wet


In [28]:
del d['fish']        # Remove an element from a dictionary
print(d.get('fish', 'N/A')) # "fish" is no longer a key; prints "N/A"

N/A


Puede encontrar todo lo que necesita saber sobre los diccionarios en la [documentación] (https://docs.python.org/2/library/stdtypes.html#dict).

Es fácil iterar sobre las claves en un diccionario:

In [29]:
d = {'person': 2, 'cat': 4, 'spider': 8}
for animal in d:
    legs = d[animal]
    print('A %s has %d legs' % (animal, legs))

A person has 2 legs
A cat has 4 legs
A spider has 8 legs


Si desea acceder a las claves y sus valores correspondientes, use el método items:

In [32]:
d = {'person': 2, 'cat': 4, 'spider': 8}
for animal, legs in d.items():
    print('A %s has %d legs' % (animal, legs))

A person has 2 legs
A cat has 4 legs
A spider has 8 legs


Comprensiones de diccionario: son similares a las comprensiones de listas, pero le permiten construir diccionarios fácilmente. Por ejemplo:

In [33]:
nums = [0, 1, 2, 3, 4]
even_num_to_square = {x: x ** 2 for x in nums if x % 2 == 0}
print(even_num_to_square)

{0: 0, 2: 4, 4: 16}


#### Sets

Un conjunto es una colección desordenada de elementos distintos. Como un ejemplo simple, considere lo siguiente:

In [34]:
animals = {'cat', 'dog'}
print('cat' in animals)   # Check if an element is in a set; prints "True"
print('fish' in animals)  # prints "False"


True
False


In [35]:
animals.add('fish')      # Add an element to a set
print('fish' in animals)
print(len(animals))       # Number of elements in a set;

True
3


In [36]:
animals.add('cat')       # Adding an element that is already in the set does nothing
print(len(animals))       
animals.remove('cat')    # Remove an element from a set
print(len(animals))       

3
2


_Loops_: iterar sobre un conjunto tiene la misma sintaxis que iterar sobre una lista; sin embargo, dado que los conjuntos no están ordenados, no puede hacer suposiciones sobre el orden en que visita los elementos del conjunto:

In [37]:
animals = {'cat', 'dog', 'fish'}
for idx, animal in enumerate(animals):
    print('#%d: %s' % (idx + 1, animal))
# Prints "#1: fish", "#2: dog", "#3: cat"

#1: fish
#2: cat
#3: dog


Comprensiones de conjuntos: al igual que las listas y los diccionarios, podemos construir fácilmente conjuntos utilizando comprensiones de conjuntos:

In [38]:
from math import sqrt
print({int(sqrt(x)) for x in range(30)})

{0, 1, 2, 3, 4, 5}


#### Tuplas

Una tupla es una lista ordenada (inmutable) de valores. Una tupla es en muchos aspectos similar a una lista; Una de las diferencias más importantes es que las tuplas se pueden usar como claves en los diccionarios y como elementos de conjuntos, mientras que las listas no. Aquí hay un ejemplo trivial:

In [39]:
d = {(x, x + 1): x for x in range(10)}  # Create a dictionary with tuple keys
t = (5, 6)       # Create a tuple
print(type(t))
print(d[t])       
print(d[(1, 2)])

<class 'tuple'>
5
1


In [None]:
t[0] = 1

### Funciones

Las funciones de Python se definen usando la palabra clave `def`. Por ejemplo:

In [40]:
def sign(x):
    if x > 0:
        return 'positive'
    elif x < 0:
        return 'negative'
    else:
        return 'zero'

for x in [-1, 0, 1]:
    print(sign(x))

negative
zero
positive


A menudo definiremos funciones para tomar argumentos de palabras clave opcionales, como este:

In [41]:
def hello(name, loud=False):
    if loud:
        print('HELLO, %s' % name.upper())
    else:
        print('Hello, %s!' % name)

hello('Bob')
hello('Fred', loud=True)

Hello, Bob!
HELLO, FRED


### Clases

La sintaxis para definir clases en Python es sencilla:

In [42]:
class Greeter:

    # Constructor
    def __init__(self, name):
        self.name = name  # Create an instance variable

    # Instance method
    def greet(self, loud=False):
        if loud:
            print('HELLO, %s!' % self.name.upper())
        else:
            print('Hello, %s' % self.name)

g = Greeter('Fred')  # Construct an instance of the Greeter class
g.greet()            # Call an instance method; prints "Hello, Fred"
g.greet(loud=True)   # Call an instance method; prints "HELLO, FRED!"

Hello, Fred
HELLO, FRED!


## Numpy

Numpy es la biblioteca central para data science en Python. Proporciona un objeto de matriz multidimensional de alto rendimiento y herramientas para trabajar con estas matrices. 

Para usar Numpy, primero debemos importar el paquete `numpy`:

In [45]:
import numpy as np

### Arreglos

Una matriz numpy es una cuadrícula de valores, todos del mismo tipo, y está indexada por una tupla de enteros no negativos. El número de dimensiones es el rango de la matriz; La forma de una matriz es una tupla de enteros que da el tamaño de la matriz a lo largo de cada dimensión.

Podemos inicializar matrices numpy de listas anidadas de Python y acceder a elementos usando corchetes:

In [47]:
a = np.array([1, 2, 3])  # Create a rank 1 array
print(type(a), a.shape, a[0], a[1], a[2])
a[0] = 5                 # Change an element of the array
print(a)                 

<class 'numpy.ndarray'> (3,) 1 2 3
[5 2 3]


In [49]:
b = np.array([[1,2,3],[4,5,6]])   # Create a rank 2 array
print(b)

[[1 2 3]
 [4 5 6]]


In [50]:
print(b.shape)
print(b[0, 0], b[0, 1], b[1, 0])

(2, 3)
1 2 4


Numpy también proporciona muchas funciones para crear matrices:

In [51]:
a = np.zeros((2,2))  # Create an array of all zeros
print(a)

[[0. 0.]
 [0. 0.]]


In [52]:
b = np.ones((1,2))   # Create an array of all ones
print(b)

[[1. 1.]]


In [53]:
c = np.full((2,2), 7) # Create a constant array
print(c) 

[[7 7]
 [7 7]]


In [54]:
d = np.eye(2)        # Create a 2x2 identity matrix
print(d)

[[1. 0.]
 [0. 1.]]


In [55]:
e = np.random.random((2,2)) # Create an array filled with random values
print(e)

[[0.57154933 0.37340813]
 [0.33972582 0.3904875 ]]


### Tipos de datos (Datatypes)

Cada matriz numpy es una cuadrícula de elementos del mismo tipo. Numpy proporciona un gran conjunto de tipos de datos numéricos que puede usar para construir matrices. Numpy intenta adivinar un tipo de datos cuando crea una matriz, pero las funciones que construyen matrices generalmente también incluyen un argumento opcional para especificar explícitamente el tipo de datos. Aquí hay un ejemplo:

In [57]:
x = np.array([1, 2])  # Let numpy choose the datatype
y = np.array([1.0, 2.0])  # Let numpy choose the datatype
z = np.array([1, 2], dtype=np.int64)  # Force a particular datatype

print(x.dtype, y.dtype, z.dtype)

int32 float64 int64


Puede leer todo sobre los tipos de datos numpy en la [documentación] (http://docs.scipy.org/doc/numpy/reference/arrays.dtypes.html).

### Operaciones con Arreglos

Las funciones matemáticas básicas operan por elementos en las matrices, y están disponibles como sobrecargas del operador y como funciones en el módulo numpy:

In [58]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

# Elementwise sum; both produce the array
print(x + y)
print(np.add(x, y))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]


In [59]:
# Elementwise difference; both produce the array
print(x - y)
print(np.subtract(x, y))

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]


In [60]:
# Elementwise product; both produce the array
print(x * y)
print(np.multiply(x, y))

[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]


In [61]:
# Elementwise division; both produce the array
# [[ 0.2         0.33333333]
#  [ 0.42857143  0.5       ]]
print(x / y)
print(np.divide(x, y))

[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]


In [62]:
# Elementwise square root; produces the array
# [[ 1.          1.41421356]
#  [ 1.73205081  2.        ]]
print(np.sqrt(x))

[[1.         1.41421356]
 [1.73205081 2.        ]]


Tenga en cuenta que, a diferencia de MATLAB, `*` es multiplicación por elementos, no multiplicación matricial. En su lugar, usamos la función de punto para calcular productos internos de vectores, para multiplicar un vector por una matriz y para multiplicar matrices. dot está disponible como una función en el módulo numpy y como un método de instancia de objetos de matriz:

In [63]:
x = np.array([[1,2],[3,4]])
y = np.array([[5,6],[7,8]])

v = np.array([9,10])
w = np.array([11, 12])

# Inner product of vectors; both produce 219
print(v.dot(w))
print(np.dot(v, w))

219
219


In [64]:
# Matrix / vector product; both produce the rank 1 array [29 67]
print(x.dot(v))
print(np.dot(x, v))

[29 67]
[29 67]


In [65]:
# Matrix / matrix product; both produce the rank 2 array
# [[19 22]
#  [43 50]]
print(x.dot(y))
print(np.dot(x, y))

[[19 22]
 [43 50]]
[[19 22]
 [43 50]]


Numpy proporciona muchas funciones útiles para realizar cálculos en matrices; uno de los más útiles es `sum`:

In [66]:
x = np.array([[1,2],[3,4]])

print(np.sum(x))  # Compute sum of all elements; prints "10"
print(np.sum(x, axis=0))  # Compute sum of each column; prints "[4 6]"
print(np.sum(x, axis=1))  # Compute sum of each row; prints "[3 7]"

10
[4 6]
[3 7]


Puede encontrar la lista completa de funciones matemáticas proporcionadas por numpy en la [documentación] (http://docs.scipy.org/doc/numpy/reference/routines.math.html).

Además de calcular las funciones matemáticas utilizando matrices, con frecuencia necesitamos remodelar o manipular los datos en matrices. El ejemplo más simple de este tipo de operación es la transposición de una matriz; para transponer una matriz, simplemente use el atributo T de un objeto de matriz:

In [67]:
print(x)
print(x.T)

[[1 2]
 [3 4]]
[[1 3]
 [2 4]]


In [68]:
v = np.array([[1,2,3]])
print(v) 
print(v.T)

[[1 2 3]]
[[1]
 [2]
 [3]]
