# Introducción a Python

## Control de Flujo

Comprende declaraciones condicionales y bucles.

### Declaraciones condicionales

Se tiene que respetar el uso de ":" y de la sangría al inicio de cada bloque interno de comandos.

In [1]:
x = -15

if x == 0:
    print(x,"es cero")
elif x > 0:
    print(x,"es positivo")
elif x < 0:
    print(x,"es negativo")
else:
    print(x,"nunca he visto un valor parecido...")


-15 es negativo


### Bucles

Usando el comando *for* con un iterador definido en una lista:

In [2]:
for N in [2, 3, 5, 7]:
    print(N, end=' ')

2 3 5 7 

Otro tipo de iterador puede estar contenido en *rangos*:

In [3]:
for i in range(10):
    print(i, end=' ')


0 1 2 3 4 5 6 7 8 9 

In [4]:
for i in range(5,10):
    print(i, end=' ')


5 6 7 8 9 

In [5]:
for i in range(0,10,2):
    print(i, end=' ')


0 2 4 6 8 

Usando también un *while*:

In [6]:
i = 0
while i < 10:
    print(i, end=' ')
    i += 1


0 1 2 3 4 5 6 7 8 9 

Para modificar los bucles, se puede utilizar las instrucciones *continue* y *break*:

In [7]:
 for n in range(20):
    if n % 2 == 0:
        continue
    print(n, end=' ')


1 3 5 7 9 11 13 15 17 19 

In [8]:
a, b = 0, 1
amax = 100
L = []

while True:
    (a, b) = (b, a + b)
    if a > amax:
        break
    L.append(a)

print(L)

[1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89]


## Definición y Uso de funciones

Al igual que en otros lenguajes de programación, las funciones se llaman por su nombre y sus argumentos se incluyen en paréntesis redondos. Los argumentos también pueden ser especificados a través de un nombre:

In [9]:
print('abc')

abc


In [10]:
print(1, 2, 3, sep='--')

1--2--3


A diferencia de otros lenguajes (por ejemplo R), los argumentos sin nombre **siempre** deben anteceder a los que sí tienen.

Para definir una función, se usa el comando `def`:

In [11]:
def fibonacci(N):
    L = []
    a, b = 0, 1
    while len(L) < N:
        a, b = b, a + b
        L.append(a)
    return L


In [12]:
fibonacci(10)

[1, 1, 2, 3, 5, 8, 13, 21, 34, 55]

Si se quiere que una función devuelva varios valores, se pueden estructurar en un tuple:

In [13]:
def real_imag_conj(val):
    return val.real, val.imag, val.conjugate()


In [14]:
r, i, c = real_imag_conj(3 + 4j)
print(r, i, c)


3.0 4.0 (3-4j)


Las funciones de Python también admiten argumentos incluidos por default:

In [15]:
def fibonacci(N, a=0, b=1):
    L = []
    while len(L) < N:
        a, b = b, a + b
        L.append(a)
    return L


In [16]:
fibonacci(10)


[1, 1, 2, 3, 5, 8, 13, 21, 34, 55]

In [17]:
fibonacci(10, 0, 2)


[2, 2, 4, 6, 10, 16, 26, 42, 68, 110]

In [18]:
fibonacci(10, b=3, a=1)


[3, 4, 7, 11, 18, 29, 47, 76, 123, 199]

Las funciones en Python pueden tener argumentos dinámicos:

In [19]:
def catch_all(*args, **kwargs):
    print("args =", args)
    print("kwargs = ", kwargs)


In [20]:
catch_all(1, 2, 3, a=4, b=5)


args = (1, 2, 3)
kwargs =  {'a': 4, 'b': 5}


Y además, las funciones en Python también pueden ser anónimas:

In [21]:
add = lambda x, y: x + y

In [22]:
add(1,2)

3

## Errores y excepciones

Un error ocurre cuando Python no alguna variable o procedimiento no está completamente definido. Hay tres grandes tipos de errores  

- **Errores sintánticos:** Código inválido como escribir mal una variable o un comando. 
- **Errores de ejecución:** Código que es inválido por razones más complejas que de sintáxis.  _
- **Errores de semántica:** Código que es inválido porque la lógica del programador es errónea. 

### Errores de ejecución

Los errores que vamos a revisar son los de ejecución. 

Por ejemplo tratar de referenciar una variable inexistente. 


In [23]:
print(Q)

NameError: name 'Q' is not defined

O una operación no permitida 

In [24]:
1 + "hola"

TypeError: unsupported operand type(s) for +: 'int' and 'str'

O una operación matemática errónea

In [25]:
2 / 0

ZeroDivisionError: division by zero

Uno de los más usuales es acceder a elementos fuera del rango de un vector 

In [26]:
L = [1, 2, 3]
L[10]

IndexError: list index out of range

### Atrapando errores 

Una forma de atrapar errores es usando `try` y `except`

In [27]:
try:
    print("this gets executed first")
except:
    print("this gets executed only if there is an error")


this gets executed first


El poder de estas funciones ocurre cuando existe un error en el bloque de código que se está ejecutando. 

In [28]:
try:
    print("let's try something:")
    x = 1 / 0 # ZeroDivisionError
except:
    print("something bad happened!")


let's try something:
something bad happened!


Incluso se pueden atrapar errores especificos dependiendo del comportamiento que se desee. 

In [43]:
%%script python --no-raise-error
def safe_divide(a, b):
    try:
        return a / b
    except:
        return 1E100

In [34]:
safe_divide(1, "hola")

1e+100

In [44]:
def safe_divide(a, b):
    try:
        return a / b
    except ZeroDivisionError:
        return 1E100


In [27]:
safe_divide(1,2)

0.5

In [32]:
safe_divide(1,0)

1e+100

Esta es lista completa de errores incluida por defecto en Python

In [31]:
print(dir(locals()['__builtins__']))



Además, es posible crear nuestras propias excepciones usando el comando `raise`

In [32]:
raise RuntimeError("my error message")

RuntimeError: my error message

Por ejemplo, 

In [34]:
def fibonacci(N):
    if N < 0:
        raise ValueError("N must be non-negative")
    L = []
    a, b = 0, 1
    while len(L) < N:
        a, b = b, a + b
        L.append(a)
    return L
    

In [35]:
fibonacci(10)

[1, 1, 2, 3, 5, 8, 13, 21, 34, 55]

In [36]:
fibonacci(-10)

ValueError: N must be non-negative

Entonces ya tenemos una excepción propia con la cual hacer nuestro código más robusto 

In [37]:
N = -10
try:
    print("trying this...")
    print(fibonacci(N))
except ValueError:
    print("Bad value: need to do something else")


trying this...
Bad value: need to do something else


Si quieres acceder al mensaje del error (para presentarlo al usuario por ejemplo) se usa el comando `as`

In [38]:
try:
    x = 1 / 0
except ZeroDivisionError as err:
    print("Error class is: ", type(err))
    print("Error message is:", err)


Error class is:  <class 'ZeroDivisionError'>
Error message is: division by zero


Por último, existen los comandos `else` y `finally` para abarcar todos los posibles casos de error. 

El `else` se ejecuta solo si el `try` tiene un código válido. 

El `finally` se ejecuta sin importar el resultado del `try` o `except`. Esto es útil si se desea hacer una limpieza de variables o guardar resultados en un código sin importar si hubo un error o no. 

In [39]:
try:
    print("try something here")
except:
    print("this happens only if it fails")
else:
    print("this happens only if it succeeds")
finally:
    print("this happens no matter what")


try something here
this happens only if it succeeds
this happens no matter what


## Iteradores

Los iteradores es una estructura especial en Python que contiene información para el siguiente elemento de un objeto. 


In [40]:
I = iter([2, 4, 6, 8, 10])
I 

<list_iterator at 0x7f118020d898>

In [41]:
next(I)

2

In [42]:
next(I)

4

In [43]:
next(I)

6

Sin embargo los iteradores pueden extenderse a objetos que no son listas, por ejemplo `range`

In [44]:
range(10)

range(0, 10)

In [45]:
iter(range(10))

<range_iterator at 0x7f1180276660>

In [46]:
for i in range(10):
    print(i, end=' ')


0 1 2 3 4 5 6 7 8 9 

Lo interesante con los iteradores es que nunca son contruidos en memoria. Lo único que contienen es la dirección del siguiente elemento, por lo que son muy baratos de construir. Ojo este ejemplo: 

In [36]:
N = 10 ** 12
for i in range(N):
    if i >= 10: break
    print(i, end=', ')


0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 

La utilidad de los iteradores es que nos permite llevar las cuentas de los índices cuandos se hacen bucles u operaciones similares. 

Compare estos dos ejemplos, 

In [48]:
L = [2, 4, 6, 8, 10]
for i in range(len(L)):
    print(i, L[i])


0 2
1 4
2 6
3 8
4 10


El comando enumerate, provee un iterador para acceder a todos los elementos de la lista de forma fácil

In [49]:
for i, val in enumerate(L):
    print(i, val)


0 2
1 4
2 6
3 8
4 10


En caso de tener dos o más listas, el comando `zip` se encarga de iterar sobre ellas simultáneamente


In [50]:
L = [2, 4, 6, 8, 10, 1000]
R = [3, 6, 9, 12, 15]
for lval, rval in zip(L, R):
    print(lval, rval)


2 3
4 6
6 9
8 12
10 15


La lista más corta siempre indica el máximo valor del iterador. 

Otras opciones útiles son `map` y `filter`. La primera es una función que se le aplica a todos los valores de un iterador, y la segunda filtra todos aquellos valores que tenga la condición de `True`

In [51]:
square = lambda x: x ** 2
for val in map(square, range(10)):
    print(val, end=' ')


0 1 4 9 16 25 36 49 64 81 

In [52]:
is_even = lambda x: x % 2 == 0
for val in filter(is_even, range(10)):
    print(val, end=' ')


0 2 4 6 8 

La librería `itertools` contiene una basta gama de iteratores especializados como por ejemplo permutaciones, combinaciones, etc. 

## Comprensiones de listas y Generadores

Las comprensiones de listas son formas compactas de escribir los resultados de un *for* en una lista, todo es una sola declaración de código. Por ejemplo considere el siguiente bucle:

In [53]:
L = []
for n in range(12):
    L.append(n ** 2)
L


[0, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100, 121]

la comprensión de lista correspondiente sería:

In [54]:
[n ** 2 for n in range(12)]

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100, 121]

La comprensión de listas también puede hacerse al combinar dos iteradores. Note que la comprensión se ejecuta desde la declaración interna a la externa:

In [55]:
[(i, j) for i in range(2) for j in range(3)]


[(0, 0), (0, 1), (0, 2), (1, 0), (1, 1), (1, 2)]

También es posible incluir condicionales en la definición de una comprensión:

In [56]:
[val for val in range(20) if val % 3 > 0]

[1, 2, 4, 5, 7, 8, 10, 11, 13, 14, 16, 17, 19]

Python también admite las expresiones:

In [57]:
val = -10
val if val >= 0 else -val

10

los cuales también se pueden combinar con comprensiones:

In [58]:
[val if val % 2 else -val 
 for val in range(20) if val % 3 > 0]


[1, -2, -4, 5, 7, -8, -10, 11, 13, -14, -16, 17, 19]

La comprensión también se puede aplicar a conjuntos, con la ventaja de que valores repetidos se excluyen:

In [59]:
{a % 3 for a in range(1000)}

{0, 1, 2}

y también, se puede usar con diccionarios:

In [60]:
{n:n**2 for n in range(6)}

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25}

Si se usan paréntesis redondos en lugar de cuadrados en una comprensión, definimos una **expresión generadora**:

In [61]:
(n ** 2 for n in range(12))


<generator object <genexpr> at 0x7f118021daf0>

Para imprimir los contenidos de la expresión generadora, usamos el constructor *list*:

In [62]:
G = (n ** 2 for n in range(12))
list(G)


[0, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100, 121]

Una expresión generadora permite obtener un iterador que es muy económico en términos de memoria, ya que no define la lista de valores a como sí lo hace una comprensión de lista:

In [63]:
L = [n ** 2 for n in range(12)]
for val in L:
    print(val, end=' ')


0 1 4 9 16 25 36 49 64 81 100 121 

In [64]:
G = (n ** 2 for n in range(12))
for val in G:
    print(val, end=' ')


0 1 4 9 16 25 36 49 64 81 100 121 

Otra diferencia entre ambos es que una comprensión de lista puede ser utilizada varias veces, una expresión generadora solamente se puede usar una vez:

In [65]:
L = [n ** 2 for n in range(12)]
for val in L:
    print(val, end=' ')
print()

for val in L:
    print(val, end=' ')


0 1 4 9 16 25 36 49 64 81 100 121 
0 1 4 9 16 25 36 49 64 81 100 121 

In [66]:
G = (n ** 2 for n in range(12))
list(G)


[0, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100, 121]

In [67]:
list(G)


[]

Esto permite usar una expresión generadora en varios bucles de manera que se puede definir código intermedio:

In [68]:
G = (n**2 for n in range(12))
for n in G:
    print(n, end=' ')
    if n > 30: break

print("\ndoing something in between")

for n in G:
    print(n, end=' ')


0 1 4 9 16 25 36 
doing something in between
49 64 81 100 121 

Otra forma de definir una expresión generadora es a través de una función, que en este caso se llama **función generadora**:

In [69]:
G1 = (n ** 2 for n in range(12))

def gen():
    for n in range(12):
        yield n ** 2

G2 = gen()
print(*G1)
print(*G2)

0 1 4 9 16 25 36 49 64 81 100 121
0 1 4 9 16 25 36 49 64 81 100 121


## Módulos y paquetes

Primero recordemos que para instalar cualquier paquete podemos usar el comando 

`conda install <paquete>`

Así que pueden ir instalado los paquetes básicos como numpy, pandas, matplotlib, seaborn y scikit-learn

Para importar un paquete a Python hay varias formas 



In [70]:
import math
math.cos(math.pi)


-1.0

In [71]:
import numpy as np
np.cos(np.pi)


-1.0

In [72]:
from math import cos, pi
cos(pi)


-1.0

In [73]:
from math import *
sin(pi) ** 2 + cos(pi) ** 2


1.0

Esta última opción debe ser usada muy poco ya que puede sustituir funciones de otros paquetes con el mismo nombre

Python trae por defecto muchas librerías estándar para un uso inmediato del lenguaje. 
Pueden consultar todas las opciones en la dirección https://docs.python.org/3/library/

## Manipulación de cadenas y expresiones regulares 

Uno de los fuertes del lenguaje es su manejo de cadenas de texto. 

Primero, es indiferente el uso de comillas simples `'` o comillas dobles `"` para definir una cadena de texto. 

Se pueden definir bloques de texto usando tres comillas dobles `"""`

In [74]:
x = 'a string'
y = "a string"
x == y


True

In [75]:
multiline = """
one
two
three
"""
multiline           

'\none\ntwo\nthree\n'

La manipulación de texto es bastante sencilla recordando que una variable es un objeto, por lo tanto todas los métodos del objeto se puede acceder usando `.` en la variable. 
Algunos ejemplos directos son

In [76]:
fox = "tHe qUICk bROWn fOx."

In [77]:
fox.upper()

'THE QUICK BROWN FOX.'

In [78]:
fox.lower()

'the quick brown fox.'

In [79]:
fox.title()

'The Quick Brown Fox.'

In [80]:
fox.capitalize()

'The quick brown fox.'

In [81]:
fox.swapcase()

'ThE QuicK BrowN FoX.'

Para remover espacios o caracteres de un string, se puede usar la familia de `strip`'s. 

Algunos ejemplos: 

In [46]:
line = '     this is the content         '
line.strip()


'this is the content'

In [83]:
line.rstrip()

'     this is the content'

In [84]:
line.lstrip()

'this is the content         '

In [85]:
num = "000000000000435"
num.strip('0')

'435'

La operación inversa también está disponible usando las funciones `center`, `rjust`, `ljust` y `zfill`. 

In [86]:
line = "this is the content"
line.center(30)

'     this is the content      '

In [87]:
line.ljust(30)

'this is the content           '

In [88]:
line.rjust(30)

'           this is the content'

In [89]:
'435'.rjust(10, '0')

'0000000435'

In [90]:
'435'.zfill(10)

'0000000435'

Para buscar texto se debe usar `find` o `index`

In [91]:
line = 'the quick brown fox jumped over a lazy dog'
line.find('fox')

16

In [92]:
line.index('fox')

16

La diferencia es el comportamiento en caso no encontrar el texto solicitado

In [93]:
line.find('bear')

-1

In [94]:
line.index('bear')

ValueError: substring not found

Existen versions `rfind` y `rindex` que se pueden leer como `reverse find` y `reverse index`. Estas buscan el texto, pero comenzando desde el último caracter. 

In [95]:
line.rfind('a')

35

Al igual que `tidyselect` en `R`, existen versiones especiales de búsqueda para el final o el inicio de un string

In [96]:
line.endswith('dog')

True

In [97]:
line.startswith('fox')

False

Para remplazar una cadena de texto, usamos el comando `replace`

In [98]:
line.replace('o', '?')


'the quick br?wn f?x jumped ?ver a lazy d?g'

Una opción interesante es particionar una cadena de texto.  

In [99]:
line.partition('fox')

('the quick brown ', 'fox', ' jumped over a lazy dog')

In [100]:
line.split()

['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'a', 'lazy', 'dog']

En caso de imprimir resultados numéricos en formato string, se debe dar formato con el comando `format`. Para una explicación más detallada revisen https://www.w3schools.com/python/ref_string_format.asp

In [101]:
pi = 3.14159
"The value of pi is {}".format(pi)

'The value of pi is 3.14159'

In [102]:
"The value of pi is {0:.2f}".format(pi)

'The value of pi is 3.14'

In [103]:
"""First letter: {0}. Last letter: {1}.""".format('A', 'Z')

'First letter: A. Last letter: Z.'

In [104]:
"""First: {first}. Last: {last}.""".format(last='Z', first='A')

'First: A. Last: Z.'

## Expresiones regulares

Las expresiones son "meta" comandos que permiten identificar palabras, números, espacios o cualquier combinación de estos. 

Esto es útil para identificar patrones particulares en el texto que necesitamos detectar y no queremos hacerlo manualmente. Por ejemplo, cédulas, correos, telefonos, etc. 

No hay forma de aprenderse todos los tipos de comandos en las expresiones regulares. Lo mejor es imprimir un "cheatshet" y tenerlo siempre a mano.https://www.activestate.com/wp-content/uploads/2020/03/Python-RegEx-Cheatsheet.pdf 

En Python, las funciones para trabajar con expresiones regulares están en la libería `re`. 



In [105]:
import re
regex = re.compile(r'\s+')
regex.split(line)

['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'a', 'lazy', 'dog']

Un ejemplo más complejo sería el siguiente. Dado el siguiente texto, cómo detectar todos los emails del texto?

In [106]:
text = "To email Guido, try guido@python.org \
or the older address guido@google.com."


In [107]:
email = re.compile(r'\w+@\w+\.[a-z]{3}')

In [108]:
type(email)

_sre.SRE_Pattern

La explicación es la siguiente: 
- **r** : Es un indicador de "raw string". Permite que todos las expresiones regulares sean ejectudas tal cual fueron introducidas. 
- **\w** : Cualquier caracter alfanúmerico [a-zA-Z0-9]
- **+** : 1 o más ocurrencias de lo anterior. 
- **@** : El carácter @. 
- **\w** :Cualquier caracter alfanúmerico [a-zA-Z0-9]. 
- **+** : 1 o más ocurrencias de lo anterior. 
- **\.** : El carácter ".". Cómo "." tiene un significado especial para las expresiones regulares, entonces se debe indicar como "\.".
- **[a-z]** : Cualquier caracter que sea a,b,c,...,z. 
- **{3}**: Repita la busqueda anterior 3 veces. Es equivalente a poner `[a-z][a-z][a-z]`

In [109]:
email.findall(text)

['guido@python.org', 'guido@google.com']

Con respecto al prefijo `r`, note la diferencia entre estos casos 

In [110]:
print('a\tb\tc')

a	b	c


In [111]:
print(r'a\tb\tc')


a\tb\tc


Otro ejemplo más complejo sería tratar de separar el nombre, el dominio y la terminación de un correo electrónico 

In [112]:
text = "To email Guido, try guido@python.org"\
"or the older address guido@google.com."


In [113]:
email3 = re.compile(r'([\w.]+)@(\w+)\.([a-z]{3})')

Note que la explicación anterior es exactamente la misma, excepto que las partes que nos interesan están encerredas entre paréntesis `()`. 
Esto quiere decir que se van a tratar como objetos diferentes. 

In [114]:
email3.findall(text)

[('guido', 'python', 'org'), ('guido', 'google', 'com')]

Existe un operador en python que permite extraer los resultados y convertirlos en dictionarios 

`(?P<llave>)`

In [115]:
email4 = re.compile(r'(?P<user>[\w.]+)@(?P<domain>\w+)'\
'\.(?P<suffix>[a-z]{3})')

In [116]:
match = email4.match('guido@python.org')
match.groupdict()

{'user': 'guido', 'domain': 'python', 'suffix': 'org'}

**Ejercicio: Traten de modificar la expresión regular para identificar todas los correos del texto**

text = "To email Guido, try guido@python.com or guido@python.co.cr or the older address guido@google.me"