<img src="../files/misc/logo.gif" width=300/>
<h1 style="color:#872325"> Más modulos del <i> standard Library</i></h1>

## Regex

[Regex](https://docs.python.org/3.4/library/re.html#module-re) o *Regular Expression* es un texto que describe un patrón de busqueda dentro de un *corpus* (conjunto de texto). 

Un *regex* nos ayuda a encontrar patrones dentro de un texto tanto para búsqueda como remplazo de texto. En ocasiones, métodos como `str.replace` no son suficientes para un objecivo, en esos casos usamos *regex*.

En Python, la librería para usar *regular expressions* es `re`.

In [1]:
import re

Como un ejemplo para motivar su uso, consideremos el cuento *The Egg* por Andy Weir.

In [2]:
%%bash
head -6 ../files/lec07/egg.txt

The Egg
By: Andy Weir
 
You were on your way home when you died.
It was a car accident. Nothing particularly remarkable, but fatal nonetheless. You left behind a wife and two children. It was a painless death. The EMTs tried their best to save you, but to no avail. Your body was so utterly shattered you were better off, trust me.
And that’s when you met me.


In [3]:
# Leemos cuento y lo guardamos dentro de la variable "egg"
with open("../files/lec07/egg.txt", "r", encoding="utf-8") as f:
    egg = f.read()

Para encontrar un string mediante `re` usamos el método `.search`

In [4]:
re.search(r"human", egg)

<_sre.SRE_Match object; span=(2372, 2377), match='human'>

En ocasiones, encontrar la primera posición de una sola palabra no es suficiente.

<h2 style="color:crimson"> Ejercicio </h2>

¿De qué manera podríamos encontrar cada una de las posiciones de incio del string `humano` usando únicamente Python?
**Hint**: recuerda que el método `.find` toma un argumento opcional con la posición incial de búsqueda dentro del texto; si no existe ningun *match* después de la posición incial, `.find` regresa -1.

ans:
```
[2372, 2653, 4538, 4995, 5350]
```

In [5]:
list(re.finditer("human", egg))

[<_sre.SRE_Match object; span=(2372, 2377), match='human'>,
 <_sre.SRE_Match object; span=(2653, 2658), match='human'>,
 <_sre.SRE_Match object; span=(4538, 4543), match='human'>,
 <_sre.SRE_Match object; span=(4995, 5000), match='human'>,
 <_sre.SRE_Match object; span=(5350, 5355), match='human'>]

### Syntaxis básica de Regex

El verdadero poder de *regex* es poder encontrar patrones de búsqueda sin declarar explícitamente qué es lo que se está buscando. Pensemos, por ejemplo, que quisieramos encontrar dentro de un texto las palabras *niño*, *niña*, *niños* o *niñas*. Hacerlo solamente con python sería una tarea ardua. Con regex, expresar la busqueda de este conjunto de palabras sería de la siguiente manera: `niñ[oa]s?`.

Del ejemplo anterior, `[oa]` expresa un conjunto de donde se elige `a` u `o`; `s?` expresa que `s` es un carácter opcional. Al igual que Python, *regex* tiene una sintáxis. La sintáxis básica es la que sigue:

1. `.` Encuentra cualquier carácter
2. `\s` Cualquier espacio en blanco
3. `\S` Cualquiera que no sea espacios en blanco
4. `\w` Cualquier carácter alfanumérico (`a`,..,`z`,`A`,..,`Z`,`0`,..,`9`)
5. `\W` Cualquier carácter no alfanumérico
6. `(...)` Agrupa términos
7. `(xxx|yyy)` Encuentra `xxx` o `yyy`.
8. `Machines?` `s` es opcional (Encuentra `Machine` o `Machines`)
9. `x*` Encuentra 0 o más repeticiones de `x`: ` `, `x`, `xxxxx...xxx`
10. `x+` Encuentra 1 o más repeticiones de `x`: , `x`, `xxxxx...xxx`
10. `[a-z]` encuentra cualquier letra minúscula (de `a` a la `z`)
11. `x{4}` encuentra exactamente 4 repeticiones de `x`
12. `x{1,4}` encuentra de 1 a 4 repeticiones de `x`
13. `x{2, }` encuentra 2 o más repeticiones de `x`
14. `^smth` encuentra `smth` al principio del string.
15. `x[^abc]` encuentra cualquier conjunto de caracterés que no contenga ninguna `a`, `b` o `c` como segunda posicion. E.g., `xd`, `xe`, `x.`, `x-`
16. `(?:aaa|bbb)` agrupa `aaa` o `bbb` sin regresarlo como un patrón encontrado. *capture but don't retrieve*.

#### Dos Funciones de `re`
`re.search(patron, string)`: Regresa la primera ocurrencia de buscar `patron` dentro de `string`. Regresa `None` si no encuentra.

`re.findall(patron, string)`: Regresa una lista de todas ocurrencias en `string` buscando `patron`.

`re.sub(patron, remplazo, string)`

In [6]:
# '.' Encuentra cualquier caracter.
re.search(r"The E..", egg)

<_sre.SRE_Match object; span=(0, 7), match='The Egg'>

In [7]:
# Encuentra cualquier letra en a,..,z que se repita de 1 a 4 veces y
# termine en `ed`
re.search(r"[a-z]{1,4}ed", egg)

<_sre.SRE_Match object; span=(59, 63), match='died'>

In [8]:
# Encuentra cualquier 'I' seguido de un espacio y cualquier conjunto 
# de letras miúsculas (al menos una). El patrón se pierde apenas se encuentre
# con cualquier carácter no dentro [a, b, ..., z]
re.search(r"I\s(?:[a-z]|’)+", egg)

<_sre.SRE_Match object; span=(422, 428), match='I said'>

In [9]:
# '[xy]aaa' Encuentra 'xaaa' o 'yaaa'.
re.search(r"[Yy]ou\s\w+", egg)

<_sre.SRE_Match object; span=(24, 32), match='You were'>

In [10]:
# Encuentra 'kids' o 'kid'
re.search(r"kids?", egg)

<_sre.SRE_Match object; span=(511, 514), match='kid'>

In [11]:
# Encuentra todo conjunto de palabras cuya linea empiece
# con 'You', 'I'; seguido de, al menos uno de: un carácter que se repita
# al menos una vez luego de un espacio; finalizando con un punto '.'
re.findall(r"^(?:You|I)\s(?:[a-z]+\s?)+\.", egg, re.M)

['You were on your way home when you died.',
 'You looked around.',
 'You looked at me with fascination.',
 'You followed along as we strode through the void.',
 'I stopped walking and took you by the shoulders.',
 'I looked you in the eye.',
 'You stared blankly at me.',
 'You fell silent.',
 'You thought for a long time.']

In [12]:
text = "It was the best of times, it was the worst of times, it was the age of wisdom."
re.sub("[aeiou]", "*", text)

'It w*s th* b*st *f t*m*s, *t w*s th* w*rst *f t*m*s, *t w*s th* *g* *f w*sd*m.'

<h2 style="color:crimson">Ejercicios</h2>

1. Dado el string `S1 = "aaa aba aca a.a a+a aaa"`, encuentra todas las ocurrencias de conjunto de carácteres cuyo primer y tercer es `a` y el segundo carácter, ningun espacio en blanco o `a`

2. Lee el archivo `../files/lec07/all_words.txt` y considera el diccionario `labels` 
```python
labels = {'pos': ['afoot', 'catfoot', 'dogfoot', 'fanfoot', 'foody', 'foolery', 'foolish', 'fooster',
                  'footage', 'foothot', 'footle', 'footpad', 'footway', 'hotfoot', 'jawfoot', 'mafoo',
                  'nonfood', 'padfoot', 'prefool', 'sfoot', 'unfool'],
          'neg': ['Atlas', 'Aymoro', 'Iberic', 'Mahran', 'Ormazd', 'Silipan', 'altared', 'chandoo',
                  'crenel', 'crooked', 'fardo', 'folksy', 'forest', 'hebamic', 'idgah', 'manlike',
                  'marly', 'palazzi', 'sixfold', 'tarrock', 'unfold']}
```
Crea un programa usando regex que encuentre todas las palabras dentro de `pos` y ninguna de `neg`.
3. Dada la variable `egg`, encuentra todas las frases que contengan `I’m ` seguido de una palabra con, al menos, 2 letras.

4. Lee el archivo `../files/lec07/mails.txt`, encuentra el nombre del usuario para cada mail y guardalo en una lista(Si, por ejemplo, el mail es `"g.duran@me.com"`, el programa debería regresar `"g.duran"`).
```python
from string import punctuation
```
para resolver el problema
5. Encuentra todas las ocurrencias dentro de la variable `egg` que empiecen con `the` ó `The` seguido de cualquier número de número de palabras y termine con `of`. E.g., `the meaning of`, `The grand adventures of`, `the big parade of`.

## Collections

El módulo [collections](https://docs.python.org/3.6/library/collections.html#collections.Counter) implementa colecciones especializadas como alternativa a las incluidas en Python: `dict`, `list`, `set` y `tuples`. 

### Counter

In [13]:
from collections import Counter

In [14]:
c1 = Counter("aabbbddccd")
c1

Counter({'a': 2, 'b': 3, 'd': 3, 'c': 2})

In [15]:
# Cada elemento dentro de un Counter se indexa como un diccionario
# cuya llave es el elemento seleccionado y el valor el número de
# veces que dicha llave apareció en el iterable
c1["z"]

0

In [16]:
# Encontramos todas las ocurrencias dentro de la variable 'egg'
# que contengan 'I', 'You' o 'you' seguido de un espacio y cualquier conjunto 
# de, por lo menos, dos letra minúsucula de la 'a' a la 'z'
you_i_verbc = Counter(re.findall("((?:[Yy]ou|I)\s[a-z]{2,})", egg))
you_i_verbc.most_common(5)

[('I said', 14),
 ('you said', 6),
 ('You asked', 5),
 ('you were', 2),
 ('You looked', 2)]

<h2 style="color:crimson">Ejercicio</h2>
1) Encuentra las palabras que más se repitan dentro de `egg`. Para esto, convierte cada letra a minúscula y valida tu resultado parcialmente:

```python
>>> all_words["you"]
66
>>> all_words["what"]
11
>>> all_words["you’re"]
10
>>> all_words["i’m"]
7
```

### defaultdict
Un `defaultdict` es un pseudo-diccionario de Python que nos permite manipular la entrada de cualquier nuevo elemento en el diccionario sin necesidad de declararlo como nuevo explicitamente.

In [17]:
from collections import defaultdict

In [18]:
# Supongamos queremos crear un diccionario llamado 'instrumentos'
# con tipos y subtipos  de instrumentos financieros, donde cada
# tipo de instrumentos es la llave y cada subtipo una lista.
# Al querer agregar un nuevo subtipo de instrumentos'opciones', por ejemplo,
# a la lista de derivados, tendríamos que asegurar que la llave a la que pertenece
# aún no existe.
instrumentos = {}
if "derivados" not in instrumentos.keys():
    instrumentos["derivados"] = []
    instrumentos["derivados"].append("opciones")
instrumentos

# Este problema se vuelve más complejo cuando tomamos en cuenta que
# 'derivados' no es el único tipo de instrumento.

{'derivados': ['opciones']}

Una solución al problema anterior se logra mediante un `defaultdict` inicializado como una lista.

In [19]:
instrumentos = defaultdict(list)

instrumentos["derivados"].append("opciones")
instrumentos["derivados"].append("forwards")
instrumentos["derivados"].append("swaps")
instrumentos["deuda"].append("bonosM")
instrumentos["deuda"].append("cetes")
instrumentos["bursatil"].append("aapl")
instrumentos["bursatil"].append("goog")

instrumentos

defaultdict(list,
            {'derivados': ['opciones', 'forwards', 'swaps'],
             'deuda': ['bonosM', 'cetes'],
             'bursatil': ['aapl', 'goog']})

<h2 style="color:crimson">Ejercicio</h2>

Usando un `defaultdict` llamado `aapl_movements`, lee el archivo `../files/lec07/AAPL.json`, calcula los rendimientos diarios y cuenta los días en los que `AAPL` tuvo un rendimiento negativo usando la llave `neg` y una llave `pos`, la cual cuente los días en los que `AAPL` tuvo un rendimiento positivo.

Recuerda cargar la libreria `json` y usar la función `json.load` para cargar los datos del archivo `AAPL.txt`.

Los datos que nos interesan se encuentran dentro de la llave inicial `"Time Series (Daily)"` y, para cada fecha, la llave `"5. adjusted close"`

In [20]:
from collections import namedtuple

In [21]:
Instrumento = namedtuple("Instrumento", ["nombre", "tipo", "mesa"])
i1 = Instrumento(nombre="Asian", tipo="opcion", mesa="dermx")

In [22]:
i1

Instrumento(nombre='Asian', tipo='opcion', mesa='dermx')

In [23]:
i1.nombre, i1.mesa

('Asian', 'dermx')

## Datetime 

In [24]:
from datetime import datetime

In [25]:
start_date = datetime(2016, 6, 23)

In [26]:
# Devuelve la fecha de la semana como un entero donde lunes es 0 y domingo 6
start_date.weekday()

3

In [27]:
start_date.year, start_date.month, start_date.day

(2016, 6, 23)

Dando formato a las fechas. Documentación en:

https://docs.python.org/3/library/datetime.html?highlight=datetime#strftime-and-strptime-behavior

In [28]:
print(start_date.strftime("%m %d %Y"))

06 23 2016


In [29]:
start_date.strftime("%A, %B %d %Y")

'Thursday, June 23 2016'

In [30]:
from datetime import timedelta

In [31]:
duracion = timedelta(days=255)
duracion

datetime.timedelta(255)

In [32]:
maturity = start_date + duracion
maturity.strftime("%A, %B %d %Y")

'Sunday, March 05 2017'

In [33]:
# De formato a fecha
fecha = "2012.12.25"
datetime.strptime(fecha, "%Y.%m.%d")

datetime.datetime(2012, 12, 25, 0, 0)

In [34]:
datetime.strptime("12/25/10", "%m/%d/%y")

datetime.datetime(2010, 12, 25, 0, 0)

<h3 style="color:crimson"> Ejercicio </h3>

1. Crea la función `timestep(init_date, n)` tal que, dada una fecha inicial y $n$ días de duración, calcule la fecha hábil final corriendo la fecha un día después al final de $n$ días si  cae en una fecha inhábil o en fin de semana. Para lograr esto, lee el archivo `../files/lec07/holidays.txt`

Considera cualquier fecha entre 1/1/10 y 12/25/50.

```python
>>> timestep(datetime(2009, 12, 31), 1)
datetime.datetime(2010, 1, 4, 0, 0)

>>> timestep(datetime(2009, 12, 31), 2)
datetime.datetime(2010, 1, 4, 0, 0)

>>> timestep(datetime(2017, 12, 26), 4)
datetime.datetime(2018, 1, 2, 0, 0)

>>> timestep(datetime(2018, 2, 19), 2)
datetime.datetime(2018, 2, 21, 0, 0)
```

2. Usando el archivo `6m_rates.csv`, crear el diccionario `tasas` donde las llaves sean las fechas (`datetime.datetime`) y los valores (`float`) las tasas a esa fecha.
```python
>>>tasas[datetime(2017, 2, 1)]
2.58
>>>tasas[datetime(2013, 4, 1)]
1.9
```

3. Crear una función `tasa_compuesta` que, para una tasa nominal fija compuesta $n$ veces en un año, calcule el valor del nominal para cada periodo $k = 0,\ldots, n$. 
```python
def tasa_compuesta(inicio_periodo, nominal, tasa_nominal, n_periodos, path="."):
    pass
```
La función debe regresar un archivo `.csv` de nombre `cap_n.csv`; donde `n` es el número de veces de capitalización en un año.

## OS

In [35]:
import os

In [36]:
os.listdir(".")

['lec08.ipynb',
 'lec04.ipynb',
 'lec06.ipynb',
 'lec02.ipynb',
 '.ipynb_checkpoints',
 'lec07.ipynb',
 'lec05.ipynb',
 'lec01.ipynb',
 'lec03.ipynb']

In [37]:
os.path.abspath("..")

'/Users/gerardoduran/Dropbox (Personal)/Analysic-Nabla/proyectos/cursos/python101'

In [38]:
os.mkdir("test_folder")

In [39]:
ls

lec01.ipynb  lec03.ipynb  lec05.ipynb  lec07.ipynb  [1m[36mtest_folder[m[m/
lec02.ipynb  lec04.ipynb  lec06.ipynb  lec08.ipynb


In [40]:
os.removedirs("test_folder/")