# Capítulo 1: un padawan de Python
_Del curso "Python y Machine Learning: de 0 a 100 con Reinforcement Learning"_ <br/>
_Impartido por MalagaAI, [Andrés Matesanz][mate] y [Joaquín Terrasa][quim]_ <br/>
_24 de Marzo de 2020_ <br/>

Duración estimada: **2 horas** en streaming.

---
<br/>

> DISCLAIMER: No soy un maestro de Python. Además, ten en cuenta que este es el primer curso de Python y RL. ¡Eres beta-tester! 😝 <br/>
> DISCLAIMER 2: Todos los bloques tienen recursos para seguir avanzando (bien en castellano o inglés)

<br/>

**Hey!** Antes de comenzar, tienes 3 modos de obtener este *notebook*. 

1. A través de GitHub, en el repositorio [@espetro/pyCourse](). Duplicas el repositorio (bien descargas el `.zip` o ejecutas `git clone`) y usas el *notebook* en local.
2. A través de Google Colab, siguiendo [este enlace](https://colab.research.google.com/).
3. Otra alternativa para no iniciar sesión es usar Binder: [aquí el enlace](https://mybinder.org/).

<br/>

<img src="https://i.imgur.com/yAwThCj.jpg" width="30%" style="margin-left:25em"/>

Espero que todo funcione 🤞🤞

<br/>

---

<br/>

En la anterior clase pudimos iniciarnos con Python, el lenguaje más *cool* del último lustro. Supiste cómo instalar Python, qué es Anaconda y para qué puede sernos útil, y empezaste a programar en Python.

En este bloque, entenderás mejor por qué Python está partiendo la pana. Verás conocimientos fundamentales para cualquier desarrollador Python, y en concreto, iremos orientándonos a ser desarrollador Python para Machine Learning.


Como quizás ya sepas, Python no solo se usa para Machine Learning. Pero... ¿y por qué se usa?

[mate]: https://www.linkedin.com/in/aimatesanz/
[quim]: https://www.linkedin.com/in/quinoterrasa/

### Por qué usamos Python

<img src="https://i.imgur.com/Xt1NL3Y.png" width="60%"/>

<br/>

Creo que este punto es importante porque, por un lado, **te hace mejor programador**, al razonar los motivos por los que programas en `X` y no solo porque *mi empresa o universidad trabaja con X*; y por otro lado, puedes lograr a **aprovechar las ventajas** del lenguaje que usas.

+ Es un lenguaje enfocado en la **legibilidad**, trabajando con un gran subconjunto de palabras del inglés. De esta manera, proporciona un <u>balance justo entre productividad y mantenimiento</u>
> Fíjate! En Python no usamos corchetes `{}` para definir funciones ni bucles

<br/>

+ Es un lenguaje **multiparadigma**, por lo que permite programar usando distintos modelos de programación, como el *orientado a objetos* o *funcional*. Además, es un lenguaje **tipado dinámicamente**, aunque deja abierta la posibilidad de tiparlo estáticamente.
> Fíjate! Al contrario que en Java o C, para guardar un número entero, no tienes que asignarle el tipo `int`. Por suerte, **sí está fuertemente tipado**, lo que hace que no puedas, por ejemplo, sumar `1 + "1"`, cosa que sí ocurre en JavaScript. <br/>
> En concreto, Python usa algo llamado [duck typing][duck]: *si se parece a un pato y hace 'quack' como un pato, entonces es un pato*

<br/>

+ Tiene una **librería estándar robusta**, lo que permite desarrollar nuevas librerias de manera más sencilla. Además, cuenta con una **gran comunidad** por detrás, lo que ayuda al mantenimiento y adaptación del lenguaje.
> Fíjate! El lenguaje es de código abierto, por lo que [es la comunidad la que propone cambios][peps].

<br/>

+ Por último, tiene gran cabida en la gran mayoría de plataformas, como ya pudisteis comprobobar en el anterior capítulo 😉 Si bien es cierto que no es tan rapido como C o C++, la posibilidad de compilar en tiempo de ejecución y de poder ejecutar algunas tareas en C o C++  mejora bastante su rendimiento.
> Fíjate! Python es uno de los lenguajes base de las distribuciones Linux, estando presente también en MacOS.

<br/>


Por ésto y por otras cosas, es porque está en varios rankings ([PYPL][pypl], [TIOBE][tiobe]) como uno de los lenguajes más populares.

---

[pypl]: http://pypl.github.io/PYPL.html
[tiobe]: https://www.tiobe.com/tiobe-index/
[peps]: https://www.python.org/dev/peps/
[duck]: https://hackernoon.com/python-duck-typing-or-automatic-interfaces-73988ec9037f

### Micro apunte sobre ayuda

De aquí en adelante veremos algunos bloques teóricos y prácticos complejos. En Python, puedes usar **`help()`** sobre cualquier variable, palabra predefinida u objeto para obtener más información.

In [62]:
help(None)

Help on NoneType object:

class NoneType(object)
 |  Methods defined here:
 |  
 |  __bool__(self, /)
 |      self != 0
 |  
 |  __repr__(self, /)
 |      Return repr(self).
 |  
 |  ----------------------------------------------------------------------
 |  Static methods defined here:
 |  
 |  __new__(*args, **kwargs) from builtins.type
 |      Create and return a new object.  See help(type) for accurate signature.



Otro recurso útil a la hora de aprender es conocer las **palabras reservadas** de Python - ésto podemos revisarlo de manera sencilla, y nos servirá para aprender para qué se usa cada palabra:

In [2]:
import keyword

print(keyword.kwlist)

['False', 'None', 'True', 'and', 'as', 'assert', 'async', 'await', 'break', 'class', 'continue', 'def', 'del', 'elif', 'else', 'except', 'finally', 'for', 'from', 'global', 'if', 'import', 'in', 'is', 'lambda', 'nonlocal', 'not', 'or', 'pass', 'raise', 'return', 'try', 'while', 'with', 'yield']


También vale la pena conocer las **funciones incluidas** ([*built-in functions*][built]) en Python, las cuales puedes usar sin tener que importar ningún paquete:

[built]: https://docs.python.org/3/library/functions.html

In [25]:
import builtins
print(dir(builtins))



Por último pero no menos importante, habrá ocasiones donde necesites más funcionalidades que las que te da Python de entrada. Una de las mejores cosas de Python es su **libreria estándar**, la cual contiene (en la versión 3.7) [**un total de $211$ módulos**][std], entre los que podemos encontrar:

+ `re`: para tratar con expresiones regulares.
+ `datetime`: para tratar con formatos de fecha y hora.
+ `socket`: para conexiones de red a bajo nivel.
+ `random`: para generar números aleatorios.
+ `tkinter`: para crear GUIs (*graphical user interface*).
+ `os`: para interactuar con el sistema. Contiene a su vez los módulos `sys` y `path`.
+ `pickle`: para [*serializar*][serlz] objetos.

[std]: https://docs.python.org/3.7/library/index.html
[serlz]: https://es.wikipedia.org/wiki/Serialización

### Micro apuntes sobre formateo de texto

Podemos formatear el texto en Python de varias maneras. Veamos cuáles hay:

In [44]:
print("Hoy es", 24, "de Marzo de", 2020)           # sintaxis clasica
print("Hoy es %d de Marzo de %d" % (24, 2020))     # sintaxis similar a C (printf, sprintf)
print("Hoy es" + " 24 " + "de Marzo de" + " 2020") # sintaxis similar a Java (System.out.print)
print("Hoy es {} de Marzo de {}".format(24, 2020))

dia, anyo = 24, 2020
print(f"Hoy es {dia} de Marzo de {anyo}")          # sintaxis similar a JS ES6 y Bash [solo disponible a partir de 3.6]

Hoy es 24 de Marzo de 2020
Hoy es 24 de Marzo de 2020
Hoy es 24 de Marzo de 2020
Hoy es 24 de Marzo de 2020
Hoy es 24 de Marzo de 2020



### Micro recordatorio del capítulo 0: Tipos de datos

¿Recuerdas los tipos de datos principales que dimos en el capítulo 0?

<img src="https://i.imgur.com/cCJ7SSD.png" width="60%"/>

Todos estos tipos se pueden comprobar con la función `type()`. Además, hay que tener en cuenta otros tipos fundamentales:

+ ¿Conoces `null`? En Python no existe, pero tenemos **`None`**, cuyo tipo es `NoneType`.

+ Toda clase que creemos se considera un tipo nuevo. Por ello, toda instancia del objeto es del tipo de la clase.
> Si tenemos una clase `Persona` y una instancia/objeto `pepe = Persona(edad=32, altura=180)`, `type(pepe)` es `Persona`

+ Además, en Python [**todas las funciones son objetos**][f]. Esto se conoce como *First-Class Functions* y permite, entre otras cosas, usar las variables como parámetros para las funciones, y almacenar las funciones en bases de datos.

Podeis ver todos los tipos [aquí][t].

#### Cómo comprobar la equivalencia de tipos y datos en Python

Muy simple: en vez de usar `==`, en Python podemos usar `is` (la cual también podemos usar para comprobar equivalencia de datos):

```python
lista1 = [1, 3, "5", 7, "9", None]

filtrar_errores = [x for x in lista1 if x is not None]

sumar_dos = [x + 2 for x in filtrar_errores if x is int]

print(sumar_dos)

# tambien podemos usar "is" para
temp_var = 10 // 2
if temp_var is 5:
    print("Perfecto! No usaremos mas '=='")
```

¿Qué nos dará?

[f]: https://dbader.org/blog/python-first-class-functions
[t]: https://docs.python.org/3.7/library/types.html

In [50]:




class Persona:
    def __init__(self, edad, altura):
        self.edad = edad
        self.altura = altura
    
    def info(self):
        print(f"Mi edad es {self.edad} y mi altura es {self.altura}")
        
pepe = Persona(32, 180)
type(pepe)

__main__.Persona

In [48]:
type(pepe.info)

method

In [49]:
type(Persona.info)

function

In [18]:
import re
type(re)

module

In [16]:
type((x for x in range(10)))

generator

In [46]:
type([x for x in range(10)])

list

In [51]:
type(None)

NoneType

---

## Python ¿estáticamente tipado? 😱😱

¡Sí sí sí! [**Aquí teneis la chuleta**][chuleta]. Realmente el tipado es estático, si no que se comprueba antes de que sea ejecutado, algo así [como pasa con JavaScript y TypeScript][ts]. Esta posibilidad **se introduce en [Python 3.5][pep484]** y se mejora en las siguientes versiones.

Usaremos el [módulo `typing`][typing] para ello

[why]: https://wiki.python.org/moin/Why%20is%20Python%20a%20dynamic%20language%20and%20also%20a%20strongly%20typed%20language
[duck]: https://realpython.com/lessons/duck-typing/
[chuleta]: https://www.pythonsheets.com/notes/python-typing.html
[ts]: https://www.typescriptlang.org/docs/handbook/typescript-in-5-minutes.html
[pep484]: https://www.python.org/dev/peps/pep-0484/
[typing]: https://docs.python.org/3/library/typing.html

In [92]:
from datetime import datetime as dtime

class Persona:
    duracion_anyo: int = 365
    
    def __init__(self, nombre: str, altura: float, fecha_de_nacimiento: str):
        self.nombre = nombre
        self.altura = altura
        self.fecha_de_nacimiento = dtime.strptime(fecha_de_nacimiento, "%Y-%m-%d")
        
    def wave(self):
        diferencia = dtime.now() - self.fecha_de_nacimiento
        edad_actual = diferencia.days // Persona.duracion_anyo
        
        print(f"Mi nombre es {self.nombre}, tengo {edad_actual} años y mido {self.altura} cms.")

In [93]:
# Necesitamos insertar la fecha en el formato "YYYY-MM-DD" ! 
Quino = Persona("Quino", "181", "1996-11-11")

Quino.wave()

Mi nombre es Quino, tengo 23 años y mido 181 cms.


---

## *Si quieres ir rápido, programa solo. Si quieres llegar lejos, programa con los demás*

*Worst translation ever, but the point is*: **Documenta y testea**. Esto no es algo unico de Python, pero hacemos énfasis porque en Python prima la **legibilidad**.


In [50]:
class Persona:
    """Permite representar personas físicas"""
    def __init__(self, nombre, edad, altura):
        """Documentacion al estilo de R docstrings
        
        @param nombre: el nombre de la persona
        @param edad: su edad
        @param altura: su altura, en centrimetros
        """
        self.nombre = nombre
        self.edad = edad
        self.altura = altura
    
    def info(self):
        """Dibuja la información de la persona por pantalla"""
        print(f"Mi edad es {self.edad} y mi altura es {self.altura}") # es preferible este 'print' a
        # print("Mi edad es %d y mi altura es %.2f" % (self.edad, self.altura))

__main__.Persona

#### Crea código legible

Es lo que llaman *el Zen de Python*. Es [uno de los primeros PEP][pep20] creados y sintetiza las ideas para crear codigo legible.

```md
Lo explícito es mejor que lo implícito.
Lo plano es mejor que lo enrevesado.
Los errores nunca deberían de ser silenciados.
Ahora es mejor que nunca.
```

Otro de los PEP fundamentales [se centra en la guía de estilo para Python][pep08]: el **PEP8 es una de las guías fundamentales** para estandarizar codigo en Python.

[pep20]: https://www.python.org/dev/peps/pep-0020/
[pep08]: https://www.python.org/dev/peps/pep-0008/

#### Documenta

Tanto si es para desarrollar herramientas más complejas por ti mismo como si estás participando en un proyecto con otros desarrolladores, documentar "correctamente" es esencial. Python tiene su propia guía de estilo para la documentación, **basada en reStructuredText y condensada en el [PEP287][pep287] y [PEP257][257]**. En Python, los llamamos ***docstrings***.

De manera simple, reStructuredText es un lenguaje de texto enriquecido que compila a HTML. Veámoslo:

[pep287]: https://www.python.org/dev/peps/pep-0287/
[257]: https://www.python.org/dev/peps/pep-0257/

In [150]:
def saludar(nombre=None, entusiasmadamente=False):
        """Saluda a una persona, con fuerza o no.

        Parametros
        ----------
        nombre : str, obligatorio
            El nombre de la persona a saludar
        entusiasmadamente: bool, opcional
            Elige si saludar con fuerza o no

        Lanza
        ------
        TypeError
            Si el nombre es None
        """

        if nombre is None:
            raise TypeError("El nombre es None")

        exclamacion = ["", "!"][entusiasmadamente]  # equivalente a un operador ternario ?: (no recomendable! haz un 'if-else'. Esto no es tan legible)
            
        print("Hola Don Pepito! Hola Don {}{}".format(nombre, exclamacion))
        
saludar("Jose", True)
saludar("Jose", False)

Hola Don Pepito! Hola Don Jose!
Hola Don Pepito! Hola Don Jose


> Fíjate! Una de las mejores maneras de documentar código en Python es **asignar correctamente los nombres** a funciones y variables temporales. Ten en cuenta el estilo de Python: `estoNoEstaFino`, `esto_si_es_mejor`

👉 [más info](https://realpython.com/documenting-python-code/) 👈

#### Pruebas de código

Este tema es algo más extenso, así que te daré una idea general. Realmente es algo que se hace a nivel de aplicación, cuando ya estás programando en un IDE (entorno de desarrollo), ya que en Jupyter no es del todo útil.

La idea fundamental consiste en probar todos los casos posibles de entrada y salida para tu programa, con el fin de **comprobar si tu programa tiende a producir errores**. Además, existe la posibilidad de **simular el funcionamiento de tu programa incluso antes de haberlo programado**, lo que nos ayuda a centrarnos en módulos específicos que necesitan más atención y cuidado.


+ Unit Testing: Se centra en comprobar que cada bloque (funciones, clases, etc.) funcionan como está previsto. Python incluye la libreria estándar `unittest`, así como la palabra reservada `assert`.

+ *Test-Driven Development* (*TDD*): es una metodología de programación que <u>se centra en realizar primero los tests, para asegurar cómo debe funcionar el programa</u>, para acto seguido implementarlo.

+ *Mocking* (Simulacion): permite simular módulos de tu app que aún no has desarrollado o sobre los que no tienes control. Un paquete bastante usado es `mock`.

+ Cobertura: facilita el comprobar si todos los bloques de código tiene pruebas de código.

👉 [más info para *mocking*](https://inlab.fib.upc.edu/es/blog/testing-y-mocking-en-python) 👈

👉 [más info para *unit testing*](https://parzibyte.me/blog/2019/06/11/unit-testing-python-realizar-pruebas-codigo/) 👈

👉 [más info para *cobertura*](https://alvaromonsalve.com/2019/01/26/test-unitarios-y-cobertura-de-codigo-en-python/) 👈

👉 [más info para *TDD*](https://www.hektorprofe.net/tutorial/ejemplo-muy-facil-tdd-python) 👈

#### Generación de errores

Como hemos podido ver antes, para lanzar excepciones o errores en Python usamos la palabra `raise`, y podemos *capturar* o controlar los errores con `try` / `except`

In [153]:
raise Exception("boomboclat")

Exception: boomboclat

In [152]:
try:
    raise Exception("boomboclat")
except Exception as e:
    print("No pasa nada mi gente, todo controlado")
    print(e)

No pasa nada mi gente, todo controlado
boomboclat


#### Depuración de errores

La depuración de errores o ***debugging*** nos permite **controlar momentáneamente el flujo del programa para detectar errores en tiempo de ejecución**. De esta manera, podemos capturar y tratar errores que ni el compilador ni las herramientas externas nos permiten detectar.

+ **En Python**: Normalmente, corre a cargo del compilador, del IDE y de *linters*. **A partir de la versión 3.7, se puede usar la función `breakpoint()`.**
> <img src="https://i.imgur.com/VDh1ztl.png" width="40%"/> <br/>
> En la mayoría de IDEs o entornos de desarrollo, puedes marcar con un 🔴 en la barra lateral los *puntos de interrupción o "breakpoints"* cuando se ejecute el script

In [21]:
valor_externo = range(10)  # nos llega desde otro script o programa en red
valor_actual = [1.5, 2.0]

breakpoint()  # podemos leer y modificar datos durante la interrupcion
print(valor_actual + valor_externo)  # queremos unir listas. ¿se podra?
breakpoint()

--Return--
> <ipython-input-21-ceaa32e5db2a>(4)<module>()->None
-> breakpoint()


(Pdb)  valor_externo


range(0, 10)


(Pdb)  valor_actual


[1.5, 2.0]


(Pdb)  print("No podremos :(")


No podremos :(


(Pdb)  valor_externo = list(valor_externo)
(Pdb)  continue


[1.5, 2.0, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
--Call--
> c:\users\pachacho\miniconda3\envs\pycourse\lib\site-packages\ipython\core\displayhook.py(252)__call__()
-> def __call__(self, result=None):


(Pdb)  continue


+ **En Jupyter**, podemos usar el *magic* `pdb`, que activa la depuracion si y solo si un error ocurre. Tenemos que desactivarlo manualmente:

In [22]:
%pdb

Automatic pdb calling has been turned ON


In [23]:
# podemos leer y modificar datos durante la interrupcion
valor_externo = range(10)  # nos llega desde otro script o programa en red
valor_actual = [1.5, 2.0]

print(valor_actual + valor_externo)  # queremos unir listas. ¿se podra?

TypeError: can only concatenate list (not "range") to list

None
> [1;32m<ipython-input-23-eccb4e3aff7d>[0m(5)[0;36m<module>[1;34m()[0m
[1;32m      1 [1;33m[1;31m# podemos leer y modificar datos durante la interrupcion[0m[1;33m[0m[1;33m[0m[1;33m[0m[0m
[0m[1;32m      2 [1;33m[0mvalor_externo[0m [1;33m=[0m [0mrange[0m[1;33m([0m[1;36m10[0m[1;33m)[0m  [1;31m# nos llega desde otro script o programa en red[0m[1;33m[0m[1;33m[0m[0m
[0m[1;32m      3 [1;33m[0mvalor_actual[0m [1;33m=[0m [1;33m[[0m[1;36m1.5[0m[1;33m,[0m [1;36m2.0[0m[1;33m][0m[1;33m[0m[1;33m[0m[0m
[0m[1;32m      4 [1;33m[1;33m[0m[0m
[0m[1;32m----> 5 [1;33m[0mprint[0m[1;33m([0m[0mvalor_actual[0m [1;33m+[0m [0mvalor_externo[0m[1;33m)[0m  [1;31m# queremos unir listas. ¿se podra?[0m[1;33m[0m[1;33m[0m[0m
[0m


ipdb>  print("Salta cuando algo da error")


Salta cuando algo da error


ipdb>  valor_externo


range(0, 10)


ipdb>  valor_externo = list(valor_externo)
ipdb>  continue


In [24]:
%pdb

Automatic pdb calling has been turned OFF


👉 [más info](https://docs.python-guide.org/writing/tests/) 👈

---

## Librerias de cálculo computacional

Python es muy popular para Machine Learning. Algunas de las librerias más conocidas son `numpy`, `pandas`, `matplotlib`, `scikit-learn`, `scipy`, y algunas orientadas a redes neuronales, como son `tensorflow` o `pytorch`.

### Numpy

Numpy es el paquete de **computación numérica** más usado de Python. Proporciona una infinidad de estructuras de datos y funciones que permiten el manejo masivo de datos. Es rápido gracias a que ejecuta C por debajo (como si no 😉), y **permite realizar operaciones entre conjuntos grandes de datos**, con un estilo similar a lo que se puede hacer en <u>Matlab y R</u>. Veamos un ejemplo:

In [45]:
lista1 = [1,2,3]
lista2 = [0,0,0]

lista1 + lista2

[1, 2, 3, 0, 0, 0]

No era lo esperado, ¿no?

En `numpy`, **la estructura básica es el array**, que es el "equivalente" a la lista en Python. Al igual que una lista, puede tener 1 o más dimensiones y puede tener varios tipos de datos alojados, aunque lo más frecuente es que solo tenga un tipo.

Aún así, **la estructura más comun es el nd-array o array multidimensional**, pues permite almacenar datos en varios niveles de organización.

In [48]:
import numpy as np

lista1 = np.array([1,2,3])
lista2 = np.array([0,0,0])

lista1 + lista2

array([1, 2, 3])

La mayoría de funciones para crear estructuras de datos, necesitan conocer la **forma** de la matriz que queremos generar. Entendemos que <u> una lista de N valores es una matriz $1 \times N$ o bien $N \times 1$</u>

In [59]:
matriz_cuadrada = (4,4)  # siempre se usan tuplas!

ceros = np.zeros(matriz_cuadrada)
matriz_identidad = np.identity(4)  # las matrices identidades siempre son cuadradas

print(matriz_identidad + ceros)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


In [56]:
np.identity(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [68]:
np.empty((3, 3))

array([[0.00000000e+000, 0.00000000e+000, 0.00000000e+000],
       [0.00000000e+000, 0.00000000e+000, 7.13430793e-321],
       [8.70018274e-313, 2.31297541e-312, 0.00000000e+000]])

In [70]:
np.ones((2,2))  # fijate en los parentesis de la tupla!
# np.ones(2,2)  # da error!

array([[1., 1.],
       [1., 1.]])

In [93]:
arr0 = np.array([0.2, 0.4, 0.6])
print(f"arr0.shape = {arr0.shape}")  # por que??

arr0.shape = (3, 1)

print("\n", arr0)
print("\n", arr0.transpose())

arr0.shape = (3,)

 [[0.2]
 [0.4]
 [0.6]]

 [[0.2 0.4 0.6]]


In [74]:
arr1 = np.array([1,2,3])
arr2 = np.array([4,5,6])

print(f"[arr1; arr2] = \n{np.vstack([arr1, arr2])}")

[arr1; arr2] = 
[[1 2 3]
 [4 5 6]]


In [101]:
arr3 = np.array([1,2,3])
arr3.shape = (3, 1)
arr4 = arr3 + .5

print(f"[arr3 arr4] = \n{np.hstack([arr3, arr4])}")

[arr3 arr4] = 
[[1.  1.5]
 [2.  2.5]
 [3.  3.5]]


In [102]:
np.mean(arr1)

2.0

In [111]:
print(f"sum({list1}) = {sum(list1)}")
print(f"np.sum({arr1.transpose()}) = {np.sum(arr1)}")

sum([1, 2, 3]) = 6
np.sum([[1 2 3]]) = 6


Una característica fundamental de `numpy` es el ***broadcasting*** o "propagación", que asegura la posibilidad de realizar operaciones aritmeticas (suma o multiplicacion) entre matrices que, bien no tienen las mismas dimensiones, pero son *compatibles*. Veámoslo:

<img src="https://i.imgur.com/6JjFuXp.png" width="40%"/>

Si quieres saber más de `numpy`, te recomiendo el siguiente enlace:

👉 [más info](https://claudiovz.github.io/scipy-lecture-notes-ES/intro/numpy/index.html) 👈

### Pandas

`pandas` es **la libreria estrella cuando hablamos de ciencia de datos en Python**. En cierto modo, trata de traer a Python las **tablas de R o `data.frame`s** (*df* pa' los amigos), algo así como una matriz con esteroides.

<img src="https://media.geeksforgeeks.org/wp-content/uploads/finallpandas.png" width="40%"/>
<br/>

`pandas` permite leer y modificar conjuntos de datos (*datasets*) de manera sencilla, usando una sintaxis similar a `numpy` para el manejo de matrices. Además, proporciona utilidades para el manejo de ficheros, asi como para detectar datos "vacíos" y calcular valores acumulados.

<br/>
<img src="https://i.imgur.com/gjh6p6T.png" width="60%"/>


In [112]:
import pandas as pd
import seaborn as sns  # ejecuta la cápsula de abajo y vuelve a ejecutar ésto!

ModuleNotFoundError: No module named 'seaborn'

In [113]:
# si escribes "!" al principio de la linea, puedes llamar a programas y comandos del shell / linea de comandos (ya sea shell, bash, cmd o Powershell)
!pip install seaborn

Collecting seaborn
  Downloading seaborn-0.10.0-py3-none-any.whl (215 kB)
Collecting scipy>=1.0.1
  Downloading scipy-1.4.1-cp37-cp37m-win_amd64.whl (30.9 MB)
Collecting matplotlib>=2.1.2
  Downloading matplotlib-3.2.1-cp37-cp37m-win_amd64.whl (9.2 MB)
Collecting cycler>=0.10
  Downloading cycler-0.10.0-py2.py3-none-any.whl (6.5 kB)
Collecting kiwisolver>=1.0.1
  Downloading kiwisolver-1.1.0-cp37-none-win_amd64.whl (57 kB)
Collecting pyparsing!=2.0.4,!=2.1.2,!=2.1.6,>=2.0.1
  Downloading pyparsing-2.4.6-py2.py3-none-any.whl (67 kB)
Installing collected packages: scipy, cycler, kiwisolver, pyparsing, matplotlib, seaborn
Successfully installed cycler-0.10.0 kiwisolver-1.1.0 matplotlib-3.2.1 pyparsing-2.4.6 scipy-1.4.1 seaborn-0.10.0


In [115]:
import pandas as pd
import seaborn as sns

# otra manera es cargarlo directamente
# iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
iris = sns.load_dataset('iris')
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [121]:
print(f" Tipo: {type(iris)}\n Columnas: {list(iris.columns)}\n")

 Tipo: <class 'pandas.core.frame.DataFrame'>
 Columnas: ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'species']



In [129]:
iris[1:4] # seleccionar una o mas filas [inicio, final)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa


In [130]:
iris["species"] # seleccionar columna

0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: species, Length: 150, dtype: object

In [131]:
iris.loc[1:4, "species"]  # seleccionar un subconjunto del dataframe [inicio, final]

1    setosa
2    setosa
3    setosa
4    setosa
Name: species, dtype: object

In [132]:
iris.iloc[1:4, 4]  # seleccionar un subconjunto del dataframe, escogiendo la columna por su posicion [inicio, final)

1    setosa
2    setosa
3    setosa
Name: species, dtype: object

> Fíjate! Si al final del comentario ves *\[inicio, final)*, es porque el ultimo indice no se extrae (ej. 1:4 solo extrae las filas 1,2,3)

In [138]:
iris.shape

(150, 5)

In [140]:
iris[iris["species"] == "virginica"].head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
100,6.3,3.3,6.0,2.5,virginica
101,5.8,2.7,5.1,1.9,virginica
102,7.1,3.0,5.9,2.1,virginica


In [141]:
iris.dropna().shape  # por suerte este dataset nos lo dan limpito :)

(150, 5)

In [142]:
iris.groupby("species").mean()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.428,1.462,0.246
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


In [143]:
iris["sepia_Length"] = iris["sepal_length"] / iris["sepal_width"]
iris.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,sepia_Length
0,5.1,3.5,1.4,0.2,setosa,1.457143
1,4.9,3.0,1.4,0.2,setosa,1.633333
2,4.7,3.2,1.3,0.2,setosa,1.46875


In [145]:
iris.rename(columns = { "sepia_Length": "borra_esta" }, inplace=True)  # ojito! Algunas funciones devuelven una copia del df modificado
iris.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,borra_esta
0,5.1,3.5,1.4,0.2,setosa,1.457143
1,4.9,3.0,1.4,0.2,setosa,1.633333
2,4.7,3.2,1.3,0.2,setosa,1.46875


Ten en cuenta que, al igual que con el manejo de BBDD, **una función poco eficiente para filtrar varias tablas puede significar 2h más** esperando.

De cara al tratamiento de datos, hay una forma bastante popular en la comunidad de R llamada [***tidy data***](https://es.r4ds.hadley.nz/datos-ordenados.html) ("datos organizados"). Esta metodología se centra en usar un cjto. de verbos para referirnos a la modificación de datos (algo parecido a prog. funcional).

👉 [más info](https://tomaugspurger.github.io/modern-5-tidy.html) para aprender más de *tidy data* 👈

👉 [más info](https://likegeeks.com/es/tutorial-de-python-pandas/) para aprender más de `pandas` 👈

---

## Progamación funcional

La programación funcional es un **paradigma de la programación**, basada en el *lambda calculus*. Realmente ya has dado algo de programación funcional en Python, aunque no te hayas dado cuenta. Las *listas por comprensión* (`[x for x in range(10)]`) y la compilación perezosa de funciones es algo ímplicito en el lenguaje. Además, podemos ver otras características de lenguajes funcionales en Python.

Como antes comentamos, las funciones son *ciudadanos de primera clase* en Python. Ésto también se conoce como <u>funciones de alto orden</u>: virtualmente, toda función puede <u>ser usada como parámetro de otra función o devolver otra función</u>. Este último concepto, el de devolver otra función, también se conoce como <u>funciones parciales</u>, porque se aplican *parcialmente*.

Muchas de las utilidades funcionales están ya incluidas (*built-in*), en la libreria estándar [*functools*][functools] o en  [*itertools*][itertools] (para generar, por ejemplo, secuencias infinitas).

[functools]: https://docs.python.org/3.7/library/functools.html
[itertools]: https://docs.python.org/3.7/library/itertools.html

### Funciones parciales

La idea principal es que **toda función $A$ con $N$ parámetros devuelve otra función $B$ con $N-1$ parámetros**, donde $B$ **tiene un estado interno diferente a $A$**. Ésto quiere decir que, al igual que las clases, las funciones pueden mantener un estado interno (como la referencia *self* en las clases!). Un ejemplo clásico es el cálculo del [número n de *fibonacci*][fib]:

$f_{0}=0\,$

$f_{1}=1\,$

$f_n = f_{n-1} + f_{n-2}$

[fib]: http://www.pythondiario.com/2018/08/sucesion-de-fibonacci-con-python.html

In [17]:
def configurar_fib():
    a, b = 0, 1  # mantenemos un estado interno en la función. Esto se conoce como "memoization"
    def fib(n):
        if n == 0:
            return a
        elif n == 1:
            return b
        else:
            return fib(n-1) + fib(n-2)
    return fib
        
fib = configurar_fib()

[fib(x) for x in range(13)]

[0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144]

Existen dos maneras de crear funciones parciales en Python. La primera es hacerlo explícitamente:

In [8]:
def sumar_cantidad(cantidad):
    def sumar(otro_elemento):
        return otro_elemento + cantidad
    
    return sumar

sumar_dos = sumar_cantidad(2) # creas una funcion aplicada parcialmente

print(f"2 + 4 = {sumar_dos(4)} | 10 + 2 = {sumar_dos(10)}")

2 + 4 = 6 | 10 + 2 = 12


Otra manera es usar el método `partial`:

In [9]:
from functools import partial

def sumar(a, b):
    return a + b

sumar_dos = partial(sumar, b=2)  # hay que nombrar los parametros que vamos a "sobrescribir"

print(f"2 + 4 = {sumar_dos(4)} | 10 + 2 = {sumar_dos(10)}")

2 + 4 = 6 | 10 + 2 = 12


Existen, además, conceptos relacionados, como la [*currificación*][curry] o las [clausuras][cl].

👉 [más info sobre funciones parciales](https://rico-schmidt.name/pymotw-3/functools/index.html) 👈

👉 [más info sobre *memoization*](https://code-examples.net/es/q/1e58c4) 👈

[curry]: https://www.campusmvp.es/recursos/post/Que-es-la-Currificacion-en-programacion-funcional.aspx
[cl]: https://blog.ch3m4.org/2013/10/25/clausuras-en-python-parte-1/

### Map, Filter, Reduce y Zip

El **lenguaje funcional** permite una **abstracción** a la hora de **modificar estructuras de datos**. En vez de pensar cómo cambiar una estructura, como hacemos con un bucle `for`, **pasamos a pensar qué queremos cambiar**. Esto nos ahorra, por ejemplo, errores de acceso a memoria.

Vamos a dar **4 funciones fundamentales de los lenguajes funcionales**:

+ `map` permite <u>aplicar</u> a cada elemento de una estructura, <u>una función</u>. Por ejemplo, podemos sumar 1 a todos los elementos de una lista:


In [14]:
list1 = [1,2,3]

def mas1(valor):
    return valor + 1

list(map(mas1, list1))

[2, 3, 4]

+ `filter` permite <u>seleccionar</u> los elementos de una estructura que cumplan la función usada. Por ejemplo, podemos escoger solo los numeros pares de una lista:

In [16]:
def esPar(valor):
    return valor % 2 == 0

list(filter(esPar, list1))

[2]

+ `reduce` permite <u>reorganizar</u> una estructura A para obtener otra estructura B. Normalmente, se usa para condensar estructuras complejas y conseguir estructuras mas simples, con valores acumulados. Por ejemplo, podemos sumar todos los elementos de una lista para obtener un valor total (una estructura más simple):

In [18]:
from functools import reduce

def sumar(valor1, valor2):
    # ojito! Ten en cuenta que, para 'reduce' el valor se acumula en el segundo (2do) valor
    return valor1 + valor2

reduce(sumar, list1)

6

+ `zip` permite <u>agrupar</u> varias estructuras $A_x$ en una sola estructura $B$. La estructura $B$ está <u>formada por tuplas de los elementos de las estructuras $A_x$</u>. Por ejemplo, podemos agrupar los nombres y alturas de personas en una sola lista:

In [20]:
nombres = ["Quino", "Andres", "Fernando"]
altura = [181, 178, 180]

list(zip(nombres, altura))

[('Quino', 181), ('Andres', 178), ('Fernando', 180)]

¿Por qué ocurre ésto? ¿Por qué hay que usar `list`? Respuesta: generadores (mira más abajo) 👇

In [21]:
print(map(mas1, lista1))
print(filter(esPar, lista1))
print(zip(nombres, altura))

<map object at 0x0000022FD5D08A08>
<filter object at 0x0000022FD5D085C8>
<zip object at 0x0000022FD5D089C8>


Estas ideas se aplican en estructuras de procesamiento de datos a gran escala, como es ***MapReduce***:

<img src="https://i.imgur.com/MCee3gs.jpg" width="70%"/>

### Más listas por comprensión

+ Una manera directa de definir un diccionario es usar una sintaxis similar a la que usamos para listas por comprensión

In [8]:
keys = ["nombre", "altura", "esJoven"]
values = ["quino", 180, True]
#
dict1 = dict(nombre="quino", altura=180, esJoven=True)
dict2 = {"nombre": "quino", "altura": 180, "esJoven": True}  # al estilo JSON / JavaScript
dict3 = { key: value for (key, value) in zip(keys, values) }
print(dict3)

{'nombre': 'quino', 'altura': 180, 'esJoven': True}


+ También están los *generadores*, algo fundamental para lenguajes como Haskell. Es como una lista, pero <u>no calcula todos los valores de la lista al momento</u>. Para obtener todos los valores, simplemente usa `list()`:

In [22]:
lista1 = list(range(10))
print(lista1)

generador1 = range(10)
print(generador1)

generador2 = (x ** 2 for x in [1,2,3])
print(generador2)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
range(0, 10)
<generator object <genexpr> at 0x0000022FD5C6E9C8>


### Inmutabilidad de datos

Los llamados **lenguajes funcionales puros** es un sub-paradigma que se centra en que <u>el resultado de cualquier función dependa únicamente en los parámetros que le pasas</u>, es decir, si ejecutas 2 veces una función con los mismos parámetros, ambas ejecuciones te devolverán lo mismo. Por ello, si usamos <u>variables mutables</u>, puede pasar esto:

```python
from random import randint

def agrega_numero(lista):
    lista.append(randint(0, 1e4))
    return lista

x = list()
agrega_numero(x) # ¿Que devuelve?
agrega_numero(x) # ¿Que devuelve?
```

👆 ahí vemos que **Python no es puramente funcional** (ni queremos 😛).

Si ya conoces algun lenguaje con variables inmutables, sabrás que (en general) tienen mejor rendimiento que los lenguajes que no: Clojure, Haskell, Scala, Rust... Las ventajas de las estructuras inmutables, es que proporcionan **paralelismo de datos**, **mayor seguridad** y **código más simple**.

<u>Algunas estructuras inmutables en Python son las tuplas, los sets "congelados" (*frozenset*), `range` y los tipos básicos (int, float, ...)</u>

👉 [más info][info] 👈

👉 [¿algo práctico?](https://www.youtube.com/watch?v=xJCPpDlk9_w) 👈

[info]: https://medium.com/dailyjs/the-state-of-immutability-169d2cd11310


In [34]:
v1 = (1, True)
v1[0] = 3

TypeError: 'tuple' object does not support item assignment

In [35]:
values = ("tomeu", 180, 25, "ingles c1")
my_var = frozenset(values)
my_var

frozenset({180, 25, 'ingles c1', 'tomeu'})

### Funciones anónimas o *lambda*

<img src="https://i.imgur.com/IkMaR4v.png" width="35%"/>

Si has usado JavaScript, Haskell, Java 8+, ... conocerás las funciones anónimas. Éstas permiten **definir una función de un solo uso en una sola línea**. Digamos que las funciones que usamos, por ejemplo, para el `map` (`mas1(valor)`) solo la usamos ahí. ¿Por qué definir una función nueva, si simplemente puedes hacer...

In [38]:
list1 = [1,2,3]

# def mas1(valor):
#     return valor + 1

list1_mas1 = map(lambda valor: valor + 1, list1)
list(list1_mas1)

[2, 3, 4]

👉 [más info](https://towardsdatascience.com/python-lambda-function-b6e1fa3420c1) 👈

### *Lazy evaluation*

Quizás ya te hayas preguntado <u>por qué Python compila código que no es correcto</u>, siempre que esté dentro de funciones o clases. Ésto es porque **Python usa evaluación perezosa** dentro de funciones. Esta funcionalidad no solo está en la evaluación de funciones, sino también en algo llamado **generadores**.

Básicamente, Python permite **compilar una función cuando es declarada** y solo **comprobar si está correctamente definida cuando se ejecuta al menos una vez**.

👉 [más info](https://swizec.com/blog/python-and-lazy-evaluation/swizec/5148) 👈

In [43]:
def esto_no_hace_nada(illo):
    asdlkjqwelkj

In [44]:
esto_no_hace_nada(1)

NameError: name 'asdlkjqwelkj' is not defined

In [30]:
generador_1 = range(10)
generador_2 = enumerate([10,20,30])
generador_3 = reversed([10,20,30])

print(generador_1, type(generador_1))
print(generador_2, type(generador_2), list(generador_2))
print(generador_3, type(generador_3), list(generador_3))


range(0, 10) <class 'range'>
<enumerate object at 0x000002365B9B9818> <class 'enumerate'> [(0, 10), (1, 20), (2, 30)]
<list_reverseiterator object at 0x000002365BE53248> <class 'list_reverseiterator'> [30, 20, 10]


### En resumen

La programación funcional es una baza a tener en cuenta, si queremos crear **programas deterministas**, es decir, cuyos resultados no puedan tener *efectos colaterales* sea cual sea el conjunto de datos de entrada.

In [1]:
datos_json = {"nombre": "Jorge", "edad": 24, "altura": 180, "profesion": "marketing"}

datos_json["nombre"] #ok! pero y si...
datos_json["Nombre"]

KeyError: 'Nombre'

In [6]:
datos_json.get("Nombre", "te has equivocao de clave :P")

'te has equivocao de clave :P'

---

## Y de aquí.. ¿a Pekín?

Creo que el contenido del capítulo ya es suficientemente denso como para seguir avanzando, así que dejo unos cuantos recursos por si quereis seguir avanzando:

### Extras

+ Expresiones Regulares. Si no sabes lo que son, [Mozilla tiene un artículo muy bueno](https://developer.mozilla.org/es/docs/Web/JavaScript/Guide/Regular_Expressions) (practica con [RegExr, es genial!](https://regexr.com/)). En Python funcionan [de otro modo](http://buhoprogramador.com/entrada/10/expresiones-regulares-en-python). Para más avanzados, [aquí](https://www.pythonsheets.com/notes/python-rexp.html).

+ Descubre la 🧙‍magia 🧙‍ dentro de Jupyter. Explora sus *magics*, como `%time`, `%timeit` o `%matplotlib` [aquí](https://ipython.readthedocs.io/en/stable/interactive/magics.html).

+ Cómo funciona la Lectura/Escritura de archivos. Más [aquí](https://pythonista.io/cursos/py101/escritura-y-lectura-de-archivos).

+ Ligeramente ligado con lo anterior, y sobre todo con estructuras de datos, están los **generadores**. [En este artículo](https://alvarohurtado.es/2013/08/31/generadores-en-python/) tienes una explicación de qué son y para qué sirven. Para avanzados: [aquí](https://www.pythonsheets.com/notes/python-generator.html).

+ Los **decoradores** son algo muy interesante, algo único de Python. Es algo que me estoy mirando recientemente y permiten, además de mejorar la documentación de tu código, pre-procesarlo para poder añadir funcionalidades extras. Algo así **como las macros de Excel o Rust**. Para iniciarte: [aquí](https://codingornot.com/python-que-es-un-decorador). Para avanzados: [aquí](https://realpython.com/primer-on-python-decorators/).

+ [Este artículo](https://blog.adrianistan.eu/cosas-no-sabias-python) repasa algunos conceptos ya vistos de manera más profunda.

+ **Para los usuarios de Windows**, recomiendo mirar el [*WSL o Windows Subsystem for Linux*](https://ubunlog.com/wsl-como-instalar-y-usar-el-susbistema-ubuntu-en-windows-10/), el cual permite ejecutar sistemas Linux como Ubuntu o Debian dentro de Windows (al más puro estilo Docker).

¿Un consejo? Busca código donde se use lo que menciono; **lo más útil** es que puedas ver **cuándo y por qué se usan** las distintas ***features* del lenguaje** - **y por qué no usarlas si no es necesario**.

### Plataformas para practicar

<img src="https://i.imgur.com/3PHSZV5.png" width="60%"/>

+ [Codewars](https://www.codewars.com/) permite practicar tus conocimientos de programación entorno a varios problemas - todo problema puedes resolverlo en más de 20 lenguajes: Python, Haskell, Java, ...

+ Otras plataformas como [Exercism](https://exercism.io/) o [Leetcode](https://leetcode.com/) se centran en *tracks* o cursos completos, que tratan temas como Algoritmia, problemas de decisión o búsqueda.

+ Incluso Google ofrece [un curso de Python](https://developers.google.com/edu/python). De cara a los próximos capítulos, [**recomiendo este libro sobre Python y Data Science**](https://jakevdp.github.io/PythonDataScienceHandbook/), totalmente gratuito de manera online.

De todas formas, ésto solo es un pequeño grano en el mar de recursos que hay. Te recomiendo que hagas [una búsqueda en GitHub](https://github.com/search?q=python), o [pruebes en PyPi](https://pypi.org/).

### Cosillas feas de Python

+ **La cantidad de versiones**: si acabas de llegar a Python y te encuentras con alrededor de 8 versiones, tu cabeza hace 🤯🤯 incluso peor, es cuando tienes que usar Python2 y Python3 a la vez, pues tienes que operar como si fuesen dos lenguajes distintos. Ésto también se acentua cuando trabajas por proyecto (menos mal que existe Anaconda y PyEnv 🥳)

+ **La dificultad para hacer concurrencia** (ésto es algo avanzado): Python tiene varias implementaciones, y *CPython*, la más usada, implementa [una estructura, llamada *GIL*, que obliga a correr Python en un solo procesador](https://hackernoon.com/concurrent-programming-in-python-is-not-what-you-think-it-is-b6439c3f3e6a).

+ Las implementaciones completamente hechas en Python tienden a ser lentas, comparadas con C / C++ o Rust.


---

Licencia: [GNU GPLv3](https://www.tiobe.com/tiobe-index/) 2020