# 2. Python para Data Science

## 2.1 Introducción

Encontramos en Wikipedia la siguiente definición para programación:
> «La **programación informática** o **programación algorítmica**, acortada como **programación**, es el proceso
de diseñar, codificar, [depurar](https://es.wikipedia.org/wiki/Depuraci%C3%B3n_de_programas) y mantener el [código fuente](https://es.wikipedia.org/wiki/C%C3%B3digo_fuente) de [programas computacionales](https://es.wikipedia.org/wiki/Programa_inform%C3%A1tico). El código fuente es
escrito en un lenguaje de programación. El propósito de la programación es crear programas que exhiban un
comportamiento deseado.»

En el contexto de la ciencia de los datos, los ordenadores son máquinas que nos permiten tratar, procesar
y analizar ingentes cantidades de datos. Este tratamiento de la información debe realizarse mediante algún
tipo de conjunto de reglas: el **algoritmo**. Podemos entender los algoritmos como plantillas o «recetas» que se
especifican a la máquina mediante algún lenguaje de programación y que nos permiten tratar la información
de forma inherente a nuestras necesidades. Siguiendo con la metáfora de la receta, imaginad que queremos
preparar un plato de comida y que tenemos todos los ingredientes para ello. Nuestra receta culinaria especificará
en cada paso lo que el incipiente cocinero debe realizar. 

Por ejemplo, para una tortilla:

1. Romper los huevos y batirlos.
2. Poner una sartén al fuego.
3. Cuando la temperatura esté lo suficientemente alta, echar los huevos batidos.
4. Esperar a que cuaje suficiente.
5. Darle la vuelta.
6. Repetir el paso 4 por esta cara.
7. Emplatar nuestra flamante tortilla.

Los problemas que resolveremos mediante un ordenador normalmente tendrán un contexto más numérico, pero
la idea de receta será la misma: un conjunto de instrucciones que se ejecutan desde el principio hasta el final y
que realizan alguna acción. 

Así pues, el **algoritmo** o «receta» para calcular el cuadrado de un número cualquiera sería la siguiente:
1. Representar por pantalla el mensaje «Bienvenido a la calculadora de cuadrados:».
2. Pedir al usuario que introduzca mediante el teclado un número.
3. Guardar este número.
4. Utilizar el número guardado para multiplicarlo por sí mismo.
5. Representar por pantalla el resultado del cálculo del paso 4.
6. Salir del programa.

Especificar a un ordenador las instrucciones que deben ejecutarse en un programa es una abstracción que nos
permiten los lenguajes de programación. En nuestro caso, utilizaremos Python para escribir y ejecutar nuestros
propios programas y así solucionar problemas de *Data Science*.

## 2.2 Breve historia del lenguaje de programación Python

El lenguaje nació de la mano de Guido van Rossum mientras trabajaba en el Centro para las Matemáticas y la
Informática (CWI, Centrum Wiskunde & Informatica) en los Países Bajos, en el año 1989 durante las vacaciones de
Navidad, aunque no fue hasta febrero de 1991 cuando fue publicada su primera versión en [USENET](https://es.wikipedia.org/wiki/Usenet).

[Guido van Rossum](https://gvanrossum.github.io) es, pese al largo recorrido del lenguaje desde entonces, una figura muy relevante en el grupo de usuarios y desarrolladores de Python y es conocido como BDFL (del inglés benevolent dictator for life, dictador vitalicio benevolente) y sus sugerencias en las discusiones en las que interviene son tomadas muy en cuenta respecto a la hoja de ruta del futuro del lenguaje. En la actualidad, la Python Software Foundation (PSF) es la organización encargada de velar por el futuro y la diseminación del lenguaje. 

Como nota divertida, cabe destacar que la relación entre el nombre del lenguaje y la serie de televisión [Monty Python's Flying Circus](https://www.imdb.com/title/tt0063929/) no es una mera coincidencia.

Dos fechas importantes han marcado la historia del lenguaje: el 16 de octubre de 2000, momento en el que la
versión 2.0 fue liberada, y el 3 de diciembre de 2008, cuando lo fue la versión 3.0 del lenguaje.

El lenguaje de programación Python hace especial énfasis en su capacidad para ser leído por otros
programadores. Esta aparente sencillez a la hora de leer código en Python le ha permitido gozar de bastante
popularidad en círculos menos enfocados en el desarrollo puro de software, como puede ser el campo de la
ciencia de datos, en el que confluyen diferentes expertos en distintas disciplinas (matemáticas, estadística, etc.).

Existen documentos de mejora del lenguaje conocidos por sus siglas **PEP-Número** (del inglés Python Enhancement
Proposals) y es, precisamente, en uno de estos documentos, el [PEP20](https://legacy.python.org/dev/peps/pep-0020/), en el que se presenta la filosofía del lenguaje y esta marcada tendencia por la simplicidad, legibilidad y belleza del código en Python:

> ***The Zen of Python***  
>> Beautiful is better than ugly.   
Explicit is better than implicit.  
Simple is better than complex.  
Complex is better than complicated.  
Flat is better than nested.  
Sparse is better than dense.  
Readability counts.  
Special cases aren't special enough to break the rules.  
Although practicality beats purity.  
Errors should never pass silently.  
Unless explicitly silenced.  
In the face of ambiguity, refuse the temptation to guess.  
There should be one-- and preferably only one --obvious way to do it.  
Although that way may not be obvious at first unless you're Dutch.  
Now is better than never.  
Although never is often better than *right* now.  
If the implementation is hard to explain, it's a bad idea.  
If the implementation is easy to explain, it may be a good idea.  
Namespaces are one honking great idea -- let's do more of those!  

Muchos de estos principios en este momento podrán parecer extraños al alumno, pero a medida que se profundiza
en el uso del lenguaje muchos de ellos resultarán habituales a la hora de escribir y leer código en Python.

Por último, es interesante presentar al alumno el término *pythonic* pues aparece en muchas búsquedas en relación
a la sintaxis de Python. Los lenguajes de programación hacen uso habitualmente de estructuras que sirven para
expresar tareas o partes de código en un lenguaje común que no está considerado directamente en la sintaxis
del lenguaje. Este concepto (en inglés *idiom*) está muy extendido en la comunidad de Python y muchas veces se
traduce en mensajes en foros del estilo “which is the most pythonic way to do..?” ('¿cuál es la forma más pythónica de hacer..?'). Se trata de un concepto avanzado, pero que en python resulta especialmente relevante puesto que algunos de estos conceptos han sido implementados en el lenguaje de forma más eficiente y pueden hacer que un código u otro se ejecute de forma más rápida si es más pythónica. Este concepto será ampliado más adelante.

## 2.3 Versiones e intérpretes disponibles

En la actualidad coexisten dos versiones o ramas de desarrollo: las familias 2.7 (hasta final de 2019) y 3.6.x, siendo sus últimas versiones en el momento de redacción de este documento la 2.7.13 y la 3.7.4, respectivamente.

Python es un lenguaje de programación muy vivo y en continua evolución, al que se le van añadiendo y corrigiendo
funcionalidades muy a menudo. La rama de desarrollo 2.7.x es una versión muy madura y estable, pero fue con la
aparición de la versión 3.0 cuando hubo un salto importante en la sintaxis del lenguaje. Por ejemplo, la expresión propia print en la rama 2.7.x pasó a tener forma de función print() en la rama 3.x. Estos cambios no se limitan a correcciones estéticas, sino que se han introducido para mejorar el rendimiento del lenguaje, la organización del código y de las librerías a nivel interno, etc. En resumen, la rama 3.x es el futuro de Python mientras que la rama 2.7.x representaría el pasado del lenguaje.

Sería lógico pensar que la versión utilizada en este curso sea la 3.x. 
La versión 2.7.x ha tenido un amplio recorrido, es madura y existe abundante documentación en foros, aunque el
principal motivo para utilizarla a día de hoy es que muchas librerías importantes a nivel científico aún no han sido traducidas a la versión 3.x de Python, y quizás jamás lo sean. En cualquier caso, todo el material que se presentará en este curso podrá ser fácilmente traducido a la versión 3.x de Python e incluso existen herramientas automáticas para hacerlo.

En cuanto a los intérpretes, el más conocido es la implementación en C llamado [CPython](https://en.wikipedia.org/wiki/CPython), que es el intérprete
del lenguaje Python desarrollado por la comunidad del proyecto de código libre y soportado y dirigido por la Python
Software Foundation. Aunque CPython es la implementación estándar y a día de hoy soporta más plataformas (42
en el momento de redacción de este documento), no es ni mucho menos la única. Otras famosas implementaciones
son [Jython](https://www.jython.org/), escrito en Java y que funciona en la máquina virtual de Java, [PyPy](https://es.wikipedia.org/wiki/PyPy), un intérprete también escrito en C,
pero que pone especial énfasis en el rendimiento y en tratar la concurrencia y el paralelismo de una forma diferente,
IronPython, una implementación del lenguaje para la plataforma .NET, etc.

## 2.4 Sintaxis básica del lenguaje de programación Python

### 2.4.1 Intérprete frente a script

Existen dos formas básicas de ejecutar código en Python:

1. Ejecutar el intérprete de Python desde una terminal.
2. Escribir código Python en un fichero (típicamente con extensión *.py* y que es conocido habitualmente con el
nombre de *script*) y ejecutarlo utilizando el comando:

```
$ python nombre_de_mi_script.py
```

La primera forma es útil para probar comandos del lenguaje Python de forma rápida o simplemente para utilizar
el intérprete como calculadora (probad a escribir la expresión “2+2*5”). La segunda, por el contrario, nos permitirá ejecutar una y otra vez el código contenido en nuestro fichero de script sin tener que escribir en el intérprete el mismo código una y otra vez.

### 2.4.2 Sobre tabuladores y espacios en blanco
En Python, los bloques de código se indican mediante espacios en blanco. Más adelante hablaremos de los
diferentes tipos de bloques de código, pero a modo introductorio utilizaremos el ejemplo siguiente:

In [4]:
def suma(a,b):
    return a+b

print(suma(2,5))

7


En las líneas 1 y 2, definimos mediante la palabra clave **def** una función que recibe como argumentos dos variables de nombre *a* y *b* y que en la línea 2 devuelve la suma de esas dos variables.

En la línea 4, llamamos a esa función suma con los valores 2 y 5, y mediante el comando **print()** escribimos el
resultado que nos aparece por la terminal.

Como se puede observar en la línea 2, la palabra clave **return** se encuentra a cuatro espacios de distancia del
comienzo de la línea anterior (línea 1). Esto es así puesto que estamos definiendo un bloque de código (en otros
lenguajes como C o Java, se utilizan para la definición de bloques de código los caracteres especiales «{» y «}»).

Existen dos posibilidades para definir la *indentación de código* (indentación es un anglicismo y en español
deberíamos utilizar el término sangrado, aunque indentación está ampliamente reconocido por la comunidad
informática): mediante espacios o tabulaciones. Podremos utilizar de forma indistinta una u otra forma, pero siempre
teniendo en cuenta que jamás deberán mezclarse en un mismo fichero de código. Esto es así porque las tabulaciones
no poseen un carácter que las distinga y no suelen presentarse de forma idónea en muchos editores de texto. En
muchas ocasiones, al presionar la tecla «Tab» en una aplicación, este carácter se convierte automáticamente en
un número fijo de espacios en blanco. Por lo tanto, **será recomendable configurar el editor que escojamos para
escribir código en Python de tal forma que el tabulador se traduzca en cuatro espacios en blanco**.

En el documento [PEP 8](https://www.python.org/dev/peps/pep-0008/), que es la guía de estilo que siguen la mayoría de programadores en Python, se detalla
este [aspecto](https://www.python.org/dev/peps/pep-0008/#tabs-or-spaces%29).

### 2.4.3 Guía de estilo

En el apartado anterior se ha tratado la guía de estilo oficial del lenguaje Python, que está disponible en línea como
PEP 8. A modo de resumen, estos son los aspectos básicos que hay que seguir:

1. Las funciones y los nombres de palabras se escribirán en minúscula y los nombres largos que contengan
diversas palabras se unirán mediante el carácter «_».  
2. Los nombres de clases tendrán su letra inicial en mayúscula para diferenciarlas de variables, funciones y
objetos.  
3. Las constantes irán en mayúsculas y separadas por el carácter «_» si contienen diversas palabras.
4. Como ya se comentó en el apartado anterior, no se utilizarán tabuladores, sino que siempre se usarán
cuatro espacios en blanco.

Es muy importante seguir la guía de estilo en esta unidad y en las siguientes, pudiendo verse afectada de forma
muy negativa la nota obtenida si no se sigue la guía de estilo.

### 2.4.4 IPython y Notebook

[IPython](http://ipython.org/) fue originalmente desarrollado como un conjunto de herramientas para facilitar el desarrollo y el
procesamiento de datos en Python a usuarios del mundo científico. La «i» del nombre proviene de interactivo,
puesto que dispone de herramientas que interactúan con el usuario, como son el autocompletado de código, una
ayuda extensa, etc. El [Jupyter Notebook](http://ipython.org/notebook.html), a su vez, es otra herramienta muy útil para la exploración de código,
para representar resultados de forma gráfica, o para el prototipado rápido, etc., todo esto mediante la interacción
vía navegador web (Notebook arranca de forma local un servidor web). Las versiones anteriores de Jupyter
Notebook se conocían como IPython Notebook.