# Introducción a la programación en Python

Python es un lenguaje de programación. En los _notebooks_ previos, casi todo el trabajo que hemos realizado es prácticamente interactivo, aunque en un par de ocasiones nos hemos visto obligados a utilizar funciones o bucles.

En este _notebook_ aprenderemos los rudimentos de la programación en Python, comenzando con tipos de datos y terminando con la definición de funciones simples.

In [None]:
import pandas as pd

## Tipos de datos

### _Strings_

Vamos a ver una serie de funciones útiles para operar con _strings_, i.e., texto, en Python. Las operaciones básicas con cadenas son las de concatenar, partir en _tokens_, buscar y reemplazar.

Las operaciones con cadenas de texto en Python son similares a las de otros lenguajes de programación.

`len()` nos devuelve la longitud (número de caracteres) de la cadena de texto:

In [None]:
len('Python')

Las cadenas de texto también se pueden _seccionar_ usando los corchetes:

In [None]:
a = 'Python'
b = a[2:4]
b

Para separar una cadena por uno o varios caracteres, creando una lista con el resultado, usamos `split()`

In [None]:
profesiones = 'analista,consultor informático,jefe de proyecto'.split(',')
profesiones

La operación complementaria a `split()` es `join()`, que une los elementos de una lista en una cadena de texto

In [None]:
','.join(profesiones)

Aunque también se puede concatenar usando `+` entre dos cadenas de texto:

In [None]:
my_file = 'procesar.py'
print('Error en el programa ' + my_file)

**Nota:** si usas `+` entre una cadena de texto y un tipo diferente de dato, fallará. Por ejemplo, `3 + ' €'` es incorrecto. En su lugar, convierte el tipo de dato antes, haciendo: `str(3) + ' €'`.

`strip()` elimina espacios en blanco delante y detrás

In [None]:
'    hola '.strip()

`lower` y `upper` pasan todo a minúsculas o mayúsculas

In [None]:
'pyThon'.lower()

Si tenemos una cadena de texto que puede ser transformada a entero, podemos usar `float()` para decimales e `int()` para enteros

In [None]:
n = float('3.1416')
print(n, type(n))

In [None]:
n = int('531')
print(n, type(n))

`replace()` sustituye trozos de cadenas por otros

In [None]:
'Hola NOMBRE'.replace('NOMBRE', 'paquito')

#### Ejercicio

Sobre el siguiente DataFrame, crea dos columnas separadas, una para el importe (que sea float) y otra para la divisa (que sea cadena de texto)

In [None]:
importes = pd.DataFrame({'importe_divisa': ['592,50 EUR', '690,10 USD', '2951 GBP']})
importes

### Expresiones regulares

Tanto en Python como en casi todos los lenguajes de programación, trabajar _en serio_ con cadenas de texto implica usar [_expresiones regulares_](https://es.wikipedia.org/wiki/Expresi%C3%B3n_regular). Las expresiones regulares permiten buscar patrones en texto, reemplazar y realizar muchas operaciones avanzadas sobre cadenas de caracteres.

Consulta [esta guía](https://www.dataquest.io/blog/regex-cheatsheet/) acerca del uso de las expresiones regulares en Python.

In [None]:
import re

#### Búsqueda

`re.findall` sirve para encontrar todas las subcadenas que coinciden con un patrón.

Por ejemplo, si queremos encontrar todos los números de un texto:

In [None]:
cadena = 'Compra de 13 bolígrafos y 200 folios'
re.findall(r'[0-9]+', cadena)

O todos los emails:

In [None]:
cadena = 'To: lola@dominio.com; Cc: rosa.garcia@otracosa.com; From: ana_perez@blabla.es'
re.findall(r'[0-9a-z._]+@[0-9a-z._]+', cadena)

#### Sustitución

`re.sub` sustituye un patrón por una cadena de texto. Se suele utilizar para:

* Eliminar o reemplazar partes no deseadas del texto
* Quedarnos solo con la parte que nos interesa

Además, esta función nos permite meter en el reemplazo partes del texto original. Esto lo podemos hacer gracias a la selección de grupos.

Un ejemplo para eliminar partes no deseadas habitual es buscar los números decimales separados por comas, utilizando grupos para seleccionar la parte entera y la decimal:

In [None]:
cadena = '13 bolígrafos, precio: 10,25€. 200 folios, precio 4,35€'
re.sub(r'([0-9]+)\,([0-9]+)€', r'\1.\2€', cadena)

Y otro ejemplo, para quedarnos solo con la parte que nos interesa. Para eliminar lo _no interesante_ tendremos que hacer que nuestra expresión regular haga match con la cadena entera. Esto lo podemos conseguir jugando con `^` (inicio de candea), `$` (final de cadena) y wildcards como `.` (hace match con cualquier carácter).

En este caso, queremos quedarnos solo con el email. Vamos a usar dos trucos:

* Seleccionar en un grupo la parte con la que nos queremos quedar en la cadena
* Hacer match con el resto, para eliminarlo al reemplazar

In [None]:
cadena = 'Ana Pérez, 42 años, ana_perez@blabla.es, ingeniera aeroespacial'
re.sub(r'^.*([0-9a-z._]+@[0-9a-z._]+).*$', r'\1', cadena)

¡Tenemos un problema! Las expresiones regulares son hambrientas de izquierda a derecha. Como el patrón `.*` también hace match con el principio del email, se lo come. Esto se suele solucionar forzando un parón entre el patrón hambriento y el que queremos que haga match realmente.

Vamos a pararlo con un conjunto _inverso_ al que tiene que hacer match. Para hacer el conjunto inverso, utilizamos `[^...]`.

In [None]:
cadena = 'Ana Pérez, 42 años, ana_perez@blabla.es, ingeniera aeroespacial'
re.sub(r'^.*[^0-9a-z._]([0-9a-z._]+@[0-9a-z._]+).*$', r'\1', cadena)

#### Ejercicio

Con expresiones regulares, realiza los siguientes ejercicios:

Sobre la cadena `'30 del 04 para el 2018'`, extrae:

* Todos los números de forma independiente. Es decir, resultará una lista con 3, 0, 0, 4, ...
* Todos los números de forma consecutiva. Es decir, resultará una lista con 30, 04, 2018.
* Extrae las palabras de `'30 del 04 para el 2018'`. Saldrá del, para, ...
* Extrae el último número consecutivo. Saldrá 2018.
* Transfórmala para convertirla a formato ISO (es decir, yyyy-mm-dd)

### Listas

Las listas son contenedores de valores. Pueden ser de diferentes tipos de dato, aunque generalmente se usan para datos homogéneos (p.e., una lista de números).

Las operaciones que se realizan más habitualmente con listas son:

* Extrer elementos (p.e., los 10 primeros o los 5 últimos).
* Añadir y borrar elementos.
* Concatenar listas (con `+`)
* Ordenar listas
* Operaciones _funcionales_ clásicas:
    * Map: aplicar una función a cada elemento
    * Reduce: obtener un agregado (longitud, suma, media, etc.)
    * Filter: obtener una sublista a partir de otra dada de acuerdo con algún criterio

Ejemplo de creación de una lista

In [None]:
precios = [2300, 1942, 3455, 4100, 600, 1230]
precios

Para conocer la longitud de la lista, utilizamos `len`

In [None]:
len(precios)

Para extrar un elemento en una determinada posición, ponemos entre corchetes el índice

In [None]:
precios[2]

Si usamos índices negativos, extraemos elementos contando desde la derecha (-1 es el último elemento)

In [None]:
precios[-4:-2]

Para extraer un rango:

In [None]:
precios[:3]

Algunas funciones estadísticas como `min`, `max` y `sum` vienen cargadas por defecto. Con el paquete `statistics`, además, podemos calcular medianas, medias, etc. sobre una lista.

In [None]:
min(precios)

In [None]:
from statistics import mean, median

mean(precios)

Para evaluar si un elemento está contenido en una lista, usaremos `in` o `not in`

In [None]:
600 in precios

Para añadir un nuevo elemento, usamos `append` (esta función es _inplace_, es decir, modifica el objeto en lugar de devolver una nueva lista)

In [None]:
precios_2 = precios.copy()
precios_2.append(650)
precios_2

**Nota:** Existe un módulo de Python, `numpy` que implementa sus propias listas (o `arrays`), más orientadas al cálculo numérico y matricial que son extensiones de estas listas genéricas. A su vez, las columnas de un `DataFrame` de `pandas` son extensiones de los `arrays` de `numpy`.

#### List comprehensions

Son una forma concisa de iterar y operar sobre listas que combinan las operaciones _map_ y _filter_.

In [None]:
[f'{precio} €' for precio in precios]

**Nota:** fíjate en como funciona `f''`. Sirve para crear cadenas de texto mezclando texto normal y valor de variables

También permiten filtrar elementos añadiendo un bloque con `if`

In [None]:
[f'{precio} €' for precio in precios if precio > 2000]

Por lo indicado más arriba, las _list comprehensions_ funcionan también sobre columnas de `DataFrames`:

In [None]:
alquiler = pd.read_csv('dat/alquiler-madrid-distritos.csv', index_col=False)

alquiler["precio_90_m"] = [90 * precio for precio in alquiler.precio]
# Nota: lo mismo puede obtenerse haciendo, como antes,
# alquiler["precio_90_m"] = 90 * alquiler.precio

alquiler["trimestre"] = [str(ano) + "Q0" + str(quarter) 
                         for ano, quarter in alquiler[['ano', 'quarter']].values]

alquiler.head()

#### Ejercicio

Crea una lista que contenga las palabras de `frase` que tengan una longitud de más de 5 caracteres.

In [None]:
frase = 'Estoy en el curso de python para ciencia de datos'

#### Ejercicio

Elimina las vocales de la frase anterior

#### Ejercicio

Calcula la lista de los cuadrados de:

In [None]:
lista = [2, 3, 5, 7]

### Diccionarios

Los diccionarios son una colección de elementos clave-valor:

In [1]:
poblacion = {'Moratalaz': 95000,
             'Centro': 150000,
             'Barajas': 46000}
poblacion

{'Moratalaz': 95000, 'Centro': 150000, 'Barajas': 46000}

Para acceder a un elemento, podemos usar:

* Los corchetes
* La función `get`

La diferencia es que get devuelve None en lugar de lanzar un error en caso de que la clave no exista

In [None]:
poblacion['Barajas']

In [None]:
poblacion.get('Tetuan')

#### Dict comprehensions

Es el equivalente de las list comprehensions en diccionarios

In [2]:
# Atención al .items() para poder iterar sobre clave y valor en el dict

{distrito: (valor / 1000) for distrito, valor in poblacion.items()}

{'Moratalaz': 95.0, 'Centro': 150.0, 'Barajas': 46.0}

#### Ejercicio

A partir del diccionario `precios_por_distrito`, crea un diccionario donde la clave sea el distrito y el valor, otro diccionario con dos elementos: el precio mínimo (la clave será `minimo`) y el máximo (con clave `maximo`).

In [None]:
import pandas as pd

venta = pd.read_csv('dat/venta-madrid-distritos.csv', index_col=False)
venta = venta[venta.precio.notnull()]
precios_por_distrito = venta.groupby('distrito').precio.apply(lambda precios: precios.tolist()).to_dict()
precios_por_distrito

## Fechas

En Python existen dos tipos de datos para tratar las fechas:

* `date` si son referencias sin hora
* `datetime` si incluyen la hora

Podemos crearlas de la siguiente forma

In [3]:
from datetime import date, datetime

fecha = date(2019, 1, 30)
fecha

datetime.date(2019, 1, 30)

In [4]:
fecha_hora = datetime(2019, 3, 30, 14, 35, 59)
fecha_hora

datetime.datetime(2019, 3, 30, 14, 35, 59)

Podemos convertir (o truncar si aplica) una fecha más hora a solo fecha con `.date()`

In [5]:
fecha_hora.date()

datetime.date(2019, 3, 30)

Tenemos dos funciones para pasar de cadena de texto a fecha y al revés:

* `datetime.strftime()`: de fecha a cadena de texto (la f es de format)
* `datetime.strptime()`: de cadena de texto a fecha (la p es de parse)

In [6]:
fecha.strftime('%Y-%m-%d')

'2019-01-30'

In [7]:
fecha_hora.strftime('%Y-%m-%d %H:%M:%S')

'2019-03-30 14:35:59'

Los símbolos que puedes usar los puedes consultar [aquí](http://strftime.org/)

#### Ejercicio

Formatea fecha_hora con formato 12 horas en lugar de 24 e indicando si es AM o PM

#### Ejercicio

Parsea a fecha:

* `'20/05/2018'`
* `'2018-05-20'`

Podemos sumar o restar periodos (p.e. días) con `timedelta`

In [None]:
from datetime import timedelta

fecha + timedelta(days=5)

## Funciones

Durante el desarrollo de este curso, hemos definido varias funciones `lambda`. Son funciones pequeñas, típicamente _oneliners_, pensadas para hacer operaciones simples en una línea. Pero frecuentementese se hace necesario desarrollar transformaciones más complejas.

Comenzaremos viendo cómo definir funciones y, después, cómo añadirles expresiones de control de código.

### Definición de funciones

La definción de una función comienza con `def` y termina con `:`. El cuerpo de la función está indentado y la definción de la función termina ahí donde termina la indentación. De hecho, en Python los bloques de código no están definidos, como en otros lenguajes con `{}` o bloques `BEGIN...END` sino por la indentación (que es obligatoria).

In [None]:
def formatea_precio(precio, simbolo):
    precio_string = str(precio)
    return precio_string + simbolo

formatea_precio(2500, ' $')

Una función que devuelva un resultado necesita obligatoriamente terminar con una expresión `return`. Si se omite, devolverá `None`.

### Bucles

Los bucles son similares a los de muchos otros lenguajes. Como en la definición de las funciones, el bloque de código que sigue a la expresión `for` está indentado.

In [None]:
for precio in precios:
    print(formatea_precio(precio, ' $'))

Las _list comprehensions_ evitan la necesidad de construir muchos bucles.

#### Ejercicio

Usa un bucle que devuelva el mismo resultado que la siguiente compresión de lista:

```
[f'{precio} €' for precio in precios]
```

**Nota:** es importante que el resultado sea una lista con los elementos esperados. Es decir, no vale simplemente imprimir sus elementos con `print`. Repasa la sección de listas para ver cómo crear una vacía e ir añadiendo elementos.

### Expresiones condicionales

Como en casi todos los lenguajes de programación, se pueden usar expresiones condicionales con la consabida estructura

```
if condicion:
    ...
```

o, alternativamente, 
```
if condicion:
    ...
elif:
    ...
else:
    ...
```

De nuevo, los bloques de código que siguen tanto a la expresión `for` como a `else` tienen que estar indentados.

#### Ejercicio

Construye una función que, dado un precio y un umbral, devuelva la cadena `caro` o `barato` según si el precio está por encima o por debajo del umbral. Crea entonces una columna adicional en `venta` usando como umbral la mediana del precio.

#### Ejercicio

Usa la función del ejercicio anterior, bucles, etc. para crear una columna adicional en `venta` que indique si el precio de un piso es caro o barato según supere o no la mediana de precios de su distrito.

## El groupby más genérico

Los ejemplos de agrupaciones que vimos en el notebook de pandas están pensados para los casos más típicos: sacar algunas estadísticas como medias, máximos, ... de una o varias columnas.

Pero habitualmente necesitamos funciones más flexibles, que implican aplicar funciones propias a cada uno de los grupos. Para hacer esto, podemos utilizar `apply` y devolver una `Series`.

Aunque, no debemos abusar de ellos. Si hay una alternativa a nuestro `apply` + función propia como las de arriba (`mean`, `max`, ...), serán mucho más eficientes (más rápidas!).

Por ejemplo, vamos a devolver la diferencia relativa de precio entre el primer y último dato de cada distrito.

In [None]:
def calcula_diferencia_relativa_precio(grupo):
    # Ordenamos cronológicamente
    grupo = grupo.sort_values(['ano', 'quarter'])
    
    # Cogemos el primero (dato más antiguo) y el último (más reciente)
    precio_mas_antiguo = grupo.precio.iloc[0]
    precio_mas_reciente = grupo.precio.iloc[-1]

    # Queremos el incremento relativo
    diferencia = (precio_mas_reciente - precio_mas_antiguo) / precio_mas_antiguo

    # Lo devolvemos como pd.Series
    return pd.Series({'incremento_precio_relativo': diferencia})

alquiler.groupby('distrito').apply(calcula_diferencia_relativa_precio).reset_index()

Con estas funciones personalizadas, también podemos devolver varias filas por cada grupo.

Por ejemplo, vamos a devolver dos filas por grupo. Queremos saber, para cada distrito, cuándo y con qué valor se alcanzan los máximos y mínimos de precios.

In [None]:
def get_rent_min_max(grupo):
    # Ordenamos por precio
    grupo = grupo.sort_values('precio')
    
    # Cogemos el primero (mínimo) y el último (máximo)
    minimo = grupo.iloc[0]
    maximo = grupo.iloc[-1]

    # Devolvemos estas filas nuevas
    nuevo_dataframe = pd.DataFrame({
        'tipo': ['minimo', 'maximo'],
        'ano': [minimo.ano, maximo.ano],
        'quarter': [minimo.quarter, maximo.quarter],
        'precio': [minimo.precio, maximo.precio],
    })

    return nuevo_dataframe

resultado = alquiler.groupby('distrito').apply(get_rent_min_max).reset_index()

# al hacer esto, sale una columna "fea" resultado de incluir un dataframe dentro de otro
# podemos eliminarla con drop
resultado.drop(columns=["level_1"])