# Introducción a la programación en Python

Python es un lenguaje de programación. En los _notebooks_ previos, casi todo el trabajo que hemos realizado es prácticamente interactivo, aunque en un par de ocasiones nos hemos visto obligados a utilizar funciones o bucles.

En este _notebook_ aprenderemos los rudimentos de la programación en Python, comenzando con tipos de datos y terminando con la definición de funciones simples.

## Tipos de datos

### _Strings_

Vamos a ver una serie de funciones útiles para operar con _strings_, i.e., texto, en Python. Las operaciones básicas con cadenas son las de concatenar, partir en _tokens_, buscar y reemplazar.

Las operaciones con cadenas de texto en Python son similares a las de otros lenguajes de programación.

`len()` nos devuelve la longitud (número de caracteres) de la cadena de texto:

In [None]:
len('Python')

Las cadenas de texto también se pueden _seccionar_ usando los corchetes:

In [None]:
a = 'Python'
b = a[2:4]
b

Para separar una cadena por uno o varios caracteres, creando una lista con el resultado, usamos `split()`

In [None]:
profesiones = 'analista,consultor informático,jefe de proyecto'.split(',')
profesiones

La operación complementaria a `split()` es `join()`, que une los elementos de una lista en una cadena de texto

In [None]:
','.join(profesiones)

Aunque también se puede concatenar usando `+` entre dos cadenas de texto:

In [None]:
my_file = "procesar.py"
print("Error en el programa " + my_file)

**Nota:** si usas `+` entre una cadena de texto y un tipo diferente de dato, fallará. Por ejemplo, `3 + ' €'` es incorrecto. En su lugar, convierte el tipo de dato antes, haciendo: `str(3) + ' €'`.

`strip()` elimina espacios en blanco delante y detrás

In [None]:
'    hola '.strip()

`lower` y `upper` pasan todo a minúsculas o mayúsculas

In [None]:
'pyThon'.lower()

**Nota:** Tanto en Python como en casi todos los lenguajes de programación, trabajar _en serio_ con cadenas de texto implica usar [_expresiones regulales_](https://es.wikipedia.org/wiki/Expresi%C3%B3n_regular). Las expresiones regulares permiten buscar patrones en texto, reemplazar y realizar muchas operaciones avanzadas sobre cadenas de caracteres. Existe una guía bastante completa acerca del uso de las expresione regulares en Python [aquí](https://es.wikipedia.org/wiki/Expresi%C3%B3n_regular).

### Listas

Las listas son contenedores de valores. Pueden ser de diferentes tipos de dato, aunque generalmente se usan para datos homogéneos (p.e., una lista de números).

Las operaciones que se realizan más habitualmente con listas son:

* Extrer elementos (p.e., los 10 primeros o los 5 últimos).
* Añadir y borrar elementos.
* Concatenar listas (con `+`)
* Ordenar listas
* Operaciones _funcionales_ clásicas:
    * Map: aplicar una función a cada elemento
    * Reduce: obtener un agregado (longitud, suma, media, etc.)
    * Filter: obtener una sublista a partir de otra dada de acuerdo con algún criterio

Ejemplo de creación de una lista

In [None]:
precios = [2300, 1942, 3455, 4100, 600, 1230]
precios

Para conocer la longitud de la lista, utilizamos `len`

In [None]:
len(precios)

Para extrar un elemento en una determinada posición, ponemos entre corchetes el índice

In [None]:
precios[2]

Si usamos índices negativos, extraemos elementos contando desde la derecha (-1 es el último elemento)

In [None]:
precios[-4:-2]

Para extraer un rango:

In [None]:
precios[0:3]

Algunas funciones estadísticas como `min`, `max` y `sum` vienen cargadas por defecto. Con el paquete `statistics`, además, podemos calcular medianas, medias, etc. sobre una lista.

In [None]:
min(precios)

In [None]:
from statistics import mean, median

mean(precios)

Para evaluar si un elemento está contenido en una lista, usaremos `in` o `not in`

In [None]:
600 in precios

**Nota:** Existe un módulo de Python, `numpy` que implementa sus propias listas (o `arrays`), más orientadas al cálculo numérico y matricial que son extensiones de estas listas genéricas. A su vez, las columnas de un `DataFrame` de `pandas` son extensiones de los `arrays` de `numpy`.

#### List comprehensions

Son una forma concisa de iterar y operar sobre listas que combinan las operaciones _map_ y _filter_.

In [None]:
['{} €'.format(precio) for precio in precios]

También permiten filtrar elementos añadiendo un bloque con `if`

In [None]:
['{} €'.format(precio) for precio in precios if precio > 2000]

Por lo indicado más arriba, las _list comprehensions_ funcionan también sobre columnas de `DataFrames`:

In [None]:
import pandas as pd
alquiler = pd.read_csv('dat/alquiler-madrid-distritos.csv', index_col=False)

alquiler["precio_90_m"] = [90 * precio for precio in alquiler.precio]
# Nota: lo mismo puede obtenerse haciendo, como antes,
# alquiler["precio_90_m"] = 90 * alquiler.precio

alquiler["trimestre"] = [str(ano) + "Q0" + str(quarter) 
                         for ano, quarter in alquiler[['ano', 'quarter']].values]

alquiler.head()

#### Ejercicio

Crea una lista que contenga las palabras de `frase` que tengan una longitud de más de 5 caracteres.

In [None]:
frase = 'Estoy en el curso de python para ciencia de datos'

#### Ejercicio

Elimina las vocales de la frase anterior

### Diccionarios

Los diccionarios son una colección de elementos clave-valor:

In [None]:
poblacion = {'Moratalaz': 95000,
             'Centro': 150000,
             'Barajas': 46000}
poblacion

Para acceder a un elemento, podemos usar:

* Los corchetes
* La función `get`

La diferencia es que get devuelve None en lugar de lanzar un error en caso de que la clave no exista

In [None]:
poblacion['Barajas']

In [None]:
poblacion.get('Tetuan')

#### Dict comprehensions

Es el equivalente de las list comprehensions en diccionarios

In [None]:
# Atención al .items() para poder iterar sobre clave y valor en el dict

{distrito: (valor / 1000) for distrito, valor in poblacion.items()}

#### Ejercicio

A partir del diccionario `precios_por_distrito`, crea un diccionario donde la clave sea el distrito y el valor, otro diccionario con dos elementos: el precio mínimo (la clave será `minimo`) y el máximo (con clave `maximo`).

## Funciones

Durante el desarrollo de este curso, hemos definido varias funciones `lambda`. Son funciones pequeñas, típicamente _oneliners_, pensadas para hacer operaciones simples en una línea. Pero frecuentementese se hace necesario desarrollar transformaciones más complejas.

Comenzaremos viendo cómo definir funciones y, después, cómo añadirles expresiones de control de código.

### Definición de funciones

La definción de una función comienza con `def` y termina con `:`. El cuerpo de la función está indentado y la definción de la función termina ahí donde termina la indentación. De hecho, en Python los bloques de código no están definidos, como en otros lenguajes con `{}` o bloques `BEGIN...END` sino por la indentación (que es obligatoria).

In [None]:
def formatea_precio(precio, simbolo):
    precio_string = str(precio)
    return precio_string + simbolo

formatea_precio(2500, ' $')

Una función que devuelva un resultado necesita obligatoriamente terminar con una expresión `return`.

### Bucles

Los bucles son similares a los de muchos otros lenguajes. Como en la definición de las funciones, el bloque de código que sigue a la expresión `for` está indentado.

In [None]:
for precio in precios:
    print(formatea_precio(precio, ' $'))

Las _list comprehensions_ evitan la necesidad de construir muchos bucles.

### Expresiones condicionales

Como en casi todos los lenguajes de programación, se pueden usar expresiones condicionales con la consabida estructura

```
if condicion:
    ...
```

o, alternativamente, 
```
if condicion:
    ...
elif:
    ...
else:
    ...
```

De nuevo, los bloques de código que siguen tanto a la expresión `for` como a `else` tienen que estar indentados.

#### Ejercicio

Construye una función que, dado un precio y un umbral, devuelva la cadena `caro` o `barato` según si el precio está por encima o por debajo del umbral. Crea entonces una columna adicional en `venta` usando como umbral la mediana del precio.

#### Ejercicio

Usa la función del ejercicio anterior, bucles, etc. para crear una columna adicional en `alquileres` que indique si el precio de un piso es caro o barato según supere o no la mediana de precios de su distrito.