# Introducción a la programación en Python

Python es un lenguaje de programación. En los _notebooks_ previos, casi todo el trabajo que hemos realizado es prácticamente interactivo, aunque en un par de ocasiones nos hemos visto obligados a utilizar funciones o bucles.

En este _notebook_ aprenderemos los rudimentos de la programación en Python, comenzando con tipos de datos y terminando con la definición de funciones simples.

In [15]:
import pandas as pd

## Tipos de datos

### _Strings_

Vamos a ver una serie de funciones útiles para operar con _strings_, i.e., texto, en Python. Las operaciones básicas con cadenas son las de concatenar, partir en _tokens_, buscar y reemplazar.

Las operaciones con cadenas de texto en Python son similares a las de otros lenguajes de programación.

`len()` nos devuelve la longitud (número de caracteres) de la cadena de texto:

In [1]:
len('Python')

6

Las cadenas de texto también se pueden _seccionar_ usando los corchetes:

In [2]:
a = 'Python'
b = a[2:4]
b

'th'

Para separar una cadena por uno o varios caracteres, creando una lista con el resultado, usamos `split()`

In [2]:
profesiones = 'analista,consultor informático,jefe de proyecto'.split(',')
profesiones

['analista', 'consultor informático', 'jefe de proyecto']

La operación complementaria a `split()` es `join()`, que une los elementos de una lista en una cadena de texto

In [3]:
','.join(profesiones)

'analista,consultor informático,jefe de proyecto'

Aunque también se puede concatenar usando `+` entre dos cadenas de texto:

In [None]:
my_file = 'procesar.py'
print('Error en el programa ' + my_file)

**Nota:** si usas `+` entre una cadena de texto y un tipo diferente de dato, fallará. Por ejemplo, `3 + ' €'` es incorrecto. En su lugar, convierte el tipo de dato antes, haciendo: `str(3) + ' €'`.

`strip()` elimina espacios en blanco delante y detrás

In [7]:
'    hola '.strip()

'hola'

`lower` y `upper` pasan todo a minúsculas o mayúsculas

In [6]:
'pyThon'.lower()

'python'

Si tenemos una cadena de texto que puede ser transformada a entero, podemos usar `float()` para decimales e `int()` para enteros

In [8]:
n = float('3.1416')
print(n, type(n))

3.1416 <class 'float'>


In [9]:
n = int('531')
print(n, type(n))

531 <class 'int'>


`replace()` sustituye trozos de cadenas por otros

In [10]:
'Hola NOMBRE'.replace('NOMBRE', 'paquito')

'Hola paquito'

#### Ejercicio

Sobre el siguiente DataFrame, crea dos columnas separadas, una para el importe (que sea float) y otra para la divisa (que sea cadena de texto)

In [24]:

importes = pd.DataFrame({'importe_divisa': ['592,50 EUR', '690,10 USD', '2951 GBP']})
importes.head()

Unnamed: 0,importe_divisa
0,"592,50 EUR"
1,"690,10 USD"
2,2951 GBP


In [64]:
importes = pd.DataFrame({'importe_divisa': ['592,50 EUR', '690,10 USD', '2951 GBP']})
importe_y_divisa = importes.importe_divisa.apply(lambda x : x.split(' '))
importe = importe_y_divisa.apply(lambda x : float(x[0].replace(',','.')))
divisa = importe_y_divisa.apply(lambda x : x[1].strip())
importes['importe'] = importe
importes['divisa'] = divisa
importes.drop(columns = 'importe_divisa')
importes

# otra solucion
importes['importe'] = importes.apply(lambda x: x.importe_divisa.split(' ')[0].replace(',','.'), axis=1)
importes['divisa'] = importes.apply(lambda x: x.importe_divisa.split(' ')[1], axis=1)
importes


'592,50 EUR'

### Expresiones regulares

Tanto en Python como en casi todos los lenguajes de programación, trabajar _en serio_ con cadenas de texto implica usar [_expresiones regulares_](https://es.wikipedia.org/wiki/Expresi%C3%B3n_regular). Las expresiones regulares permiten buscar patrones en texto, reemplazar y realizar muchas operaciones avanzadas sobre cadenas de caracteres.

Consulta [esta guía](https://www.dataquest.io/blog/regex-cheatsheet/) acerca del uso de las expresiones regulares en Python.

#### Ejercicio

Con expresiones regulares, realiza los siguientes ejercicios:

Sobre la cadena `'30 del 04 para el 2018'`, extrae:

* Todos los números de forma independiente. Es decir, resultará una lista con 3, 0, 0, 4, ...
* Todos los números de forma consecutiva. Es decir, resultará una lista con 30, 04, 2018.
* Extrae las palabras de `'30 del 04 para el 2018'`. Saldrá del, para, ...
* Extrae el último número consecutivo. Saldrá 2018.
* Transfórmala para convertirla a formato ISO (es decir, yyyy-mm-dd)

In [90]:
import re
# Todos los números de forma independiente.
#cadena = '30 del 04 para el 2018'
#regex = r'[0-9]'
#re.findall(regex, cadena)
# Todos los números de forma consecutiva. 
#cadena = '30 del 04 para el 2018'
#regex = r'[0-9]+'
#re.findall(regex, cadena)
# Extrae las palabras de la cadena
#cadena = '30 del 04 para el 2018'
#regex = r'[a-zA-Z]+'
#re.findall(regex, cadena)
# Extrae el último número consecutivo. Saldrá 2018.
#cadena = '30 del 04 para el 2018'
#re.findall(r'[0-9]+$', cadena)
cadena = '30 del 04 para el 2018 y ya'
re.sub('^.*[^0-9]([0-9]+)[^0-9]*$', r'\1', cadena)  # hacer pruebas con * o +

'2018'

In [None]:
# Transfórmala para convertirla a formato ISO (es decir, yyyy-mm-dd)
re.sub('([0-9]+) del ([0-9]+) para el ([0-9]+)', r'\3-\2-\1', cadena)

In [94]:
# Transfórmala para convertirla a formato ISO (es decir, yyyy-mm-dd)
re.sub('([0-9]+)[^0-9]+([0-9]+)[^0-9]+([0-9]+)', r'\3-\2-\1', '30 xx 04 sfds2018')

'2018-04-30'

In [None]:
# re.sub se utiliza mucho para extraer una parte concreta de la regex
# fíjate en el \1: es el grupo, coincide con lo que ponemos entre ( ) en la regex
re.sub(r'^[^A-Z]+([A-Z]+)$', r'\1', '509EUR')

### Listas

Las listas son contenedores de valores. Pueden ser de diferentes tipos de dato, aunque generalmente se usan para 
datos homogéneos (p.e., una lista de números).

Las operaciones que se realizan más habitualmente con listas son:

* Extrer elementos (p.e., los 10 primeros o los 5 últimos).
* Añadir y borrar elementos.
* Concatenar listas (con `+`)
* Ordenar listas
* Operaciones _funcionales_ clásicas:
    * Map: aplicar una función a cada elemento
    * Reduce: obtener un agregado (longitud, suma, media, etc.)
    * Filter: obtener una sublista a partir de otra dada de acuerdo con algún criterio

Ejemplo de creación de una lista

In [95]:
precios = [2300, 1942, 3455, 4100, 600, 1230]
precios

[2300, 1942, 3455, 4100, 600, 1230]

Para conocer la longitud de la lista, utilizamos `len`

In [96]:
len(precios)

6

Para extrar un elemento en una determinada posición, ponemos entre corchetes el índice

In [97]:
precios[2]

3455

Si usamos índices negativos, extraemos elementos contando desde la derecha (-1 es el último elemento)

In [98]:
precios[-4:-2]

[3455, 4100]

Para extraer un rango:

In [99]:
precios[:3]

[2300, 1942, 3455]

Algunas funciones estadísticas como `min`, `max` y `sum` vienen cargadas por defecto. Con el paquete `statistics`, además, podemos calcular medianas, medias, etc. sobre una lista.

In [100]:
min(precios)

600

In [101]:
from statistics import mean, median

mean(precios)

2271.1666666666665

Para evaluar si un elemento está contenido en una lista, usaremos `in` o `not in`

In [102]:
600 in precios

True

**Nota:** Existe un módulo de Python, `numpy` que implementa sus propias listas (o `arrays`), más orientadas al cálculo numérico y matricial que son extensiones de estas listas genéricas. A su vez, las columnas de un `DataFrame` de `pandas` son extensiones de los `arrays` de `numpy`.

#### List comprehensions

Son una forma concisa de iterar y operar sobre listas que combinan las operaciones _map_ y _filter_.

In [None]:
['{} €'.format(precio) for precio in precios]

In [108]:
precios

[2300, 1942, 3455, 4100, 600, 1230]

In [109]:
[x * 2 for x in precios]

[4600, 3884, 6910, 8200, 1200, 2460]

También permiten filtrar elementos añadiendo un bloque con `if`

In [111]:
['{} €'.format(precio) for precio in precios if precio > 2000]

['2300 €', '3455 €', '4100 €']

In [110]:
'{} €'.format(20)

'20 €'

Por lo indicado más arriba, las _list comprehensions_ funcionan también sobre columnas de `DataFrames`:

In [48]:
alquiler = pd.read_csv('dat/alquiler-madrid-distritos.csv', index_col=False)

alquiler["precio_90_m"] = [90 * precio for precio in alquiler.precio]
# Nota: lo mismo puede obtenerse haciendo, como antes,
# alquiler["precio_90_m"] = 90 * alquiler.precio

alquiler["trimestre"] = [str(ano) + "Q0" + str(quarter) 
                         for ano, quarter in alquiler[['ano', 'quarter']].values]

alquiler.head()

Unnamed: 0,distrito,ano,quarter,precio,precio_90_m,trimestre
0,Arganzuela,2007,2,13.066587,1175.992857,2007Q02
1,Barajas,2007,2,11.199855,1007.986923,2007Q02
2,Carabanchel,2007,2,11.127661,1001.489519,2007Q02
3,Centro,2007,2,17.746404,1597.176343,2007Q02
4,Chamartín,2007,2,14.38648,1294.783156,2007Q02


#### Ejercicio

Crea una lista que contenga las palabras de `frase` que tengan una longitud de más de 5 caracteres.

In [None]:
frase = 'Estoy en el curso de python para ciencia de datos'

In [122]:
frase = 'Estoy en el curso de python para ciencia de datos'
frase_lista = frase.split(' ')
[i for i  in frase_lista if len(i) > 5]

['python', 'ciencia']

In [124]:
frase = 'Estoy en el curso de python para ciencia de datos'
frase_lista = frase.split(' ')
[i for i  in frase_lista if len(i) > 5]



'sty n l crs d pythn pr cnc d dts'

#### Ejercicio

Elimina las vocales de la frase anterior

In [None]:
vocales = ['a', 'e', 'i', 'o', 'u', 'A', 'E', 'I', 'O', 'U']
''.join([x for x in frase if x not in vocales])

re.sub('[aeiouAEIOU]',"", frase)

#### Ejercicio

Calcula la lista de los cuadrados de:

In [None]:
lista = [2, 3, 5, 7]

In [130]:
lista = [2, 3, 5, 7]
[i**2 for i  in lista ]

[4, 9, 25, 49]

#### Ejercicio

Haz una petición a la API de [swapi](https://swapi.co/documentation) con una búsqueda de todos los personajes que tengan el apellido `skywalker`. Examina la respuesta e imprime los nombres resultantes utilizando una `list comprehension` (no utilices bucles).

### Diccionarios

Los diccionarios son una colección de elementos clave-valor:

In [7]:
poblacion = {'Moratalaz': 95000,
             'Centro': 150000,
             'Barajas': 46000}
poblacion

{'Moratalaz': 95000, 'Centro': 150000, 'Barajas': 46000}

Para acceder a un elemento, podemos usar:

* Los corchetes
* La función `get`

La diferencia es que get devuelve None en lugar de lanzar un error en caso de que la clave no exista

In [8]:
poblacion['Barajas']

46000

In [9]:
poblacion.get('Tetuan')
poblacion.get('Barajas')


46000

#### Dict comprehensions

Es el equivalente de las list comprehensions en diccionarios

In [136]:
# Atención al .items() para poder iterar sobre clave y valor en el dict

{distrito: (valor / 1000) for distrito, valor in poblacion.items()}

{'Moratalaz': 95.0, 'Centro': 150.0, 'Barajas': 46.0}

#### Ejercicio

A partir del diccionario `precios_por_distrito`, crea un diccionario donde la clave sea el distrito y el valor, otro diccionario con dos elementos: el precio mínimo (la clave será `minimo`) y el máximo (con clave `maximo`).

In [137]:
import pandas as pd

venta = pd.read_csv('dat/venta-madrid-distritos.csv', index_col=False)
venta = venta[venta.precio.notnull()]
precios_por_distrito = venta.groupby('distrito').precio.apply(lambda precios: precios.tolist()).to_dict()
precios_por_distrito

{'Arganzuela': [1920.4065754345897,
  1989.7552775824,
  1974.7153937224803,
  2027.37661409059,
  2150.8146736201,
  2744.41775414676,
  2845.0883714856,
  2999.03759169401,
  3144.48061245487,
  3236.02158898773,
  3277.25969079458,
  3285.09194017021,
  3401.4981298601,
  3498.52350888937,
  3504.34008028398,
  3595.2146143042205,
  3674.0417534634103,
  3781.2204248628295,
  3828.3116084867797,
  3903.5045363686895,
  3980.43306658443,
  3970.75478820969,
  3926.9932295131,
  3913.50703785109,
  3893.9226911167893,
  3854.6518960002504,
  3721.22338481386,
  3624.4716710660205,
  3550.70145120216,
  3435.97904417864,
  3408.07137744815,
  3392.7752748987396,
  3356.7530396407897,
  3345.2258965233195,
  3317.3217052996997,
  3349.7985684777695,
  3275.76223217752,
  3250.09835778019,
  3161.00828426335,
  3122.5078904362103,
  3063.20281545964,
  3022.84870087037,
  2897.7150302156897,
  2790.22515936953,
  2689.8063966148898,
  2679.6592782237,
  2583.8142070664603,
  2684.6400383

## Fechas

En Python existen dos tipos de datos para tratar las fechas:

* `date` si son referencias sin hora
* `datetime` si incluyen la hora

Podemos crearlas de la siguiente forma

In [1]:
from datetime import date, datetime

fecha = date(2019, 1, 30)
fecha

datetime.date(2019, 1, 30)

In [2]:
fecha_hora = datetime(2019, 3, 30, 14, 35, 59)
fecha_hora

datetime.datetime(2019, 3, 30, 14, 35, 59)

Podemos convertir (o truncar si aplica) una fecha más hora a solo fecha con `.date()`

In [3]:
fecha_hora.date()

datetime.date(2019, 3, 30)

Tenemos dos funciones para pasar de cadena de texto a fecha y al revés:

* `datetime.strftime()`: de fecha a cadena de texto (la f es de format)
* `datetime.strptime()`: de cadena de texto a fecha (la p es de parse)

In [5]:
fecha.strftime('%Y-%m-%d')

'2019-01-30'

In [None]:
fecha_hora.strftime('%Y-%m-%d %H:%M:%S')

Los símbolos que puedes usar los puedes consultar [aquí](http://strftime.org/)

#### Ejercicio

Formatea fecha_hora con formato 12 horas en lugar de 24 e indicando si es AM o PM

In [6]:
fecha_hora.strftime('%Y-%m-%d %I:%M:%S%p')

'2019-03-30 02:35:59PM'

#### Ejercicio

Parsea a fecha:

* `'20/05/2018'`
* `'2018-05-20'`

In [10]:
datetime.strptime('20/05/2018','%d/%m/%Y')

datetime.datetime(2018, 5, 20, 0, 0)

Podemos sumar o restar periodos (p.e. días) con `timedelta`

In [11]:
datetime.strptime('2018-05-20','%Y-%m-%d')

datetime.datetime(2018, 5, 20, 0, 0)

In [12]:
from datetime import timedelta

fecha + timedelta(days=5)

datetime.date(2019, 2, 4)

## Funciones

Durante el desarrollo de este curso, hemos definido varias funciones `lambda`. Son funciones pequeñas, típicamente _oneliners_, pensadas para hacer operaciones simples en una línea. Pero frecuentementese se hace necesario desarrollar transformaciones más complejas.

Comenzaremos viendo cómo definir funciones y, después, cómo añadirles expresiones de control de código.

### Definición de funciones

La definción de una función comienza con `def` y termina con `:`. El cuerpo de la función está indentado y la definción de la función termina ahí donde termina la indentación. De hecho, en Python los bloques de código no están definidos, como en otros lenguajes con `{}` o bloques `BEGIN...END` sino por la indentación (que es obligatoria).

In [13]:
def formatea_precio(precio, simbolo):
    precio_string = str(precio)
    return precio_string + simbolo

formatea_precio(2500, ' $')

'2500 $'

In [19]:
formatea_precio(precio=2500,simbolo='$')


'2500$'

Una función que devuelva un resultado necesita obligatoriamente terminar con una expresión `return`. Si se omite, devolverá `None`.

### Bucles

Los bucles son similares a los de muchos otros lenguajes. Como en la definición de las funciones, el bloque de código que sigue a la expresión `for` está indentado.

In [26]:
def formatea_precio(precio, simbolo):
    precio_string = str(precio)
    return precio_string + simbolo
precios= [1,2,3,4]
for precio in precios:
    print(formatea_precio(precio, '$'))

1$
2$
3$
4$


Las _list comprehensions_ evitan la necesidad de construir muchos bucles.

### Expresiones condicionales

Como en casi todos los lenguajes de programación, se pueden usar expresiones condicionales con la consabida estructura

```
if condicion:
    ...
```

o, alternativamente, 
```
if condicion:
    ...
elif:
    ...
else:
    ...
```

De nuevo, los bloques de código que siguen tanto a la expresión `for` como a `else` tienen que estar indentados.

#### Ejercicio

Construye una función que, dado un precio y un umbral, devuelva la cadena `caro` o `barato` según si el precio está por encima o por debajo del umbral. Crea entonces una columna adicional en `venta` usando como umbral la mediana del precio.

In [41]:
import pandas as pd
venta = pd.read_csv('dat/venta-madrid-distritos.csv', index_col=False)
venta = venta[venta.precio.notnull()]

# 1. Defino la función
def caro_o_barato(precio, umbral):
    if precio > umbral:
        return 'caro'
    else:
        return 'barato'
caro_o_barato(2400, 3000)
# 2. Guardo en una variable la mediana del precio
umbral_venta = venta.precio.median()
# 3. Creo la nueva columna sobre venta
venta['caro_barato'] = venta.apply(lambda fila: caro_o_barato(fila.precio, umbral_venta), axis=1)
venta.tail()


Unnamed: 0,distrito,ano,quarter,precio,caro_barato
1465,Tetuán,2018,2,3557.922318,caro
1466,Usera,2018,2,1892.734745,barato
1467,Vicálvaro,2018,2,2219.022626,barato
1468,Villa De Vallecas,2018,2,2293.902446,barato
1469,Villaverde,2018,2,1578.197261,barato


In [46]:
# 1. Defino la función
venta = venta.drop(columns="caro_barato")
# 2. Extraigo la mediana por cada distrito 
venta.groupby('distrito').precio.median().reset_index()
medianas_distrito= venta.groupby('distrito').precio.median().reset_index()
medianas_distrito = medianas_distrito.rename(columns= {'precio':'precio_mediana'})
# 3. añado la columna con la mediana a mi df origen
cruce = venta.merge(medianas_distrito, on='distrito')
# Creo la nueva columna precio barato a mi df origen
cruce['caro_barato'] = cruce.apply(lambda fila: caro_o_barato(fila.precio, fila.precio_mediana), axis=1)
cruce.head()

Unnamed: 0,distrito,ano,quarter,precio,precio_mediana,caro_barato
0,Arganzuela,2001,1,1920.406575,3204.209495,barato
1,Arganzuela,2001,2,1989.755278,3204.209495,barato
2,Arganzuela,2001,3,1974.715394,3204.209495,barato
3,Arganzuela,2001,4,2027.376614,3204.209495,barato
4,Arganzuela,2002,1,2150.814674,3204.209495,barato


#### Ejercicio

Usa la función del ejercicio anterior, bucles, etc. para crear una columna adicional en `alquileres` que indique si el precio de un piso es caro o barato según supere o no la mediana de precios de su distrito.

## El groupby más genérico

Los ejemplos de agrupaciones que vimos en el notebook de pandas están pensados para los casos más típicos: sacar algunas estadísticas como medias, máximos, ... de una o varias columnas.

Pero habitualmente necesitamos funciones más flexibles, que implican aplicar funciones propias a cada uno de los grupos. Para hacer esto, podemos utilizar `apply` y devolver una `Series`.

Aunque, no debemos abusar de ellos. Si hay una alternativa a nuestro `apply` + función propia como las de arriba (`mean`, `max`, ...), serán mucho más eficientes (más rápidas!).

Por ejemplo, vamos a devolver la diferencia relativa de precio entre el primer y último dato de cada distrito.

In [None]:
def calcula_diferencia_relativa_precio(grupo):
    # Ordenamos cronológicamente
    grupo = grupo.sort_values(['ano', 'quarter'])
    
    # Cogemos el primero (dato más antiguo) y el último (más reciente)
    precio_mas_antiguo = grupo.precio.iloc[0]
    precio_mas_reciente = grupo.precio.iloc[-1]

    # Queremos el incremento relativo
    diferencia = (precio_mas_reciente - precio_mas_antiguo) / precio_mas_antiguo

    # Lo devolvemos como pd.Series
    return pd.Series({'incremento_precio_relativo': diferencia})

alquiler.groupby('distrito').apply(calcula_diferencia_relativa_precio).reset_index()

Con estas funciones personalizadas, también podemos devolver varias filas por cada grupo.

Por ejemplo, vamos a devolver dos filas por grupo. Queremos saber, para cada distrito, cuándo y con qué valor se alcanzan los máximos y mínimos de precios.

In [49]:
def get_rent_min_max(grupo):
    # Ordenamos por precio
    grupo = grupo.sort_values('precio')
    
    # Cogemos el primero (mínimo) y el último (máximo)
    minimo = grupo.iloc[0]
    maximo = grupo.iloc[-1]

    # Devolvemos estas filas nuevas
    nuevo_dataframe = pd.DataFrame({
        'tipo': ['minimo', 'maximo'],
        'ano': [minimo.ano, maximo.ano],
        'quarter': [minimo.quarter, maximo.quarter],
        'precio': [minimo.precio, maximo.precio],
    })

    return nuevo_dataframe

resultado = alquiler.groupby('distrito').apply(get_rent_min_max).reset_index()

# al hacer esto, sale una columna "fea" resultado de incluir un dataframe dentro de otro
# podemos eliminarla con drop
resultado.drop(columns=["level_1"])

Unnamed: 0,distrito,tipo,ano,quarter,precio
0,Arganzuela,minimo,2014,2,10.68
1,Arganzuela,maximo,2018,1,14.851932
2,Barajas,minimo,2014,4,9.488644
3,Barajas,maximo,2018,1,12.74877
4,Carabanchel,minimo,2014,3,8.161351
5,Carabanchel,maximo,2007,4,12.160093
6,Centro,minimo,2013,4,13.382205
7,Centro,maximo,2018,1,19.308607
8,Chamartín,minimo,2013,2,12.062166
9,Chamartín,maximo,2018,2,16.606506
