# Introducción a Pandas

Pandas es una librería de Python utilizada para tratar datos en forma de tabla. Nos permite importar, exportar y hacer las operaciones habituales que nos permiten otras herramientas como Excel o el lenguaje SQL

## Importación y exportación

Podemos importar datos a DataFrames de Pandas de diferentes orígenes y formatos, entre ellos:

* De CSV: con [`read_csv`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)
* De Excel: con [`read_excel`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html)
* De base de datos: con [`read_sql`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_sql.html)

Como ejemplo, vamos a importar unos datos que tenemos en CSV con precios de alquileres en los distritos de Madrid:

In [None]:
import pandas as pd

alquiler = pd.read_csv('dat/alquiler-madrid-distritos.csv', index_col=False)
alquiler.head()

También podemos exportar esos datos a CSV haciendo:

In [None]:
alquiler.to_csv('alquiler.csv')

#### Ejercicio 

Comprueba que se ha guardado el fichero correctamente. Antes de nada, tendrás que ubicarlo en tu disco duro. Debería estar en el directorio en el que se guardan los _notebooks_.

#### Nota

Si te interesa saber cómo lanzar consultas a una base de datos usando SQL, puedes leer [este tutorial](https://www.pybonacci.org/2015/03/17/pandas-como-interfaz-sql/) (y los enlaces que contiene).

#### Ejercicio

Usa la función [`read_excel`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html) para importar a Python alguna tabla de tu interés

## Estructura básica e inspección

Las tablas en `pandas` son objetos de la clase `DataFrames`. Un `DataFrame` consta de dos partes: un índice y los datos propiamente dichos. Las columnas de los datos son de la clase `Series`.

Para consultar las columnas de un `DataFrame`, accedemos a la propiedad `columns`.

In [None]:
alquiler.columns

Si además queremos saber el tipo del dato, accedemos a la propiedad `dtypes`.

*Nota*: las cadenas de texto se marcan como `object` dentro de un DataFrame

In [None]:
alquiler.dtypes

Cada `DataFrame` tiene un índice. Si no lo hemos especificado, será un incremental sin relación con nuestros datos. El uso de índices está recomendado cuando tratamos con datos grandes, ya que permite acceder a las filas por _hash_ en lugar de tener que iterar por todas ellas para encontrar el valor que se busca. Los índices también son importantes a la hora de realizar agregaciones y cruces entre tablas.

Para consultar cuál es el índice de un DataFrame, accedemos a la propiedad `index`.

In [None]:
alquiler.index

Podemos alterarlo con `set_index`. El nuevo índice puede ser una o varias columnas.

In [None]:
alquiler_nuevo_indice = alquiler.set_index(['distrito', 'ano', 'quarter'])

Una forma rápida de echar un vistazo a los datos es consultas las primeras o últimas filas del DataFrame, con las funciones `head` y `tail`.

In [None]:
alquiler.head()

In [None]:
alquiler.tail()

Podemos seleccionar un listado de columnas a devolver de la siguiente forma:

In [None]:
alquiler[['distrito', 'precio']].head()

Para conocer el número de filas de una tabla hay varias opciones:

In [None]:
len(alquiler)

In [None]:
alquiler.shape

##### Nota

El índice no forma parte propiamente de los datos:

In [None]:
alquiler_nuevo_indice.shape

### Ejercicio

* Carga en un dataframe de pandas el csv `dat/alquiler-madrid-municipios.csv` en una variable que se llame `alquiler_municipios`
* Examina las primeras y últimas filas
* Extrae el número de filas y columnas

## Filtro y selección

Hay tres operadores fundamentales para seleccionar filas y columnas: `loc`, `iloc` y `[]`. La diferencia fundamental entre `loc` e `iloc` es que el primero requiere _etiquetas_ y el segundo, índices numéricos (la `i` inicial viene de `integer`).


### Selección por índices numéricos

Para acceder por posición usando índices numéricos, se usa `iloc[]`, como en los siguientes ejemplos:

In [None]:
# por defecto, seleccionamos filas
alquiler_nuevo_indice.iloc[200]

In [None]:
# pero también se pueden seleccionar filas y columnas
# además, usando rangos
alquiler.iloc[3:5, 1:]

In [None]:
# índices no consecutivos
# recuerda: en python, se empieza a contar en 0
alquiler.iloc[[1, 2, 4], [0, 3]]

In [None]:
# los índices negativos indican que se empieza a contar desde el final
alquiler.iloc[-3:-1]

### Ejercicio

* Muestra las primeras 5 filas usando `iloc`
* Muestra las últimas 5 filas usando `iloc`

### Selección por etiquetas

Para acceder por _etiquetas_ (es decir, columnas parte del índice), se usa `loc[]`

In [None]:
alquiler_nuevo_indice.loc[('Centro', 2014, 2)]

In [None]:
# O un distrito completo
alquiler_nuevo_indice.loc[('Centro')].head()

#### Ejercicio

Muestra sobre `alquiler_nuevo_indice` las filas para distrito `Retiro` y año 2012.

### Selección por condiciones

Para extraer las filas que cumplen una condición, le pasamos al DataFrame una Series de booleanos, o directamente algo que la devuelva.

In [None]:
alquiler[alquiler.distrito == 'Retiro'].head()

**Nota:** mira cómo en el código anterior hemos seleccionado la columna `distrito` usando la sintaxis sumamente compacta `alquiler.distrito`.

Podemos combinar varias condiciones con `&` (y lógico) y `|` (o lógico)

In [None]:
# No olvides los paréntesis, es importante por prioridad de operandos!

alquiler[(alquiler.distrito == 'Retiro') & (alquiler.ano == 2012)]

#### Ejercicio

Extrae los nombres de los distritos cuyo precio por metro cuadrado es superior a 15€ en el año y trimestre más reciente del que tenemos datos (míralo imprimiento las últimas filas de la tabla).

In [None]:
# 1. Imprime las últimas filas de la tabla

In [None]:
# 2. Haz el filtro. Una vez hecho, saca solo la columna distrito

## Ordenación

Podemos ordenar un DataFrame por una o varias columnas, de forma ascendente o descendente, con [`sort_values`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sort_values.html)

In [None]:
alquiler.sort_values('distrito', ascending=True).head()

In [None]:
alquiler.sort_values(['ano', 'quarter', 'distrito'], ascending=[False, False, True]).head()

#### Ejercicio

Extrae de mayor a menor por precio las filas de la tabla para Tetuán a partir del año 2017.

## Transformación

Nuevas columnas calculadas, cambio de tipo de dato, eliminar una columna

Podemos operar sobre las columnas para crear otras nuevas o cambiar el tipo de dato

In [None]:
# Hago una copia para no modificar el dataframe original
alquiler_2 = alquiler.copy()

alquiler_2['precio_90m'] = alquiler_2.precio * 90
alquiler_2.head()

Las operaciones que no se pueden lanzar directamente sobre la `Series` completa, la ejecutamos por elemento utilizando `apply`

In [None]:
# Fíjate bien en la función lambda, es una función en una sola línea
alquiler_2['ano_quarter'] = alquiler_2.apply(lambda fila: str(fila.ano) + 'Q' + str(fila.quarter), axis=1)
alquiler_2.head()

#### Ejercicio

Crea una nueva columna `precio_120m` sobre `alquiler_2` que represente el precio de 120 metros cuadrados, pero utilizando `apply` y una función `lambda`.

## Resumen estadístico

Pandas provee una serie de funciones de resumen estadístico que podemos aplicar sobre una columna concreta, o sobre todas las del DataFrame.

Para un resumen para todas las columnas de número de filas, media, desviación estándar, cuartiles, ... usamos [`describe`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.describe.html)

In [None]:
alquiler.describe()

Podemos utilizar también `sum`, `mean`, `std`, `count`, `min`, `max`, ... sobre el DataFrame o una columna en concreto

In [None]:
alquiler.mean()

In [None]:
alquiler.precio.max()

#### Ejercicio

Extrae los cuantiles 0.1 y 0.9 del precio para el distrito `Tetuan`.

## Agrupación

De una forma equivalente a como hacemos en SQL, podemos agregar las tablas y sacar resúmenes de los grupos. La operación en pandas se hace en dos fases:

* El `groupby`: donde especificamos la o las columnas por las que agregar
* La aplicación de la función de agregación sobre una o varias columnas

Un resumen usando una función de agregación sobre todas las columnas del DataFrame

In [None]:
alquiler.groupby('ano').max()

# Atención, fíjate bien en lo que hace esto. Saca el valor máximo de distrito (alfabéticamente),
#  de quarter y precio (numéricamente), pero no representa filas completas
# Es decir, Villaverde en el quarter 4 no tuvo ese precio

Para hacerlo únicamente sobre una columna:

In [None]:
alquiler.groupby('ano').precio.min()

Para aplicar diferentes resúmenes sobre diferentes columnas

In [None]:
tmp = alquiler.groupby('ano').agg({'precio': 'mean', 'distrito': 'first'})
tmp.head()

#### Ejercicio

Extrae el precio máximo histórico para cada distrito a partir del 2010

Puedes ver más información sobre agrupaciones en la [documentación de pandas](https://pandas.pydata.org/pandas-docs/stable/groupby.html). Es especialmente útil la parte sobre transformaciones.

## Cruce

Podemos cruzar dos tablas por una o varias columnas en pandas, de forma equivalente a como hacemos en SQL, con [`merge`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html). También podemos usar los distintos tipos de cruce:

* `inner`: para obtener solamente los registros que crucen en ambas tablas
* `left` o `right`: para mantener los registros de una de las dos tablas, crucen o no con la otra
* `outer`: para manter los registros de ambas tablas, crucen o no

In [None]:
# Aquí, además, un ejemplo de cómo crear un dataframe a partir de un diccionario
df_ejemplo = pd.DataFrame({'distrito':  ['Moratalaz', 'Centro', 'Barajas'],
                           'poblacion': [95000, 150000, 46000]})
df_ejemplo

In [None]:
tmp = df_ejemplo.merge(alquiler, on='distrito')
tmp.head()

In [None]:
len(tmp)

In [None]:
tmp = df_ejemplo.merge(alquiler, on='distrito', how='right')
tmp.tail()

In [None]:
len(tmp)

#### Ejercicio

* Carga en un DataFrame el CSV `dat/venta-madrid-distritos.csv`
* Crúzalo con el que ya tenemos de alquiler. El objetivo es tener, para cada distrito, año y cuatrimestre, tanto el precio de alquiler como el de venta del metro cuadrado. Para saber cómo poner sufijos a las columnas que colisionan en el cruce, mira la documentación de `merge`.
* Extrae los precios medios de venta y alquiler por distrito para todo el histórico
* Extrae, para el año y cuatrimestre más reciente del que haya datos, el distrito donde es más rentable comprar una vivienda para destinarla a alquiler. Es decir, con el ratio precio alquiler / precio venta más alto.