# Introducción a Pandas

Pandas es una librería de Python especializada en el manejo y análisis de estructuras de datos en forma de tabla.
Permite leer y escribir fácilmente ficheros en formato CSV, Excel y bases de datos SQL.
Permite acceder a los datos mediante índices o nombres para filas y columnas.
Ofrece métodos para reordenar, dividir y combinar conjuntos de datos.

Tiene dos estructuras de datos básicas: series y dataframes.

Una serie es una estructura similar a un array de una dimensión. Es homogénea, es decir, sus elementos tienen que ser del mismo tipo.

<img src="serie.bmp">

Un dataframe define un conjunto de datos estructurado en forma de tabla donde cada columna es un objeto de tipo Series, es decir, todos los datos de una misma columna son del mismo tipo, y las filas son registros que pueden contener datos de distintos tipos. Un DataFrame contiene dos índices, uno para las filas y otro para las columnas.

<img src="dataframe.bmp">

Fuentes: https://aprendeconalf.es/manual-python/#/, https://mybinder.org/v2/gh/koldLight/curso-python-analisis-datos/master

Documentación de `pandas`: https://pandas.pydata.org/pandas-docs/stable/reference/index.html

## Primer paso: importar la librería

In [None]:
import pandas as pd

De esta forma, se importa la librería con el alias "pd", de forma que, cuando se va a utilizar una función de la librería, solamente hay que escribir "pd" y no "pandas".

## Importación y exportación

Podemos importar datos a DataFrames de Pandas de diferentes orígenes y formatos, entre ellos:

* De CSV: con [`read_csv`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)
* De Excel: con [`read_excel`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html)
* De base de datos: con [`read_sql`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_sql.html)

Como ejemplo, vamos a importar unos datos que tenemos en CSV con precios de alquileres en los distritos de Madrid:

In [None]:
alquiler = pd.read_csv('alquiler-madrid-distritos.csv', index_col=False)
alquiler.head()

También podemos exportar esos datos a CSV haciendo:

In [None]:
alquiler.to_csv('alquiler.csv')   #ATENCIÓN: Comprueba que se ha guardado el fichero correctamente

## Estructura básica e inspección

Las tablas en `pandas` son objetos de la clase `DataFrames`. Un `DataFrame` consta de dos partes: un índice y los datos propiamente dichos. Las columnas de los datos son de la clase `Series`.

Para consultar las columnas de un `DataFrame`, accedemos a la propiedad `columns`.

In [None]:
alquiler.columns

Si además queremos saber el tipo del dato, accedemos a la propiedad `dtypes`.

*Nota*: las cadenas de texto se marcan como `object` dentro de un DataFrame

In [None]:
alquiler.dtypes

Cada `DataFrame` tiene un índice. Si no lo hemos especificado, será un valor entero incremental sin relación con nuestros datos. El uso de índices está recomendado cuando tratamos con datos grandes, ya que permite acceder a las filas de forma mucho más eficiente, en lugar de tener que iterar por todas ellas para encontrar el valor que se busca. Los índices también son importantes a la hora de realizar agregaciones y cruces entre tablas.

Para consultar cuál es el índice de un DataFrame, accedemos a la propiedad `index`.

In [None]:
alquiler.index

Podemos alterarlo con `set_index`. El nuevo índice puede ser una o varias columnas.

In [None]:
alquiler_nuevo_indice = alquiler.set_index(['distrito', 'anyo', 'cuatrimestre'])

Una forma rápida de echar un vistazo a los datos es consultas las primeras o últimas filas del DataFrame, con las funciones `head` y `tail`.

In [None]:
alquiler_nuevo_indice.head()

In [None]:
alquiler.tail()

Podemos seleccionar un listado de columnas a devolver de la siguiente forma:

In [None]:
alquiler[['distrito', 'precio']].head()

Para conocer el número de filas de una tabla hay varias opciones:

In [None]:
len(alquiler)

In [None]:
alquiler.shape

##### Nota

El índice no forma parte propiamente de los datos:

In [None]:
alquiler_nuevo_indice.shape

## Filtro y selección

Hay tres operadores fundamentales para seleccionar filas y columnas: `loc`, `iloc` y `[]`. La diferencia fundamental entre `loc` e `iloc` es que el primero requiere _etiquetas_ y el segundo, índices numéricos (la `i` inicial viene de `integer`).


### Selección por índices numéricos

Para acceder por posición usando índices numéricos, se usa `iloc[]`, como en los siguientes ejemplos:

In [None]:
# por defecto, seleccionamos filas
alquiler.iloc[200]

In [None]:
# pero también se pueden seleccionar filas y columnas
# además, usando rangos
alquiler.iloc[3:5, 1:]

In [None]:
# índices no consecutivos
# recuerda: en python, se empieza a contar en 0
alquiler.iloc[[1, 2, 4], [0, 3]]

In [None]:
# los índices negativos indican que se empieza a contar desde el final
alquiler.iloc[-3:-1]

### Selección por etiquetas

Para acceder por _etiquetas_ (es decir, columnas parte del índice), se usa `loc[]`

In [None]:
alquiler_nuevo_indice.loc[('Centro', 2014, 2)]  #Aquí usamos el índice completo (3 columnas)

In [None]:
# O un distrito completo
alquiler_nuevo_indice.loc[('Centro')].head()    #Aquí usamos parte del índice (1 columna)

### Selección por condiciones

Para extraer las filas que cumplen una condición, le pasamos al DataFrame dicha condición sobre las columnas que nos interesen.

In [None]:
alquiler[alquiler.distrito == 'Retiro'].head()

**Nota:** mira cómo en el código anterior hemos seleccionado la columna `distrito` usando un punto, `alquiler.distrito`. Es una alternativa a la notación mediante corchetes, `alquiler['distrito']`.

Podemos combinar varias condiciones con `&` (y lógico) y `|` (o lógico)

In [None]:
# No olvides los paréntesis, es importante por prioridad de operadores! 
# Fíjate que no son los mismos operadores que vimos en el tema 1

alquiler[(alquiler.distrito == 'Retiro') & (alquiler.anyo == 2012)]

In [None]:
#Mostrando únicamente el precio, después de aplicar la condición

alquiler[(alquiler.distrito == 'Retiro') & (alquiler.anyo == 2012)][['precio']]

## Ordenación

Podemos ordenar un DataFrame por una o varias columnas, de forma ascendente o descendente, con [`sort_values`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sort_values.html)

In [None]:
alquiler.sort_values('distrito', ascending=True).head()

In [None]:
alquiler.sort_values(['distrito', 'anyo', 'cuatrimestre'], ascending=[True, False, True]).head()

## Transformación

Creación de nuevas columnas calculadas, cambio de tipo de dato, eliminación de una columna



### Crear una columna calculada

Podemos operar sobre las columnas para crear otras nuevas

In [None]:
# Hago una copia para no modificar el dataframe original
alquiler_2 = alquiler.copy()

alquiler_2['precio_90m'] = alquiler_2.precio * 90
alquiler_2.head()

Más adelante veremos cómo aplicar operaciones a datos seleccionados (con la función `apply` y funciones `lambda`)

### Renombrar una columna

Vamos a ver algunos ejemplos para renombrar columnas. 

Por ejemplo, para renombrar la columna `precio_90m` a `precio_90_metros` sería:

In [None]:
alquiler_2 = alquiler_2.rename(columns={'precio_90m': 'precio_90_metros'})
alquiler_2.head()

Fíjate en el ejemplo anterior. En general, las funciones de `pandas` crean un nuevo objeto con el resultado de la operación, pero no modifican el actual. En estas funciones, suele haber un parámetro `inplace` con valor por defecto a `False`. Si lo ponemos a `True`, la operación se realiza sobre el objeto que pasamos por parámetro.

In [None]:
alquiler_2.rename(columns={'distrito':'district', 'anyo':'year', 'cuatrimestre':'quarter'}, inplace=True)
alquiler_2.head()

#### La importancia de la nomenclatura

Tener buenos nombres de columnas en un DataFrame es importante. Hará mucho más legible nuestro código si nuestras columnas tienen nombres descriptivos, sin caracteres extraños y separados por `_`.

Unos cuantos ejemplos de malos nombres:

* `col1`, `col2`, ..., `colN`: no sabemos qué es cada cosa.
* `precio euros`, `metros cuadrados`: los espacios dificultan escribir código. Por ejemplo, ya no podremos acceder a las columnas con la notación `dataframe.columna`.
* `año`, `variación`, `precio_€`: los caracteres no-asciii (que no son letras no acentuadas ni números) pueden dar problemas al compartir código (p.e. entre Linux y Windows), al exportar / importar, etc. Es mejor evitarlos.
* `PrecioEuros`, `MetrosCuadrados`: aunque es más sutil, el estándar en Python es escribir en snake_case. Es decir, utilizando minúsculas y usando `_` para separar palabras.

Ejemplo de buenos nombres:

* `distrito`, `precio_euros`, `metros_cuadrados`

### Eliminar una columna

Podemos utilizar [`drop`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html).

Por ejemplo:

In [None]:
alquiler_2 = alquiler_2.drop(columns=['precio_90_metros'])
alquiler_2.head()

### Cambiar el tipo de dato

Vamos a crear un DataFrame muy simple para verlo.

In [None]:
prueba = pd.DataFrame({'precio': ['10.50', '15.35', '22.15']})
prueba

In [None]:
prueba.dtypes

Tenemos un DataFrame con precios, pero estos son cadenas de texto en lugar de números. Esto va a limitar nuestro análisis: no podremos ejecutar operaciones aritméticas, calcular medias, etc. Es muy habitual que esto pase en el momento de cargar unos datos. 

Sobre nuestro ejemplo actual `prueba`, podemos usar [`astype`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.astype.html) para convertir la columna a numérica. En este caso, como es numérica con decimales, usaremos el tipo `float`.

In [None]:
prueba['precio'] = prueba.precio.astype(float)
prueba.dtypes