# Curso de introducción al análisis y modelado de datos con Python 

<img src="../images/cacheme.png" alt="logo" style="width: 150px;"/>
<img src="../images/aeropython_logo.png" alt="logo" style="width: 115px;"/>

---

# Pandas: Funciones rolling y operaciones con DataFrames

En este notebook trabajaremos sobre los mismos datos que la introducción a pandas. Veremos como usar el método rolling para obtener resultados como la media móvil, la desviación típica móvil... Además veremos como agrupar los datos usando `groupby` y cómo pivotar tablas.

## Cargando los datos

In [None]:
# carga de los datos: data_all
# columnas: [0, 1, 3, 4, 5, 6, 8, 10, 11, 12, 13]
# ['dir', 'date', 'name', 'precip', 'pmax', 'pmin', 'mag_max', 'tmax', 'tmed', 'tmin', 'mag_med']

<div class="alert alert-info">Para acordarnos de cómo parsear las fechas: http://strftime.org/</div>

In [None]:
# dejamos en data sólo alicante/alacant

### Funciones "rolling" 

Ya sabemos obtener representaciones gráficas de nuestros de datos. Visualicemos, por ejemplo, la evolución de la temperatura media a lo largo de los años 2015 y 2016:

In [None]:
# temperatua media en el 205-2016

Se puede apreciar la oscilación a lo largo del año. Sin embargo, las variaciones locales de temperatura de determinados días "ensucian" nuestra representación. Una opción es "suavizar" la curva utilizando una media móvil

Pandas proporciona métodos para calcular magnitudes como medias móviles usando el método `rolling`:

In [None]:
# calcular la media de la columna tmed

In [None]:
# media centrada (semanal/mensual/trimestral)

In [None]:
# pintar media centrada (semanal/mensual/trimestral)

## Creando agrupaciones 

En muchas ocasiones queremos realizar agrupaciones de datos en base a determinados valores como son fechas, o etiquetas (por ejemplo, datos que pertenecen a un mismo ensayo o lugar).

In [None]:
# agrupar por estación metereológica

In [None]:
# media

In [None]:
# media y desviación estándar

### Creando agrupaciones: analizando el mes típico

En muchas ocasiones queremos realizar agrupaciones de datos en base a determinados valores como son fechas, o etiquetas (por ejemplo, datos que pertenecen a un mismo ensayo o lugar).

En este caso, imaginemos que nos interesa obtener una representación del "mes típico" o "día típico"

Podemos agrupar nuestros datos utilizando `groupby`:

In [None]:
# agruparemos por año y mes: creemos dos columnas nuevas

In [None]:
# creamos la agrupación

In [None]:
# podemos ver los grupos que se han creado

Con estos grupos podemos hacer hacer varias cosas:

* Acceder a sus datos individualmente (por ejemplo, comprobar qué pasó cada día de marzo de 2016) 
* Realizar una reducción de datos, para comparar diversos grupos (por, ejemplo caracterizar el tiempo de cada mes a lo largo de los años)

In [None]:
# accedemos a un grupo

In [None]:
# hacemos una agregación de los datos:

### Pivotando tablas

En ocasiones podemos querer ver nuestros datos de forma diferente o necesitamos organizarlos así para utilizar determinadas funciones de `pandas`. Una necesidad típica es la de pivotar una tabla.

    Imagina que queremos acceder a los mismos datos que en el caso anterior, pero que ahora queremos ver los años en las filas y para cada variable (TMAX, TMED...) los calores de cada mes en una columna. ¿Cómo lo harías?

In [None]:
# dejar los años como índices y ver la media mensual en cada columna

La línea anterior no es sencilla y no se escribe de una sola vez sin errores (sobre todo si estás empezando). Esto es una ejemplo de que `pandas` es una librería potente, pero que lleva tiempo aprender. Pasarás muchas horas peleando contra problemas de este tipo, pero afortunadamente mucha gente lo ha pasado mal antes y su experiencia ha quedado plasmada en cientos de **preguntas de `stack overflow`** y en la **documentación de `pandas`**

#### Otro ejemplo

In [None]:
# seleccionando sólo una estación

In [None]:
# agrupando por estación y mes

In [None]:
# pivotando para que el mes sea el índice

In [None]:
# pintándolo

### Visualizaciones especiales

#### scatter

In [None]:
# scatter_matrix

#### lag_plot 

---

Hemos aprendido:
* A utilizar las funciones rolling
* A agrupar datos de un DataFrame utilizando sus columnas:
  - A agrupar con más de una variable
  - A acceder a distintos grupos
  - A obtener una reducción de datos para cada grupo
* A salvar nuestros datos
* A utilizar algunas representaciones especiales

###### Juan Luis Cano, Alejandro Sáez, Mabel Delgado

---
_Las siguientes celdas contienen configuración del Notebook_

_Para visualizar y utlizar los enlaces a Twitter el notebook debe ejecutarse como [seguro](http://ipython.org/ipython-doc/dev/notebook/security.html)_

    File > Trusted Notebook

In [None]:
# esta celda da el estilo al notebook