<img src="../images/aeropython_logo.png" alt="AeroPython" style="width: 300px;"/>

# Carga y manipulación de datos con pandas

__pandas es una biblioteca de análisis de datos en Python__ que nos provee de las estructuras de datos y herramientas para realizar análisis de manera rápida. Se articula sobre la biblioteca NumPy y nos permite enfrentarnos a situaciones en las que tenemos que manejar datos reales que requieren seguir un proceso de carga, limpieza, filtrado, reduccióń y análisis.

_En esta clase veremos como cargar y guardar datos, las características de las pricipales estructuras de pandas y las aplicaremos a algunos problemas._

In [None]:
# Importamos pandas

## Cargando los datos y explorándolos

Trabajaremos sobre un fichero de datos metereológicos de la Consejeria Agricultura Pesca y Desarrollo Rural Andalucía.

In [3]:
from IPython.display import HTML
HTML('<iframe src="http://www.juntadeandalucia.es/agriculturaypesca/ifapa/ria/servlet/FrontController?action=Static&url=coordenadas.jsp&c_provincia=4&c_estacion=4" width="700" height="400"></iframe>')

In [None]:
# Vemos qué pinta tiene el fichero

Vemos que los datos no están en formato CSV, aunque sí tienen algo de estructura. Si intentamos cargarlos con pandas no tendremos mucho éxito:

In [None]:
# Tratamos de cargarlo en pandas

Tenemos que hacer los siguientes cambios:

* Separar los campos por un número arbitrario de espacios en blanco.
* Saltar las primeras líneas.
* Dar nombres nuevos a las columnas.
* Descartar la columna del día del año (podemos calcularla luego).
* Parsear las fechas en el formato correcto.

In [None]:
#     date_parser=lambda x: pd.datetime.strptime(x, '%d-%m-%y'),  # Parseo manual
# Ordenando de más antigua a más moderna
# Mostrando sólo las primeras o las últimas líneas

In [None]:
# Comprobamos los tipos de datos de la columnas

Las fechas también se pueden parsear de manera manual con el argumento:

```
date_parser=lambda x: pd.datetime.strptime(x, '%d-%m-%y'),  # Parseo manual
```

<div class="alert alert-info">Para acordarnos de cómo parsear las fechas: http://strftime.org/</div>

In [None]:
# Pedomos información general del dataset

In [None]:
# Descripción estadística

In [None]:
# Una vez convertido en un objeto fecha se pueden obtener cosas como:

## Accediendo a los datos 

Tenemos dos formas de acceder a las columnas: por nombre o por atributo (si no contienen espacios ni caracteres especiales).

In [None]:
# Accediendo como clave

In [None]:
# Accediendo como atributo

In [None]:
# Accediendo a varias columnas a la vez

In [None]:
# Modificando valores de columnas

In [None]:
# Aplicando una función a una columna entera (ej. media numpy)

In [None]:
# Calculando la media con pandas

Para acceder a las filas tenemos dos métodos: `.loc` (basado en etiquetas), `.iloc` (basado en posiciones enteras) y `.ix` (que combina ambos).

In [None]:
# Accediendo a una fila por índice

In [None]:
# Accediendo a una fila por etiqueta

Puedo incluso hacer secciones basadas en fechas:

También puedo indexar utilizando arrays de valores booleanos, por ejemplo procedentes de la comprobación de una condición:

In [None]:
# Búsqueda de valores nulos

Podemos agrupar nuestros datos utilizando `groupby`:

In [None]:
# Agruparemos por año y día: creemos dos columnas nuevas

In [None]:
# Creamos la agrupación

In [None]:
# Podemos ver los grupos que se han creado

In [None]:
# Accedemos a un grupo

In [None]:
# O hacemos una agregación de los datos:

Y podemos reorganizar los datos utilizando _pivot tables_:

In [None]:
# Dejar los años como índices y ver la media mensual en cada columna

Por último, pandas proporciona métodos para calcular magnitudes como medias móviles usando el método `rolling`:

In [None]:
# Calcular la media de la columna TMAX

In [None]:
# Media trimensual centrada

## Plotting

## Líneas

In [None]:
# Pintar la temperatura máx, min, med

## Cajas

Pintando la temperatura máxima de las máximas, mínima de las mínimas, media de las medias para cada día del año de los años disponnibles

## Visualizaciones especiales

In [None]:
# scatter_matrix

---
#### ¡Síguenos en Twitter!

<a href="https://twitter.com/AeroPython" class="twitter-follow-button" data-show-count="false">Follow @AeroPython</a> <script>!function(d,s,id){var js,fjs=d.getElementsByTagName(s)[0],p=/^http:/.test(d.location)?'http':'https';if(!d.getElementById(id)){js=d.createElement(s);js.id=id;js.src=p+'://platform.twitter.com/widgets.js';fjs.parentNode.insertBefore(js,fjs);}}(document, 'script', 'twitter-wjs');</script> 


Este notebook ha sido realizado por: Juan Luis Cano, Álex Sáez


<a rel="license" href="http://creativecommons.org/licenses/by/4.0/deed.es"><img alt="Licencia Creative Commons" style="border-width:0" src="http://i.creativecommons.org/l/by/4.0/88x31.png" /></a><br /><span xmlns:dct="http://purl.org/dc/terms/" property="dct:title">Curso AeroPython</span> por <span xmlns:cc="http://creativecommons.org/ns#" property="cc:attributionName">Juan Luis Cano Rodriguez y Alejandro Sáez Mollejo</span> se distribuye bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/deed.es">Licencia Creative Commons Atribución 4.0 Internacional</a>.

---
_Las siguientes celdas contienen configuración del Notebook_

_Para visualizar y utlizar los enlaces a Twitter el notebook debe ejecutarse como [seguro](http://ipython.org/ipython-doc/dev/notebook/security.html)_

    File > Trusted Notebook

In [35]:
# preserve
# Esta celda da el estilo al notebook
from IPython.core.display import HTML
css_file = '../styles/aeropython.css'
HTML(open(css_file, "r").read())