# Curso de introducción al análisis y modelado de datos con Python 

<img src="../images/cacheme.png" alt="logo" style="width: 150px;"/>
<img src="../images/aeropython_logo.png" alt="logo" style="width: 115px;"/>

---

# Pandas: Carga y manipulación básica de datos

_Hasta ahora hemos visto las diferentes estructuras para almacenamiento de datos que nos ofrece Python, como; integer, real, complex, boolen, list, tuple, dictionary... Sin embargo, también se pueden utilizar arrays a través del paquete `NumPy`, matrices dispersas que nos proporciona el paquete `sparse` de `SciPy`, y otros tipos de estructuras._

_En este notebook, vamos a presentar y empezar a trabajar con el paquete `pandas`. En concreto, nos basaremos en algunos problemas para ver las características de sus estructuras de datos, y para aprender a cargar datos y empezar a manipularnos._

---

## ¿Qué es pandas?

`pandas` es una libreria que nos proporciona estructuras de datos y herramientas para realizar análisis de grandes volúmenes de datos de manera rápida.

Se articula sobre la librería `NumPy`, y nos permite enfrentarnos a situaciones en las que tenemos que manejar datos reales, que requieren seguir un proceso de carga, limpieza, filtrado y reducción, y su posterior análisis y representación.

Es de gran utilidad en la industria del Big Data, pues un grandísmo porcentaje del tiempo de trabajo de un Data Scientist, está asociado a la limpieza y preparación de los datos (ver [artículo](https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/#a5231076f637)), y pandas nos ayuda mucho en esta tarea.  

De manera estándar y por convenio, pandas se importa de la siguiente forma:

## Cargando los datos

Trabajaremos sobre un fichero de datos metereológicos de AEMET obtenido de su portal de datos abiertos a través de la API (ver notebook adjunto). https://opendata.aemet.es/centrodedescargas/inicio

In [2]:
# preserve
from IPython.display import HTML
HTML('<iframe src="https://opendata.aemet.es/centrodedescargas/inicio" width="700" height="400"></iframe>')

Vemos que pinta tiene el fichero:

In [None]:
# en linux
#!head ../data/alicante_city_climate_aemet.csv

In [None]:
# en windows
# !more ..\data\alicante_city_climate_aemet.csv

Vemos que los datos no están en formato CSV, aunque sí que tienen algo de estructura.

¿Qué sucede si intentamos cargarlos con pandas?

Tenemos que hacer los siguientes cambios:
* Separar los campos por tabuladores.
* Saltar las primeras lineas.
* Descartar columnas que no nos interesan.
* Dar nombre a las nuevas columnas.
* Convertir las fechas al formato correcto.
* Definir la fecha como índice.

<div class="alert alert-info">Para acordarnos de cómo parsear las fechas: http://strftime.org/</div>

## Explorando los datos

In [None]:
# recuperar los tipos de datos de cada columna

In [None]:
# recuperar los índices

In [None]:
# muestro solo las primers 4 líneas

In [None]:
# muestro sólo las últimas 6 líneas

In [None]:
# muestro sólo determinadas líneas (slicing)

In [None]:
# ordeno de índice más antiguo a más moderno

In [None]:
# ordeno de mayor a menor la temperatura media

In [None]:
# información general del dataset. 
# cuidado, para cada columna son las filas con elementos

In [None]:
# numero de filas y columnas en el dataset

In [None]:
# contamos cuantos elementos tenemos sin valor

In [None]:
# contamos cuantos elementos tenemos con valor

### Descripción estadística

Se pueden pedir los datos estadísticos asociados al dataframe.

In [None]:
# descripción estadística

Por defecto, los elementos con NA no se tienen en cuenta a la hora de calcular los valores. Se puede comprobar viendo como cambian los datos cuando se sustitiyen con ceros.

In [None]:
# cambiar na por ceros y volver a ver la descripción estadística
# recuerda que esto no cambia data en realidad, porque no lo hemos guardado

Otra forma de acceder a los datos estadísticos, es pedirlos de forma directa.

In [None]:
# media

In [None]:
# cuantil

## Accediendo a los datos.

Tenemos dos funciones principales para acceder a los datos, que son `.loc` que permite acceder por etiquetas, y `.iloc`que permite acceder por índices. 

##### columnas

Hay varias formas de acceder a las columnas: por nombre o por atributo (si no contienen espacios ni caracteres especiales). Además, también se puede usar `.loc` (basado en etiquetas), `.iloc` (basado en posiciones enteras).


In [None]:
# accediendo a una columna por el nombre (label) y obteniendo una serie

In [None]:
# accediendo a una columna por el nombre (label) y obteniendo un dataframe.

In [None]:
# accediendo a varias columnas por el nombre (label)

In [None]:
# accediendo a una columna por el atributo

In [None]:
# accediendo a una columna por índice y obteniendo una serie

In [None]:
# accediendo a una columna por índice y obteniendo un dataframe

In [None]:
# accediendo a varias columnas por índice

In [None]:
# accediendo a una columna por el label y obteniendo una serie

In [None]:
# accediendo a una columna por el label y obteniendo un dataframe

In [None]:
# accediendo a varias columnas por le label

##### filas

Para acceder a las filas tenemos dos métodos: `.loc` (basado en etiquetas), `.iloc` (basado en posiciones enteras).

In [None]:
# accediendo a una fila por etiqueta y obteniendo una serie

In [None]:
# accediendo a una fila por etiqueta y obteniendo un dataframe

In [None]:
# accediendo a varias filas por etiqueta

In [None]:
# accediendo a una fila por posición entera y obteniendo una serie

In [None]:
# accediendo a una fila por posición entera y obteniendo un dataframe

In [None]:
# accediendo a varias filas por posición entera

##### filas y columnas 

In [None]:
# accediendo a files y columnas por etiquetas

In [None]:
# accediendo a filas y columnas por posiciones enteras

## Filtrado de datos

In [None]:
# busco duplicados en las fechas

In [None]:
# tmax > 37

In [None]:
# 0<tmin< 2

In [None]:
# busqueda de valores nulos

## Representaciones de datos

In [None]:
# importamos  matplotlib

#### Líneas

In [None]:
# pintar la temperatura máx, min, med

Pintar datos para una fecha.

In [None]:
# crear widget

#### barras

#### cajas

### Visualizaciones especiales

#### scatter

In [None]:
# scatter_matrix

---

Hemos aprendido:
* Como leer un CSV con distintos formatos utilizando la librería pandas.
* Como extraer información de la librería los datos cargados.
* Como acceder a los datos cargados.
* Como representar datos con pandas.

###### Juan Luis Cano, Alejandro Sáez, Mabel Delgado

---
_Las siguientes celdas contienen configuración del Notebook_

_Para visualizar y utlizar los enlaces a Twitter el notebook debe ejecutarse como [seguro](http://ipython.org/ipython-doc/dev/notebook/security.html)_

    File > Trusted Notebook

In [54]:
#preserve
# Esta celda da el estilo al notebook
from IPython.core.display import HTML
css_file = '../style/style.css'
HTML(open(css_file, "r").read())