<img src="../images/pyladiesmadrid_alargado.png" style="width: 500px;"/>

Notebook basado en: https://github.com/CAChemE/python-analisis-modelado-datos/blob/master/notebooks/0101_Pandas-Carga-datos-y-manipulacion.ipynb realizado por Juan Luis Cano, Álex Sáez y Mabel Delgado, con MIT License

---

# Pandas: Carga y manipulación básica de datos

_Hasta ahora hemos visto las diferentes estructuras para almacenamiento de datos que nos ofrece Python, como; integer, real, complex, boolen, list, tuple, dictionary... Sin embargo, también se pueden utilizar arrays a través del paquete `NumPy`, , y otros tipos de estructuras._

_En este notebook, vamos a presentar y empezar a trabajar con el paquete `pandas`. En concreto, nos basaremos en algunos problemas para ver las características de sus estructuras de datos, y para aprender a cargar datos y empezar a manipularnos._

---

## ¿Qué es pandas?

`pandas` es una libreria que nos proporciona estructuras de datos y herramientas para realizar análisis de grandes volúmenes de datos de manera rápida.

Es de gran utilidad en la industria del Big Data, pues un grandísmo porcentaje del tiempo de trabajo de un Data Scientist, está asociado a la limpieza y preparación de los datos (ver [artículo](https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/#a5231076f637)), y pandas nos ayuda mucho en esta tarea.  

De manera estándar y por convenio, pandas se importa de la siguiente forma:

## Cargando los datos

Trabajaremos sobre un fichero de datos metereológicos de AEMET obtenido de su portal de datos abiertos (Trabajaremos sobre un fichero de datos metereológicos de [AEMET obtenido de su portal de datos abiertos](https://opendata.aemet.es/centrodedescargas/inicio)

Vemos que pinta tiene el fichero:

In [1]:
# en Linux
!head ../data/alicante_city_climate_AEMET.csv

created on: Tue Feb 20 01:16:55 2018

dir	fecha	indicativo	nombre	prec	presMax	presMin	provincia	racha	sol	tmax	tmed	tmin	velmedia
14.0	2015-01-01	8025	ALICANTE/ALACANT	0.0	1027.2	1019.8	ALICANTE	4.7	8.6	16.0	9.6	3.2	1.4
19.0	2015-01-02	8025	ALICANTE/ALACANT	0.0	1028.8	1025.3	ALICANTE	4.2	8.8	18.1	10.0	2.0	1.1
99.0	2015-01-03	8025	ALICANTE/ALACANT	0.0	1027.8	1022.5	ALICANTE	7.2	8.6	19.5	11.3	3.1	2.2
6.0	2015-01-04	8025	ALICANTE/ALACANT	0.0	1022.5	1020.4	ALICANTE	6.1	8.8	20.3	13.4	6.5	1.7
99.0	2015-01-05	8025	ALICANTE/ALACANT	0.0	1021.5	1017.0	ALICANTE	4.2	8.9	16.9	10.8	4.8	1.1
7.0	2015-01-06	8025	ALICANTE/ALACANT	0.0	1018.1	1014.5	ALICANTE	5.0	8.9	15.6	9.6	3.5	1.1
12.0	2015-01-07	8025	ALICANTE/ALACANT	0.0	1023.8	1018.1	ALICANTE	4.7	4.6	17.2	11.1	5.0	0.8


In [2]:
# en Windows
# !more ..\data\alicante_city_climate_AEMET.csv

Vemos que los datos no están en formato CSV, aunque sí que tienen algo de estructura.

¿Qué sucede si intentamos cargarlos con pandas?

Tenemos que hacer los siguientes cambios:
* Separar los campos por tabuladores.
* Saltar las primeras lineas.
* Descartar columnas que no nos interesan.
* Dar nombre a las nuevas columnas.
* Convertir las fechas al formato correcto.
* Definir la fecha como índice.

<div class="alert alert-info">Para acordarnos de cómo parsear las fechas: http://strftime.org/</div>

## Explorando los datos

In [3]:
# recuperar los tipos de datos de cada columna


In [4]:
# recuperar los índices


In [5]:
# Muestro solo las primers 4 líneas


In [6]:
# Muestro sólo las últimas 6 líneas


In [7]:
# Numero de filas y columnas en el dataset


In [8]:
# contamos cuantos elementos tenemos sin valor


In [9]:
# contamos cuantos elementos tenemos con valor


### Descripción estadística

Se pueden pedir los datos estadísticos asociados al dataframe.

In [10]:
# Descripción estadística


Por defecto, los elementos con NA no se tienen en cuenta a la hora de calcular los valores.

In [11]:
# media


## Accediendo a los datos.

Tenemos dos funciones principales para acceder a los datos, que son `.loc` que permite acceder por etiquetas, y `.iloc`que permite acceder por índices. 

In [12]:
# accediendo a una columna por el nombre (label) y obteniendo un dataframe.


In [13]:
# accediendo a varias columnas por el nombre (label)


In [14]:
# accediendo a files y columnas por etiquetas


In [15]:
# accediendo a filas y columnas por posiciones enteras


## Filtrado de datos

In [16]:
# busco duplicados en las fechas


In [17]:
# 0<TMin< 2


## Representaciones de datos

In [18]:
# Importamos  matplotlib
%matplotlib inline
import matplotlib.pyplot as plt

#### Líneas

In [19]:
# Pintar la temperatura máx, min, med


Pintar datos para una fecha.

#### barras

In [20]:
# crear widget
from ipywidgets import interact

---

Hemos aprendido:
* Como leer un CSV con distintos formatos utilizando la librería pandas.
* Como extraer información de la librería los datos cargados.
* Como acceder a los datos cargados.
* Como representar datos con pandas.

###### Juan Luis Cano, Alejandro Sáez, Mabel Delgado

In [21]:
# Esta celda da el estilo al notebook
from IPython.core.display import HTML
css_file = '../styles/pyladiesmadrid_notebook.css'
HTML(open(css_file, "r").read())