# Introducción a Jupyter Notebook, Pandas, Matplotlib, etc.

En esta hoja introduciremos la forma de trabajar con Jupyter Notebook, instalado en la máquina virtual. Veremos cómo los distintos elementos de las librerías de Python interactúan con el notebook para mostrar imágenes, gráficos, etc. También, en las siguientes sesiones los usaremos para acceder a conexiones SQL, conexión a bases de datos NoSQL.

Enlaces a otros tutoriales introductorios (que también se centran en tratamiento de datos para Big Data): [1](https://github.com/CharlestonDataScience/PythonNotebooks/blob/master/notebooks/tutorial_01/pandas_tutorial.ipynb) y [2](https://github.com/phelps-sg/python-bigdata/blob/master/src/main/ipynb/pandas.ipynb), entre otros muchos.

## Jupyter Notebook

Los *Notebook* contienen una mezcla de texto y código, y se pueden ir ejecutando paso a paso. Al pulsar Ctrl+Intro en una celda, se ejecuta el código de la celda y se muestra el la siguiente celda.

Existen también "magics", que sirven para obtener información de la hoja, o ejecutar comandos especiales. Por ejemplo, órdenes de shell, como en la siguiente celda. Hay varios tutoriales Online. Por ejemplo: [Tutorial](https://github.com/esc/scipy2013-tutorial-numpy-ipython/blob/master/ipython.ipynb).

In [None]:
!uname -a

In [None]:
%lsmagic

A continuación mostramos los paquetes que usaremos regularmente para tratar datos, pandas, numpy, matplotlib.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib

Lo siguiente hace que los gráficos se muestren inline. Para figuras pequeñas se puede utilizar unas figuras interactivas que permiten zoom, usando `%maplotlib nbagg`.

In [2]:
%matplotlib inline
matplotlib.style.use('ggplot')

## Numpy

Numpy es una de las librerías más utilizadas en Python, y ofrece un interfaz sencillo para operaciones eficientes con números, arrays y matrices. Numpy se utilizará de apoyo muchas veces que haya que hacer procesamiento local de datos recogidos de una base de datos, o como preparación para la graficación de datos. En la celda siguiente se muestra un vídeo introductorio, y también se puede acceder a tutoriales online: [Tutorial](https://github.com/esc/scipy2013-tutorial-numpy-ipython/blob/master/operations.ipynb)

In [None]:
from IPython.display import YouTubeVideo
YouTubeVideo('o8fmjaW9a0A') # Yes, it can also embed youtube videos.

Numpy permite generar y procesar arrays de datos de forma muy eficiente. A continuación se muestran algunos ejemplos:

In [None]:
a = np.array([4,5,6])
print a.shape
print a[0]
a[0] = 9
print a

También arrays multidimensionales:

In [None]:
a = np.zeros((2,2))
print a
b = np.random.random((2,2))
print b

In [None]:
a = np.random.random((2,2))
print a
print a >= .5
print a[a >= .5]

In [None]:
x = np.array([[1,2],[3,4]])

print np.sum(x)  # Compute sum of all elements; prints "10"
print np.sum(x, axis=0)  # Compute sum of each column; prints "[4 6]"
print np.sum(x, axis=1)  # Compute sum of each row; prints "[3 7]"

## Matplotlib

Matplotlib permite generar gráficos de forma sencilla. Lo veremos aquí primero conectado sólo con numpy y después conectado con Pandas.

In [None]:
x = np.arange(0, 3 * np.pi, 0.1)
y = np.sin(x)

# Plot the points using matplotlib
plt.plot(x, y)
plt.show()

In [None]:
# Compute the x and y coordinates for points on sine and cosine curves
x = np.arange(0, 3 * np.pi, 0.1)
y_sin = np.sin(x)
y_cos = np.cos(x)

# Plot the points using matplotlib
plt.plot(x, y_sin)
plt.plot(x, y_cos)
plt.xlabel('x axis label')
plt.ylabel('y axis label')
plt.title('Sine and Cosine')
plt.legend(['Sine', 'Cosine'])
plt.show()

## Pandas

Tutoriales: [1](http://pandas.pydata.org/pandas-docs/version/0.18.1/tutorials.html), [2](https://dev.socrata.com/blog/2016/02/01/pandas-and-jupyter-notebook.html), [3](http://nikgrozev.com/2015/12/27/pandas-in-jupyter-quickstart-and-useful-snippets/)

Pandas permite gestionar conjuntos de datos n dimensionales de diferentes formas, y también conectarlo con matplotlib para hacer gráficas.

Los conceptos principales de Pandas son los `Dataframe`s y las `Series`. La diferencia entre ambas es que la serie guarda sólo una serie (una columna o una fila, depende de como se quiera interpretar), mientras que un dataframe guarda estructuras multidimensaionales agregando series.

Ambas tienen una "columna fantasma", que sirve de índice, y que se puede acceder con `d.index` (tanto si `d` es una serie o un dataframe). Si no se especifica un índice, se le añade uno virtual numerando las filas desde cero. Además, los índices pueden ser multidimensionales (por ejemplo, tener un índice por mes y dentro uno por dia de la semana).

In [None]:
ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))
ts

In [None]:
ts = ts.cumsum()
ts.plot()

In [None]:
df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index, columns=list('ABCD'))

df = df.cumsum()

df.plot();

El primer ejemplo completo carga desde el fichero `swift-question-dates.txt.gz` las fechas de las preguntas en Stackoverflow que contienen el tag "swift".

In [None]:
!zcat swift-question-dates.txt.gz

La función `read_csv` es capaz de leer cualquier fichero CSV y lo convierte en un "Dataframe", una estructura de tabla que guarda también los nombres y los tipos de las columnas, así como un índice por el que se identificarán las tablas. En este caso no se especifica ninguna columna como índice, por lo que se crea un índice automático numerado empezando desde 0. Se puede ver en la siguiente celda.

In [None]:
df = pd.read_csv('swift-question-dates.txt.gz',header=None,names=['date'],compression='gzip',parse_dates=['date'],index_col='date')

In [None]:
df

Añadimos una columna de todo "1" para especificar que cada pregunta cuenta como 1.

In [None]:
df['Count'] = 1
df

A los Dataframe de Pandas también se les puede aplicar operaciones de agregación, como `groupby` o `sum`. Finalmente, la funcion `plot()` permite mostrar los datos en un gráfico.

In [None]:
accum = df.groupby(df.index).sum()

In [None]:
accum.plot.bar(figsize=(500,80))

In [3]:
# cargar municipios y mostrarlos en el mapa
df = pd.read_csv('municipios-españa-coordenadas-2011.csv.gz',header=0,compression='gzip')

In [4]:
df

Unnamed: 0,municipio,provincia,comunidad,latitud,longitud,Enlace Google Maps
0,Abla,Almería,Andalucía,37.141145,-2.780104,"http://maps.google.es/maps?z=14&ll=37.1411446,..."
1,Abrucena,Almería,Andalucía,37.133048,-2.797098,"http://maps.google.es/maps?z=14&ll=37.1330481,..."
2,Adra,Almería,Andalucía,36.748071,-3.022522,"http://maps.google.es/maps?z=14&ll=36.7480711,..."
3,Albánchez,Almería,Andalucía,37.287102,-2.181163,"http://maps.google.es/maps?z=14&ll=37.2871024,..."
4,Alboloduy,Almería,Andalucía,37.033187,-2.621750,"http://maps.google.es/maps?z=14&ll=37.0331869,..."
5,Albox,Almería,Andalucía,37.389788,-2.147483,"http://maps.google.es/maps?z=14&ll=37.3897879,..."
6,Alcolea,Almería,Andalucía,36.974488,-2.961038,"http://maps.google.es/maps?z=14&ll=36.9744883,..."
7,Alcóntar,Almería,Andalucía,37.335852,-2.596944,"http://maps.google.es/maps?z=14&ll=37.3358524,..."
8,Alcudia de Monteagud,Almería,Andalucía,37.235986,-2.266173,"http://maps.google.es/maps?z=14&ll=37.2359862,..."
9,Alhabia,Almería,Andalucía,36.989305,-2.587667,"http://maps.google.es/maps?z=14&ll=36.9893054,..."
