# Introducción a Jupyter Notebook, Pandas, Matplotlib, etc.

En esta hoja introduciremos la forma de trabajar con Jupyter Notebook, instalado en la máquina virtual. Veremos cómo los distintos elementos de las librerías de Python interactúan con el notebook para mostrar imágenes, gráficos, etc. También, en las siguientes sesiones los usaremos para acceder a conexiones SQL, conexión a bases de datos NoSQL.

Enlaces a otros tutoriales introductorios (que también se centran en tratamiento de datos para Big Data): [1](https://github.com/CharlestonDataScience/PythonNotebooks/blob/master/notebooks/tutorial_01/pandas_tutorial.ipynb) y [2](https://github.com/phelps-sg/python-bigdata/blob/master/src/main/ipynb/pandas.ipynb), entre otros muchos.

A continuación mostramos los paquetes que usaremos regularmente para tratar datos, pandas, numpy, matplotlib.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib

Lo siguiente hace que los gráficos se muestren inline.

In [None]:
%matplotlib inline
matplotlib.style.use('ggplot')

El primer ejemplo completo carga desde el fichero `swift-question-dates.txt.gz` las fechas de las preguntas en Stackoverflow que contienen el tag "swift".

In [None]:
!zcat swift-question-dates.txt.gz

La función `read_csv` es capaz de leer cualquier fichero CSV y lo convierte en un "Dataframe", una estructura de tabla que guarda también los nombres y los tipos de las columnas, así como un índice por el que se identificarán las tablas. En este caso no se especifica ninguna columna como índice, por lo que se crea un índice automático numerado empezando desde 0. Se puede ver en la siguiente celda.

In [None]:
df = pd.read_csv('swift-question-dates.txt.gz',header=None,names=['date'],compression='gzip')

In [None]:
df

Añadimos una columna de todo "1" para especificar que cada pregunta cuenta como 1.

In [None]:
df['1'] = 1
df

A los Dataframe de Pandas también se les puede aplicar operaciones de agregación, como `groupby` o `sum`. Finalmente, la funcion `plot()` permite mostrar los datos en un gráfico.

In [None]:
df.groupby('date').sum().plot.bar(figsize=(500,80))


In [None]:
ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))
ts = ts.cumsum()
ts.plot()

In [None]:
df2 = pd.DataFrame(np.random.randn(1000, 4), index=ts.index, columns=list('ABCD'))
df2

In [None]:
# cargar municipios y mostrarlos en el mapa

In [None]:
X = np.arange(0, 10, 1) 
Y = X + 5 * np.random.random((5, X.size))

plt.stackplot(X, *Y, baseline="sym")
plt.title("sym")
plt.axis('tight')
plt.show()

In [None]:
from IPython.display import YouTubeVideo
YouTubeVideo('wxVx54ax47s') # Yes, it can also embed youtube videos.
