In [None]:
from IPython.display import Image
Image(filename='./files/Indizen_GrisTransparente.png')

## Curso de Introducción a Python. Sesión 2
* Numpy
* Pandas
* Matplotlib
* Bokeh

### ¿Qué es Numpy?


"NumPy es una extensión de Python, que le agrega mayor soporte para vectores y matrices, constituyendo una biblioteca de funciones matemáticas de alto nivel para operar con esos vectores o matrices"



In [None]:
import numpy as np

#### Como crear un ndarray

* una dimensión
* dos dimensiones
* ...

In [None]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)

data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)

#### Propiedades de un ndarray

* ndim, shame, dtype ...

In [None]:
arr2.ndim

arr2.shape

arr1.dtype

#### Cambiar tipos de datos

* Tipos
* astype

In [None]:
arr = np.array([1, 2, 3, 4, 5])

arr.dtype

float_arr = arr.astype(np.float64)

arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])

arr.astype(np.int32)

#### Operaciones con arrays


In [None]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])

arr * arr
arr - arr
arr**0.5

#### Indexing and slicing

* :
* 1:3
* 2:-1
* 1:4:2
* slices

In [None]:
arr = np.arange(10)

arr[:]
arr[1:3]
arr[2:-1]
arr[5:8] = 12

arr_slice = arr[5:8]
arr_slice[1] = 12345
arr_slice[:] = 64

#### Otras operaciones
 
* reshape
* selección
* traspuesta

In [None]:
mat = arr.reshape(2,5)

mat = np.random.rand(4,5)

mat[mat >0.5]

mat.T

#### Funciones elemento a elemento

* sqrt
* exp

In [None]:
np.sqrt(mat)

np.exp(mat)


# Pandas

* Es una librería para facilitar el tratamiento análisis de datos.
* En 2008 Wes McKinney crea la primer versión cuando trabajaba en AQR Capital management.
* En 2009 el proyecto Pandas pasa a ser open-source
* Base de muchos otros proyectos

In [None]:
import pandas as pd

#### Crear una Serie

* Valores
* Indices

In [None]:
obj = pd.Series([4, 7, -5, 3])

obj

obj.values

obj.index

obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

obj2

obj2.index

#### Selección de elementos

* Por nombre/s
* Por condición

In [None]:
obj2['a']

obj2['d'] = 6

obj2[['c', 'a', 'd']]

obj2

obj2[obj2 > 0]

#### Operaciones con series

* Operaciones con escalares
* exp, sqrt, ...
* in

In [None]:
obj2 * 2

np.exp(obj2)

'b' in obj2

'e' in obj2

#### Series a partir de diccionarios

In [None]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

obj3 = pd.Series(sdata)

obj3

states = ['California', 'Ohio', 'Oregon', 'Texas']

obj4 = pd.Series(sdata, index=states)

obj4

obj3 + obj4

#### Crear un DataFrame

* De un diccionario
* De una matriz
* columns and index

In [None]:

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
'year': [2000, 2001, 2002, 2001, 2002],
'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}

frame = pd.DataFrame(data)

frame

pd.DataFrame(data, columns=['year', 'state', 'pop'])

frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'], index=['one', 'two', 'three', 'four', 'five'])

frame2

#### Añadir nuevas columnas

In [None]:
frame2.columns

frame2['state']

frame2.year

frame2['debt'] = 16.5

frame2['debt'] = np.arange(5.)

frame2['eastern'] = frame2.state == 'Ohio'

frame2

#### Acceso por filas (Indice)

In [None]:
frame2.ix['three']

#### Otras operaciones

* borrar columnas
* transponer

In [None]:
del frame2['eastern']

frame2.columns

frame2.T

#### Selección en DataFrames

* Columna/s
* Con condiciones
* Para asignar valor

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)), index=['Ohio', 'Colorado', 'Utah', 'New York'], columns=['one', 'two', 'three', 'four'])

data['two']

data[['three', 'one']]

data[data['three'] > 5]

data < 5

data[data < 5] = 0

data


#### Operaciones con DataFrames

In [None]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'), index=['Ohio', 'Texas', 'Colorado'])

df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])

df1 + df2

#### Mapeo de columnas

In [None]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])

frame


#### Operaciones con DataFrames

* sum, max, min, count...
* describe

In [None]:
frame.sum()

frame.sum(axis=1)

frame.describe()

#### Combinación de DataFrame

* Dos dataframe
* Merge
* Diff

In [None]:
data1 = {'Ciudad':['Trujillo', 'Las Pedroñeras', 'Navaluenga', 'Navaluenga'], 'Provincia':['Caceres', 'Cuenca', 'Avila', 'Albacete'], 'Poblacion':[10000, 2000, 400, 40000]}

data2 = {'Ciudad':['Trujillo', 'Las Pedroñeras', 'Navaluenga', 'Navaluenga'], 'Provincia':['Caceres', 'Cuenca', 'Avila', 'Albacete'], 'Poblacion':[12000, 1800, 380, 30000]}

df1 = pd.DataFrame(data1)

df2 = pd.DataFrame(data2)

diff = df1.merge(df2, how='outer', on=['Ciudad', 'Provincia'], suffixes=['_2000', '_1970'])

diff['Diferencia 1970-2000'] = diff['Poblacion_2000'] - diff['Poblacion_1970']

diff


In [None]:
df = pd.read_csv('./files/FL_insurance_sample.csv')
df.head(10)

# Matplotlib

* Datos de partida
* Labels y title
* Guardar a fichero

In [None]:
import matplotlib.pyplot as plt

%matplotlib inline

t = np.arange(0.0, 2.0, 0.01)
s = np.sin(2*np.pi*t)
plt.plot(t, s)

plt.xlabel('time (s)')
plt.ylabel('voltage (mV)')
plt.title('About as simple as it gets, folks')
plt.grid(True)
plt.savefig("test.png")
plt.show()


# Bokeh

In [None]:
import pandas as pd
from bokeh.charts import Bar
from bokeh.io import output_notebook, show
output_notebook()

budget = {'detail': ['Electricity', 'Gas', 'Water', 'School', 'Food'],
          'amount': [120.15, 50.44, 32.12, 25.12, 174.98]}

budget = pd.DataFrame(budget)

bar = Bar(budget, 'detail', values='amount', title="Month budget")

show(bar)

In [None]:
from bokeh.models import HoverTool

hover = HoverTool(
        tooltips=[
            ("detail", "$index"),
            ("amount", "$y"),
        ]
    )

bar = Bar(budget, 'detail', values='amount', tools=[hover,], title="Month budget")

show(bar)
budget