# **Introduction to Financial Python**

## Numpy and Basic Pandas

### **Introducción**

Ahora que hemos presentado los fundamentos de Python, es momento de aprender sobre Numpy y Pandas.

### **Numpy**

Numpy es la biblioteca central para los cientificos de la computación en Python. Este provee un alto rendimiento en objetos de arreglos multidimensionales, y herramientas para trabajar esos arreglos. Tambien tiene una alta integración con Pandas, que es otra poderosa herramienta de manipulación de datos financieros.

Los paquetes de Python al igual que Numpy y Pandas contienen clases y metodos que podemos usar al importar el paquete.



In [3]:
import numpy as np

#### **Arreglos básicos en Numpy**

Un arreglo en Numpy es una cuadricula de valores, todos del mismo tipo, que estan indexados por una tupla de enteros no negativos. Hacemos un arreglo que por una lista de valores de un stock de Apple.

In [12]:
price_list= [143.73, 145.83, 143.68, 144.02,143.5, 142.62]
price_array= np.array(price_list)

print(price_array, type(price_array))

[143.73 145.83 143.68 144.02 143.5  142.62] <class 'numpy.ndarray'>


Note que el tipo de arreglo es "ndarray" que es un arreglo multi-dimensional. Si nosotros pasamos `np.array()` una lista de listas, se creará un arreglo 2-dimensional.

In [5]:
Ar = np.array([[1,3],[2,4]])
print(Ar, type(Ar))

[[1 3]
 [2 4]] <class 'numpy.ndarray'>


Obtenemos las dimensiones de un arreglo n dimensional usando el atributo `.shape`:

In [6]:
print(Ar.shape)

(2, 2)


Si creamos un arreglo bidimensional (una matriz) se puede tener acceso a cada fila por un indice.

In [8]:
print(Ar[0])
print(Ar[1])

[1 3]
[2 4]


Si queremos acceder a una matriz por columnas en su lugar, entonces:

In [10]:
print("Firt column", Ar[:,0])
print("Second column", Ar[:,1])

Firt column [1 2]
Second column [3 4]


**Funciones de los arreglos**

Algunas funciones construidas en Numpy nos permiten realizar calculos en los arreglos. Por ejemplo, podemos aplicar un logaritmo natural a cada elemento del arreglo:

In [13]:
np.log(price_array)

array([4.96793654, 4.98244156, 4.9675886 , 4.96995218, 4.96633504,
       4.96018375])

Otras funciones regresan un solo valor:

In [19]:
print(np.mean(price_array))
print(np.std(price_array))
print(np.sum(price_array))
print(np.max(price_array))


143.89666666666668
0.9673790478515796
863.38
145.83


Las funciones arriba devuelven la media, la desviación estandar, el total, y el máximo valor de un arreglo.

### **Pandas**

Pandas es uno de las herramientas más poderosas para tratar con datos financieros. Primero importamos Pandas:

In [20]:
import pandas as pd

**Series**

Las series son un arreglo unidimensional capaz de mantener cualquier tipo de dato (entero, flotante, objeto Python, etc.)

Creamos una serie llamando `pd.Series(data)`, donde los datos pueden ser un diccionario, un arreglo, o simplemente un valor escalar.

In [21]:
price = [143.73, 145.83, 143.68, 144.02, 143.5, 142.62]
s = pd.Series(price)
print(s)

0    143.73
1    145.83
2    143.68
3    144.02
4    143.50
5    142.62
dtype: float64


Podemos personalizar los indices de nuevas series:

In [23]:
s= pd.Series(price, index= ['a','b','c','d','e','f'])
print(s)

a    143.73
b    145.83
c    143.68
d    144.02
e    143.50
f    142.62
dtype: float64


O podemos cambiar los indices de una serie existente:

In [24]:
s.index= [6,5,4,3,2,1]
print(s)

6    143.73
5    145.83
4    143.68
3    144.02
2    143.50
1    142.62
dtype: float64


Las series son como una lista que puede ser dividida por indices:

In [26]:
print(s[1:])
print(s[:-2])

5    145.83
4    143.68
3    144.02
2    143.50
1    142.62
dtype: float64
6    143.73
5    145.83
4    143.68
3    144.02
dtype: float64


Las series tambien son un diccionario cuyos los valores pueden ser modificados o recuperados por un indice

In [28]:
print(s[4])
s[4]=0
print(s)

143.68
6    143.73
5    145.83
4      0.00
3    144.02
2    143.50
1    142.62
dtype: float64


Las series tambien pueden nombrar un atributo, que será usado cuando construimos un dataframe de Pandas usando varias series.

In [29]:
s= pd.Series(price, name= 'Apple Prices')
print(s)
print(s.name)

0    143.73
1    145.83
2    143.68
3    144.02
4    143.50
5    142.62
Name: Apple Prices, dtype: float64
Apple Prices


Podemos obtener resúmenes estadisticos de una serie.

In [30]:
print(s.describe())

count      6.000000
mean     143.896667
std        1.059711
min      142.620000
25%      143.545000
50%      143.705000
75%      143.947500
max      145.830000
Name: Apple Prices, dtype: float64


**Indice de tiempo**

Panda tiene una función interna especifica para crear indices de fecha: `pd.date_range()`.

Lo usamos para crear un nuevo indice de nuestras series:

In [33]:
time_index = pd.date_range('2017-01-01', periods= len(s), freq= 'D')
print(time_index)
s.index = time_index
print(s)

DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
               '2017-01-05', '2017-01-06'],
              dtype='datetime64[ns]', freq='D')
2017-01-01    143.73
2017-01-02    145.83
2017-01-03    143.68
2017-01-04    144.02
2017-01-05    143.50
2017-01-06    142.62
Freq: D, Name: Apple Prices, dtype: float64


Se accede usualmente a las series por los metodos `iloc[]` y `loc[]`. `iloc[]` es usado para acceder a elementos con indice entero, y `loc[]` es usado para acceder a los indices de las series. 

`iloc[]` es necesario cuando los indices de una serie son enteros, tomaremos nuestra serie anteriormente definida como ejemplo:

In [34]:
s.index= [6,5,4,3,2,1]
print(s)
print(s[1])

6    143.73
5    145.83
4    143.68
3    144.02
2    143.50
1    142.62
Name: Apple Prices, dtype: float64
142.62


Si intentamos tomar el segundo elemento de la serie, podriamos tener un error aqui, porque los indices son enteros. Para acceder a los elementos que queremos, usamos `iloc[]` aqui:

In [35]:
print(s.iloc[1])

145.83


Mientras trabajamos con datos de series, a menudo usamos el tiempo como indice. Panda nos proporciona varios métodos para acceder a datos con indices de tiempo.

In [36]:
s.index= time_index
print(s['2017-01-03'])

143.68


Podemos incluso acceder a rangos de fechas:

In [37]:
print(s['2017-01-02':'2017-01-05'])

2017-01-02    145.83
2017-01-03    143.68
2017-01-04    144.02
2017-01-05    143.50
Freq: D, Name: Apple Prices, dtype: float64


`Series[]` nos provee una forma flexible de indexar datos. Podemos agregar cualquier condición en corchetes: 

In [39]:
print(s[s<np.mean(s)])
print(s[(s>np.mean(s)) & (s<np.mean(s)+ 1.64*np.std(s))])

2017-01-01    143.73
2017-01-03    143.68
2017-01-05    143.50
2017-01-06    142.62
Name: Apple Prices, dtype: float64
2017-01-04    144.02
Freq: D, Name: Apple Prices, dtype: float64


Como hemos demostrado, podemos usar operadores lógicos como `&` (and), `|` (or) y `~` (not)  para agrupar múltiples condiciones.

### **Resumen**

Hemos presentado NumPy y Pandas para computación cientifica en Python. En el siguiente capitulo, nos sumergiremos en Pandas para aprender a remuestrear y manipular Dataframes de Pandas, que son comunmente usados para análisis de datos financieros.