# Introduction to Financial Python
## Tutorial 4 - NumPy and Basic Pandas


### NumPy
NumPy es la libreria central para la computación científica en Python. Proporciona un objeto de matriz multidimensional de alto rendimiento y herramientas para trabajar con estas matrices. Esta libreria se importa de la siguiente manera.

In [2]:
import numpy as np

#### Arreglos básicos en NumPy 
Un array de NumPy es una rejilla de valores, todos del mismo tipo, y está indexado por una tupla de enteros no negativos.

In [3]:
Lista = [15.12, 14.3, 13.28, 16.02, 17.5, 14.62]
arreglo = np.array(Lista)
print(arreglo, type(arreglo))

[15.12 14.3  13.28 16.02 17.5  14.62] <class 'numpy.ndarray'>


Para crear un arreglo multidimensional debemos pasar a numPy un arreglo de arreglos.

In [4]:
Matrix = np.array([[1,2, 3], [4, 5, 6]])
print(Matrix, type(Matrix))

[[1 2 3]
 [4 5 6]] <class 'numpy.ndarray'>


Las dimensiones se obtienen de la siguiente manera.

In [5]:
print(Matrix.shape)

(2, 3)


Para acceder a cada fila del arreglo multidimensional se puede acceder por indices.

In [7]:
print(Matrix[0])
print(Matrix[1])

[1 2 3]
[4 5 6]


Para acceder a las columnas se hará de la siguiente manera.

In [8]:
print(Matrix[:,0])
print(Matrix[:,1])
print(Matrix[:,2])

[1 4]
[2 5]
[3 6]


#### Funciones con arreglos
NumPy tiene algunas funciones integradas para hacer operaciones con los arreglos, una de esas es para el logaritmo.

In [9]:
print(np.log(arreglo))

[2.71601837 2.66025954 2.58625914 2.77383794 2.86220088 2.68239045]


Algunas otras canciones posibles son:


In [10]:
print(np.mean(arreglo)) # Media del arreglo
print(np.std(arreglo)) # Desviación estandar
print(np.sum(arreglo)) # Sumatoria del arreglo
print(np.max(arreglo)) # Máximo elemento del arreglo

15.14
1.3403979508588735
90.84
17.5


### Pandas
Pandas es una de las herramientas más potentes para manejar datos financieros. esta se importa así.texto en negrita

In [12]:
import pandas as pd

#### Series
Las series son un arreglo unidimensional etiquetado capaz de contener cualquier tipo de datos (enteros, cadenas, float, objetos de Python, etc.)

In [13]:
s = pd.Series(Lista)
print(s)

0    15.12
1    14.30
2    13.28
3    16.02
4    17.50
5    14.62
dtype: float64


Podemos personalizar los indices de una nueva serie.

In [14]:
s = pd.Series(Lista,  index = ['I', 'II', 'III', 'IV', 'V', 'VI'])
print(s)

I      15.12
II     14.30
III    13.28
IV     16.02
V      17.50
VI     14.62
dtype: float64


In [16]:
s.index = [5,4,3,2,1,0]
print(s)

5    15.12
4    14.30
3    13.28
2    16.02
1    17.50
0    14.62
dtype: float64


Las series son como una lista, ya que se puede cortar por índice:

In [17]:
print(s[2:])
print(s[:-3])

3    13.28
2    16.02
1    17.50
0    14.62
dtype: float64
5    15.12
4    14.30
3    13.28
dtype: float64


Las series son también como un diccionario cuyos valores pueden ser fijados o recuperados por índice:


In [18]:
print(s[2])
s[2] = 20
print(s)

16.02
5    15.12
4    14.30
3    13.28
2    20.00
1    17.50
0    14.62
dtype: float64


Las series también pueden tener un atributo de nombre.


In [19]:
s = pd.Series(Lista, name = "Precios")
print(s.name)

Precios


Podemos obtener los resúmenes estadísticos de una serie.

In [21]:
print(s.describe())

count     6.000000
mean     15.140000
std       1.468332
min      13.280000
25%      14.380000
50%      14.870000
75%      15.795000
max      17.500000
Name: Precios, dtype: float64


#### Time index
Pandas tiene una función incorporada específicamente para crear índices de fechas: **pd.date_range()**. 

In [22]:
time_index = pd.date_range('2020-01-01', periods = len(s), freq = 'D')
print(time_index)
s.index = time_index
print(s)

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06'],
              dtype='datetime64[ns]', freq='D')
2020-01-01    15.12
2020-01-02    14.30
2020-01-03    13.28
2020-01-04    16.02
2020-01-05    17.50
2020-01-06    14.62
Freq: D, Name: Precios, dtype: float64


El acceso a las series se suele realizar mediante los métodos **iloc[ ]** y **loc[ ]**. **iloc[ ]** se utiliza para acceder a los elementos por índice entero, y **loc[ ]** se utiliza para acceder al índice de la serie.


In [24]:
s.index = [6,5,4,3,2,1]
print(s)
print(s[4])

6    15.12
5    14.30
4    13.28
3    16.02
2    17.50
1    14.62
Name: Precios, dtype: float64
13.28


In [25]:
print(s.iloc[4])

17.5


Al trabajar con datos de series temporales, a menudo utilizamos el tiempo como índice. 

In [27]:
s.index = time_index
print(s['2020-01-03'])

13.28


In [28]:
print(s['2020-01-03':'2020-01-05'])

2020-01-03    13.28
2020-01-04    16.02
2020-01-05    17.50
Freq: D, Name: Precios, dtype: float64


Las series nos proporcionan una forma muy flexible de indexar datos. Podemos añadir cualquier condición entre los corchetes:

In [29]:
print(s[s > np.mean(s)])

2020-01-04    16.02
2020-01-05    17.50
Freq: D, Name: Precios, dtype: float64
