# Python para economistas

### Mtro. Diego López Tamayo
#### El Colegio de México
#### BBVA Research

# Introducción a  Numpy & Scipy
## Sesión 3 

- Introducción a Numpy & Scipy
- Funciones principales
- Operaciones básicas en Numpy
- Vectores y matrices 
- Operaciones, transp, inversa, determinante
- Medias, varianzas, desv.
- Álgebra lineal con Scipy
- (Extra) Interpolación, Integral, Optimización

## Numerical Python - Numpy

**Numpy** es el paquete fundamental para la computación numérica con Python. Proporciona formas poderosas de crear, almacenar y manipular datos, lo que lo hace capaz de integrarse sin problemas y con rapidez con una amplia variedad de bases de datos y formatos de datos. Esta es también la base sobre la que se basa **Pandas**, que es un paquete centrado en datos de alto rendimiento sobre el que aprenderemos más en este curso. 

Hoy hablaremos sobre la creación de matrices con ciertos tipos de datos, la manipulación de matrices, la selección de elementos de matrices y la carga de conjuntos de datos en matrices. Estas funciones son útiles para manipular datos y comprender las funcionalidades de otros paquetes de datos de Python comunes.

In [None]:
# Para importar la librería 
import numpy as np

# Para hacer algunas gráficas de ejemplo
import matplotlib.pyplot as plt
### Sobre las gráficas se hablará a detalle en otra sesión

### Sobre las diferencias entre listas y numpy array

- Similar
    - Ambos usan corchetes ([])
    - Ambos tipos de datos son mutables
    - Ambos se pueden indexar y se pueden utilizar para "slicing*

- Distinto
    - Una lista no puede manejar directamente una operación matemática, mientras que un array puede
    - Un array consume menos memoria que una lista. Usar un array s más rápido que una lista
    - Una lista puede constar de diferentes tamaños de datos anidados
    - Una lista puede almacenar diferentes tipos de datos.

[Ver más](https://python.plainenglish.io/python-list-vs-numpy-array-whats-the-difference-7308cd4b52f6)


## Arrays
Un elemento ndarray (multidimensinoal-array) es un contenedor genérico de datos homogéneos, es decir que todos sus elementos deben ser del mismmo tipo. 


In [None]:
# La forma más fácil de crear un array es con la función homónima, 
# que acepta cualquier secuencia de objetos como listas o otros arrays

# Se puede ver la dimensión de un array con el atributo ndim

In [None]:
# Si usamos como argumento una lista de listas en np.array se obtiene un array multidimensional (una matriz)

# Usamos el atributo shape para ver la longitud de cada dimensión del ndarray 

# También podemos ver el tipo de elementos que contiene con el atributo dtype


In [None]:
# También existen funciones especiales para crear ciertos arrays
# Vector de ceros


# Matriz de unos 

# Matriz de números aleatorios 


In [None]:
# Otra función útil es arange, que crea una secuencia de números dentro de un rango


# Cuando introducimos 3 argumentos, el primero determina el elemento inicial, 
# el segundo el límite superior y el tercero la diferencia entre cada número. 
# Ejemplo: array del 10 (incluído) al 50 (excluído) en pasos de 2 unidades.


In [None]:
# Por el contrario, la función linspace crea una sucesión de números 
# donde el tercer argumento es el número total de elementos.  
# Ejemplo: 15 números del 0 al 2 (note que esta función incluye los límites).
 

# Operaciones con arrays
Podemos hacer muchas cosas con arrays como suma, resta, cuadrado, exponentes, así como matrices boleanas. También podemos hacer manipulaciones de matrices, como transposición, inversa, determinantes, etc.

In [None]:
# Las operaciones aritméticas sobre arrays son "element-wise"




In [None]:
# Funciones universales (ufunc) 
# Son funciones que realizan operaciones elementwise sobre arrays. 

# ufuncs unitarias (un solo argumento)


In [None]:
# Otra forma de escribir algunas funciones


In [None]:
# ufuncs binarias (dos argumentos)


In [None]:
# También se pueden hacer operaciones algebráicas con matrices 


# Producto de matrices (formas equivalentes)


In [None]:
# Las matrices deben ser conformables para que el producto este determinado


`numpy.linalg` contiene un conjunto de operaciones con matrices comunmente utilizadas en álgebra lineal, por ejemplo:

| Función      | Descripción |
| :---  |    :----   |   
| trace | Calcula la traza de una matriz  | 
| det   | Calcula el determinante        | 
| eig   | Calcula los eigenvalores y eigenvectores de una matriz |
| inv   | Calcula la inversa de una matriz | 
| solve | Resuelve el sistema lineal $Ax=b$, donde $A$ es matriz cuadrada |

In [None]:
# help(np.linalg.eig)

## `numpy.linalg`

Las funciones de álgebra lineal de NumPy proporcionan implementaciones eficientes de bajo nivel de algoritmos de álgebra lineal estándar.

In [None]:
from numpy.linalg import inv, solve 


Resuelva el siguiente sistema de ecuaciones: 
$$
3x_0 + x_1 = 9 \\ 
x_0 + 2x_1 = 8
$$

$$
   \begin{bmatrix}
     3 & 1\\
     1 & 2
   \end{bmatrix}
   \begin{pmatrix}x_0 \\x_1 \end{pmatrix} =
   \begin{pmatrix}9\\8\end{pmatrix}
$$

$$
AX = B
$$

$$
\begin{array}{r}\hfill \left({A}^{-1}\right)AX=\left({A}^{-1}\right)B\\ \hfill \left[\left({A}^{-1}\right)A\right]X=\left({A}^{-1}\right)B\\ \hfill IX=\left({A}^{-1}\right)B\\ \hfill X=\left({A}^{-1}\right)B\end{array}
$$

$$
   \begin{bmatrix}
     3 & 1\\
     1 & 2
   \end{bmatrix}
   \begin{pmatrix}x_0 \\x_1 \end{pmatrix} =
   \begin{pmatrix}9\\8\end{pmatrix}
$$

In [None]:
a = np.array([[3,1], [1,2]])
b = np.array([9,8])


# Indexing y Slicing


In [None]:
# Los arrays unidimensionales se manejan igual que las listas de Python

# Segundo elemento

# Elementos del 5 (inclusive) al 8 (excluido)


Una primera distinción importante de las listas integradas de Python es que los slides del array son vistas del array original. Esto significa que los datos no se copian y cualquier modificación a la vista se reflejará en la matriz de origen.

In [None]:
# Creamos un slice a partir del array original

# Modificamos los valores 

# Ahora vemos nuestro vector original 

# Nótese que los valores han cambiado incluso cuando sólo modificamos el vector creado

In [None]:
# Como NumPy ha sido diseñado para poder trabajar con matrices muy grandes, 
# surgen problemas de rendimiento y memoria si NumPy insistiera en copiar siempre los datos. 
# Si desea una copia de una porción de un ndarray en lugar de una vista, 
# se debe copiar explícitamente la matriz, por ejemplo:


# Modificamos los valores 


In [None]:
# En un array bidimensional, los elementos de cada índice ya no son escalares, 
# son matrices unidimensionales:

# Para acceder al segundo renglón


In [None]:
# Para acceder a cada elemento es necesario usar dos índices, uno de renglón y otro de fila
# Tercer renglón, segundo elemento


In [None]:
# Array multidimensional (matriz con matrices):

# Índice con un solo elemento retorna una matriz 

# Índice con dos elementos retorna un renglón de una matriz


## Más sobre **slicing**

In [None]:
# Al igual que los objetos unidimensionales como las listas de Python, 
# los ndarrays se pueden dividir con la sintaxis familiar:


In [None]:
# Esto cambia un poco con los objetos bidimensionales

# Como puede ver, se ha cortado a lo largo del eje 0, el primer eje. 
# Por tanto, un sector selecciona un rango de elementos a lo largo de un eje. 
# Puede resultar útil leer tal expresión como "seleccione las dos primeras filas de arr2d".

In [None]:
# También pueden utilizar slides múltiples

# Se pueden asignar valores a una selección completa: 


## Boolean Indexing
Sirve para crear arrays que satisfacen cierta característica lógica. 

In [None]:
# Creamos un vector de nombres
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
# Generamos un vector lógico a partir del vector de nombres


In [None]:
# Podemos obtener elementos del vector original que satisfagan cierta característica

# Otra forma equivalente 


# También se pueden usar condiciones con "y (&)" o "o (|)""


In [None]:
# Lo mismo se aplica con arrays numéricos. 
# Ejemplo: establecer en 0 todos los valores negativos en un conjunto de datos


# Métodos estadísticos
Se puede acceder a un conjunto de funciones matemáticas que calculan estadísticas sobre un array completo o sobre los datos a lo largo de un eje como métodos de la clase array. Se pueden usar agregaciones (a menudo llamadas reducciones) como suma, media y std (desviación estándar), usando las funciones de NumPy.

In [None]:
# Creamos una matriz 
arr = np.array([[0,1,2], [3,4,5], [6,7,8]])


In [None]:
# calcular la suma de las columnas

# Calcular la media de los renglones


Otros métodos como `cumsum` y `cumprod` no se agregan, sino que producen una matriz de resultados intermedios:

In [None]:
# Suma de Gauss


En arrays multidimensionales, las funciones de acumulación como `cumsum` devuelven una matriz del mismo tamaño, pero con los agregados parciales calculados a lo largo del eje indicado de acuerdo con cada corte dimensional inferior.

In [None]:
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
# Suma acumulada por columnas

# Suma acumulada por renglones


Métodos estadísticos básicos de arrays: 

| Método | Descripción | 
| :--- | :--- | 
| sum | Suma de todos los elementos del array o a lo largo de un eje |
| mean | Media artimética |
| std, var | Desviación estándar y varianza, respectivamente |
| cov | Calcula la matriz de covarianza de un conjunto de datos |
| min, max | Mínimo y máximo |
| argmin, argmax | Iíndices de los elementos mínimo y máximo, respectivamente |
| cumsum | Suma acumulada de elementos empezando desde 0 |

## Métodos para arrays booleanos

In [None]:
# Los valores booleanos son tomados como 1 (True) y 0 (False) en los métodos numéricos.
# Número de valores positivos generados por una normal estándar


In [None]:
# "any" cuenta si uno o más valores en un array es True

# "all" cuenta si cada valor en un array es True


## Sorting
Al igual que el tipo de lista incorporado de Python, las matrices NumPy se pueden ordenar en el lugar con el método de clasificación:

In [None]:

# En orden ascendente

# En orden descendente


Se puede ordenar cada sección unidimensional de valores en una matriz multidimensional en su lugar a lo largo de un eje pasando el número de eje para ordenar:

In [None]:
arr = np.random.randn(5, 3)
# Odernar de menor a mayor por renglones 


# Generación de números aleatorios
El módulo `numpy.random` complementa al módulo `random` que viene inetegrado en Python, con funciones para generar de manera más eficiente matrices completas de valores de muestra a partir de muchos tipos de distribuciones de probabilidad.

Algunas funciones relevantes de `numpy.random`:


| Función | Descripción |
| : --- | : --- |
| seed | Sembrar el generador de números aleatorios |
| randint | Extraer números enteros aleatorios dentro de un rango |
| randn | Extraer muestras de una distribución normal estándar |
| binomial | Sacar muestras de una distribución binomial |
| normal | Extraer muestras de una distribución normal (gaussiana) |
| beta | Extraer muestras de una distribución beta |
| chisquare | Extraer muestras de una distribución de chi-cuadrada |
| gamma | Extraer muestras de una distribución gamma |
| uniform | Extraer muestras de una distribución [0, 1) uniforme |

In [None]:
# help(np.random.normal)

Decimos que estos son números pseudoaleatorios porque son generados por un algoritmo con comportamiento determinista basado en la semilla del generador de números aleatorios.

In [None]:
# Semilla 
np.random.seed(1234)
# Media y desviación estándar 

# Generamos una muestra "pseudoaleatoria"


In [None]:
# Dentro de esta función también se pueden crear matrices

# Idéntico a: 



# Random walk

Caminar es simplemente la suma acumulativa de pasos aleatorios $\Rightarrow$ Usamos el módulo np.random para obtener 1,000 monedas lanzadas a la vez, establecerlas en 1 y –1, y calcular la suma acumulada.  

Fuente: [Markovian Random Walks : One Dimensional Simple Random Walks](https://fse.studenttheses.ub.rug.nl/22617/1/bMATH_2020_HillAF.pdf). $X_i$ secuencia de v.a. que siguen una distribución simétrica con prob. Ber(p,q)

In [None]:
nsteps = 10
draws = np.random.randint(0, 2, size=nsteps)
steps = np.where(draws > 0, 1, -1) # where igual a ifelse() de R

print(draws)
print(steps)

In [None]:
walk = steps.cumsum()
print(walk)

In [None]:
import matplotlib.pyplot as plt
plt.plot(walk[:100])

# Aplicación de econometría

## Estimador de MCO univariado


Pasos: 

1. Generar una muestra i.i.d. de variables aleatorias $\{x_i\}_{i=1}^{200}$ con distribución normal con media 20 y desviación estándar 2. 
2. Generar una muestra i.i.d. $\big\{u_i \big\}_{i=1}^{200}$ de v.a.s donde $u_i \sim N_2(0,1)$, $i=1,2,...,200$ tal que $u_i$ y $x_i$ son independientes $\forall i \neq j$ , $i,j \in  \{1,2,...,200\}$.


3. Usando los datos obtenidos en 1. y 2., generar la muestra $\{y_i\}_{i=1}^{200}$  donde $y_i=0.6+0.4x_i+u_i$ , $i=1,2,...,200$.
4. Con los datos obtenidos estimar por mínimos cuadrados ordinarios $b_0$ y $b_1$ en: 
$$ 
y_i=b_0+b_1x_i+u_i \;,\;  i=1,2,...,200
$$
obteniendo así los estimados $\hat{b}_{MCO}= \begin{pmatrix}  \hat b_{0} \\ \hat b_{1} \end{pmatrix} = (X'X)^{-1}X'Y$

In [None]:
# Semilla para reproducibilidad
np.random.seed(1234)
# Vector x

# Vector u

# Vector Y


In [None]:
# from numpy.linalg import inv
# Matrix X (que incluye unos para estimar b_0)

# Estimar vector b


## Estimador de MCO multivariado



Pasos: 
1. Generar una muestra i.i.d 
$$
 \begin{pmatrix}  Y_i \\ X_{1i}\\ X_{2i} \end{pmatrix}_{i=1}^{300} \sim N_3 \begin{bmatrix} \begin{pmatrix}  1 \\ 0\\ 2 \end{pmatrix}, \begin{pmatrix}  0.8 & 0.4 & -0.2 \\ 0.4 & 1.0 & -0.8 \\ -0.2 & -0.8 & 2.0 \end{pmatrix}  \end{bmatrix}
$$
$\forall i=1,2,\dots,300$. 

2. Con los datos obtenidos estimar el vector $\hat{b}_{MCO}= (X'X)^{-1}X'Y$

In [None]:
np.random.seed(2021)
# Fijamos el número de observaciones 
# Es útil poner un número bajo primero para ver lo que se está haciendo
n = 4
# Para los parámetros

# Generamos la muestra aleatoria


In [None]:
# El vector Y corresponde a la primera columna de la matriz V

# La matriz X se compone de un vector de unos y las dos últimas columnas de V
# A diferencia del caso anterior, aquí usamos la np.c_[ ... ] para añadir una columna 
## Análogamente existe np.r_[ ... ] para añadir renglones


In [None]:
# Ahora calculamos b 


# SciPy
SciPy es una colección de paquetes que abordan diferentes problemas estándar en la computación científica. Al igual que NumPy, SciPy es estable, maduro y ampliamente utilizado. De hecho, SciPy es un paquete que contiene varias herramientas que se construyen sobre NumPy, utilizando sus arrays junto con la funcionalidad relacionada. 

Aquí hay una muestra de los paquetes incluidos:

| Paquete | Descripción |
| :--- | :--- | 
| integrate | Rutinas de integración numérica y solucionadores de ecuaciones diferenciales |
| linalg | Rutinas de álgebra lineal y descomposiciones matriciales que se extienden más allá de las proporcionadas en `numpy.linalg` |
| optimize | Optimizadores de funciones (minimizadores) y algoritmos de búsqueda de raíces |
| stats | Distribuciones de probabilidad estándar continuas y discretas (funciones de densidad, muestreadores, funciones de distribución continua), varias pruebas estadísticas y estadísticas descriptivas |


## Scipy. stats

Ahora veremos algunos ejemplos de lo que se puede hacer con este paquete y sus ventajas respecto a Numpy. 

### Regresión lineal 

El cálculo de los estimadores de regresión lineal puede realizarse fácilmente con este paquete. 

In [None]:
from scipy.stats import linregress
# Generamos la muestra aleatoria
x = np.random.randn(200)
y = 0.1 + 2*x + np.random.randn(200)
# Hacemos la estimación 


# Para ver los resultados con formato bonito
#print("slope: %f    intercept: %f" % (slope, intercept))


# Se pueden obtener más cosas como la R^2


In [None]:
# Se puede graficar fácilmente    
plt.plot(x, y, 'o', label='original data')
plt.plot(x, intercept + slope*x, 'r', label='fitted line')
plt.legend()
plt.show()

# Variables aleatorias y distribuciones 

Recordemos que `numpy.random` provee funciones para generar variables aleatorias. Por ejemplo, `np.random.beta(5, 5, size=3)`genera valores a partir de una función de distribución gamma cuando `a=b=5`. A veces necesitamos acceder a más información como la CDF, los cuantiles, etc. Para ello, podemos utilizar `scipy.stats`, que proporciona toda esta funcionalidad, así como la generación de números aleatorios en una única interfaz coherente.


#### Ejemplo: 
Graficar el histograma y la pdf de una muestra generada aleatoriamente. 

In [None]:
# Generar la muestra aleatoria
 # Generar los percentiles
# Hacer la gráfica
fig, ax = plt.subplots()
ax.hist(obs, bins=40, density=True) # Histograma
ax.plot(grid, beta.pdf(grid, 5, 5), 'k-', linewidth=2) # Graficar la pdf
plt.show()

## Optimización 
### Raíces de una función 
Una **raíz** de una función real $f$ en $[a, b]$ es una $x \in [a, b]$ tal que $f (x) = 0$. Por ejemplo, si graficamos la función


<a id='equation-root-f'> </a>
$$
f (x) = \sin (4 (x - 1/4)) + x + x ^ {20} - 1 \tag {11.2}
$$

con $x \ en [0,1]$ obtenemos

In [None]:



fig, ax = plt.subplots()
ax.plot(x, f(x), label='$f(x)$')
ax.axhline(ls='--', c='k')
ax.set_xlabel('$x$', fontsize=12)
ax.set_ylabel('$f(x)$', fontsize=12)
ax.legend(fontsize=12)
plt.show()

### El método Newton-Raphson
El método de Newton-Raphson es un algoritmo de búsqueda de raíces muy común. En SciPy, este algoritmo es implementado por `scipy.optimize.newton`. Este método utiliza información de pendiente local en un intento de aumentar la velocidad de convergencia. 

Ahora vemos cómo aplicar el método a la función en cuestión. Para esto, se necesita una condición inicial adecuada para la búsqueda. 

In [None]:

# Comenzar el algoritmo con la condición inicial x=0.2
 

In [None]:
# Pero nótese que no se llega a la solución para cualquier valor inicial 
## Si en lugar elegimos x = 0.7 obtenemos un resultado erroneo


### Integración
La mayoría de los métodos de integración numérica funcionan calculando la integral de un polinomio aproximado. El error resultante depende de qué tan bien el polinomio se ajuste al integrando, que a su vez depende de qué tan "regular" sea el integrando. En SciPy, el módulo relevante para la integración numérica es `scipy.integrate`. 

Un buen valor predeterminado para la integración univariante es `quad`. 

# Ejemplo
Calcular: 
$$
y = \int_0^1 x^2
$$

In [None]:
# Gráfica



fig, ax = plt.subplots()
ax.plot(x, f(x), label='$x^2$')
ax.axhline(ls='--', c='k')
ax.set_xlabel('$x$', fontsize=12)
ax.set_ylabel('$f(x)$', fontsize=12)
ax.legend(fontsize=12)
plt.show()