# EI2001: Ciencia de Datos en Astronomía
**Profesores:** Pía Cortés, Daniela Barrientos, Matías Suazo, Matías Mattamala

# Actividad Clase 2 - Uso de Librerías

**Objetivos:** 
1. Aprender sobre el uso de paquetes en Python, específicamente **NumPy** y **Matplotlib**
2. Entender el uso de la clase `ndarray` de NumPy y sus ventajas
3. Aprender las distintas partes de un gráfico en Matplotlib y como personalizarlas
 

## Uso de Librerías 

Como se dijo en la clase introductoria, una de las ventajas que tiene Python como lenguaje de programación es el uso de paquetes (o librerías). Dos de las librerías más importantes en la ciencia son `NumPy` y `Matplotlib`, que permiten el manejo de matrices y gráficos. 

## NumPy 
(**[Documentación](http://www.numpy.org/)**, [Quickstart Tutorial](https://docs.scipy.org/doc/numpy/user/quickstart.html))

NumPy es el paquete más básico para trabajar con datos en Python, consiste principalmente del objeto arreglo multidimensional y varias rutinas para trabajar estos objetos. Paquetes más sofisticados para el manejo de tablas o de algoritmos de Machine Learning tienen en su base a NumPy ya que permite la fácil manipulación de arreglos y matrices siendo también muy eficiente en la ejecución de operaciones matemáticas y lógicas entre ellos.

### Ndarray 

En la base de NumPy se encuentra el objeto `ndarray`, que consiste en un arreglo multidimensional donde se almacenan elementos, todos del mismo tipo. Un arreglo es como una tabla a la que se accede mediante indices (**comenzando desde 0**). Las dimensiones de este arreglo son llamadas `axes` (ejes). 
![](https://raw.githubusercontent.com/astrodatos/Clase2/master/arrays.png)

### Diferencias entre las listas de python y los arreglos de numpy

Antes de comenzar, veamos las diferencias más inmediatas entre usar arreglos de NumPy y listas de Python. 

In [0]:
import numpy as np    #Convención 

In [0]:
# Inicializamos una lista, que podemos convertir a formato ndarray

lista = [1,2,3,4,5,6,7,8,9,10]
arreglo = np.array(lista)

In [0]:
print('Lista:')
print(lista)
print('\nArreglo:')
print(arreglo)
print('\nClases:')
print(type(lista))
print(type(arreglo))

In [0]:
#Ambas se indexan de maneras similares

lista[0], arreglo[0]

np operaciones c/u

A simple vista los `ndarray` parecen ser similares a las listas, pero existen diferencias importantes en su manipulación y como estas interactuan entre ellas (al realizar operaciones).

In [0]:
lista + lista

In [0]:
arreglo + arreglo

In [0]:
np.concatenate([arreglo, arreglo])     # Se unen una serie de listas
#np.append(arreglo, arreglo)            # Se agregan valores al final de un arreglo

In [0]:
lista * 2

In [0]:
arreglo * 2

In [0]:
lista * lista

In [0]:
arreglo * arreglo

A diferencia de las listas de Python, los arreglos nos permiten realizar operaciones intuitivamente entre ellos, sin necesidad de acceder a ellas elemento por elemneto a través de loops. En los arrays las operaciones se realizan en **cada elemento** (similar a MATLAB).   

### Como se usan los arreglos

Veamos como manipular estos objetos `ndarray`.

In [0]:
# Inicializar

a1 = np.array([0,1,2,3,4,5,6,7,8,9,10])     # A partir de una lista
a2 = np.arange(0,11,1)                      # start, stop, step (int)
a3 = np.linspace(0,10,11)                   # start, stop, num=50 (float)

z1 = np.zeros(10)                           # rellenar con 0
z2 = np.empty(10)                           # rellenar con 'nada'
z3 = np.ones(10)                            # rellenar con 1

# 2D
d1 = np.eye(5)                             # identidad
d2 = np.zeros((5,5))                       

In [0]:
print(a1)
print(a2)
print(a3)

In [0]:
print('Arreglo de ceros:')
print(z1)
print('\nArreglo "vacío":')
print(z2)
print('\nArreglo de unos:')
print(z3)

In [0]:
print('Arreglos de 2 dimensiones:')
print('\nMatriz identidad:')
print(d1)
print('\nMatriz de ceros:')
print(d2)

In [0]:
# Inspeccionar
print('A1:\n{}'.format(a1))
print('\nD2:\n{}'.format(d2))
print('\nForma (shape):\n{}\n{}'.format(a1.shape, d2.shape))
print('\nTamaño (size):\n{}\n{}'.format(a1.size, d2.size))
print('\nNumero de Dimensiones (ndim):\n{}\n{}'.format(a1.ndim, d2.ndim))
print('\nTipo de Dato (dtype):\n{}\n{}'.format(a1.dtype, d2.dtype))

In [0]:
# Re-sizing

d1_resized = d1.reshape(d2.size)

d1.shape, d1_resized.shape

In [0]:
# Random array

r = np.random.randint(0,100,(8,8))

In [0]:
r

In [0]:
# Slicing

print('Primer elemento:')
print(r[0,0])       #Comienza desde 0
print('\nUltimo elemento:')
print(r[-1,-1])     # Anteponer - indexa desde el final
print('\nPor fila/columna:')
print(r[0,:])       # : todos los elemnetos
print(r[:,0])       
print('\nEspecificar slice:')
print(r[0, 0:6:2])  # start:stop:step (0:-1:0)

In [0]:
# Condiciones
r[r > 50]

In [0]:
boolean = np.random.choice(a = [False, True], size = (8,8))
print('Matriz con valores booleanos:')
print(boolean)
print('\nArreglo con valores seleccionados:')
print(r[boolean])

In [0]:
# Copias

todo = np.arange(10)
par = todo[::2] 

print(todo)
print(par)

In [0]:
par[0] = 100
print(par)
print(todo)

In [0]:
par_copia = todo[::2].copy()
par_copia[0] = 200

print(todo)
print(par)
print(par_copia)

In [0]:
# Funciones 

print('Maximo e indice:')
print(todo.max())
print(todo.argmax())
print('\nMinimo e indice:')
print(todo.min())
print(todo.argmin())
print('\nPromedio:')
print(todo.mean())
print('\nSuma:')
print(todo.sum())
print('\nSuma Acumulada:')
print(todo.cumsum())

In [0]:
print(r)
print('\nMaximo por fila/columna:')
print(r.max(axis=0))     #fila               
print(r.max(axis=1))     #columna               

In [0]:
#Algebra Lineal

A = np.array([[0, 1], [0, 2]])
B = np.array([[2, 0], [3, 4]])

print('A:\n', A, "\n")
print('B:\n', B, "\n")
print('B.T:\n', B.T, "\n")
print('A + B:\n',A + B, "\n")
print('A * B:\n',A * B, "\n")
print('A**B:\n', A**B, "\n")

In [0]:
print("transpose B:\n", np.transpose(B), '\n')
print("add A + B:\n", np.add(A, B), '\n')
print("multiply A * B:\n", np.multiply(A, B), '\n') #c/u
print("power A ** B:\n", np.power(A, B), '\n')
print("exp B:\n", np.exp(B), '\n')
print("sqrt B:\n", np.sqrt(B), '\n')
print("sin B:\n", np.sin(B), '\n')

In [0]:
print('Multiplicación de Matrices:\n')

print(np.dot(A,B))
print(A.dot(B))

print('\n', np.dot(B,A))
print(B.dot(A))

In [0]:
a = np.array([[1.0, 2.0], [3.0, 4.0]])

print('Matriz a:\n', a)
print('\nTranspuesta de a:\n', a.transpose())
print('\nTraza de a:\n', np.trace(a))
print('\nNorma de a:\n', np.linalg.norm(a))
print('\nDeterminante de a:\n', np.linalg.det(a))
print('\nInversa de a:\n', np.linalg.inv(a))
print('\nValores y Vectores propios:\n', np.linalg.eig(a))
print('\nValores propios:\n', np.linalg.eigvals(a))
print('\nDecomposición de Cholesky (matrices triangulares):\n', np.linalg.cholesky(a.dot(a.T)))
print('\nPotencia a ** 2:\n', np.linalg.matrix_power(a, 2))

### Diferencia en rendimiento 

Ahora que ya sabemos la diferencia en el comportamiento de los arreglos y las listas, comparemos como se comporta su rendimiento al momento de realizar operaciones matemáticas entre ellos.

Usaremos como motivación el cálculo de el centro de masa de un conjunto de partículas en 3 dimensiones.

$\vec{R} = \frac{1}{M_{TOT}} \sum_{i=1}^{n} m_i \vec{r_i}$

$(x,y,z) = \frac{1}{M_{TOT}}  (\sum_{i=1}^{n} m_i x_i, \sum_{i=1}^{n} m_i y_i,  \sum_{i=1}^{n} m_i z_i)$

Comenzaremos implementando el cálculo usando listas y luego a través de arreglos.

In [0]:
#Ejemplo de tiempos

# Inicializar las posiciones de las partículas
x = [np.random.uniform(0,100) for i in range(1000000)]
y = [np.random.uniform(0,100) for i in range(1000000)]
z = [np.random.uniform(0,100) for i in range(1000000)]
m = [np.random.uniform(1,10) for i in range(1000000)]


#Calculo del Centro de Masa (dentro de una función para tomar el tiempo de ejecución)

def cm_listas(x, y, z, m): 
    xmsum = 0
    ymsum = 0
    zmsum = 0
    for j in range(len(x)):
        xmsum += x[j]*m[j]  
        ymsum += y[j]*m[j]
        zmsum += z[j]*m[j]
        
    xcm = xmsum/sum(m) 
    ycm = ymsum/sum(m)
    zcm = zmsum/sum(m)
    
    return xcm, ycm, zcm

In [0]:
%timeit cm_listas(x, y, z, m)

In [0]:
# Transformamos las listas en arreglos
x_np = np.asarray(x)
y_np = np.asarray(y)
z_np = np.asarray(z)
m_np = np.asarray(m)

#Calculo del Centro de Masa con arreglos

def cm_array(x, y, z, m):
    xcm = np.sum(x * m) / m.sum()
    ycm = np.sum(y * m) / m.sum()
    zcm = np.sum(z * m) / m.sum()
    return xcm, ycm, zcm

In [0]:
%timeit cm_array(x_np, y_np, z_np, m_np)

### Guardar y Leer archivos

In [0]:
# Save

to_save = np.random.random(10)
np.save('nuevo_array', to_save)           # Guarda como archivo numpy (extensión .npy)
np.savetxt('nuevo_array.txt', to_save)    # Guarda como archivo de texto

In [0]:
#!ls para leer los archihvos de la carpeta

Carguemos como ejemplo un archivo con los periodos, amplitudes y magnitudes de un set de estrellas variables tipo [RR Lyrae](https://es.wikipedia.org/wiki/RR_Lyrae).

![](https://raw.githubusercontent.com/astrodatos/Clase2/master/datos.png)

In [0]:
# Load

archivo_RR = 'https://raw.githubusercontent.com/astrodatos/Clase2/master/datos/RRLYR.txt'

rrlyr = np.loadtxt(archivo_RR)

In [0]:
rrlyr.shape

## Matplotlib

([**Documentación**](https://matplotlib.org/), [Quickstart Tutorial](https://matplotlib.org/users/pyplot_tutorial.html))


Matplotlib es bacan pa plotear!

In [0]:
import matplotlib.pyplot as plt

#### Plost Simple

Tomaremos como ejemplo dos estrellas de este catálogo y veremos sus Curvas de Luz, esta son curvas de la evolución temporal del brillo de una fuente.

In [0]:
# Cargar archivos con curvas de luz RR Lyrae

archivo_RR1 = 'https://raw.githubusercontent.com/astrodatos/Clase2/master/datos/RRLYR-16474.dat'
archivo_RR2 = 'https://raw.githubusercontent.com/astrodatos/Clase2/master/datos/RRLYR-16514.dat'

rr1 = np.loadtxt(archivo_RR1)
rr2 = np.loadtxt(archivo_RR2)

In [0]:
fecha_1 = rr1[:,0].copy()
mag_1 = rr1[:,1].copy()

fecha_2 = rr2[:,0].copy()
mag_2 = rr2[:,1].copy()

plt.plot(fecha_1, mag_1)

#Jugar con markers ls, lw, color, etc

In [0]:
plt.show()

In [0]:
plt.show()

In [0]:
%matplotlib inline
plt.plot(fecha_1, mag_1, 'o--', label = 'RRLYR 16474')
plt.plot(fecha_2, mag_2, 'o--', label = 'RRLYR 16514')

plt.xlabel('Fecha DJ')
plt.ylabel('Magnitud Aparente I')

In [0]:
from matplotlib.pyplot import rcParams

params = {'legend.fontsize': 'x-large',
         'axes.labelsize': 'x-large',
         'axes.titlesize':'x-large',
         'xtick.labelsize':'x-large',
         'ytick.labelsize':'x-large'}
rcParams.update(params)


In [0]:
plt.plot(fecha_1, mag_1, 'o--', label = 'RRLYR 16474')
plt.plot(fecha_2, mag_2, 'o--', label = 'RRLYR 16514')

plt.xlabel('Fecha DJ')
plt.ylabel('Magnitud Aparente I')

#### Subplots

In [0]:
# Sacar del primer archivo los peridos correspondiente
P1 = rrlyr[rrlyr[:,0] == 16474, 5]
P2 = rrlyr[rrlyr[:,0] == 16514, 5]

# 'Foldear' la curva
fecha_1 = fecha_1 % (2 * P1)
fecha_2 = fecha_2 % (2 * P2)

In [0]:
plt.figure(figsize=(15,5)) #tamaño figura
plt.subplot(121) #subdivision(FilaColumna)
plt.plot(rr1[:,0], mag_1, '.', label = 'RRLYR 16474')
plt.plot(rr2[:,0], mag_2, '.', label = 'RRLYR 16514')
plt.xlabel('Tiempo de Observación [JD]')
plt.ylabel('Magnitud Aparente I')
plt.legend()


plt.subplot(122)
plt.errorbar(fecha_1, mag_1, yerr=rr1[:,-1], fmt='.', label = 'RRLYR 16474')
plt.errorbar(fecha_2, mag_2, yerr=rr2[:,-1], fmt='.', label = 'RRLYR 16514')
plt.xlabel('Fase')
plt.ylabel('Magnitud Aparente I')
plt.legend()

In [0]:
fig, ax = plt.subplots(figsize = (15,5), ncols = 2) #ncols numero de columnas | nrows nuumero de filas
#primer espacio
ax[0].plot(rr1[:,0], mag_1, 'o', label = 'RRLYR 16474')
ax[0].plot(rr2[:,0], mag_2, 'o', label = 'RRLYR 16514')
ax[0].set_title('Curva de luz original')
ax[0].set_xlabel('Tiempo de Observación [JD]')
ax[0].set_ylabel('Magnitud')
ax[0].legend(loc = 'upper right')
#segundo espacio
ax[1].errorbar(fecha_1, mag_1, yerr=rr1[:,-1], fmt='o', label = 'RRLYR 16474')
ax[1].errorbar(fecha_2, mag_2, yerr=rr2[:,-1], fmt='o', label = 'RRLYR 16514')
ax[1].set_title('Curva de luz foldeada')
ax[1].set_xlabel('Fase [Días]')
ax[1].set_ylabel('Magnitud')
ax[1].legend()

plt.tight_layout()

#### Color bars


Cargamos otras estrellas [Cefeidas Tipo I](https://es.wikipedia.org/wiki/Estrella_variable_Cefeida)

In [0]:
archivo_CEP = 'https://raw.githubusercontent.com/astrodatos/Clase2/master/datos/CEP.txt'

cep = np.loadtxt(archivo_CEP)

In [0]:
cep.shape

In [0]:
# Seleccionar columnas 

i_cep = cep[:,3] #magnitud
p_cep = cep[:,5] #periodo
a_cep = cep[:,-1] #amplitud

i_rrlyr = rrlyr[:,3]
p_rrlyr = rrlyr[:,5]
a_rrlyr = rrlyr[:,-1]

In [0]:
fig, ax = plt.subplots(figsize = (10,6))

cb = ax.scatter(p_cep, i_cep, label = 'Cefeidas Tipo I', c = a_cep, alpha = 0.5, cmap='vorodis')
#grafica como puntos separados
#alpha es la transparencia (aumenta con esta)
#cmap mapas de colores zB 'inferno' 'viridis' ''

fig.colorbar(cb) #muestra la escala
ax.set_xscale('log')
ax.invert_yaxis()
ax.set_ylabel('Magnitud I')
ax.set_xlabel('Periodo')
ax.set_title('Relación Periodo-Luminosidad')
ax.legend()

In [0]:
fig, ax = plt.subplots(figsize = (10,10), nrows = 2, sharex=True)

cb = ax[0].scatter(p_cep, i_cep, label = 'Cefeidas Tipo I', c = a_cep, alpha = 0.5)

fig.colorbar(cb, ax = ax[0])
ax[0].set_xscale('log')
ax[0].invert_yaxis()
ax[0].set_ylabel('Magnitud I')
ax[0].set_xlabel('Periodo')
ax[0].set_title('Relación Periodo-Luminosidad')
ax[0].legend()

cb2 = ax[1].scatter(p_rrlyr, i_rrlyr, label = 'RR Lyrae', c = a_rrlyr, alpha = 0.5)

fig.colorbar(cb2, ax = ax[1])
ax[1].set_xscale('log')
ax[1].invert_yaxis()
ax[1].set_ylabel('Magnitud I')
ax[1].set_xlabel('Periodo')
ax[1].set_title('Relación Periodo-Luminosidad')
ax[1].legend()

fig.tight_layout()

![](https://matplotlib.org/_images/sphx_glr_anatomy_001.png)

In [0]:
#Guardar plots
plt.savefig('name.png')