# Numpy & Pandas

Tutorial basado en Code/Astro

# A. Numpy & Arrays

Numpy es una poderosa librería numérica que es esencial para cualquiera que analice datos con Python. Numpy es un paquete enorme que puede admitir una multitud de tareas. Numpy también está vinculado a SciPy, una poderosa librería para computación científica con capacidades de ajuste, álgebra lineal, machine learning, etc. Aquí solo cubriremos algunos de los conceptos básicos de numpy, pero le animamos a que consulte el páginas de documentación (https://numpy.org/doc/stable/) para tener una idea de la variedad de cosas que puede hacer.

Los arrays son un tipo de datos que es fundamental para Numpy. De alguna manera, las matrices Numpy son como listas de Python:
- ambas se utilizan para almacenar datos/objetos
- ambas son mutables
- los elementos se pueden extraer de ambas mediante la indexación y el corte
- ambas pueden ser iterados

Sin embargo, hay aspectos clave de los arrays que las hacen muy diferentes:
- la mayoría de los operadores actúan sobre los elementos de una matriz en lugar de la matriz como un todo
- los arrays solo pueden contener datos de un solo tipo
- los arrays pueden almacenar de manera eficiente grandes cantidades de datos en la memoria

In [1]:
import numpy as np

# creemos listas simples
xlist = [1, 2, 3, 4]
ylist = [1, 4, 9, 16]

# creemos arrays siimples
x = np.array([1, 2, 3, 4])
y = np.array([1, 4, 9, 16])

Primero, veamos los diferentes comportamientos entre listas y arrays.

In [None]:
print(xlist * 4)

print(x * 4)

print(x / 4)

print(xlist / 4)

Observe cómo la lista se repitió 4 veces, mientras que cada elemento del array se multiplicó por 4 y el resultado terminó siendo de la misma longitud.

La división funciona por elementos para los arrays, pero no está definida y produce un error cuando se realiza en una lista.

## Iterating, indexing, and slicing

Iterar sobre un array 1D se parece a iterar sobre una lista

In [None]:
for val in xlist:
    print(val)

for val in x:
    print(val)

La iteración de un array N-dimensional iterará a lo largo de la primera dimensión.

In [None]:
y = np.zeros((5, 5))

for val in y:
    print(val)

print()
# you could accomplish the same thing like this (but you probably shouldn't)
for i in range(y.shape[0]):
    val = y[i, :]
    print(val)

También podemos seleccionar subconjuntos del array usando condicionales.

In [None]:
xs = x[x < 2]
xs

# B. Pandas

Pandas es un poderoso paquete de análisis de datos que proporciona herramientas para manipular datos tabulares. Esto es particularmente útil en muchas aplicaciones astronómicas, como la espectroscopia y las series temporales. Los datos se organizan en filas y columnas donde las columnas se nombran y recuperan utilizando objetos arbitrarios de Python (las cadenas son las más convenientes). Esto contrasta con las matrices Numpy donde solo se puede acceder a las columnas mediante índices enteros (sin embargo, consulte las matrices de registros https://docs.scipy.org/doc/numpy-1.10.1/user/basics.rec.html).

Ordenar, consultar, fusionar y agregar son algunas de las características más útiles de Pandas, pero este tutorial solo arañará la superficie. Consulte https://pandas.pydata.org/docs/ para obtener la documentación completa.

Pandas es más útil para manejar conjuntos de datos heterogéneos y/o grandes, cuando se necesitan fusiones o consultas complejas, o si tiene metadatos asociados con columnas (por ejemplo, strings como labels).

Las unidades/objetos básicos en Pandas son los objetos Series y DataFrame.

In [2]:
import pandas as pd

# Creemos un objeto Series simple
x = [1.0, 2.0, 4.4, 4.5, 8.8, 9.1, 8.7, 2.3, 2.4, 3.1, 5.9]
s = pd.Series(x)

print(s)

0     1.0
1     2.0
2     4.4
3     4.5
4     8.8
5     9.1
6     8.7
7     2.3
8     2.4
9     3.1
10    5.9
dtype: float64


Rellenamos una serie a partir de una lista de números float. Observe que se imprimen dos columnas en la salida. Cada entrada en una Serie tiene un índice entero correspondiente, generalmente estos índices se crean automáticamente. El tipo de datos de la serie está impreso debajo de la propia Serie. Los objetos de serie solo pueden almacenar datos de un solo tipo, pero se puede almacenar cualquier tipo de datos.

Una serie es como una sola columna de datos en una tabla. Un DataFrame es el objeto Pandas que representa una tabla completa. Cada columna de la tabla es una Serie.

Hay varias formas de construir un Pandas DataFrame, incluso desde matrices Numpy, diccionarios Python, una lista de objetos Series, lectura desde un CSV, lectura desde una URL, etc.

Primero construyamos un DataFrame de una sola columna de nuestra serie `s`.

In [4]:
df = pd.DataFrame(s, columns=['sample'])
df

Unnamed: 0,sample
0,1.0
1,2.0
2,4.4
3,4.5
4,8.8
5,9.1
6,8.7
7,2.3
8,2.4
9,3.1


Jupyter tiene soporte especial para mostrar DataFrames, simplemente escribiendo el nombre de la variable de un DataFrame al final de la celda presentará una vista bien formateada de la tabla.

Agreguemos algunas columnas más a nuestro DataFrame.

In [5]:
df['sample_base'] = df['sample'] // 1
df['sample_plus1'] = df['sample'] + 1
df['sample_squared'] = df['sample']**2
df

Unnamed: 0,sample,sample_base,sample_plus1,sample_squared
0,1.0,1.0,2.0,1.0
1,2.0,2.0,3.0,4.0
2,4.4,4.0,5.4,19.36
3,4.5,4.0,5.5,20.25
4,8.8,8.0,9.8,77.44
5,9.1,9.0,10.1,82.81
6,8.7,8.0,9.7,75.69
7,2.3,2.0,3.3,5.29
8,2.4,2.0,3.4,5.76
9,3.1,3.0,4.1,9.61


Note que podemos acceder a los valores en una columna usando dos sintaxis diferentes.

Ahora ordene a partir de la columna `sample_squared`

In [6]:
df = df.sort_values(by='sample_squared')
df

Unnamed: 0,sample,sample_base,sample_plus1,sample_squared
0,1.0,1.0,2.0,1.0
1,2.0,2.0,3.0,4.0
7,2.3,2.0,3.3,5.29
8,2.4,2.0,3.4,5.76
9,3.1,3.0,4.1,9.61
2,4.4,4.0,5.4,19.36
3,4.5,4.0,5.5,20.25
10,5.9,5.0,6.9,34.81
6,8.7,8.0,9.7,75.69
4,8.8,8.0,9.8,77.44


Observe que los índices también se reordenaron. Los índices conservan información sobre el orden original.

También podemos seleccionar subconjuntos de los datos usando condicionales similares a las matrices Numpy.

In [7]:
q1 = df[df['sample'] <= 4]
q1

Unnamed: 0,sample,sample_base,sample_plus1,sample_squared
0,1.0,1.0,2.0,1.0
1,2.0,2.0,3.0,4.0
7,2.3,2.0,3.3,5.29
8,2.4,2.0,3.4,5.76
9,3.1,3.0,4.1,9.61


El método `.groupby` se usa para crear el objeto `DataFrameGroupBy` de Pandas que se puede usar para calcular estadísticas dentro de los grupos.

In [8]:
# grupos que comparten un campo sample_base común
g = df.groupby('sample_base')

# contar el número de filas dentro de cada grupo
print(g.count())

             sample  sample_plus1  sample_squared
sample_base                                      
1.0               1             1               1
2.0               3             3               3
3.0               1             1               1
4.0               2             2               2
5.0               1             1               1
8.0               2             2               2
9.0               1             1               1


fusionar DataFrames usando una columna común.

Vamos a crear un segundo DataFrame a partir de la misma lista original de números y calcular el campo `sample_base` nuevamente. También calcularemos una nueva columna llamada `sample_sqrt`

In [9]:
df2 = pd.DataFrame(x, columns=['sample'])

df2['sample_base'] = df2['sample'] // 1
df2['sample_sqrt'] = np.sqrt(df2['sample'])
df2

Unnamed: 0,sample,sample_base,sample_sqrt
0,1.0,1.0,1.0
1,2.0,2.0,1.414214
2,4.4,4.0,2.097618
3,4.5,4.0,2.12132
4,8.8,8.0,2.966479
5,9.1,9.0,3.016621
6,8.7,8.0,2.949576
7,2.3,2.0,1.516575
8,2.4,2.0,1.549193
9,3.1,3.0,1.760682


Ahora podemos agregar esta nueva columna al DataFrame original haciendo coincidir los valores en una columna compartida. En este caso, queremos hacer coincidir la columna `muestra` original.

A veces tenemos varios DF de datos con una o más columnas superpuestas y necesitamos combinarlos en uno solo. Aquí es donde entra merging.

Merging es un tema poderoso y complejo. [Mira aca](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html) para buscar varias funcionalidades.

In [None]:
merged = pd.merge(df, df2, on='sample', suffixes=['_original', '_new'])
merged

Si un nombre de columna aparece en ambos DataFrames pero no es la columna en la que se está fusionando, las cadenas definidas en el argumento `suffixes` se agregarán al final de los nombres de columna.

Los marcos de datos se pueden escribir y leer desde archivos muy fácilmente. Se admiten muchos formatos, pero los valores separados por comas (CSV) son los más utilizados en astronomía. La función `read_csv` puede leer una variedad de formatos de archivo de texto especificando el argumento `delimiter`.

También puede cargar un CSV directamente desde una URL.

In [None]:
#merged.to_csv('sample.csv')
#
#!cat sample.csv
#
#from_csv = pd.read_csv('sample.csv', index_col=0)
#from_csv

#### Buenas prácticas

Casi siempre es mejor evitar los loops cuando se trabaja con arreglos Numpy o Pandas DataFrames. 

Si trabajas en un problema complicado y no estas seguro de si usar un loop o una matriz/operaciones de DataFrame, generalmente escribitlo en un loop primero para poder conceptualizar el problema un poco más fácil pero es importante luego convertirlo a operación para eliminar tantos loops como sea posible y hacer más eficiente y rápido el código.

## Actividad #1 

Veamos cuánto más rápido es trabajar con arreglos de Numpy sobre listas de Python.

In [10]:
import time

# Primero crearemos una larga lista
length = 10000000  # int
x = list(range(length))


# ahora vamos a recorrer todos los elementos: 
## sumaremos uno y luego dividiremos por dos
# también usaremos el paquete de tiempo para cronometrar

t1 = time.time()
for i in range(len(x)):
    x[i] = (x[i] + 1) / 2
t2 = time.time()

print("Updated {:d} elements in {:4.3f} seconds.".format(length, t2-t1))

Updated 10000000 elements in 2.374 seconds.


1. Cambie la longitud de la matriz y realice un seguimiento de cuánto tarda el cálculo en función de esa longitud.

2. Trazar el tiempo en función de la longitud de la lista.

3. Ahora construya una matriz Numpy a partir de la lista `x` y realice el mismo cálculo para varias longitudes de matriz diferentes.

4. Grafique el tiempo de cálculo en función de la longitud de la matriz y agregue esta línea a la gráfica creada en el paso n.º 2.

## Actividad #2

Cargue un par de archivos en un DataFrame de Pandas y reorganícelos y combínelos en un solo archivo en un formato más útil. 
`example_data/star_names.json` contiene una lista de nombres de estrellas. La columna `primary_name` es el ID principal de la estrella. Para cada `primary_name` único hay muchos `other_names` asociados con él. Cada combinación `primary_name`+`other_name` se almacena en una fila separada.

1. Primero cargue el archivo `example_data/star_names.json` en un Pandas DataFrame. El archivo está en formato JSON, por lo que puede consultar la función `pandas.read_json`.

2. Agrupe el DataFrame en la columna `primary_name` y cree una función de agregación personalizada que tome todos los valores en la columna `other_name` que tengan el mismo `primary_name` y los convierta en una sola cadena delimitada por (`| `).

3. Cargue el archivo `example_data/star_props.csv` en un DataFrame separado y combínelo con el DataFrame agrupado del paso n.º 2.

4. Guarde el resultado como un nuevo archivo CSV. El archivo resultante debería parecerse a `example_data/stars_merged.csv`. También puede cargar este archivo en Pandas para ver cómo debería verse el DataFrame final antes de guardarlo en un CSV.