# Formación y Evolución de Galaxias

## Introducción a Python, jupyter notebook y librerías científicas 

## Objetivos

- Aprender a utilizar la aplicación jupyter notebook   
- Introducir el lenguaje de programación Python. 
- Introducir la librería científica numpy. 

## Resumen

En Este notebook se presentan comandos básicos del jupyter notebook, introducimos operaciones básicas de python para acostumbrarnos a la sintaxis y detalles que lo caracterizan y luego realizamos ejemplos con una de las liberías científicas más utilizadas, numpy (por numerical python).    






-------------------------------------------------------------------------

-------------------------------------------------

## Introducción a Jupyter notebook

![Jupyter_logo.png](attachment:Jupyter_logo.png)


${\bf Jupyter}$ (acronismo de Julia, Pyhton y R) es una aplicación que se corre en un navegador web, que permite programar, escribir textos, fórmulas y visualizar imágenes y gráficos.  

Contiene un "kernel", que es el que nos permite programar en un dado lenguaje. En nuestro caso, el kernel es de python3, la distribución mas usada actualmente del lenguaje python.

Antes de seguir, tomen el tour por la interfaz que ofrece jupyter, en el menú "Help" de la barra de menú. 

# Jupyter notebook - conceptos y comandos básicos - lenguaje Markdown

Esto es una celda de jupyter. Puede ser de tres tipos: 'code', 'Markdown' y 'RawNBconvert'. Cuando agregamos una nueva celda, por default va a estar en modo "code".  Para ejecutar una celda hay que presionar el botón Run del menú de herramientas. 

Ir al menú "Cell" de la barra de menúes y explorar los tres modos. Luego de seleccionar un modo, para que tome efecto, ejecutar la celda. Finalmente, dejar la celda establecida en el modo "Markdown", que es la que edita la celda en modo texto. El "Markdown" es un lenguaje de texto que tiene sus propias reglas. Acá vamos a explorar solo algunas. Pueden hacer listas numeradas o con bullets:

Lista:

1. item 1
2. item 2
    - subitem 2.1
    - subitem 2.2

Se puede escribir en *cursiva* o en **negrita** utilizando *'s .  
  
Agregar una celda debajo de esta, a partir del menú "Insert". Convertirla a modo "Markdown", escribir el nombre y apellido de ustedes y ejecutarla. 

-Los símbolos #, con un espacio al comienzo de una frase o palabra convierten el texto en títulos de distinto grado. Hay 6 niveles de titulación diferentes. Agreguen 5 celdas por debajo de la celda con su nombre y apellido, y en cada uno titulen su apellido con distinto grado utilizando distinto número de #, de 1 a 6, para ver la diferencia. 

En https://markdown.es/sintaxis-markdown/ pueden profundizar en este tipo de lenguaje.       


## Shortcuts o atajos de teclas

En el notebook se puede trabajar en dos modos: "command mode" y "editor mode".  Para acceder al "command mode" se debe presionar la tecla "Esc". Para acceder al "editor mode" hay que presionar la tecla enter.  En el command mode se puede agregar celdas, moverlas, dividirlas, etc.  En el modo editor se escribe dentro de las celdas. 

-Explorar los atajos de teclas en la sección "Keyword shortcuts" del menú de ayuda "Help". Por ejemplo, para agregar celdas, alcanza con pasarse al modo "command" , tocando la tecla Esc, y luego presionando la tecla "b" o "a", para agregar una celda por debajo o por arriba de la celda donde estamos parados, respectivamente. Con la tecla "x", eliminamos una celda. 

-Poner el modo comando y usar el atajo para agregar una celda por debajo de esta y otra por encima de esta. Escribir cualquier texto en la celda que creamos por debajo, convertirla a modo "Markdown" y ejecutarla , todo utilizando el atajo de teclas correspondiente,y no el menú de botones.  Luego, eliminenla.



### Latex en Jupyter

Los Jupyter notebooks entienden el modo ${\rm math}$ de ${\bf {\it latex}}$, lo que nos permite escribir fórmulas en nuestras descripciones de código.  Por ejemplo:

La siguiente función calcula la media de una propiedad de una galaxia, a partir de un vector de valores de dicha propiedad : $\frac{1}{n} \sum_{i=1}^{n} m_i$

In [None]:
import numpy as np

def mean(property_vec):
    
    meanprop = np.sum(property_vec) / len(property_vec) 
    
    return meanprop

## ¡ Mayor peligro del jupyter notebook !

Las celdas se pueden ejecutar en orden arbitrario, a diferencia de un script, donde cada línea se ejecuta después 
de haber sido ejecutada la anterior. Esto es realmente un peligro, porque las variables pueden ser reescritas en un 
orden no deseado. Para evitar esto, es útil mirar el número que aparece a la derecha del "In", en las celdas de tipo
"code" y chequear que los números sean correlativos en el orden que uno esperaría.  Para volver a reiniciar el kernel, se puede ir al menú "Kernel" de la barra de menúes y seleccionar Restart 

------------------------------------------

## Introducción a Python

Python es un lenguaje interpretado y orientado a objetos.  Interpretado porque se escribe el código y se ejecuta, sin necesidad de compilarlo, como sucede en FORTRAN, C o C++, por ejemplo. Orientado a objetos significa que en python todo es un "objeto" de algún tipo y como tal, tiene métodos (funciones) asociadas a él. Es un paradigma de programación diferente a la programación secuencial. Ya vamos a volver sobre eso y lo vamos a usar, pero no vamos a profundizar.  

Algunos links de utilidad:

- página oficial de python: https://www.python.org/
- Tutorial oficial de python: https://docs.python.org/2/tutorial/
- Un libro gratis sobre python: https://greenteapress.com/wp/think-python/

----------------------------------

### Python como calculadora


no es necesario invocar ninguna función (como print) para obtener un resultado en python. El resultado de una operación es escrito al ejecutar una celda de código jupyter, o una sentencia en el intérprete en la terminal. 


In [None]:
3+3

In [None]:
2**3 + 5.

Ejercicio: Ejecutar una celda de código con el siguiente cálculo : $\frac{5x10+3^3}{25+10x2}$

# Tipos de datos

En Pyhon existen varios tipos de datos, como en cualquier lenguaje de programación. Ya hemos introducido algunos.   
- Text Type:	str
- Numeric Types:	int, float, complex
- Sequence Types:	list, tuple, range
- Mapping Type:	dict
- Set Types: set, frozenset
- Boolean Type: bool
- Binary Types: bytes, bytearray, memoryview


Nosotros vamos a usar los númericos int() y float(); el tipo de texto str(); el tipo boolean bool, el tipo mapping dict (diccionario) e indirectamente vamos a usar a veces los tipos secuenciales: list, tupple y range.  
Sientanse libres de explorar el resto. 

Por último pero no menos importante, la función *Built-in* de python para conocer el tipo de dato es ***type()***.

#### Duck Typing

Python tiene "duck" typing. Si camina como pato, nada como pato y suena como pato, es un pato.  Dicho más formalmente, el conjunto actual de métodos y propiedades determina la validez semántica. Ejemplo: el tipo "type" de la salida tiene que ver con la operación que se ejecuta, y no con el tipo heredado de los objetos involucrados.  En python 3 no hay que definir a uno de los operandos de una división como real para que el resultado de la división sea un real. (En python 2 esto es diferente, esa operación hubiese dado como resultado 0, era necesario el punto)   

Ejercicio: Hacer una división de enteros, cuyo resultado no sea un entero ¿Qué resultado les hubiera dado la misma operación en FORTRAN?

In [None]:
5/7

Existen muchas funciones ${\it built-in}$ en Python. La función type() nos dice el tipo de una variable o número. Aquí también se refleja el duck typing. 

In [None]:
type(3)

In [None]:
type(2.6)

In [None]:
type('hola mundo')

Mientras esté definida la suma (metodo) para un dado tipo de objeto, funciona. (En python todo es un objeto)

In [None]:
'hola' + 'mundo'

In [None]:
2 * 'pica' 

In [None]:
2 + 'yo'  # Notar cómo se enuncia el error (la centralidad del método, no de los objetos). 
          # Y notar que los comentarios de python se escriben con # 

In [None]:
""" Esto es otra manera de comentar
en python. Se usa mucho en el principio 
de las funciones por ejemplo, para describirlas 
o para cualquier otra cosa que requiera varias
líneas.
"""

### Asignaciones en Python

Como en cualquier otro lenguaje de programación, se pueden asignar valores a variables en python. 

In [None]:
#La variable hereda el tipo del valor dado, no hay que definirlo previamente
a = 2             
type(a)

In [None]:
# Ojo con correr la celda más de una vez... si asignamos un valor a una variable en una celda
# anterior y aplicamos operaciones en una celda posterior, chequear siempre la correlatividad
# entre los números de ejecución

a = a + 3         
print(a)

In [None]:
#o, mejor aún, asignar variables y ejecutar operaciones sobre ellas en una misma celda

a = 2
a += 3   # Python acepta esta notación, más común del lenguaje C. Es equivalente a hacer a = a + 1
a

In [None]:
#La multiplicación también es válida en ese formato

a = 2
a *= 2

a

#### Asignaciones múltiples

Python permite la asignación de varias variables en una misma línea. 

In [None]:
a , b  = 1, 2

print('a = ',a)     # introducimos la función built-in de python "print()" porque la escritura directa solo es posible 
print('b = ',b)     # cuando se trata de un objeto solo. 


Esto es importante, porque muchas de las funciones que se utilizan tienen más de un argumento de salida y cuando las llamen lo van a hacer con asignaciones múltiples:  a, b = funcionejemplo(bla, bla)

### Listas y Tupples
Las listas y tupples son dos de los contenedores built-in de python, es decir un tipo de objeto donde puedo guardar varias cosas. Un tercer contenedor es el diccionario, que vamos a ver un poco más abajo.

In [None]:
L = ['red','green','blue'] # Las listas se definen con brackets cuadrados, y con los elementos separados 
                           # por comas
print(type(L))    
    

In [None]:
L[0] 

In [None]:
L[2]

In [None]:
L[-2] # SE PUEDE 'CONTAR PARA ATRÁS' EN PYTHON.  LA DIFERENCIA ES QUE ARRANCA DE -1 (no existe el -0)

In [None]:
L[3]

In [None]:
L[-3]

In [None]:
L = L + ['black', 'white'] # la suma para los objetos tipo lista está definida de tal manera 
                           # que agrega valores a la lista.
L
#RECUERDEN EL PROBLEMA DE LAS CELDAS ACA!

### Slicing
Un detalle muy útil de python, que sirve para cualquier contenedor, como así también para los vectores de numpy (ya veremos) , es la capacidad de quedarnos con parte de los elementos mediante la sintaxis conocida como "slicing", que en inglés significa rebanar.

In [None]:
L[1:3] # L[start:stop:paso] : elementos de L if index i, where start <= i < stop !! Si el step no está incluido, vale 1

In [None]:
L[1:5:2]

Y se pueden hacer muchas cosas

In [None]:
L[2:]  # Se omite el final. Esto significa elemento 2 en adelante

In [None]:
L[-2:]

In [None]:
L[:4]

In [None]:
L[::2] # Sin aclarar principio y fin, paso cada 2

In [None]:
L[::-1]  #De atrás para adelante, osea sin principio ni final, paso -1

In [None]:
L[4] = 'magenta'

Ejercicio: ¿ Como "rebanarían" (realizarían un *slicing*) los 3 últimos elementos de la lista ?

### Tupples
Los tupples son como listas, pero inmutables. Sus elementos no pueden ser reemplazados una vez creados. 

In [None]:
T = (1,2,3)  # se definen con paréntesis, a diferencia de las listas que van con brackets cuadrados
T

In [None]:
T = 1, 2, 3   # cuando hacemos una asignacion múltiple de este estilo se crea una tupla. 
print(T)
print(type(T))

In [None]:
T[1]

In [None]:
T[1] = 5 #da error!

## Blocks (if, for , while..)

Una característica distintiva de python es la manera de tratar los bloques de código. 
- Los loops for, if o while no necesitan ser cerrados una vez abiertos, como en otros lenguajes. 
- Los bloques son definidos por indentación. La apertura del bloque se define con ":". Luego de abierto un bloque, en la siguiente sentencia se deben dejar 4 espacios o 1 tab de margen. El intérprete considera cerrado ese bloque cuando se vuelve al nivel de indentación anterior. 


In [None]:
#EJEMPLO 

a = True
if(a):
    print('ingresó al if')
else:
    print('no ingresó al if')
    
print('esto ya es por fuera del if, y no tuvimos que cerrar el bloque')

In [None]:
### Loops en python: 

Los loops en python no funcionan de la manera tradicional, como en FORTRAN o C 

In [None]:
lista = [1, 'bla', 3.0]
for i in lista:
    print(i)


Los loops en python recorren un objeto iterable, que puede ser cualquier tipo secuencial : lista, tupple o range, o incluso un string. Otros objetos iterables como diccionarios (Los vamos a ver más adelante) o sets también pueden ser usados. 

In [None]:
for i in 'rosariocentral':
    print(i)

La función *built-in* range(start, stop[, step]) . Es la función que nos permite hacer un loop de la manera "tradicional", como se hacen en FORTRAN o C, con un índice que va variando hasta llegar a un valor. 

In [None]:
type(range(5))

In [None]:
for i in range(5):
    print(i)

In [None]:
for i in range(0,6,2):
    print(i)

In [None]:
for i in range(10):
    if i > 5:
        print('i', i, '> 5')
    elif  2 < i < 5:
        print('2 < ', i, ' < 5')
    else:
        print('otra cosa', i)
        


In [None]:
L=[1,2,3,4,5,'a','b','c','d']
sumaint=0
sumastr=''
for i in L:
    if((type(i)==int)):
        sumaint += i
        
        #print(sum(L))
    elif(type(i)==str):
        sumastr += i
        #sumastr = sumastr + i 
        #print(sumastr.join(i))

print(sumastr)        
print(sumaint)

## Diccionarios

In [None]:
# Un objeto muy utilizado de Python son los diccionarios. Para definir un diccionario alcanza con:

ATOMIC_MASS = {}

#El diccionario tiene dos elementos constituyentes, las claves(keys), y los valores (values). Los valores pueden ser un número
#como en el siguiente ejemplo, o listas, u otros objetos. 

ATOMIC_MASS['H'] = 1
ATOMIC_MASS['C'] = 12
ATOMIC_MASS['He'] = 4
ATOMIC_MASS['N'] = 14
ATOMIC_MASS['O'] = 16
ATOMIC_MASS['Ne'] = 20
ATOMIC_MASS['Ar'] = 40
ATOMIC_MASS['S'] = 32
ATOMIC_MASS['Si'] = 28
ATOMIC_MASS['Fe'] = 55.8

print(ATOMIC_MASS.keys())
print(ATOMIC_MASS['O'])

# Impresión de las llaves y valores correspondientes a las llaves. Salen desordenados porque no tenían un orden 
# particular
for key in ATOMIC_MASS.keys():
    print(key, ATOMIC_MASS[key])
    
ATOMIC_MASS.values()

Podemos ordenar el diccionario presentado anteriormente en función de las claves (keys)

In [None]:
for key in sorted(ATOMIC_MASS): # orden usando las keys - utilizando la función built-in de python sorted()
    print('Element: {0:3s}  Atomic Mass: {1}'.format(key, ATOMIC_MASS[key]))

In [None]:
for elem in sorted(ATOMIC_MASS, key = ATOMIC_MASS.get): # Orden usando los valores
    print('Element: {0:3s} Atomic Mass: {1}'.format(elem, ATOMIC_MASS[elem]))

## Booleans

Como todo lenguaje de programación, Python tiene manejo de lenguaje lógico. Esto se hace con el typo de dato 'boolean' (por George Bool), 
que sólo puede tomar los valores 'True' o 'False'. 

- Los operadores de comparación son :  <, >, <=, >=, ==, != . Y los operadores lógicos 'and' , 'or', 'not'




In [None]:
a = 2 < 5
a

In [None]:
b = 6
d = 15
c = 10

In [None]:
b > d

In [None]:
b < d and c > b

Los booleans se pueden 'castear' a enteros, trasnformándose en 0's y 1's 

In [None]:
print(int(b > d))

print(int(not b > d))

## Funciones en python

Las funciones en python son pedazos de código con nombre, que reciben o no uno o más parámetros de entrada, ejecuta un conjunto de sentencias, ejecuta una dada tarea, y finalmente puede devolver un vaolor u objeto como salida. El paradigma de programación con funciones se llama programación *estructurada*.

In [None]:
def cuadsuma(x):
    """devuelve el siguiente del cuadrado del parámetro de entrada"""
    return x**2+1

In [None]:
# Los comentarios entre comillas al comienzo de una función sirven para describir lo que hace una función , y
# puede ser consultado a través de la función built-in help()
help(cuadsuma)


In [None]:
a = cuadsuma(5)


In [None]:
def func2(x, y, z, a=0, b=1):
    """
    Esta funcion tiene 5 argumentos, 2 de ellos tiene valores 
    por default (por lo tanto no obligatorios)
    """
    return a + b * (x**2 + y**2 + z**2)**0.5

D = func2(5, 6, 8)
print(D)

La función se puede evaluar de dos maneras

In [None]:
F1 = func2(5,6,8)
F1

In [None]:
F1 = func2(x=5, y=6, z=8, a=3, b=5)
F1

In [None]:
F1 = func2(x=4, y=2, z=5, a=15, b=100) # PERO LOS VALORES QUE TIENEN UN VALOR POR DEFAULT NO! ERROR!
F1

Otra característica importante es que las funciones conocen los valores de las variables externas:

In [None]:
b = 5

def test_b(x):
    print(b*x)

test_b(2)


In [None]:
# Esto funciona aún cuando el valor no se conoce al definir la función
def test_a2(x):
    print(a2*x)
   
    
a2 = 10
test_a2(5)



¿Las variables definidas internamente de la función valen fuera de la función?

----

Algo no tan usado, pero que puede verse a veces en algunos lugares es la función lambda. La función lambda sirve para hacer funciones de una línea rápidamente. 

In [None]:
J = lambda x, y, z: (x**2 + y**2 + z**2)**0.5 
J(5,6,8)

------

## I / O (input/output)

## Escritura con formato

La vieja manera de escribir en python era similar a la manera del lenguaje C. La vamos a ver porque es común verla
aún en muchos módulos heredados y alguno puede resultarle más cómodo si ya programa en C. 

In [None]:
a = 10.
b = 'Fideo Di María'
c = 1.6e-13
print('a = %f, b = %s, c = %e' % (a, b, c))

La nueva manera de escribir con formato hace uso del método format() de los objetos tipo str, y {} para definir cual valor imprimir usando el formato indicado.

Explorar los métodos asociados a un objeto tipo str , usando el tab . Recordemos que en python todo es un objeto y tiene métodos asociados (en criollo, le podemos poner un punto al lado y ejecutarle un método, de los asociados al tipo de dato en cuestión)

In [None]:
'Hola mundo'.lower()


EJEMPLO:

In [None]:
#EJEMPLO:
'hola mundo'.split()

In [None]:
a = 10.
b = 'Fideo Di María'
c = 1.6e-13
print("{:8.3f} {:15s} {:10.3e}".format(a, b, c))

## Lectura y escritura de datos desde/hacia archivo (ascii)

La manera standard de escritura hacia archivos o ficheros en python hace uso de las funciones built-in open() y el método write, asociado a los archivos.
Veamos.

### Apertura de un archivo

antes de poder escribir en un archivo, debemos interactuar con el sistema de archivos a través de la función 
open('path', 'modo').  El 'path' va a ser la ruta al archivo, por ejemplo '~/cursos/fyegalaxias/2021/intropython/bla.dat'. Y el modo va a indicar de qué manera queremos abrir el archivo. Hay cuatro posibilidades: 
- 'r' , se abre el archivo para leer (**r**ead)
- 'w' , se crea un archivo para escritura (**w**rite)
- 'x' , se abre el archivo para escritura, pero si el archivo existe, devuelve un error. 
- 'a' , se abre un archivo para escritura. Si el archivo existe, el puntero se coloca sobre el final del archivo y escribe a partir de ahí (**a**ppend). Si el archivo no existe, se crea uno con el nombre indicado. 

In [None]:
#reemplazar el path por un path dentro de sus computadoras

filetest = open('/home/obiwan/cursos/fyegalaxias/test.dat', 'w')

print(type(filetest))

listavalores = [0,1,4,5,6,7,8,3,6]
listavalores2 = [0,7,8,5,3,1,5,6,7]

for i in range(len(listavalores)):
    filetest.write("{:3d} {:3d}\n".format(listavalores[i], listavalores2[i]))
    #filetest.write("{:3d}  \n".format(listavalores[i], listavalores2[i]))

filetest.close() #NUNCA OLVIDARSE DE CERRAR EL ARCHIVO. HASTA NO CERRARLO NO VA A FINALIZAR EL PROCESO DE 
                 #ESCRITURA Y ALOCACIÓN DE MEMORIA. 


In [None]:
filetest.

In [None]:
#ahora leemos el archivo.
filepath= '/home/obiwan/cursos/fyegalaxias/test.dat'
fileread = open(filepath, 'r')

# Se puede acudir directamente al método read() de los objetos tipo file
a = fileread.read()
print(a)
print('tipo de a',type(a))

fileread.close()


In [None]:
N = sum(1 for line in open(filepath)) # numero de lineas en el archivo -- (abre y cierra el archivo)

arr1, arr2 = [], []

f = open(filepath,'r')
#print(f.readline())
for i in range(N):
   column = f.readline()
   print(column)
   column = column.strip()
   print(column)
   column = column.split() # es un array de strings
   print(column)
   arr1.append(int(column[0]))
   arr2.append(float(column[1]))

f.close()
print('primera columna: ', arr1)
print('segunda columna: ', arr2)

In [None]:
# Estos método son una posibilidad. Sin embargo, existen funcionalidades de numpy o pandas por ej para la lectura 
# de datos que suelen ser mucho más usadas y cómodas. En este caso la salida siempre va a ser un str, que luego 
# habría que convertir al tipo de dato que uno quiera y demás. 

-------------------------------------------------------

## LIBRERIAS EN PYTHON

### Importación de librerías

Gran parte de la potencia del lenguaje Python radica en la orientación a objetos y el grado de modularidad que esto implica. Esto se combina con la gran cantidad de usuarios y desarrolladores que tiene, que colaboran a crear librerías, que se suman a las que python ya contiene. 

Qué es una librería? Es un conjunto de módulos. Los módulos son porciones de código que realizan una función en específico y las librerías son conjuntos de módulos organizados con alguna finalidad. En concreto, un módulo suele ser un archivo con terminación '.py', que contiene funciones y clases que realizan determinada acción.  Una librería es un directorio que los contiene. 

Más allá de la diferencia jerárquica entre una librería y un módulo, ambos se "llaman" o invocan de la misma manera en python: con la función built-in "import".  

In [None]:
import math 

math es una librería interna de python que contiene operaciones matemáticas. Investigar el contenido de math:

In [None]:
math.


## Introducción a Numpy

Numpy (acrónimo de numerical python) es una librería de python. Y es una de las librerías más usadas en ciencia.

La finalidad de Numpy es reunir un conjunto de funcionalidades asociadas al cálculo numérico que corren de manera muy eficiente.  Corren de manera eficiente porque están escritas en C y Fortran, y los lenguajes de más bajo nivel como estos son más eficientes que los lenguajes de alto nivel con interprete. 

 

In [None]:
import numpy as np 

El 'as' se utiliza para abreviar al módulo o librería importado como nosotros deseemos llamarlo en adelante, ya que lo vamos a usar mucho y mejor tenerlo acotado. De esta manera cuando llamemos a la librería numpy lo haremos con np.   


Explorar las decenas de métodos asociados a numpy (Recordemos que colocándole un punto adelante podemos asociarle a un objeto un método reservado para ese tipo de objeto. En este caso, np es una librería y los métodos asociados son todos las funciones que contienen sus módulos. Poniendo el punto y presionando la tecla Tab en jupyter notebook aparecen los posibles métodos). 

In [None]:
np.

el método arange(input) genera un array (vector) de dimensión "input" de enteros de 0 a input 

In [None]:
a = np.arange(10)
print(a)
print(type(a))
b = [1,2,3,4]

NO es una lista, es un numpy array, un tipo de objeto particular. Explorar los métodos que pueden ser aplicados a 
un numpy array. 

In [None]:
#b.
a.

In [None]:
c = np.arange(4,10, 2)
c

El método zeros() genera un array lleno de 0's. Util para inicializar un vector en un programa.

In [None]:
b = np.zeros(10)
b

In [None]:
# O más de 1 dimensión:
b2 = np.zeros((2,2)) # Notar que estoy evaluando la función con una tupla (2,2), porque le 
                     # estoy dando un único argumento
b2

También existe el metodo ones(), que llena un vector de 1's

In [None]:
d = np.ones(10)*25
d

 El método array(), que convierte una lista por ejemplo, en un numpy array

In [None]:

L = [1,2,3] # tengo una lista
print(L)
print(type(L))

Larr = np.array(L)
print(Larr)
print(type(Larr))

In [None]:
# Las listas pueden contener multiples tipos, los numpy arrays no!

L = [1, 'hola', 5.0]
print(L)
Larr = np.array(L)
print(Larr)

#Los tipos del numpy array se convierten al de mas alto nivel. En este caso a string. 

Otra manera de crear arrays es con el método linespace()

In [None]:
a  = np.linspace(1,9, 10) # start, stop (incluido), numero de elementos
print(a)

O su primo logarítmico

In [None]:
b = np.logspace(0,2,10) # de 10**start a 10**stop, con 10 valores
b

Método shape()

In [None]:
print(np.shape(b))
print(b.shape)
print()
print(np.shape(np.zeros((2,2))))

## Lectura de archivos ascii con numpy

Numpy nos provee con una función muy utilizada para leer datos en ascii , llamada **loadtxt()** . 

In [None]:
help(np.loadtxt)


In [None]:
a = np.loadtxt('/home/obiwan/cursos/fyegalaxias/test.dat')
print(a)

In [None]:
#La opción unpack=True nos permite guardar cada columna como un vector separado
masa, luminosidad = np.loadtxt('/home/obiwan/cursos/fyegalaxias/test.dat', unpack=True)
print(masa)
print(luminosidad)

### Boolean indexing
Una característica interesante de python es el llamado Boolean indexing. En Python uno puede evaluar un numpy array por ejemplo, con una expresión lógica, de manera de quedarnos sólo con un subconjunto de los elementos. La expresión lógica aplicada a un vector nos devuelve un vector de booleans, con True's donde se cumple la condición. Esto comunmente es llamado máscara ('mask')


In [None]:
#Supongamos que tenemos un vector con las masas de un grupo de galaxias
print('vector original')
print(masa)

#Ahora queremos quedarnos con aquellas que tienen masas mayores a un dado valor, que definimos como galaxias
#masivas

#la condición sobre un vector nos da la máscara de booleans:
print('mascara:')
print(masa > 4)
mask = masa > 4
#cuando lo aplicamos 
print('mascara aplicada sobre el vector')

masivas = masa[masa > 4]
masivas2 = masa[mask]

print(masivas)
print(masivas2)

No necesariamente tengo que evaluar la misma propiedad o vector. 
**Si tienen la misma longitud** , puedo usar una condicion que involucre otro vector

In [None]:
#Supongamos ahora que queremos las masas de las galaxias con una luminosidad mayor a un dado número. 

massmostlum = masa[luminosidad > 5]
print(massmostlum)

### np.where
La alternativa de la librería numpy para el boolean indexing es el método where() . 

In [None]:
masivaswhere, = np.where(masa > 4)  # NOTAR LA COMA ANTES DEL =

print('vector de indices donde se cumple la condición')
print(masivaswhere)  
print(np.shape(masivaswhere))
print('masas evaluadas en el vector de índices')
print(masa[masivaswhere])


np.where() devuelve un vector de índices, no una máscara boolean como en el caso del boolean indexing. Esto es útil para saber rápidamente, por ejemplo, cuántas galaxias o elementos del vector en consideración, cumplen con la condición exigida, haciendo uso de la función *built-in* len().


In [None]:
print(len(masivaswhere))

In [None]:
masivaswhere2 = np.where(masa > 4)  #sin la coma
print(masivaswhere2)
print('La shape de la salida es distinta')
print(np.shape(masivaswhere2))
print('Aunque de todas maneras funciona')
print(masa[masivaswhere2])
print('lo que no funciona es lo de contar las que cumplen esa condicion')
print(len(masivaswhere2))
print('lo puedo hacer igual, si estoy enterado de la forma del vector de índices')
print(len(masivaswhere2[0]))

## Matching de arrays - función np.in1d()

Muchas veces en nuestra área nos es útil saber cuales elementos dentro de un vector están presentes en otro vector de distinta longitud.  Ejemplo: Tenemos una lista de identificadores de galaxias que alguien nos pasó, de una simulación, que cumplen una dada característica, por ejemplo, que son galaxias de disco. Y a partir de esa lista de IDs (identificadores), yo quiero identificar las masas de esas galaxias. Necesito hacer un 'match' entre la lista que me pasaron, y la lista de IDs completa de la simulación. 

El método usual involucra un algoritmo de ordenamiento de las tablas de varios pasos. Numpy cuenta con una función
que logra hacerlo rápidamente y en una línea, llamada in1d(). Tiene algunos 'corolarios' como extract(), si quieren investigar.  

In [None]:
# Sea el primer vector, o vector de id's de galaxias 1

print('vector de IDs de galaxias de disco')
id1 = np.arange(10, 40 , 2)
print(id1)
print()
# y los id's de mi catálogo de galaxias:
print('vector de IDs completo de mi catálogo de galaxias')
idcomp = np.arange(50)
print(idcomp)

In [None]:
help(np.in1d)

In [None]:
#a = np.in1d(idcomp, id1)
a = np.in1d(idcomp, id1)
print(len(a))
print(a)

Devuelve un vector de Booleans , de la longitud de idcomp, con **True** donde están los elementos de id1. Esto es útil para evaluar un vector de otra propiedad en esta máscara, y sabremos dicha propiedad de las galaxias de disco. 


In [None]:
#a modo de prueba, recuperamos los IDs
print(idcomp[a])

Esto es sólo una muestra de la potencialidad de numpy. Pueden acceder a la documentación en el menú Help de la barra de menúes.

# Lectura de .hdf5
Otro tipo de archivos muy utilizados, y con mucha potencialidad, son los .hdf5. Son archivos que almacenan datos en forma de diccionarios de python. Cada dato (ya sea un float, un array de multiples dimensiones, etc) tiene su "key", y además se le puede agregar una descripción, conocida como atributo.

In [None]:
import h5py

f = h5py.File('nombredearchivo.hdf5', 'r')  # 'r', 'w', 'a' son modos de apertura: read, write y ambas

print(f.keys())
list(f.keys()) #objeto iterable

masa_dset = f['masa'] # masa_dset , es un "dataset", no es el array! Comprobar los metodos

# Para obtener el array 
masa = f['masa'][()]     

#o
masa  = f['masa'][:] 

#o 
masa = np.asarray(f['masa'])

f.close()


