In [None]:
%load_ext autoreload
%autoreload 2

# `Bloque Cero`

## Tema: Ideas básicas sobre Python y algunos paquetes fundamentales (part4)

**Tópicos**
- Módulos, paquetes y namespaces
- [Numpy](https://numpy.org)

## Módulos, paquetes y namespaces


### Creando módulos y paquetes

En Python, cada uno de nuestros archivos `.py` se denominan módulos (*modules*) y cada uno de ellos puede contener variables, funciones o clases. La ventaja de los módulos es que nos permite organizar mejor nuestros códigos.

Ahoro, varios módulos pueden formar parte de paquetes. Un paquete, **es una carpeta que contiene
archivos `.py`**. Pero, para que una carpeta pueda ser considerada un paquete, debe
contener un archivo de inicio llamado `__init__.py`. Este archivo, no necesita contener
ninguna instrucción. De hecho, puede estar completamente vacío, solo le indica a `Python`cuando recorra este directorio que existe una jerarquía de módulos y no es una simple carpeta.

Los paquetes, a la vez, también pueden contener otros sub-paquetes:

¿Qué pongo en `__init__.py`?

Como se señaló no es necesario poner nada, sin embargo es muy común usarlo para realizar configuraciones e importar cualquier objeto necesario de nuestra librería.

Por ejemplo, creemos un paquete con la siguiente estructura

podemos utilizar `__init__.py` para que las funciones, clases, etc. deseadas estén disponible al nivel de paquete llamándolos (`importandolos`) en este archivo, por ejemplo, si ponemos en el `__init__.py` principal

- `from .presentacion import hola`

ya no tendríamos que llamarlo en el código como:

- `from matematicas.presentacion import hola`

sinó solo usaríamos:
- `from matematicas import hola`

In [1]:
from matematicas import hola

hola()

Hola mundo


En nuestro paquete intencionalmente dejamos vacio el `__init__.py` del subpaquete multiplicacion_division. Veamos que ahora no aplica lo anterior

In [5]:
#from matematicas.multiplicacion_division import multiplicacion
from matematicas.multiplicacion_division.multiplicacionF import multiplicacion

multiplicacion(2, 1, 3)

6

Otro argumento que se suele usar en `__init__.py` es la variable `__all__` la cual contiene la lista de objetos que serán importados al utilizar `import *`. Por ejemplo en el `__init__.py` principal solo se puse que se cargara la función `hola`. Vean que ocurre

In [1]:
from matematicas import *
# adios()
hola()

Hola mundo


IMPORTANTE: el exigencia de que aparezca `__init__.py` dentro de cada folder para que pueda considerarse un paquete puede ser omitida en `Python 3`. Para esta versión si tenemos esta estructura

Notar que no existe el archivo `__init__.py`. Sin embargo, siempre y cuando la carpeta paquete forme parte del PYTHONPATH (o sea, que python puede importarla), `ninguno de los siguientes import dará error bajo Python 3` (aunque sí lo darían en `Python 2` por no exisstir `__init__.py` en la carpeta paquete).

- `import paquete.modulo1` permitirá dentro del código hacer uso de cualquier símbolo definido en **paquete/modulo1.py**.
- `from paquete import modulo1` es análogo al anterior.
- `import paquete` no dará error, pero no sirve de nada ya que este lo que haría es ejecutar `paquete/__init__.py` pero en este caso no existe. Daría un error si intentará dentro del programa acceder a por ejemplo `paquete/modulo1.py` pq no lo he cargado.

Ahora bien, si añadiéramos un `__init__.py`, entonces `import paquete` se ejecutaría y cargaría las ordenes dadas en `__init__.py`. Si este estuviera vacio pasaría lo mismo que como sino estuviera.

In [1]:
# mover __init__.py principal para fuera y hacer test
# from matematicas import presentacion as pr
from matematicas.presentacion import hola

hola()

Hola mundo


ULTIMOS COMENTARIOS:

¿Qué pasa si no tenemos nuestro paquete en el directorio raiz?

Podemos hacerlo creando un `distribuible` de nuestro paquete e instalando dentro de `Python`.

Veamos como: Suponga la estructura

Ahora creamos un fichero `setup.py` fuera de la raíz, indicando la estructura y ciertos datos. Por ejemplo

A continuación solo se debe compilar el script como:

`python setup.py sdist`

lo que creará una nueva carpeta llamada `dist`, y en ella estará un fichero comprimido. Este fichero es nuestro distribuible que nos permitirá instalar o compartir el paquete.

Para instalar un paquete en `Python` podemos hacerlo usando `pip`

`pip install paquete-0.1.zip`

Para usarlo sería llamar al directorio principal, ejemplo: `import matematicas.presentacion as mp`

Para desintalarlo se usa:

`pip uninstall paquete`

### Importando módulos enteros

El contenido de cada módulo, podrá ser utilizado a la vez, por otros módulos. Para ello, es
necesario importar los módulos que se quieran utilizar. Para importar un módulo, se
utiliza la instrucción `import`, seguida del nombre del paquete (si aplica) más **el nombre
del módulo (sin el .py) que se desee importar**

Ejemplo

Python tiene sus propios módulos, los cuales forman parte de su librería de módulos estándar, que también pueden ser importados. Los veremos más adelante.

### Alias

Es posible también, abreviar los namespaces mediante un **alias**. Para ello, durante la
importación, se asigna la palabra clave as seguida del alias con el cuál nos referiremos
en el futuro a ese namespace importado.

Ejemplo:

IMPORTANTE

Luego, para acceder a cualquier elemento de los módulos importados, el namespace
utilizado será el alias indicado durante la importación. 

Ejemplo:

In [None]:
#import numpy
import numpy as np

#numpy.sqrt(5)
np.sqrt(5)  # notar el np delante para indicar el módulo

### Importar módulos particulares

En Python, es posible también, importar de un módulo **solo** los elementos que se desee
utilizar. Para ello se utiliza la instrucción `from` seguida del namespace, más la instrucción
`import` seguida del elemento que se desee importar:

In [None]:
# ejemplo 1
from scipy.interpolate import interp1d, Rbf, InterpolatedUnivariateSpline

In [None]:
# ejemplo 2
from numpy import sqrt as sq

In [None]:
sq(5)

De forma alternativa (**pero muy poco recomendada**), es importar todos los elementos de un módulo definidos en `__all__`, **sin utilizar su namespace pero tampoco alias**. Es decir, que todos los elementos importados **se accederá con su nombre original**:

In [None]:
# ejemplo

from numpy import *

sqrt(5), sin(4)

El detalle de hacerlo así, es que si se importan dos paquetes que tengan un módulo con el mismo nombre el último que se importe será el que se usará.

Ejemplo:

In [None]:
from math import *
from numpy import *

In [None]:
# verifiquen 
sqrt(5)

In [None]:
# lo cool de numpy
a = [1, 2, 3]

sqrt(a)

PEP 8: Importación

- La importación de módulos debe realizarse al comienzo del documento, en orden alfabético de paquetes y módulos.
- Primero deben importarse los módulos propios de Python.
- Luego, los módulos de terceros y finalmente, los módulos propios de la aplicación.
- Entre cada bloque de imports, debe dejarse una línea en blanco

# Trabajo científico en Python

El análisis de datos básico en Python se realiza utilizando cuatro bibliotecas que se complementan perfectamente entre ellas:
- Numpy: Para manejar arrays.
- scipy: Para el trabajo científico
- Pandas: Para manejar dataframes.
- Matplotlib: Para generar gráficos.

Todas estas bibliotecas son externas a Python por lo que tenemos que instalarlas para poder utilizarlas, esa será nuestra primera tarea.

Recuerden que para instalar, debido a que usamos el entorno conda debemos usar:

- conda install -c anaconda numpy 
- conda install -c anaconda scipy
- conda install -c anaconda pandas
- conda install -c conda-forge matplotlib

**Importante** Muchos de estos paquetes ya están instalados en Anaconda por defecto, solo se necesitarían actualizar en caso de no haberse actualizado **conda** en su instalación

**Importante** Para el caso que no se instaló Anaconda como gestor de paquete debe usarse `Pipenv` para instalarlo en su entorno virtual.

Cálculo numérico con Numpy
==========================

Aunque Python tiene varios tipos de datos estructurados, en la práctica no son nada adecuados para cálculo numérico. Veamos un ejemplo de un cálculo numérico básico empleando listas:

In [None]:
lista = list(range(5))  # Lista de numeros de 0 a 4
print(lista)

print()
print(lista*3)

print()

print(lista*2.5)

En el ejemplo anterior vemos cómo al multiplicar una lista por un número entero, el resultado es concatenar la lista original tantas veces como indica el número, en lugar de multiplicar cada uno de sus elementos por este número, que es lo a veces cabría esperar. Es más, al multiplicarlo por un número no entero da un error, al no poder crear una fracción de una lista. Si quisiéramos hacer esto, se podría resolver iterando cada uno de los elementos de la lista con un bucle `for`, por ejemplo:

In [None]:
print(lista)
lista_nueva = [i*2.5 for i in lista]  # recordar como poner un ciclo for en una linea
print(lista_nueva)

In [None]:
# alternativa
list(map(lambda x: x*2.5, lista))

estas técnica suelen ser ineficientes y lenta (en versiones viejas de `Python` ya han mejorado), sobre todo cuando queremos evaluar funciones, polinomios o cualquier otra operación matemática que aparece en cualquier problema científico.

Cuando realmente queremos hacer cálculos con listas de números, debemos usar los objetos tipo `¡¡arrays!!` definidos en Numpy.


Veamos un ejemplo

In [6]:
test_list = list(range(1001))

%timeit sum(test_list)  # el tiempo que requiere la mencionada operación

11.2 µs ± 1.66 µs per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


In [2]:
import numpy as np

In [5]:
test_array = np.arange(1001)

%timeit np.sum(test_array)

12.4 µs ± 1.14 µs per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


Las nuevas versiones de `Python` han mejorado sustancialmente la eficiencia en estos tiempos de evalución, sin embargo, las versatilidad de los `array` hace muy atractivo el uso de `numpy`.

Como se señaló, el módulo `numpy` nos da acceso a los arrays, pero no solo a eso, también a una gran cantidad de métodos y funciones aplicables a los mismos. Naturalmente, `numpy` incluye funciones matemáticas básicas similares al módulo `math`, las completa con otras más elaboradas y además **incluye algunas utilidades de números aleatorios, ajuste lineal de funciones y muchas otras**.

Para trabajar con `numpy` y los arrays, importamos el módulos de alguna de las siguientes maneras:

### Importante 

- Si cargamos el módulo solamente, accederemos a las funciones como `numpy.array()` o `np.array()`, según cómo importemos el módulo. 
- Si en lugar de eso importamos todas las funciones, accederemos a ellas directamente (e.g. `array()`). 

Un array se puede crear explícitamente o a partir de una lista de la forma siguiente:

In [None]:
x = np.array([2.0, 4.6, 9.3, 1.2])      # Creacion de un array directamente

notas = [9.8, 7.8, 9.9, 8.4, 6.7]   # Crear un lista
notas2 = np.array(notas) 

print(notas2)
print(notas)
notas2

Lo primero que notaremos al imprimir un `array` por pantalla es que a diferencia de las listas sus elementos no están separados por comas.

Podemos consultar el tipo de la variable:

In [None]:
print(type(notas2))

Este array formado a partir de una lista se considera un array de una dimensión, también conocido como vector.

Podemos consultar la dimensión y forma de un array con sus propiedades `ndim` y `shape`:

In [None]:
len(notas2), notas2.ndim, notas2.shape

Notar como el tercer método nos devolverá una tupla `(5,)`. El segundo método hace referencia a que nuestro array tiene 5 elementos en la primera dimensión, que es la de la anchura, lo cual al ser de 1D, coincide con lo arrojado por `len`.

Ahora bien, si nosotros definimos un array a partir de una lista anidada formada por dos sublistas tendremos:

In [None]:
array = np.array(
[
    [1, 2, 3, 4., 5],
    [6, 7, 8, 9, 10]
])

print(array)
print(array.ndim)
print(array.shape)

Veremos algo interesante, y es que el array se muestra como una tabla de **2 filas con 5 columnas**, números que precisamente concuerdan con la forma **(2, 5)**.

Estas estructuras formadas por filas y columnas parecidas a una tabla tienen dos dimensiones, anchura y altura (por eso nos dice que tiene 2 dimensiones). También se conocen como **vectores multidimensionales, vectores 2D o matrices**.

Para conocer el tipo de dato que contiene el array podemos usar `dtype`. IMPORTANTE: un array solo puede contener un tipo de datos.

In [10]:
print(array.dtype)

print()
array = np.array(["Hola", "que", "tal"])
print(array.dtype)

<U4

<U4


Pero en este caso nos indica un tipo extraño llamado **<U4**. Según la documentación de `numpy` esto hace referencia a que el array es de tipo **Unicode**, es decir, es un array de texto.

Esto sucede de igual forma si mezclamos números y textos:

In [7]:
array = np.array([1234, "Hola", 3.1415])
print(array.dtype)

<U32


Ahora nos dice que el tipo es **<U#** y si mostramos su contenido veremos que todo son cadenas de texto:

In [None]:
print(array)

### Existen métodos para crear arrays automáticamente:

In [None]:
# Ejemplos

#lista_ceros = np.zeros(10)           # Array de 10 ceros (floats)
lista_ceros = np.zeros([3,3])                    # matriz 3x3 de ceros
print(lista_ceros)

#lista_unos = np.ones(10)             # Array de 10 unos (floats)
lista_unos =  np.ones([3,3])                     # matriz 3x3 de unos
print(lista_unos)

lista_identidad = np.eye(3)           # crea una matriz identidad 3x3
print(lista_identidad)

otra_lista = np.linspace(0, 30, 8)    # Array de 8 números, de 0 a 30 ambos incluidos
print(otra_lista)

#numeros = np.arange(10)               # Array de numeros (floats) de 0 a 9
# np.arange(4.)                       # Rango 0 a 4 decimal
# np.arange(-3, 3)                    # Rango de -3 a 2 
numeros = np.arange(0, 20, 2.5)                 # Rango de 0 a 20 cada 5 números
print(numeros)

# arreglo llenado de forma rapida. IMPORTANTE no con ceros
emptarray = np.empty((4,4))
print(emptarray)

Notar que si creamos un array con `np.arange()` usando un número entero, el array que se creará será de enteros. Es posible cambiar todo el array a otro tipo de dato (como a `float`) usando el método `astype()`, notar que se usa `dtype` para saber el tipo:

In [None]:
print(numeros.dtype)


numeros = numeros.astype('int')  # para cambiar a float, notar que hay q volver a asignarle el valor
                                # puesto que astype crea una copia

print(numeros.dtype)

In [None]:
# alternativa
test = np.array([1, 2.-1j, 3], dtype=complex)

print(test.dtype)

Nota: para conocer más detalles sobre los distintos tipos disponibles para los elementos de array, podemos echar un vistazo a la [página](https://numpy.org/doc/stable/reference/arrays.dtypes.html) de la documentación oficial asociada al tema.

## Ejercicios:
- importar NumPy con Alias
- Crear un arreglo 1D de 10 elementos mediante una lista
- Crear una matriz 5x5 de unos
- Crear una lista de ceros
- Convertir esa lista de ceros a complejos

### Indexación

Los arrays se indexan prácticamente igual que las listas y las cadenas de texto; aquí hay algunos ejemplos:

In [None]:
numeros = np.arange(10)
print(numeros)

In [None]:
print(numeros[3:8])           # Elementos desde el tercero al septimo

print(numeros[:4])            # Elementos desde el primero al cuarto

print(numeros[5:])            # Elementos desde el quinto al final

print(numeros[-3])            # El antepenúltimo elemento (devuelve un elemento, no un array)

print(numeros[:])             # Todo el array, equivalente a print(numeros)

print(numeros[2:8:2])         # Elementos del segundo al septimo, pero saltando de dos en dos

Hasta ahora es muy equivalente a las listas ¿cierto?

### Operaciones con arrays

Los arrays permiten hacer operaciones aritméticas básicas entre ellos en la forma que uno esperaría que se hicieran, es decir, haciéndolo elemento a elemento; para ello ambos arrays **deben tener siempre la misma longitud,** por ejemplo:

In [None]:
enteros = np.arange(6)
x = np.array([5.6, 7.3, 7.7, 2.3, 4.2, 9.2])

print(enteros)
#print()
#print(x)
#print()

print(x+enteros)
print()

print(x*enteros)
print()

print(x/enteros)

Como podemos ver las operaciones se hacen elemento a elemento, por lo que ambas deben tener la misma forma (`shape()`). Fíjense que en la división el resultado del primer elemento es **indefinido/infinito (Inf)** debido a la división por cero.

¿qué sucede en Python cuando intentamos dividir un número por cero?

In [None]:
1 / 0

Python arroja una excepción si encuentra una situación de este tipo, deteniendo por completo el proceso de la que forme parte. Algo que no ocurre con los array, para este caso recibimos un **warning** en la consola, pero el proceso continúa.

In [11]:
x = np.array([ 1,  0,  1, 16], dtype=int)
x/0

  x/0
  x/0


array([inf, nan, inf, inf])

Notar que en los casos en que ocurre una indeterminación:
-  0/0
- raices cuadráticas negativas

NumPy devuelve el valor `nan`.


Notemos algo curioso

In [None]:
# ejemplo 1
f = [np.nan, np.nan, np.inf, 1, 1.5]

f_l = []
for i in f:
    if i==i:
        f_l.append(i)
print(f_l)

In [None]:
# ejemplo 2

np.nan == np.nan

Este resultado es bastante lógico. Si tenemos una entidad indefinida, difícil será que podamos comparar si es igual a otra entidad indefinida. No obstante, esta filosofía invalida la búsqueda de valores perdidos por la clásica vía de comparación con **nan**. En NumPy, para comprobar la existencia de dichos valores y que han sido codificados como **nan**, tendremos que emplear funciones del tipo `isnan()`.

In [None]:
# ejemplo
np.isnan(x/0)

Finalmente, como tanto los **inf** como los **nan** se codifican de manera distinta a los números enteros, no vamos a poder tener en un array de enteros ciertos elementos declarados como **nan**.

In [None]:
np.array([1, 2, np.nan], dtype='int8')

In [None]:
# No obstante, con otros tipos de datos, esta situación no se da.
np.array([1, 2, np.nan], dtype='float32')

A modo de resumen, recuerden que con los arreglos las operaciones se realizan término a término

In [None]:
a = np.arange(1,5)
print(a)
a**2

### Operaciones en arrays de 2D

Todo lo que hemos visto aplica también a los arrays de dos dimensiones:

In [12]:
# ejemplo
arr_5 = np.array([[1,2],[3,4]])
arr_6 = np.array([[5,6],[7,8]])

print(arr_5)
print()
print(arr_6)

arr_5 * arr_6

[[1 2]
 [3 4]]

[[5 6]
 [7 8]]


array([[ 5, 12],
       [21, 32]])

In [13]:
# ejemplo
a = np.arange(12)
b = a.reshape(3, 4)
print(b)
print()
print(b.ndim, a.ndim)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
2 1


### Accediendo a los elementos

Es posible que, en este preciso instante, estemos tentados a denominar la primera dimensión del array b como filas y la segunda como columnas, por su similaridad con las tablas de datos con las que estamos acostumbrados a lidiar. No obstante, debemos ser cautos con esta nomenclatura

In [14]:
print(b)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [15]:
# ejemplos
b[2:, :2]  # fila [2,:), elementos [0, 2), recordar que empieza en 0

array([[8, 9]])

In [None]:
# ¿qué retorna?
b[1:3, -1:]

In [None]:
b[1:3, -1]  # notar que el resultado no conserva la estructura

In [18]:
b.shape, (b[1:3, -1]).shape

((3, 4), (2,))

Dependiendo de si acto seguido vamos a utilizar el anterior resultado para llevar a cabo algún tipo de cálculo matemático, este detalle puede resultar de vital relevancia.

Si estamos interesados en que el resultado de la extracción **conserve el número de dimensiones del objeto original**, en todas y cada una de las dimensiones hemos de emplear estrategias de tipo `slice`.

In [21]:
print(b)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [19]:
# ejemplos 1
b[:1, :1], b[:1, 0]

(array([[0]]), array([0]))

In [25]:
# ejemplo 2
b[1].shape, b[[1]].shape, b[1:2, :].shape

((4,), (1, 4), (1, 4))

¿Notan algo diferente?   El doble corchete

La primera estrategia de acceso a los elementos de un array empleando es **fancy indexing**. Se hace uso del tipo get donde proporcionaremos una lista ([]) que contenga los índices de los elementos que deseamos extraer. Ilustremos la manera de proceder mediante algunos ejemplos.

In [32]:
# ejemplos 
a = np.arange(15).reshape(3, 5)

print(a)
print()
print(a[[0, 1, 0]])  # filas 0, 1, 0. Noten como puedo repetir

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]

[[0 1 2 3 4]
 [5 6 7 8 9]
 [0 1 2 3 4]]


In [31]:
a[0][[1, 3]]  # fila 0, elementos 1, 3

array([1, 3])

### Uniendo array

Varios arrays se pueden unir con el método `np.concatenate()`, que también se puede usar para añadir elementos nuevos:

In [None]:
# ejemplos
arr_5 = np.array([[1,2],[3,4]])
arr_6 = np.array([[5,6],[7,8]])

print(arr_5)
print()
print(arr_6)
print()

a = np.concatenate((arr_5, arr_6))

print(a)

In [None]:
arr_5 = np.array([1,2, 3,4])
arr_6 = np.array([5,6,7,8])

np.concatenate((arr_5, arr_6))

Para añadir elementos, numpy tiene las funciones `insert()` y `append()`, que funcionan de manera similar a sus equivalentes en listas:

In [None]:
z = np.array([1, 2, 3, 4, 5, 6, 7, 8])
print(z)
# Añadimos el elemento 100 al array z, al final
z = np.append(z, 100)  # notar que como importamos todo el paquete no es necesario poner np.append

print(z)

# Añadimos el elemento 200 al array z, en el tercer puesto (índice 2)
b = np.insert(z, 2, 200)  # notar que como importamos todo el paquete no es necesario poner np.insert
print(b)

IMPORTANTE;

Como se ve, a diferencia de las listas (recordar que en la lista es `nombre.append(elemento)`, el **primer parámetro es el array y luego el elemento que se quiere añadir**.

- Estos métodos devuelven una copia del array sin modificar el original como hacen los métodos de listas correspondientes. 

- Si en lugar de un elemento a insertar se da una lista u otro array. Entonces se añade todos los elementos de la lista (a append() habría que dar también una lista de posiciones, como segundo parámetro).


### Operaciones aritméticas 
Además de las operaciones aritméticas básicas, los arrays de numpy tienen métodos o funciones específicas para ellas. Algunas de ellas son las siguientes:

In [None]:
print(z.max())   # Valor máximo de los elementos del array

print(z.min())   # Valor mínimo de los elementos del array

print(z.mean())  # Valor medio de los elementos del array

print(z.std())   # Desviación típica de los elementos del array

print(z.sum())   # Suma de todos los elementos del array

print(np.median(z)) # Mediana de los elementos del array   se debe usar np.median si se importa numpy de la otra forma

OTRAS OPERACIONES

In [None]:
b=np.array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

b.ndim

In [None]:
# aplanando el arreglo
b.flatten()

In [None]:
# operaciones por fila y columna
np.sum(b, axis=0) # reducción de la primera dimensión (suma por "columnas")

In [None]:
np.sum(b, axis=1) # reducción de la segunda dimensión (suma por "filas")

## Ejercicios 

1. Crear un arreglo de 20 elementos
2. Convertirlo a un arreglo 2D
3. Calcular el min, max por filas y columnas
4. Calcular la media por filas
5. Añadir en cada fial un 10
6. Usando índices imprimir los ultimos 3 elementos del cada fila conservando la estructura
7. Con el arreglo del resultado anterior crear uno 1D

Una gran utilidad de los arrays es la posibilidad de usarlos con datos booleanos (True o False) y operar entre ellos o incluso usarlos con arrays con números. Veamos algunos ejemplos:

In [None]:
A = np.array([True, False, True])
B = np.array([False, False, True])

A*B

In [None]:
C = np.array([1, 2, 3])

A*C  #  los elementos que fueron multiplicados por False iguales a cero.

In [None]:
B*C  #  los elementos que fueron multiplicados por False iguales a cero.

En este ejemplo vemos cómo al multiplicar dos arrays booleanos es resultado es otro array booleano con el resultado que corresponda, pero al multiplicar los arrays booleanos con arrays numéricos, el resultado es un array numérico con los mismos elementos, pero con los elementos que fueron multiplicados por False iguales a cero.

Tambíén es posible usar los arrays como índices de otro array y como índices se pueden usar arrays numéricos o booleanos. El resultado será en este caso un array con los elementos que se indique en el array de índices numérico o los elementos correspondientes a True en caso de usar un array de índices booleano. Veámoslo con un ejemplo:

In [None]:
# Array con enteros de 0 a 9
mi_array = np.arange(0, 100, 10)  #  np.arange

# Array de índices numericos con numeros de 0-9 de 2 en 2
indices1 = np.arange(0, 10, 2)

# Array de índices booleanos
indices2 = np.array([False, True, True, False, False, True, False, False, True, True])  # np.array

print(indices1)
print()
print(mi_array)
print()
print(mi_array[indices1])
print()
print(mi_array[indices2]) # notar que escoje los que son True

### array y booleanos

También es muy sencillo y más práctico crear arrays booleanos usando operadores lógicos y luego usalos como índices, por ejemplo:

In [None]:
mi_array = np.arange(0, 100, 10)

mi_array

In [None]:
# Creamos un array usando un operador booleano
mayores50 = mi_array > 50  # notar que compara cada elemento del arreglo con 50 y guarda sus comparaciones

print(mayores50)

# Lo utilizamos como índices para seleccionar los que cumplen esa condición
print(mi_array[mayores50])

In [None]:
# comparemos

mayores50 = []
for i in mi_array:
    if i>50:
        mayores50.append(i)
        
mayores50   

¡¡Genial no!!


Una de las mejores utilidades de numpy es trabajar con índices y máscaras de datos para limitar o seleccionar parte de los datos. Supongamos que tenemos un array de datos, pero que solo nos interesa los positivos, que queremos manipular después. Hay varias formas de seleccionarlos definiendo un array máscara con la condición que nos interesa:

In [None]:
datos = np.array([3, 7, -2, 6, 7, -8, 11, -1, -2, 8])

print(datos)

mask = datos >= 0

print(mask)

mask2 = datos*mask
print(mask2)

# no es lo mismo
print(datos[mask])

type(mask2)

- Usando un array mask de booleanos, podemos operar con el el array de datos, cuando un valor se multiplica por True es equivalente a multiplicarse por 1 y si es con False, a multiplicarse por 0. Por eso el resultado es un array del mismo tamaño, pero los elementos que no cumplen la condición se hacen 0.

- Si por el contrario usarmos usamos mask como un array de índices, el resultado es un array con los elementos cuyo índice corresponda con True, ignorando los de índice False. Usaremos uno u otro según lo que queramos hacer, el truco consiste es crear de manera correcta la máscara de datos.

Veamos el caso de un array 2D con dos columnas, pero queremos limitar todos los datos en criterios en las dos columnas. Primero creamos una máscara como producto de las dos condiciones, y luego la usamos como array de índices en el array original:

In [None]:
from numpy import random

datos2 = np.random.randint(-10, 20, (10, 2))  # crea 10 números aleatorios enteros entre [-10,20), para 2 columnas

print('arreglo de dos columnas \n', datos2)

# Solo queremos de los datos los que cumplan de la columna 0 que sean mayores 0
# pero en esa posición menores que 10 en la columna 1

condicion1 = datos2[:,0] > 0
condicion2 = datos2[:,1] < 10

print(condicion1)
print(condicion2)

# notar que al multiplicar las condiciones quedan las que son true true o false false
mask_col0 = condicion1*condicion2  
#mask_col0 = condicion1+condicion2 
mask_col1 = np.array([not(i) for i in (condicion1*condicion2)])
mask_col3 = mask_col0#*mask_col1
print(mask_col0)
#print(mask_col1)
#print(mask_col3)

# aplicando las condiciones
datos2[mask_col0]
#print(datos2[condicion1])
#print()
#datos2[condicion2]

Como se ve, el resultado en un array de dos columna, donde en la primera columna son todos positivos y en la segunda menores que +10. ¿Y si queremos que al menos se cumpla una condición? Simplemente tenermos que sumar las dos máscaras (las de cada columna) en lugar de multiplicarla, básicamente es como multiplicar o sumar unos o ceros (True o False).

## Ejercicio

Crear una matriz 4x4,

    a) extraer todos los elementos mayores que cero,
    b) extraer las filas que cumplan ser su primer elemento mayor que 1 y el segundo menor que 2,
    c) extraer las filas que cumplan que su primer elemento es mayor que 1 o su segundo elemento es menor que 2. Pero ambos no no pueden ser cierto.

### Retomando los índices

Igualmente podemos modificar un array bidimensional usando sus índices:

In [None]:
lista = [[10,20,30, 4, 5,6,7,8,9, 0],[9, 99, 999, 8,9,0,4,2,7, 8],[9, 99, 999, 8,9,0,4,2,7, 8]]
arr0 =  np.array(lista)

print(arr0)

In [None]:
arr0[:, 6] = 1
#arr0[-1, :] = 0
#arr0[1, 3:6] = 5
#arr0[1, -3] = 10
#arr0[-1, -1] = 10
#arr0[-1, -3:] = 1
#arr0[-1][[1, -2, -1]]=0
arr0[1, 1:4] = 5
print(arr0)

### Cambiando el tamaño de arrays

Hemos visto que es fácil quitar y poner elementos nuevos en un array unidimensional. Pero con dos o más dimensiones es algo más complicado porque estamos limitados a la estructura y número de elementos del array. Podemos cambiar la forma (shape) de un array a otra que tenga el mismo número de elementos fácilmente usado `reshape()`:

In [None]:
numeros = np.arange(100)  # Array unidimensional de 100 numeros
numeros

In [None]:
numeros_3D = numeros.reshape((5, 10, 2))  # creamos una arreglo de 5 x 10 x 2 .. notar que da 100 el producto
numeros_3D

In [None]:
numeros = arange(10000)  # Array unidimensional de 10 000 numeros

numeros_2D = numeros.reshape((100, 100))  # creamos un arreglo 2D de 100 x 100

numeros_3D = numeros.reshape((100, 10, 10))  # creamos una arreglo de 100 x 10 x 10

print(numeros.shape)

print(numeros_2D.shape)

print(numeros_3D.shape)

### Arrays estructurados

Aunque los arrays pueden contener cualquier tipo de dato, los arrays normales sólo pueden ser de un único tipo. Para esto extiste una variante de arrays para contenidos complejos o estructurados, llamado **structured arrays**, que permiten tratar arrays por estructuras o por campos de estruturas. Además de poder contener distintos tipos de datos, facilitan el acceso por columnas. Vemos un ejemplo con un array con distintos tipos de datos:

In [None]:
# ejemplo
galaxies = np.zeros(5, dtype = {'names': ('name', 'order', 'type', 'magnitude'),
                          'formats': ('U16', 'i4', 'U10', 'f8')})  # np.zeros


galaxies

In [None]:
# ejemplo 
# Array estucturado de 5 elementos, vacio
galaxies = np.zeros(5, dtype = {'names': ('name', 'order', 'type', 'magnitude'),
                          'formats': ('U16', 'i4', 'U10', 'f8')})  # np.zeros

# Listas de datos para contruir el array estructurado
names = ["M 81", "NGC 253", "M 51", "NGC 4676", "M 106"]
types = ["SA(s)b", "SAB(s)c", "Sc", "Irr", "SAB(s)bc"]
magnitudes = [6.93, 7.1, 8.4, 14.7, 9.1]
order = list(range(5))

# Añadimos valores a los campos (columnas)
galaxies['name'] = names
galaxies['type'] = types
galaxies['magnitude'] = magnitudes
galaxies['order'] = order

print(galaxies)

Se trata de un array con cinco entradas (o records) y cada una de ellas posee cuatro campos de distinto tipo, indicados con la propiedad dtype. En este caso son un string unicode de:

- longitud máxima 16 (U16), 
- un entero 4 bytes (i.e. 32 bit) (i4), 
- string unicode de longitud máxima 16 (U16) y 
- un float de 4 bytes (i.e. 64 bit).

El dtype de numpy describe cómo interpretar cada elemento en bytes de bloques de memoria fijos. No sólo se trata de si son float, int, etc., el dtype describe lo siguiente:

- Tipo de dato (int, float, objeto Python, etc.)
- Tamaño del dato (cuantos bytes puede ocupar)
- Orden de bytes de datos (little-endian o big-endian)
- Si son datos estructurado (por ejemplo mezcla de tipos de dato), también:

    - Nombre de los campos
    - Tipo de dato de cada campo
    - Qué parte del bloque de memoria ocupa cada campo
    - Si en dato es un sub-array, su forma y tipo de dato

De manera resumida, para definir el tipo de cada elemento podemos usar una de las siguientes cadenas:

#### b1, i1, i2, i4, i8, u1, u2, u4, u8, f2, f4, f8, c8, c16, a<n>

que representan, respectivamente, 
    
    - bytes, 
    - ints, 
    - unsigned ints, 
    - floats, 
    - complex y 
    - strings de longitud fija. 
    
También se pueden usar los tipos de datos estándar de Python equivalentes (int, float, etc.)

Teniendo un array estructurado como el anterior, podemos ver cada elemento haciendo el indexado habitual y también por campos (columnas):

In [None]:
#print(galaxies)

# Columna 'name' del array
#print(galaxies['magnitude'])

# Primer elemento del array, con todos los campos (columnas)
#print(galaxies[0][0])

# Nombres de galaxias más brillantes que magnitud 9

indx = galaxies['magnitude'] < 9  # podemos crear un booleano y usarlo como índice
print(indx)
galaxies[indx]['name']

### Lectura y escritura de datos con numpy

numpy posee algunos métodos de lectura de ficheros de texto que nos pueden facilitar la vida si son relativamente sencillos. En más básico es 
- `np.loadtxt()`; 

si todos las columnas del fichero son numéricas, basta con indicar el delimitador de columnas si es distinto de espacios:

In [41]:
test2 = np.loadtxt('data/datos.txt', comments='#', delimiter='\t', unpack=False)  # Modificar: usecols=1 , comments='!', delimiter=';'
tiempo0 = test2[:, 0]  # tiempo, la primera columna
masa0 = test2[:, 1]  # masa, la segunda columna
print(test2)
print(tiempo0)

[[ 0.       -0.008936]
 [ 0.01     -0.008936]
 [ 0.02     -0.008935]
 [ 0.03     -0.008933]
 [ 0.04     -0.00893 ]
 [ 0.05     -0.008927]
 [ 0.06     -0.008923]
 [ 0.07     -0.008918]
 [ 0.08     -0.008912]
 [ 0.09     -0.008906]
 [ 0.1      -0.008899]
 [ 0.11     -0.008891]
 [ 0.12     -0.008882]
 [ 0.13     -0.008873]]
[0.   0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1  0.11 0.12 0.13]


Si hay más de una columna como en este ejemplo, `np.loadtxt()` devuelve un array bidimiensional en el que primera dimensión o eje son las filas y el segundo las columnas. Quizás sea más práctico poner la columnas por separado, para lo que podemos hacer:

In [None]:
tiempo1, masa1 = np.loadtxt('data/datos.txt', unpack=False)  # o una variable

Ahora al leer añadimos el parámetro `unpack=True`, `np.loadtxt()` lo que desempaqueta por columnas en lugar de por filas (como si invirtiera el array), perminiéndonos desempaquetar en variables las columnas, que ahora están en el eje 0:

Si el fichero a leer tiene distintos tipos datos (string y float), hay que indicar con el parámetro dtype la lista de tipos de dato que tienen las columnas que queremos leer. En este caso es más práctico usar el método
- `np.genfromtxt()`, 

que similar a`loadtxt()` pero más flexible para leer columnas de distinto tipo. Si usamos `np.genfromtxt()` con el parámetro dtype, que puede ser una lista con tuplas nombre-tipo, podemos indicar el nombre de la columna y el tipo dato que contiene, creando un array estructurado como vimos antes:

In [17]:
dtypes = [('tiempo', 'float'), ('masa', 'float'), ('letras', 'S10')]
data = np.genfromtxt("data/test2.dat", comments='!', delimiter=";", dtype=dtypes)  # dtype=None

#data
data['masa'], data['tiempo'], data['letras']

(array([-0.00893639, -0.008936  , -0.00893487, -0.00893297, -0.00893031,
        -0.0089269 , -0.00892274, -0.00891781, -0.00891214, -0.00890571,
        -0.00889853, -0.00889061, -0.00888194, -0.00887252]),
 array([1.0000000e-08, 1.0000010e-02, 2.0000010e-02, 3.0000010e-02,
        4.0000010e-02, 5.0000010e-02, 6.0000010e-02, 7.0000010e-02,
        8.0000010e-02, 9.0000010e-02, 1.0000001e-01, 1.1000001e-01,
        1.2000001e-01, 1.3000001e-01]),
 array([b' adios', b' hola', b' c', b' d', b' e', b' f', b' g', b' h',
        b' i', b' j', b' k', b' l', b' m', b' n'], dtype='|S10'))

En este caso ya no hay que usar el desempaquetado, porque tenemos un array estructurado con columnas con nombre data['tiempo'] y data['masa'].

De manera similar, podemos usar 
- `np.savetxt()` 

para guardar un fichero de datos por columnas:

In [None]:
# Guardamos un array datos en un fichero de texto, con los campos
# delimitados por tabulador (\t) en formato float con dos decimales
# y le damos una cabecera
np.savetxt('datos.txt', data, delimiter='\t', fmt='%.6f', header="tiempo\t masa")

En este ejemplo delimitamos las columnas por tabuladores (\t), escribimos los números como floats con dos decimales (%.2f, por defecto es notación científica) y añadimos un string que hace de cabecera.

# Cálculo matricial con numpy

numpy incluye algunas funciones para álgebra y cálculo matricial, en el que es clave el tipo de dato matrix. Es similar al array, pero opera como una matrix y tiene método propios de las matrices.

In [None]:
A = np.array([[1,2,3], [4,5,6], [7,8,9]])
B = np.array([[1,2,0], [4,5,6], [7,8,9]])
Am = np.mat(A)
Bm = np.mat(B)

In [None]:
A = np.array([[1,2,3], [4,5,6], [7,8,9]])

Am = np.mat(A)  # Convertimos array a matriz
print(Am)
print()
print(A*A)  
print()
print(Am*Am)  # Aquí hace producto matricial, no elemento a elemento como con arrays

print()
print(np.dot(A,A))

In [None]:
print(Am.T)  # Matriz traspuesta
print()
print(Am.diagonal())
print()
print(np.linalg.det(Am)) # Determinante
print()
print(np.linalg.eigvals(Am))  # Autovalores

In [None]:
?np.linalg.eigvals

### Proxima clase: Matplotlib