---
# Experto Big Data UNAV 2018 - Notebook 9 - Numpy
---

# NumPy

* Es una librería que nos permite representar de manera sencilla vectores multidimensionales.
* Proporciona funciones y herramientas matemáticas para trabajar con los vectores.
* Es muy eficiente y rápida a la hora de hacer cálculos con grandes cantidades de datos.

Las matrices NumPy tienen varias ventajas sobre las listas de Python. Estos beneficios se centran en proporcionar la manipulación de alto rendimiento de secuencias de elementos de datos homogéneos. Varios de estos beneficios son los siguientes:
- Asignación contigua en la memoria
- Operaciones vectorizadas
- Selección booleana
- Sliceability

Vamos a testear los beneficios de utilizar numpy vs listas.

In [None]:
def squares(values):
    result = []
    for v in values:
        result.append(v * v)
    return result
   # creamos lista de  100K elementos
to_square = list(range(100000))
# medimos tiempo de ejecucion con 
%timeit squares(to_square) 

In [None]:
import numpy as np # directiva para importar libreria

# mismo codigo lo hacemos con numpy
array_to_square = np.arange(0, 100000)
# medimos tiempo de la operacion vectorizada
%timeit array_to_square ** 2

Puedes ver como la vectorizacion ha reducido el tiempo de ejecucion de nuestro codigo en mas de 100 veces!!  

Esto saca a la luz algo a tener en cuenta cuando se trabaja con datos en NumPy y Pandas: si estas escribendo un _loop_ para iterar a través de elementos de una matriz NumPy, un _series_ de pandas o un DataFrame, entonces estás probablemente hacien algo incorrecto. Siempre has de tener en cuenta escribir código que haga uso de la vectorización. Casi siempre es más rápido, y se expresa de forma más elegante de forma vectorizada.

La **selección booleana** es un patrón común que veremos con NumPy y pandas donde la selección de elementos de una matriz se basa en criterios específicos. Esto consiste en calcular una matriz de valores booleanos donde True representa que el elemento dado que debe estar en el conjunto de resultados. Esta matriz se puede usar para seleccionar eficientemente los elementos que coinciden.

## Creacion de arrays en NumPy

Antes de poder crear un array NumPy tenemos que importar la libreria. Esto se hace como ya hemos visto con otras a traves del comando _import numpy_.

In [2]:
import numpy as np # importamos y le decimos a python que lo llamaremos np

Un vector NumPy puede crearse de multiples formas, todas estas crean un vector NumPy.

In [None]:
# un array simple
a1 = np.array([1, 2, 3, 4, 5])
print(a1) # ojo no es una lista es un objeto numpy
print(type(a1)) # el tipo es numpy.array
print(np.size(a1)) # cual es el tamanio de nuestro vector
print(a1.dtype) # que tipo de datos contiene nuestro vector

En NumPy, las matrices n-dimensionales se denotan como ndarray, la de nuestro ejemplo contiene cinco elementos, como informa la función _np.size()_.
Las matrices NumPy deben tener todos sus elementos del mismo tipo. Si especificas diferentes tipos en la lista, NumPy intentará realizar un casting de todos los elementos al mismo tipo (al tipo mas general). El siguiente ejemplo de código demuestra el uso de valores enteros y de coma flotante al inicializar la matriz, que luego se convierten a números de coma flotante por NumPy.

In [None]:
# creando un array de enteros y floats
a2 = np.array([1, 2, 3, 4.0, 5.0])
print(a2) # numpy lo convierte a uno de floats

Si realizamos las misma operacion con una cadena dentro, NumPy nos convertira el tipo de los elementos del vector a str.

In [None]:
# creando un array de enteros y floats y cadenas
a2 = np.array([1, 2, 3, 4.0, 5.0, 'hola'])
print(a2) # numpy lo convierte a uno de floats
print(a2.dtype) # <US32 es un tipo interno de numpy para representar una cadena.

**Aunque lo anterior funciona, NumPy es una libreria orientada al calculo numerico de modo que se desaconseja el almacenamiento de strings en su interior.** Pronto veremos librerias para el manejo mas sencillo y eficiente de cadenas.

In [None]:
a = np.array([1, 2, 3])  # Crea un array de rango 1
print(type(a))            # imprime "<type 'numpy.ndarray'>"
print(a.shape)           # imprime "(3,)"
print(a[0], a[1], a[2])   # imprime "1 2 3"
a[0] =(5)                 # cambia un elemento del 
print(a)                  # imprime "[5, 2, 3]"

b = np.array([[1,2,3],[4,5,6]])   # crea de dos dimensiones
print(b.shape)                     # imprime "(2, 3)"
print(b[0, 0], b[0, 1], b[1, 0])  # imprime "1 2 4"

Es importante distinguir entre _numero de dimensiones_ y _forma_.

In [None]:
a = np.zeros((3,3))

print('El numero de dimensiones de a son:', len(a.shape)) # nos dice cuantas dimensiones tiene la matriz
print('El forma es de a es:', a.shape) # nos dice cuantos elementos tiene cada dimension
print(a)

## Metodos para la creacion de arrays en NumPy

Provee de diferentes metodos para crear arrays.  

Creacion de un array de ceros.

In [None]:
a = np.zeros((2,2))  # crea array de zeros de 2 x 2
print(a, '\n---')

Creacion de un array de unos.

In [None]:
b = np.ones((2,2))   # Crea array de unos de 2 x 2
print(b, '\n---') 

Creacion de un array de una constante.

In [None]:
c = np.full((2,2), 7) # crea un array de una constante de 2 x 2
print(c, '\n---')

Creacion de matriz identidad.

In [None]:
d = np.eye(2)        # crea una array (matriz) 2x2 identidad
print(d, '\n---')

Creacion de array con valores aleatorios.

In [None]:
e = np.random.random((2,2)) # crea array con valores aleatorios 2x2
print(e, '\n---')

La funcion arange de modo similar a la funcion range nos permite crear un array.

In [None]:
x = np.arange(0, 10, .5)
print(x)

Creacion de un array de _n_ elementos distribuidos linealmente.

In [None]:
x = np.linspace(0, 1, 11) 
print(x)

Si estas interesado en mas funciones para el creado puedes acudir a la [pagina oficial de la documentacion de NumPy](https://docs.scipy.org/doc/numpy-1.13.0/reference/routines.array-creation.html#routines-array-creation)

## Indexado

Al igual que las listas, para acceder a los arrays se puede utilizar el operador de corte (_slicing_). Al ser arrays multidimensionales hay que especificar las dimensiones a las que queremos acceder

In [None]:
# crea array de dimensiones 2 y shape (3,4)
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a)

In [None]:
# Utiliza slicing para extrar un subarray que consiste de las dos primeras filas y las columnas 1 y 2
b = a[:2, 1:3]
print(b)

**No se crea una copia cuando se hace _slicing_, la nueva variable apunta a la misma zona de memoria. Si se modifica el _slice_ se modifica el original. **

In [None]:
# Un slice de un array apunta a la misma zona de memoria de modo
#que modificando este, modificamos el array original
print(a[0, 1])
b[0, 0] = 77    
print(a[0, 1])  

Se puede acceder a los elementos combinando _slicing_ y indexado simple. Si se accede usando un entero se obtiene un array de rango menor.

In [None]:
# crea array de rango 2 y shape (3,4)
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a)

In [None]:
fila1 = a[1, :]    # Accede a la primera fila y retorna array de dimension 1 y 4 elementos
print(fila1, fila1.shape)

Si se accede usando _slicing_ se obtiene un array del mismo numero de dimensiones.

In [None]:
fila2 = a[1:2, :]  # Accede a la primera fila y retorna array de rango 2 igual al original
print(fila2, fila2.shape)  # imprime "[[5 6 7 8]] (1, 4)"

Tambien se puede acceder a diferentes elememtos en diferentes filas y columnas

In [None]:
# crea array de rango 2 y shape (3,4)
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a, '\n---')
print(a[[0,2],[0,3]], '\n---')
print(a[[0,2],:], '\n---')
print(a[:,-1] + 10, '\n---')

Tambien se puede acceder utilizando un indexado booleano _True_ y _False_

In [None]:
a = np.array([[1,2], [3, 4], [5, 6]])
print(a, '\n---')

bool_idx = (a > 2)  # encuentra indices que son mayores que 2 y devuelve array booleano
print(bool_idx, '\n---')

print(a[bool_idx], '\n---')
# todo de una vez en modo pythonico
print(a[a > 2] + 10)

### Tipos de datos

Numpy define nuevos tipos de datos que representan a los que ya conocemos pero no son los mismos

In [None]:
x = np.array([1, 2])  # numpy elige el tipo de datos
print(x.dtype)

x = np.array([1.0, 2.0])  # numpy elige el tipo de dato
print(x.dtype) 

x = np.array([1, 2], dtype=np.int64)  # forzamos un tipo de dato concreto
print(x.dtype) 
print(x.dtype is int)
print(x.dtype == np.int64)

### Funciones matematicas

Se pueden realizar funciones matematicas sencillas entre arrays de la siguiente forma.  
Suma y resta.

In [None]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

# suma elemento a elemento
print(x + y)
print(np.add(x, y))
print('-'*10)

# resta elemento a elemento
print(x - y)
print(np.subtract(x, y))
print('-'*10)

Multiplicacion y division.

In [None]:
# producto elemento a elemento
print(x * y)
print(np.multiply(x, y))
print('-'*10)

# division elemento a elemento
print(x / y)
print(np.divide(x, y))
print('-'*10)

Raiz cuadrada

In [None]:
# raiz cuadrada elemento a elemento
print(np.sqrt(x))
print('-'*10)

### Metodos

Estadisticos.

In [None]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a.sum()) # suma
print(a.mean()) # media
print(np.median(a)) # mediana
print(a.std()) # desviacion estandar
print(a.var()) # varianza
print(a.min()) # minimo
print(a.max()) # maximo
print(a.argmin()) # indice del elemento minimo
print(a.argmax()) # indice del elemento maximo
print(a.cumsum()) # suma acumulada
print(a.cumprod()) # producto acumulado

# Ejercicios

1 -  Crea un array de 1...n numeros crecientes de 1 en 1 donde n es 16. El array debe tener 4 filas y 4 columnas.

2 - Cual es la desviacion standar y la media?. Suma 5 a los elementos de la diagonal. 

3 - Utiliza la funcion _random_ para simular el lanzamiento de 2 dados a la vez 10 veces. Cuales han sido los resultados?. Imprimelos por pantalla. Puedes hacer uso de las [diferentes funciones que proporciona NumPy para el randomizado](https://docs.scipy.org/doc/numpy/reference/routines.random.html).

4 - Crea un array 10x10 con valores aleatorios y encuentra el minimo y el maximo.

5 - Crea un vexto aleatorio de 30 valores y encuentra la media.

6 - Crea un vector 2d (10 x 10) con 1s en los bordes y 0 dentro.

7 - Dado el siguiente array transforma todos los elementos entre 3 y 8 (excluidos) en -1.

In [54]:
a = np.arange(10)

8 - Utiliza la funcion [_genfromtxt_](https://docs.scipy.org/doc/numpy/reference/generated/numpy.genfromtxt.html) para leer el fichero _student_performance_dataset.csv_. Vamos a trajabar con un [dataset del performance de estudiantes en Portugal](https://archive.ics.uci.edu/ml/datasets/student+performance) para la asignatura de Portugues. Estudia bien el fichero . Puedes buscar funciones de _numpy_ que te ayuden en tu cometido aunque no las hayamos visto en clase.

La descripcion del dataset es el siguiente, en columnas (recuerda que las columnas en Python empiezan en 0):

- 1: school - student's school (binary: 0 - Gabriel Pereira or 1 - Mousinho da Silveira) 
- 2: sex - student's sex (binary: 0 - female or 1 - male) 
- 3: age - student's age (numeric: from 15 to 22) 
- 4: address - student's home address type (binary: 0 - urban or 1 - rural) 
- 5: famsize - family size (binary: 0 - greater than 3 or 1 - less or equal to 3) 
- 6: Pstatus - parent's cohabitation status (binary: 0 - apart or 1 - living together) 
- 7: Medu - mother's education (numeric: 0 - none, 1 - primary education (4th grade), 2 - 5th to 9th grade, 3 - secondary education or 4 - higher education) 
- 8: Fedu - father's education (numeric: 0 - none, 1 - primary education (4th grade), 2 - 5th to 9th grade, 3 - secondary education or 4 - higher education) 
- 9: traveltime - home to school travel time (numeric: 1 - 15 min., 2 - 15 to 30 min., 3 - 30 min. to 1 hour, or 4 - more than 1 hour) 
- 10: studytime - weekly study time (numeric: 1 - less than 2 hours, 2 - 2 to 5 hours, 3 - 5 to 10 hours, or 4 - more than 10 hours) 
- 11: failures - number of past class failures (numeric: n if 1 less,equal than 3, else 4) 
- 12: schoolsup - extra educational support (binary: 1 - yes or 0 - no) 
- 13: famsup - family educational support (binary: 1 - yes or 0 - no) 
- 14: paid - extra paid classes within the course subject (binary: 1 - yes or 0 - no) 
- 15: activities - extra-curricular activities (binary: 1 - yes or 0 - no) 
- 16: nursery - attended nursery school (binary: 1 - yes or 0 - no) 
- 17: higher - wants to take higher education (binary: 1 - yes or 0 - no) 
- 18: internet - Internet access at home (binary: 1 - yes or 0 - no) 
- 19: romantic - with a romantic relationship (binary: 1 - yes or 0 - no) 
- 20: famrel - quality of family relationships (numeric: from 1 - very bad to 5 - excellent) 
- 21: freetime - free time after school (numeric: from 1 - very low to 5 - very high) 
- 22: goout - going out with friends (numeric: from 1 - very low to 5 - very high) 
- 23: Dalc - workday alcohol consumption (numeric: from 1 - very low to 5 - very high) 
- 24: Walc - weekend alcohol consumption (numeric: from 1 - very low to 5 - very high) 
- 25: health - current health status (numeric: from 1 - very bad to 5 - very good) 
- 26: absences - number of school absences (numeric: from 0 to 93) 
- 27: G1 - first period grade (numeric: from 0 to 20) 
- 28: G2 - second period grade (numeric: from 0 to 20) 
- 29: G3 - final grade (numeric: from 0 to 20, output target)

**Para estos ejercicios vamos a utilizar el indexado booleano para pode acceder a la informacion y realizar nuestros primero analisis.**

In [None]:
# Carga del fichero nucleospoblacion.csv
students = np.genfromtxt('pandas/student_performance_dataset.csv',
                            delimiter=',', skip_header=1, dtype=int)
print('Hemos cargado {filas} filas y {columnas} columnas'.format(filas=students.shape[0], columnas=students.shape[1]))

9 - Calcula la media de notas finales (G3) para cada una de las escuelas junto con sus respectivas desviaciones estandar.

10 - Aquellos estudiantes que tienen padres o madres con educacion superior sacan mejores notas que los que no?

Si quieres realizar el studio estadistico puedes utilizar la funcion [*ttest_ind*](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html#scipy.stats.ttest_ind) que realiza la prueba de _T-test_ de dos muestras independientes. Se encuentra en el  modulo *scipy.stats* que contiene funciones para estudios estadisticos.

In [None]:
# esta es una forma de importar solo la funcion ttest_ind
# al importar una funcion y no el modulo podemos llamarla directamente
from scipy.stats import ttest_ind 

(T, p) = ttest_ind(np.random.random(10), np.random.random(10)*1.5)
if p > .05:
    print('Enhorabuena el resultado es significativo.')
print('T: %f, p:%f' % (T, p))

11 - De que forma influye el tiempo de estudio en los resultados de los estudiantes?. Por ahora puedes sacar las medias de las notas finales (G3) de cada asignatura. Puedes sacar las medias e imprimirlas de momento.

Si quieres realizar el studio estadistico puedes utilizar la funcion [*f_oneway*](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.f_oneway.html#scipy.stats.f_oneway) que realiza la prueba Anova de 1 via independiente. Se encuentra en el  modulo *scipy.stats* que contiene funciones para estudios estadisticos.

In [91]:
# esta es una forma de importar solo la funcion ttest_ind
# al importar una funcion y no el modulo podemos llamarla directamente
from scipy.stats import f_oneway 

print(f_oneway(np.random.random(10), np.random.random(10)*1.5, np.random.random(10)*10))

F_onewayResult(statistic=24.96373073280456, pvalue=7.2662761307173963e-07)


Si estas interesado puedes realizar los test posthoc para ver cuales son las comparaciones que salen significativas



12 - El numero de ausencias al colegio parece influir en las notas de los alumnos?. Para ello puedes realizar el estudio a intervalos de [1-10, 11-20, 21-30...80-90]. Filtra aquellos que tengan mas de 90 faltas para que los rangos de estudio sean homogeneos.

14 - Cuanto estudiantes han sacado la maxima nota (20) en las notas finales (G3)?

15 - Compara las medias de aquellos que reciben clases extra y estudian mas de de 5 horas con aquellos que no reciben clases extra y estudian menos de 5 horas. 

16 - Calcula la media y la desviacion estandar de las diferencias entre notas del segundo (G2) y primer semestre (G1). Han mejorado los alumnos sus notas?. 

17 - Sacan mejores notas las chicas que tiene una relacion romantica que aquellas que no la tienen?. Realiza los calculos para la nota final (G3).

18 - Haz una comparacion de chicos y chicas y que beben y no beben los fines de semana para saber si hay diferencias en las notas. Puedes mostrar las medias de cada uno de los cuatro grupos.