# Minería de Datos

## Grado en Ingeniería Informática
## Universidad de Burgos
## José Francisco  Diez
## Curso 2016-2017

# Carga, almacenamiento y manipulación de datos: Numpy

Los conjuntos de datos puede aparecer en multitud de formatos: documentos, imágenes, clips de audio, colecciones de valores numéricos etc. Pero a pesar de esta heterogeneidad todos los conjuntos de datos son fundamentalmente arrays de números.

Almacenar y manipular arrays de números es fundamental para cualquier proceso de la minería de datos. Python tiene una librería especializada para hacer esto: NumPy.

La mayoría del ecosistema de librerías Python de minería de datos usa Numpy, así que el conocimiento de Numpy es útil para cualquier tarea posterior.


In [1]:
import numpy as np # Se importa numpy con el alias np

## Tipos de datos en python y en numpy

Los tipos de datos en python son dinámicos. 
En C un entero es simplemente una etiqueta a una posición de memoria donde se encuentran los bytes que codifican el entero.
En Python un entero es un puntero a un objeto que contiene el valor e información extra para permitir los tipos dinámicos. La flexibilidad de Python tiene un coste.

In [2]:
x = 10
x = "Hola"
x

'Hola'

In [3]:
lista = [True, "2", 3.0, 4]

En Python una lista contiene las referencias a todos los objetos que la forman y cada objeto contiene mucha información además del dato.

En NumPy todos los elementos de un array son del mismo tipo y se conoce el tamaño, y es mucho más eficiente.

## Creando arrays

Podemos crear un array de NumPy con **array** pasandole una lista de Python.

Automáticamente crea el array del tipo de mayor nivel. 

Por ejemplo
entero -> float -> string -> object

Aunque se puede especificar en la construcción el tipo de los datos y se pueden transformar manualmente con el método **astype** que recibe el nombre de un tipo.

In [4]:
#crea array de enteros
np.array([1, 4, 2, 5, 3]) 

array([1, 4, 2, 5, 3])

In [5]:
#crea array de float (automaticamente al tipo de mayor nivel)
np.array([1.5, 4, 2, 5, 3]) 

array([ 1.5,  4. ,  2. ,  5. ,  3. ])

In [6]:
# se puede especificar el tipo
np.array([1, 2, 3, 4], dtype='float32') 

array([ 1.,  2.,  3.,  4.], dtype=float32)

In [7]:
#Se puede convertir un array de un tipo a otro con astype
array1 = np.array(["1.1","2.7","3.4"])
print(array1)
array1 = array1.astype(np.float)
print(array1)

['1.1' '2.7' '3.4']
[ 1.1  2.7  3.4]


Además de poder crear arrays de NumPy pasando explicitamente una lista de Python, se pueden crear con distintas funciones:
- **zeros** Crea un array de ceros
- **ones** Crea un array de unos
- **full** Crea un array repitiendo el valor indicado
- **random** Crea un array aleatorio
- **arange** Crea un array con una sucesión numérica (range)
- **linspace** Crea un array con una sucesión numérica indicando inicio, fin y número de pasos

In [8]:
# crea un array de 0s de tamaño 10
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [9]:
# crea un array de 1s de tamaño 3x5
np.ones((3, 5), dtype=float)

array([[ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.]])

In [10]:
# crea un array de del valor especificado de tamaño 3x5
np.full((3, 5), 3.14)

array([[ 3.14,  3.14,  3.14,  3.14,  3.14],
       [ 3.14,  3.14,  3.14,  3.14,  3.14],
       [ 3.14,  3.14,  3.14,  3.14,  3.14]])

In [11]:
# crea un array con valores aleatorios. 
# Se podría especificar el tipo de distribución
np.random.random((3, 3))

array([[ 0.41861477,  0.54460178,  0.41935977],
       [ 0.35406665,  0.49229349,  0.11617293],
       [ 0.83686749,  0.68337869,  0.10237906]])

In [12]:
# equivalente a range, se da inicio, fin e intervalo
np.arange(0, 20, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [13]:
# equivalente a arange, pero se da inicio, fin y número de pasos
np.linspace(0, 1, 5)

array([ 0.  ,  0.25,  0.5 ,  0.75,  1.  ])

## Propiedades de los arrays

Los arrays tienen varias propiedades como su número de dimensiones, su forma, su tamaño total o el tipo de sus datos.

In [14]:
x = np.random.random((3,4,5))


In [15]:
print("Dimensiones x: ", x.ndim)
print("forma x:", x.shape)
print("Tamaño total x: ", x.size)
print("Tipo datos:", x.dtype)

Dimensiones x:  3
forma x: (3, 4, 5)
Tamaño total x:  60
Tipo datos: float64


## Accesos. Indexing

Hay distintas formas de acceder a los datos, algunas ya las hemos visto en otros lenguajes, como el acceso directo. 
- Directo
- Slices
- Máscaras booleanas
- Fancy Indexing

### Acceso directo

Se proporciona un índice si el array es de una dimensión. Dos índices si es de dos dimensiones etc


In [16]:
x2 = np.array([[0,1,2,3,4,5,6,7,8,9],
               [10,11,12,13,14,15,16,17,18,19],
               [20,21,22,23,24,25,26,27,28,29]])
# obtiene una fila
print(x2[1]) 
# obtiene un valor
print(x2[1,2]) #recuperar valores

[10 11 12 13 14 15 16 17 18 19]
12


In [17]:
# los accesos se usan también para modificar valores
x2[1,2] = 24 

### Slicing

El acceso con slices se parece mucho a el uso de la función arange
array[start:end:step]

In [18]:
print(x2[0][:5]) #desde el principio al 5
print(x2[0][5:]) # del 5 al final
print(x2[0][::2]) # todo, de dos en dos
print(x2[0][::-1]) # todo, en orden inverso

[0 1 2 3 4]
[5 6 7 8 9]
[0 2 4 6 8]
[9 8 7 6 5 4 3 2 1 0]


In [19]:
print(x2[:2,:3]) #las dos primeras filas, las tres primeras columnas

[[ 0  1  2]
 [10 11 24]]


In [20]:
print(x2[::-1,::-1]) #invierto el orden de filas y de columnas

[[29 28 27 26 25 24 23 22 21 20]
 [19 18 17 16 15 14 13 24 11 10]
 [ 9  8  7  6  5  4  3  2  1  0]]


In [21]:
print(x2[:,0]) # columna en el indice 0. Todas las filas, pero solo columna 1
print(x2[0,:]) # lo mismo que x2[0] 

[ 0 10 20]
[0 1 2 3 4 5 6 7 8 9]


### Máscara booleana

En los accesos con máscara booleana primero tenemos que conseguir un array de booleanos. Que lo podemos conseguir aplicando una operación booleana al array.


Ejemplo con range y multiplos de 5

In [22]:
x = np.arange(30)
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [23]:
x % 5 ==0

array([ True, False, False, False, False,  True, False, False, False,
       False,  True, False, False, False, False,  True, False, False,
       False, False,  True, False, False, False, False,  True, False,
       False, False, False], dtype=bool)

In [24]:
#Ese array booleano se usa como indices para acceder a los valores
x[x % 5 ==0]


array([ 0,  5, 10, 15, 20, 25])

In [25]:
# Con el símbolo ~ (alt + ñ teclado español) podemos sacar el opuesto
x[~(x % 5 ==0)]

array([ 1,  2,  3,  4,  6,  7,  8,  9, 11, 12, 13, 14, 16, 17, 18, 19, 21,
       22, 23, 24, 26, 27, 28, 29])

### Fancy Indexing

En fancy indexing en lugar de pasar índices, pasamos un array que contiene los índices.


In [26]:
# ejemplo, primero la fila 0, luego la 2 y luego la 1
ind = [0,2,1]
x2[ind]

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
       [10, 11, 24, 13, 14, 15, 16, 17, 18, 19]])

In [27]:
# Se puede incluso acceder a valores individuales en un array 2D con
# un array para filas y otro para columnas

print(x2)

fils = [0,0,1,2]
cols = [0,1,1,2]
x2[fils,cols]

[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 24 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]]


array([ 0,  1, 11, 22])

### Combinación de distintos típos de indexado

Los distintos tipos de indexado se pueden combinar entre si de cualquier manera.

Ejemplo Directo para las filas + fancy para las columnas

In [28]:
# de la tercera fila, los valores en posiciones 3, 2 y 1
x2[2,[3, 2, 1]]

array([23, 22, 21])

#### Modificando partes de un array 

Trabajando con conjuntos muy grandes, se puede acceder a un trozo,
modificar ese trozo y dicha modificación se refleja en el conjunto completo sin tener que copiar nuevamente los datos. 

Si no queremos que esto ocurra tenemos que hacer una copia con **copy**

In [29]:

x2peque = x2[:2,:3]
x2peque[0,0]=50
x2

array([[50,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 24, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29]])

In [30]:
# pero si queremos podemos hacer copias
x2pequeCopy = x2[:2,:3].copy()
x2pequeCopy[0,0]=0
x2

array([[50,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 24, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29]])

## Reshaping

En ocasiones los datos nos van a llegar en una forma y vamos a tener que cambiarla antes de poder aplicar operaciones o métodos de minería de datos.

Con **reshape** vamos a poder cambiar un array a cualquier forma siempre y cuando el número de elementos siga siendo igual al producto de los tamaño de las dimensiones 

In [31]:
# número de elementos = 24
x3 = np.arange(24)


In [32]:
# dimensión 1 = 2, dimensión 2 = 12. 
# 2 x 12 = 24 (ok)
x3.reshape(2,12)

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23]])

In [33]:
x3.reshape(2,3,4)

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [34]:
x3.reshape(8,3)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14],
       [15, 16, 17],
       [18, 19, 20],
       [21, 22, 23]])

In [35]:
x4 = np.array([1,2,3,4])

In [36]:
x4.reshape(2,2)

array([[1, 2],
       [3, 4]])

Una cosa interesante es que algunas de las dimensiones pueden ser de tamaño 1.

Mientras se mantenga que el producto de las dimensiones sea igual al tamaño total no hay problema

In [37]:

x4.reshape(1,2,2) 

array([[[1, 2],
        [3, 4]]])

In [38]:
x4.reshape(2,2,1)

array([[[1],
        [2]],

       [[3],
        [4]]])

In [39]:
x4.reshape(2,1,2)

array([[[1, 2]],

       [[3, 4]]])

## Juntar y dividir

Otras operaciones que pueden ser necesarias antes de poder aplicar cualquier algoritmo a los datos es juntar datos de varias fuentes o dividirlos.

### Juntar

Existen principalmente dos timpos de operaciones:
- Arrays de las mismas dimensiones (concatenate, append)
- Arrays de distintas dimensiones (vstack y hstack)


In [40]:
a = np.array([1, 2, 3])
b = np.array([3, 2, 1])
c = np.array([10, 10, 10])
np.concatenate([a,b,c])

array([ 1,  2,  3,  3,  2,  1, 10, 10, 10])

In [41]:
grid2d = np.array([[1, 2, 3],
                   [4, 5, 6]])
np.concatenate([grid2d,grid2d]) # por defecto axis 0 (filas)

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [42]:
np.concatenate([grid2d,grid2d],axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

Append y concatenate son equivalentes. Concatenate recibe una lista de elementos a concatenar. Append recibe los elementos a concatenar directamente como argumentos.


In [43]:
np.append(grid2d,grid2d,axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

In [44]:
np.append(grid2d,grid2d,axis=0)

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

Para concatenar con arrays de distintas dimensiones se usa vstack y hstack

In [45]:


x = np.array([1, 2, 3])
grid2d = np.array([[9, 8, 7],
                   [6, 5, 4]])
np.vstack([x, grid2d])

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

Aunque otra forma de hacerlo sería añadir dimensiones a uno de los elementos simplemente metiendolo dentro de una lista.

In [46]:
# Solo con concatenate se podrian hacer todas las operaciones de unión
np.concatenate([[x], grid2d])

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

### Dividir

La operación inversa a la unión es la división. Se puede conseguir con el método **split**.

A split se le pasa un array a dividir y una lista de índices con los puntos finales de cada trozo.

In [47]:
# Split, devueltre trozos
x = range(10)
# hasta el 3, del 3 al 5 y el resto
np.split(x,[3,5])

[array([0, 1, 2]), array([3, 4]), array([5, 6, 7, 8, 9])]

In [48]:
# hasta el 3, del 3 al 5, del 5 al 9, el resto
np.split(x,[3,5,9])

[array([0, 1, 2]), array([3, 4]), array([5, 6, 7, 8]), array([9])]

## Universal Functions UFuncs

Para muchas operaciones, NumPy proporciona operaciones vectorizadas. Estas operaciones se puede aplicar a todos los elementos de un array con una sola instrucción, que además proporciona una ejecución más rápida.

- numéricas: +,-,\*,\*\*,abs
- booleanas: <, >, ==
- trigonometicas, logaritmicas, exponenciales ...

In [49]:
# a y b son dos arrays de una dimensión y tamaño 4
a = np.arange(1,5)
b = np.arange(10,50,10)
print(a)
print(b)

[1 2 3 4]
[10 20 30 40]


In [50]:
print(a + 2)
print(a - 4)
print(a * 1.5)
print(a **2)
print(a + b)

[3 4 5 6]
[-3 -2 -1  0]
[ 1.5  3.   4.5  6. ]
[ 1  4  9 16]
[11 22 33 44]


In [51]:
c = np.arange(-5,5)
c

array([-5, -4, -3, -2, -1,  0,  1,  2,  3,  4])

In [52]:
abs(c)

array([5, 4, 3, 2, 1, 0, 1, 2, 3, 4])

In [53]:
## Booleanas
abs(c) < 3

array([False, False, False,  True,  True,  True,  True,  True, False, False], dtype=bool)

Aparte de las explicadas, hay funciones trigonométricas, logaritmos, exponenciales etc

Aunque es exactamente lo mismo. Con **vectorize** podemos crear nuestras propias funciones vectorizadas que se apliquen de una sola instrucción sobre todos los elementos de 1 o más arrays.

In [54]:
# Ejemplo una función vectorizada que recibe un solo argumento
f = lambda x: 0 if x<0 else x**2
fVec = np.vectorize(f)
fVec(c)

array([ 0,  0,  0,  0,  0,  0,  1,  4,  9, 16])

In [55]:
# Ejemplo, una función vectorizada que recibe 2 argumentos

a1 = np.array([[10,20,30],[11,21,31]])
a2 = np.array([2,4,6])


f2 = lambda x,y: x+y+3.14
fVec2 = np.vectorize(f2)

'''
Estoy aplicando una función 
a dos arrays de tamaño diferente y funciona !!!!
'''
fVec2(a1,a2) 


array([[ 15.14,  27.14,  39.14],
       [ 16.14,  28.14,  40.14]])

### Broadcasting 

Una característica clave de las UFunct es que vamos a poder operar sobre arrays de distinto tamaño pero compatible.

Las reglas de la compatibilidad son:
- El tamaño de cada dimensión tiene que ser igual o tiene que ser 1

In [56]:
a2d = np.array([[1,2,3,4],[11,12,13,14]]) # 2 x 4




aVertical = np.array([[10],[0]]) # 2 x 1 (igual alto, ancho 1)
aHorizontal = np.array([9,8,7,6]) # 1 x 4 (igual ancho, alto 1)

print("2D")
print(a2d)
print("Vertical")
print(aVertical)
print("Horizontal")
print(aHorizontal)

print("2D + (1x1)")
print(a2d+10) # 1 x 1
print("2D + (2x1)")
print(a2d+aVertical)
print("2D + (1x4)")
print(a2d+aHorizontal)

2D
[[ 1  2  3  4]
 [11 12 13 14]]
Vertical
[[10]
 [ 0]]
Horizontal
[9 8 7 6]
2D + (1x1)
[[11 12 13 14]
 [21 22 23 24]]
2D + (2x1)
[[11 12 13 14]
 [11 12 13 14]]
2D + (1x4)
[[10 10 10 10]
 [20 20 20 20]]


## Agregaciones 

Otro conjunto de métodos interesantes son las agregaciones.
Toman un array y devuelven un único valor.

In [57]:
randArray = np.random.random(10)
randArray

array([ 0.18827863,  0.93745326,  0.40357804,  0.50345884,  0.06970806,
        0.86416436,  0.25648466,  0.3821168 ,  0.97798006,  0.46840431])

In [58]:
print("Máximo :",np.max(randArray)) 
print("Mínimo :",np.min(randArray))
print("Media :",np.mean(randArray))
print("Suma :",np.sum(randArray))

Máximo : 0.97798006238
Mínimo : 0.0697080568201
Media : 0.505162702466
Suma : 5.05162702466


Más funciones de agregación como median, std, var etc

También hay dos funciones de agregación booleana:
- any True si algun elemento es True
- all True si todos los elementos son True

In [59]:
mayorQue3 = np.arange(10) >3
mayorQue3

array([False, False, False, False,  True,  True,  True,  True,  True,  True], dtype=bool)

In [60]:
np.any(mayorQue3)

True

In [61]:
np.all(mayorQue3)

False

In [62]:
# los True cuenta como 1, así que podemos contarlos
np.sum(mayorQue3)

6

### Sorting

Aunque Python ya tiene una función sort(), al trabajar con NumPy es recomendable usar np.sort. 
Es más eficiente y usa quicksort, aunque se le puede pedir que use mergesort o heapsort.

- **sort** devuelve un array ordenado
- **argsort** devuelve el índice del elemento que ocuparía cada posicion en el vector ordenado

In [63]:
a = np.array([1,4,3,7,8,2])
print(a)
print(np.sort(a))
print(np.argsort(a))

[1 4 3 7 8 2]
[1 2 3 4 7 8]
[0 5 2 1 3 4]


[0 5 2 1 3 4] ->
El primer elemento es el 0, luego el del index 5, luego el del index 2 ...

In [64]:
# Ejemplo creo un array 2D de 4x6 

# se inicializa random con una semilla fija 
# para que siempre sean los mismos valores
rand = np.random.RandomState(42) 
X = rand.randint(0, 10, (4, 6))
print(X)

[[6 3 7 4 6 9]
 [2 6 7 4 3 7]
 [7 2 5 4 1 7]
 [5 1 4 0 9 5]]


Con arrays de varias dimensiones podemos especificar cual es el eje en el que se ordenará

In [65]:
np.sort(X, axis=0) # ordena los valores en filas

array([[2, 1, 4, 0, 1, 5],
       [5, 2, 5, 4, 3, 7],
       [6, 3, 7, 4, 6, 7],
       [7, 6, 7, 4, 9, 9]])

In [66]:
np.sort(X,axis=1) # ordena los valores en columnas

array([[3, 4, 6, 6, 7, 9],
       [2, 3, 4, 6, 7, 7],
       [1, 2, 4, 5, 7, 7],
       [0, 1, 4, 5, 5, 9]])

#### Particiones 

A veces no queremos ordenar completamente el array, pero queremos una manera rápida de encontrar los k menores elementos.

NumPy proporciona esto con **np.partition**.

El método **np.partition** toma un array y un número k y devuelve el array parcialmente ordenado con los K menores valores a la izquierda y el resto a la derecha




In [67]:
b = np.array([10,4,3,7,8,12,5,8,6])
np.partition(b, 3)


array([ 4,  3,  5,  6,  7,  8,  8, 12, 10])

In [68]:
np.argpartition(b, 3)

array([1, 2, 6, 8, 3, 7, 4, 5, 0])


# Ejercicios

1. Bodyfat, estadisticas de distintos atributos
2. Bodyfat, estadisticas de distintos atributos por edades.
    - Solo de personas entre 18 y 35 años 
    - A intervalos de 10 años. 0-10, 10-20, 20-30 ...
3. predecir con 3 vecinos más cercanos la grasa del primer individuo suponiendo que no lo supiesemos


## Ejercicio 1

Cargar los datos y obtener las estadísticas.
Vamos a usar Pandas para leer el csv.

```Python
values = df.values # values es un array de NumPy
ages = values[:,0]
weights = values[:,1]
height = values[:,2]
fat = values[:,13]
```

Ojo que el primer valor de ages, weights y los demás es el nombre del atributo.

Habría que quitarlo y convertir los datos a float antes de hacer las estadísticas.


In [69]:
import pandas as pd
df=pd.read_csv('BodyFat.csv', sep=',',header=None)
df.head()


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,Age,Weight,Height,Neck,Chest,Abdomen,Hip,Thigh,Knee,Ankle,Biceps,Forearm,Wrist,Fat_Percent
1,23,154.25,67.75,36.2,93.1,85.2,94.5,59,37.3,21.9,32,27.4,17.1,12.27
2,22,173.25,72.25,38.5,93.6,83,98.7,58.7,37.3,23.4,30.5,28.9,18.2,6.10
3,22,154,66.25,34,95.8,87.9,99.2,59.6,38.9,24,28.8,25.2,16.6,25.32
4,24,210.25,74.75,39,104.5,94.4,107.8,66,42,25.6,35.7,30.6,18.8,21.34


## Ejercicio 2
- Solo de personas entre 18 y 35 años 

Usa la selección con máscara booleana


## Ejercicio 2
- A intervalos de 10 años. 0-10, 10-20, 20-30

Con **arange** o **linspace** se puede crear el array con los límites de cada intervalo

Usar la selección con máscara booleana para cada uno de los intervalos

## Ejercicio 3

Con esto se obtienen todos los datos sin tener en cuenta el nombre de los atributos
```Python
values[1:].astype(np.float)
```

Habría que:
- Separar los datos en atributos (X) y clase (y). Usando lo que hemos visto de slices
- Normalizar X obteniendo el mínimo, el máximo y el rango.
    - (Recuerda que see pueden obtener estos valores de todos atributos a la vez)
- Obtener un array de distancias de cada instancia a la primera.
    - Se obtiene restando X normalizado de cada una de las filas de X normalizado, haciendo el valor absoluto y sumando las distancias en cada uno de los atributos.
- Encontrar las k instancias con distancias menores usando **argpartition**
