# Módulo 1: Análisis de datos en el ecosistema Python

### Sesión (3)

# Exploración y tratamiento de datos

Breve resumen de herramientas principales de tratamiento de datos en Python:

#### **Numpy:**
* Paquete específico muy útil para trabajar con **arrays y matrices**
* Podemos crear arrays desde cero (útil cuando queremos arrays **multidimensionales**)


#### **Matplotlib:**
* Paquete para pintar gráficos a partir de datos contenidos en listas o arrays.
* Se usa la extensión matemática numpy

#### **Pandas:**
* Paquete que sirve para trabajar con datos
* La librería Pandas dispone de tres estructuras principales:
    * __DataFrames__
    * __Series__
    * __Index__


# Arrays & Matrices

Numpy (**Numerical Python**) se trata de la librería principal a la hora de realizar **operaciones científicas** en Python. Esta librería nos proporciona el tipo de dato **numpy array (ndarray)**, que se trata de un tipo de dato que nos permite realizar operaciones de una forma **eficiente** y las herramientas necesarias para trabajar con este tipo de dato.

* Python por sí solo no tiene muchas facilidades para trabajar con vectores o matrices.
* Existe un paquete específico para hacer eso que se llama numpy.
* Una práctica común es importar esta librería bajo el acrónimo de **np** que es aceptado universalmente.
* **Numpy** tiene mucho en común con **Matlab** respecto a su sintaxis y la filosofía de tratamiento de datos.
* Además de la comodidad de la sintaxis, numpy es mucho más **rápido** que trabajar con listas (porque por debajo mucho de su código se ejecuta en **C**)


In [None]:
import numpy as np

* Cuando en numpy se trabaja con matrices (`np.matrix`),  las operaciones matriciales de suma, multiplicación, etc tienen sentido matemático.
* Las **matrices** en numpy son de **dos dimensiones**, siempre dos.
* Los **arrays** (`np.array`) en cambio pueden ser **multidimensionales**.

###  Creando arrays a partir de listas

Podemos crear arrays multidimensionales **a partir de las listas** usando la función __`np.array()`__.


In [None]:
# Definir un vector (array) en numpy
x = np.array([10,20,30,40])
print(x)
print(type(x))

# Las listas son vectores nativos de python, a cambio los ndarray son vectores específicos declarados en numpy
print([10,20,30,40])
print(type([10,20,30,40]))


[10 20 30 40]
<class 'numpy.ndarray'>
[10, 20, 30, 40]
<class 'list'>


Es importante recordar de que a diferencia de las listas, numpy está restringido a arrays que contengan **el mismo tipo de variables**. Si los tipos no son iguales, Numpy inferirá si es posible el tipo de dato.

In [None]:
# Datos tipo float y entero
np.array([10, 20, 88.88, 100])

array([ 10.  ,  20.  ,  88.88, 100.  ])

In [None]:
# Datos numéricos y booleanos
np.array([False, 11, 22, 33, True])

array([ 0, 11, 22, 33,  1])

In [None]:
# Datos numéricos y textuales
np.array(["Librerías", 22, 99.99, "Paquetes"])

array(['Librerías', '22', '99.99', 'Paquetes'], dtype='<U32')

También podemos indicar nosotros el tipo de dato deseado usando el parámetro `dtype`.

In [None]:
# Definir un array desde una lista indicando datos tipo enteros
np.array([6.66, 2, 3.14, True], dtype = 'int32')

array([6, 2, 3, 1], dtype=int32)

In [None]:
# Definir un array desde una lista indicando datos tipo float
np.array([[5,2], [2,2], [3,4]], dtype = 'float')

array([[5., 2.],
       [2., 2.],
       [3., 4.]])

In [None]:
# Definir una matriz
X = np.matrix([10,20,30,40])
print(X)

[[10 20 30 40]]


In [None]:
print("tipo de x=",type(x))
print("tipo de X=",type(X))

tipo de x= <class 'numpy.ndarray'>
tipo de X= <class 'numpy.matrix'>


In [None]:
# Operaciones como escalar
x = np.array([[10, 20], [30, 40]])
print(x)
print(x*x) # multiplición elemento por elemento

[[10 20]
 [30 40]]
[[ 100  400]
 [ 900 1600]]


In [None]:
# Operaciones como matriz
X = np.matrix(x)
print(X)
print(X*X) # multiplicación matricial

[[10 20]
 [30 40]]
[[ 700 1000]
 [1500 2200]]


### Creando arrays desde cero

A la hora de crear arrays de una mayor dimensión, es más eficiente crear arrays desde cero usando rutinas que ya están disponibles en Numpy. Las funciones **np.zeros()** y **np.ones()** nos permiten crae arrays de la dimensión y con el tipo de dato deseado, donde todos los elementos son **ceros** o **unos**.

In [None]:
np.zeros(10, dtype = "int")

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [None]:
np.zeros(10, dtype = "float")

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

La función **np.full()** nos permite crear un array donde todos sus elementos son iguales a un valor que se declara en la función

In [None]:
np.full(10, 5)

array([5, 5, 5, 5, 5, 5, 5, 5, 5, 5])

Se puede indicar la dimensión deseada en el primer argumento:

In [None]:
# Un array de 3x3 con todos sus elementos igual a 5
np.full((3,3),5)

array([[5, 5, 5],
       [5, 5, 5],
       [5, 5, 5]])

La función **np.arange()** se trata de una función que nos permite crear un array que tome valores entre dos valores indicados, con un paso también indicado según nos convenga. En su forma más básica la llamada sería **np.arange(inicio, fin, paso)**. Debemos recordar que el valor *fin* no se incluye en nuestro array. En caso de no indicar el valor de *inicio* este tomará por defecto el valor 0 y el *paso* tomará por defecto el valor de 1

In [None]:
# Crear un array que empiece en 0 y termine en 30 con pasos de 5
np.arange(0,31,5)

array([ 0,  5, 10, 15, 20, 25, 30])

La función **np.linspace()** nos permite crear un array entre dos números (***ambos inclusive***) con valores __equidistantes__. En su forma más básica la llamada sería **np.linspace(inicio, fin, num_elementos)**.

In [None]:
# Crear un array con 3 elementos equidistantes entre 0 y 1.
np.linspace(0,1,3)

array([0. , 0.5, 1. ])

La función **np.random.normal()** nos permite crear un array que sigue una distribución normal con una desviación y una media seleccionadas. Esta función recibe como primer parámetro la media, como segundo parámetro la desviación y como tercer parámetro y en forma de tupla la dimensión de nuestra distribución: `np.random.normal(mu, sigma, size)`

![](../Sesion3-materiales/images.jpg)

![](images.jpg)

In [None]:
# Crear un array que cuyos valores sigan una distribución normal con la media 10, la desviacón 0.1 y de dimensión 1x100.
x = np.random.normal(10,0.1,100)

print("El array =",x)
print("El valor mínimo = ",min(x))
print("El valor máximo = ",max(x))


El array = [10.13721313  9.84128223 10.00572207 10.01714062  9.79738396  9.91982191
  9.86684896 10.06933747 10.21194262  9.98715139  9.94267697  9.90573927
  9.87786737  9.85667906  9.92093581  9.84134712 10.05843262  9.96225675
  9.8612267  10.01351824 10.08524358 10.25618704  9.99280665 10.11820431
 10.08048325 10.07212188  9.9030782  10.1134348  10.03255146  9.96888683
 10.06934102  9.97116735 10.04093617 10.0985989  10.0180668  10.00170068
 10.16554561 10.0720077   9.96511122 10.14138555  9.99670328 10.09177748
 10.21592775 10.08442892 10.02303661  9.97281605 10.08902803  9.94761405
 10.07421234 10.08696371 10.00277023 10.12710852 10.13584476  9.89035479
  9.91006292  9.95052252  9.86295494  9.9549128   9.9685748   9.76001651
 10.22602494 10.08069569  9.88626789 10.23325504 10.04477955  9.93939074
  9.95200307  9.98087275  9.91758663  9.96109     9.63984265  9.9808872
 10.01803478  9.9813569   9.93806074 10.12529005 10.04129085 10.12164005
  9.97659271 10.07911609 10.0474365  10.0

La función **np.random.randint()**, nos permite crear arrays de números aleatorios de tipo entero, entre dos números enteros. Su llamada más básica puede realizarse como: **np.random.randint(inicio, fin, size)** considerando *fin* no inclusive. En caso de que el array sea de una sola dimensión mediante el parámetro *size* indicamos el número de elementos de nuestro array.

In [None]:
# Crear un array de dimensión 3x3 cuyos valores sean números enteros entre 0 (inclusive) y 10 (no inclusive)
np.random.randint(0, 10, (3,3))

array([[0, 7, 3],
       [4, 7, 9],
       [9, 3, 4]])

La función **np.eye()** nos permite crear la matriz de identidad. Esta función en su forma más básica recibe como parámetros la dimensión de nuestra matriz de identidad que tiene los elementos diagonales igual a uno y el resto igual a cero.

In [None]:
# Generar una matriz identidad de dimensión 5x5
np.eye(5,5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

Podemos definir un array sin elementos si necesitamos un array vacío, además de usar valores **"NaN"** cuando no está definido el valor asociaso a un elemento mediante `np.nan`:

In [None]:
# Un array sin ningún elemento (vacío)
np.array([])

array([], dtype=float64)

In [None]:
# Un array con valores perdidos (NaN)
np.array([14, 15, np.nan, 16, 17, np.nan])

array([14., 15., nan, 16., 17., nan])

## Funciones y métodos para arrays
A la hora de realizar operaciones como la **suma**, **mínimo**, **máximo** etc. Python dispone de sus propias funciones nativas. Sin embargo debido a que numpy corre bajo código compilado es mucho más eficiente.

In [None]:
x = np.arange(0,11)
print(x)
# operaciones usando numpy
print("valor mínimo=", x.min())
print("valor máximo=", x.max())
print("promedio=", x.mean())
print("desviación estándar",x.std())
print("suma total=",x.sum())

[ 0  1  2  3  4  5  6  7  8  9 10]
valor mínimo= 0
valor máximo= 10
promedio= 5.0
desviación estándar 3.1622776601683795
suma total= 55


Podemos seguir aplicando sobre los arrays de numpy algunas de las funciones nativas de python:

In [None]:
sum(x)

55

#### Eficiencia de Numpy respecto a funciones nativas de Python

Aunque los resultados obtenidos sean iguales podemos observar que hay una gran diferencia respecto a la eficiencia y tiempos de ejecución.

In [None]:
# Creamos un array (grande con 10 millones de elementos)
array_grande = np.random.randint(1, 100, size=10000000)

print(array_grande)
print("Número de elementos =",array_grande.size)

#Calcular la suma de dos firmas diferentes
print("Suma_Python=",sum(array_grande))
print("Suma_Numpy=", np.sum(array_grande))

[56 99 23 ... 89 73 19]
Número de elementos = 10000000
Suma_Python= 499841768
Suma_Numpy= 499841768


In [None]:
# Hacemos la medida de tiempos
%timeit sum(array_grande)  # la suma en Python
%timeit np.sum(array_grande) # la suma en Numpy

973 ms ± 266 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
8.23 ms ± 486 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


En numpy existen varias operaciones que se aplican sobre los arrays utilizando las funciones y los métodos propios:

In [None]:
mi_array = np.array([55,66,0,77,-10,20])
print("mi array: ",mi_array)
print("El índice del valor más alto :", mi_array.argmax())
print("El índice del valor más bajo: ", mi_array.argmin())
print("Los índices de los elementos distintos a 0: ", mi_array.nonzero())

mi array:  [ 55  66   0  77 -10  20]
El índice del valor más alto : 3
El índice del valor más bajo:  4
Los índices de los elementos distintos a 0:  (array([0, 1, 3, 4, 5]),)


**Más funciones de numpy para los arrays**

| Función | Descripción |
|:---------|:-----|
| *sum(arr)* | Suma de todos los elementos de *arr* |
| *mean(arr)* | Media aritmética de los elementos de *arr* |
| *std(arr)* | Desviación estándar de los elementos de *arr* |
| *cumsum(arr)* | Devuelve array con la suma acumulada de cada elementos con todos los anteriores |
| *cumprod(arr)* | Devuelve array con el producto acumulado de cada elementos con todos los anteriores |
| *min(arr), max(arr)* | Mínimo y máximo de *arr* |
| *any(arr)* | En array de tipo *bool*, retorna *True* si algún elemento es *True* |
| *all(arr)* | En array de tipo *bool*, retorna *True* si todos los elementos son *True* (o >0 en valores numéricos) |
| *unique(arr)* | Devuelve un array con valores únicos |
| *in1d(arr1, arr2)* | Devuelve un array con bool indicando si cada elemento de *arr1* está en *arr2* (unidimensional)|
| *isin(arr1, arr2)* | Devuelve un array con bool indicando si cada elemento de *arr1* está en *arr2* (multidimensional)|
| *union1d(arr1, arr2)* | Devuelve la unión de ambos arrays |
| *intersect1d(arr1, arr2)* | Devuelve la intersección de ambos arrays |
| *setdiff1d(arr1,arr2)* | Elimina de arr1 los elementos comunes de los dos arrays|

In [None]:
# La suma acumulativa
print(mi_array)
mi_array.cumsum()

[ 55  66   0  77 -10  20]


array([ 55, 121, 121, 198, 188, 208])

In [None]:
# Sacar los elementos en común (la intersección)
print(mi_array)
np.intersect1d(mi_array, np.array([10, 20, 30, 40]))

[ 55  66   0  77 -10  20]


array([20])

Los arrays de numpy también tienen una serie de **atributos** que se pueden consultar fácilmente:

* `ndim`: nos permite saber la dimensión de nuestra array

* `shape`: nos permite conocer el tamaño de nuestra array

* `size`: nos permite conocer el número de elementos de nuestra array (la longitud)

* `dtype`: nos permite conocer el tipo de dato de cada uno de los elementos de nuestra array

* `itemsize`: nos permite conocor el tamaño de cada uno de los elementos de nuestra array (en bytes)

* `nbytes`: nos permite conocer el tamaño total de nuestra array

In [None]:
# consultando atributos en numpy
x = np.arange(10,21)
y =np.random.randint(0,10,(4,4))
print(x)
print(y)
print("Número de elementos del array x = ", x.size)
print("Número de elementos del array y = ", y.size)
print("Tamaño del array x = ", x.shape)
print("Tamaño del array y = ", y.shape)
print("Dimensiones del array x = ",x.ndim)
print("Dimensiones del array y = ",y.ndim)
print("Tipo de datos de x = ", x.dtype)
print("Tipo de datos de y = ", y.dtype)
print("Número de bytes totales consumidos por los elementos del array = ", x.nbytes)
print("Número de bytes totales consumidos por los elementos del array = ", y.nbytes)


[10 11 12 13 14 15 16 17 18 19 20]
[[4 3 0 7]
 [3 0 7 6]
 [4 1 0 6]
 [3 7 9 2]]
Número de elementos del array x =  11
Número de elementos del array y =  16
Tamaño del array x =  (11,)
Tamaño del array y =  (4, 4)
Dimensiones del array x =  1
Dimensiones del array y =  2
Tipo de datos de x =  int64
Tipo de datos de y =  int64
Número de bytes totales consumidos por los elementos del array =  88
Número de bytes totales consumidos por los elementos del array =  128


### **`Ejercicio 3.1`**

**`3.1.1`** Crea un array de tamaño (6x6) con elementos aleatorios entre 0 y 10 inclusive.  
**`3.1.2`** Calcula el total de bytes que ocupa la matriz.  
**`3.1.3`** Calcula la media y la desviación estándar de los valores presentes en la matriz.  
**`3.1.4`** Crea un nuevo array del mismo tamaño que contenga elementos aleatorios con una distribución normal con la misma media y la misma desviación estándar que el array original.  
**`3.1.5`** Crea un nuevo vector, convirtiendo todos los valores del array creado en el paso anterior en números enteros.



In [None]:
## Solución
# Ejercicio 3.1.1
import numpy as np
datos=np.random.randint(0, 11, (6,6))
print("Ejercicio 3.1.1:\n",datos)

Ejercicio 3.1.1:
 [[ 4  4  2  1  0  7]
 [10  8  5  1  4  8]
 [ 9  2  2  9  1  7]
 [ 2  2  6  0  8  9]
 [ 4 10  9  6  3  7]
 [ 5  9  4  1  1  0]]


In [None]:
## Solución
# Ejercicio 3.1.2
print("Ejercicio 3.1.2:\n",datos.nbytes)

Ejercicio 3.1.1:
 144


In [None]:
## Solución
# Ejercicio 3.1.3
medidaArrayDatos=np.mean(datos)
desviacionArrayDatos=np.std(datos)
tamañoArrayDatos=len(datos)

print("Ejercicio 3.1.3:\n",
      "Media:",
      medidaArrayDatos,
      "\n Desviacion:",
      desviacionArrayDatos,
      "\n Dimension del array:",
      tamañoArrayDatos)

Ejercicio 3.1.1:
 Media: 4.722222222222222 
 Desviacion: 3.2370349182127147 
 Dimension del array: 6


In [None]:
## Solución
# Ejercicio 3.1.4
datos2=np.random.normal(loc=medidaArrayDatos, scale=desviacionArrayDatos,size=(tamañoArrayDatos,tamañoArrayDatos))
print("Ejercicio 3.1.4:\n",datos2)

Ejercicio 3.1.4:
 [[ 9.8158017   8.30685152  5.16239013  2.60797519  7.47375073  3.74072848]
 [ 2.60605273  8.76093535  2.20257157 -4.58735008  5.82995596  6.97015274]
 [ 8.7329073   2.08665639  7.3211852  -1.65013376 -2.32225006  2.96263985]
 [ 0.84558471  0.2065697   5.98431556  3.49381942  6.49955332  5.32966405]
 [ 2.22399167  1.38728648  8.93279381  5.91887413 -1.38590005  3.5839601 ]
 [ 8.24655955  4.80090404  5.09335304  8.86414898  1.55987921  2.60056253]]


In [None]:
## Solución
# Ejercicio 3.1.5
convertAsVector=datos2.astype(int)
print("Ejercicio 3.1.5:\n",convertAsVector)

Ejercicio 3.1.5:
 [[ 9  8  5  2  7  3]
 [ 2  8  2 -4  5  6]
 [ 8  2  7 -1 -2  2]
 [ 0  0  5  3  6  5]
 [ 2  1  8  5 -1  3]
 [ 8  4  5  8  1  2]]


## Indexado de Arrayas

Al igual que en las listas, podemos acceder al elemento **i** de un array 1-dimensional, haciendo uso de los corchetes y el índice en el que se encuentra el valor al cual deseamos acceder.

In [None]:
# Genero 2 arrays aleatorios de números enteros: npx1 será de una dimensión, npx2 tendrá dos dimensiones (3x3)
npx1=np.random.randint(0,10,10)
npx2=np.random.randint(0,10,(3,3))

print(npx1)
print(npx2)

[5 6 3 7 3 8 4 9 4 0]
[[6 5 3]
 [2 6 1]
 [3 7 9]]


In [None]:
# Accedemos al primer elemento de npx1
npx1[0]

5

En caso de arrays multidimensionales, le pasamos entre corchetes la fila y la columna a la cual deseamos acceder.

In [None]:
# Accedemos al elemento de la segunda fila y la tercera columna de npx2
print(npx2[1,2])

1


In [None]:
# Accedemos al elemento que se encuentra en la última fila y en la última columna, usando el indexado negativo.
npx2[-1,-1]

9

A la hora de **modificar valores** en un array basta con seleccionar el elemento que deseamos cambiar y asignarle el nuevo valor deseado.

In [None]:
# Seleccionamos el elemento de la primera fila y la primera columna de npx2 y le asignamos un nuevo valor.
print(npx2)
npx2[0,0]=100
print(npx2)

[[6 5 3]
 [2 6 1]
 [3 7 9]]
[[100   5   3]
 [  2   6   1]
 [  3   7   9]]


* También Numpy permite el indexado mediante rebanadas (**slices**), para ello podemos hacer uso de la notación de los dos puntos (**inicio:fin:paso**).
* El valor de *fin* no está incluido entre los elementos seleccionados.

In [None]:
# Generamos un array con valores del 1 al 10 (no inclusive)
aux=np.arange(1,10)
aux

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
# Accedemos a los elementos que se encuentran entre la posición 2 y 5:
aux[2:5]

array([3, 4, 5])

In [None]:
# Seleccionamos los elementos desde la posición 6 hasta el final
aux[6:]

array([7, 8, 9])

In [None]:
# Seleccionamos cada cuatro elementos
aux[::4]

array([1, 5, 9])

Lo visto anteriormente también es válido para arrays multidimensionales.

In [None]:
# Seleccionamos las dos primeras filas y las dos primeras columnas de npx2
print(npx2)
print(npx2[:2,:2])

[[100   4   1]
 [  8   7   2]
 [  6   3   6]]
[[100   4]
 [  8   7]]


##  Redimensionando arrays (reshape)
Podemos cambiar la dimensión de nuestro array mediante **reshape()**. Para que este comando funcione de forma adecuada la nueva dimensión debe coincidir con el número de elementos de nuestra array original. Si el argumento de reshape toma el valor de -1 se traduce en un array de longitud igual al número de elementos del array.

In [None]:
# Nos creamos un array unidimensional con los numeros del 1 al 10 (este último sin incluir)
vector1=np.arange(1,10)
print(vector1)
print(vector1.shape)
print(vector1.ndim)

[1 2 3 4 5 6 7 8 9]
(9,)
1


In [None]:
# Convertimos esta array en un array bidimensional (1x9), ahora tendrá dos dimensiones
vector2 = vector1.reshape(1,9)
print(vector2)
print(vector2.shape)
print(type(vector2))
print(vector2.ndim)

[[1 2 3 4 5 6 7 8 9]]
(1, 9)
<class 'numpy.ndarray'>
2


In [None]:
# Acceder al segundo elemento de cada array
print(vector1[1])
print(vector2[0,1])

2
2


In [None]:
# Convertimos este array en un array 3x3
vector3 = vector1.reshape((3,3))

print("vector1 = ",vector1)
print("vector3 =", vector3)
print("Dimensiones del vector1 = ",vector1.ndim)
print("Dimensiones del vector3 = ",vector3.ndim)
print("Número de elementos del vector1 = ", vector1.size)
print("Número de elementos del vector3 = ", vector3.size)
print("Tamaño del vector1 = ", vector1.shape)
print("Tamaño del vector3 = ", vector3.shape)



vector1 =  [1 2 3 4 5 6 7 8 9]
vector3 = [[1 2 3]
 [4 5 6]
 [7 8 9]]
Dimensiones del vector1 =  1
Dimensiones del vector3 =  2
Número de elementos del vector1 =  9
Número de elementos del vector3 =  9
Tamaño del vector1 =  (9,)
Tamaño del vector3 =  (3, 3)


## Concatenando arrays

La concatenación o la unión de múltiples arrays en Numpy, se lleva a cabo principalmente haciendo uso de: **np.concatenate**

* La función **np.concatenate** toma una tupla o lista de arrays y las concatena.

In [None]:
array1 = np.array([1,2,3,4,5])
array2 = np.array([5,4,3,2,1])

# Concatenar los arrays 1 y 2 (usando una tupla)
np.concatenate((array1,array2))

array([1, 2, 3, 4, 5, 5, 4, 3, 2, 1])

In [None]:
# Generamos un numpy array de dimensión 2x3
nuevo_array = np.array([1,2,3,4,5,6]).reshape(2,3)
nuevo_array

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
# Concatenar dicho array consigo mismo
np.concatenate((nuevo_array,nuevo_array))

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

También podemos concatenar a lo largo del **eje horizontal**, para ello basta con hacer uso del parámetro **axis = 1** de la función **np.concatenate()**

In [None]:
# Concatenar el nuevo array consigo mismo haciendo uso de axis = 1.
np.concatenate((nuevo_array,nuevo_array), axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

No se puede concatenar con este comando los arrays de diferentes tamaños:

In [None]:
# Creamos dos nuevos vectores de tamaños diferentes
x = np.array([1,2,3])
y = np.array([9,8,7,6,5,4]).reshape(2,3)
print(x)
print(y)

np.concatenate((x,y))

[1 2 3]
[[9 8 7]
 [6 5 4]]


ValueError: ignored

A la hora de trabajar con arrays de dimensiones mixtas, puede ser una mejor opción hacer uso de las funciones **np.vstack** (vertical stack) y **np.hstack** (horizontal stack). Como parámetro se le pasa una tupla que contenga los arrays a concatenar.

In [None]:
# Concatenar haciendo uso de np.vstack
np.vstack((x,y))

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

In [None]:
# Modificamos las dimensiones de cada array para poder hacer uso de np.hstack
x_nuevo = x.reshape(3,1)
y_nuevo = y.reshape(3,2)

print(x_nuevo)
print(y_nuevo)

NameError: ignored

In [None]:
# Concatenar haciendo uso de np.hstack
np.hstack((x_nuevo, y_nuevo))

## Separando arrays

La separación de arrays están implementadas mediante las funciones, **np.split()**, **np.array_split()**, **np.vsplit()** y **np.hsplit()**. A cada una de estas funciones le pasamos el array y los índices en los cuales queremos realizar el split.

In [None]:
# Generamos un array con numeros enteros entre 0 y 10
x = np.arange(1,10)

# Separamos el array en tres arrays diferentes separados en los índices 2 y 6
i, j, k = np.split(x, (2, 6))

# Imprimimos los arrays
print(x)
print(i)
print(j)
print(k)

In [None]:
# Podemos separar el array en trozos de igual tamaño usando el comando np.split() sin indicar los índices
print(x)
np.split(x,3)

In [None]:
# Hay una limitación para np.split() ==> "equal division"
print(x)
np.split(x,2)

In [None]:
# Se utiliza la función np.array_split() cuando no se puede dividir el array en partes iguales
print(x)
np.array_split(x,2)

In [None]:
# Creamos un array 4x4
vector4 = np.arange(16).reshape((4,4))

# Hacemos uso de np.vsplit
print(vector4)
print(np.vsplit(vector4, 2))

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[array([[0, 1, 2, 3],
       [4, 5, 6, 7]]), array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])]


In [None]:
# Hacemos uso de np.vsplit
print(vector4)
print(np.hsplit(vector4, 2))

### **`Ejercicio 3.2`**

**`3.2.1`** Crea un array de tamaño (5x5) con todos los elementos iguales a 11, salvo el primero y el último que deben de ser iguales a 88.  
**`3.2.2`** Crea un array seleccionando todos los elementos excepto los de primera fila y los de primera columna.   
**`3.2.3`** Redimensiona y reordena los elementos del array obtenido en el paso anterior para que sean de tamaño (2x8).  
**`3.2.4`** Crea otro nuevo array con 8 elementos equidistantes entre 0 y 10.  
**`3.2.5`** Concatena el nuevo array creado en el paso enterior con el array redimensionado de tamaño (2x8) y convierte posteriormente los valores del nuevo vector concatenado en números enteros.  
**`3.2.6`** Separa el vector resultante en dos partes iguales.

In [None]:
## Solución
# Ejercicio 3.2.1
datos2=np.full((5,5),11)
datos2[0,0]=88
datos2[-1,-1]=88
print("Ejercicio 3.2.1:\n",datos2)

Ejercicio 3.2.1:
 [[88 11 11 11 11]
 [11 11 11 11 11]
 [11 11 11 11 11]
 [11 11 11 11 11]
 [11 11 11 11 88]]


In [None]:
## Solución
# Ejercicio 3.2.2
nuevoArrayDatos2=datos2[1:,1:]
print("Ejercicio 3.2.2:\n",nuevoArrayDatos2)




Ejercicio 3.2.2:
 [[11 11 11 11]
 [11 11 11 11]
 [11 11 11 11]
 [11 11 11 88]]


In [None]:
## Solución
# Ejercicio 3.2.3
nuevoArrayDatos2=nuevoArrayDatos2.reshape((2,8))
print("Ejercicio 3.2.3:\n",nuevoArrayDatos2)

Ejercicio 3.2.3:
 [[11 11 11 11 11 11 11 11]
 [11 11 11 11 11 11 11 88]]


In [None]:
## Solución
# Ejercicio 3.2.4
arrayEquisCeroDiez=np.linspace(0,10,8)
print("Ejercicio 3.2.4:\n",arrayEquisCeroDiez)

Ejercicio 3.2.4:
 [ 0.          1.42857143  2.85714286  4.28571429  5.71428571  7.14285714
  8.57142857 10.        ]


In [None]:
## Solución
# Ejercicio 3.2.5
arrayCombinado=np.row_stack((arrayEquisCeroDiez,nuevoArrayDatos2))
arrayCombinadoNumenteros=arrayCombinado.astype(int)
print("Ejercicio 3.2.5:\n\n",
      "Array combinado:",
      arrayCombinado,
      "\n\n Array convertido a numeros enteros:",arrayCombinadoNumenteros

      )

Ejercicio 3.2.5:

 Array combinado: [[ 0.          1.42857143  2.85714286  4.28571429  5.71428571  7.14285714
   8.57142857 10.        ]
 [11.         11.         11.         11.         11.         11.
  11.         11.        ]
 [11.         11.         11.         11.         11.         11.
  11.         88.        ]] 

 Array convertido a numeros enteros: [[ 0  1  2  4  5  7  8 10]
 [11 11 11 11 11 11 11 11]
 [11 11 11 11 11 11 11 88]]


In [None]:
## Solución
# Ejercicio 3.2.6 Separa el vector resultante en dos partes iguales.
arrayCombinadoSeparado=np.hsplit(arrayCombinado,2)
print("Ejercicio 3.1.1:")
arrayCombinadoSeparado


Ejercicio 3.1.1:


[array([[ 0.        ,  1.42857143,  2.85714286,  4.28571429],
        [11.        , 11.        , 11.        , 11.        ],
        [11.        , 11.        , 11.        , 11.        ]]),
 array([[ 5.71428571,  7.14285714,  8.57142857, 10.        ],
        [11.        , 11.        , 11.        , 11.        ],
        [11.        , 11.        , 11.        , 88.        ]])]

---

## Máscaras y filtrado de elementos

Podemos filtrar los arrays según las condiciones deseadas y definidas como máscaras o filtros aplicando directamente entre corchetes

In [None]:
# Creamos un array con valores enteros negativos y positivos y lo filtramos para sacar los valores igual y mayor que cero (>=0)
mi_vector = np.arange(-3,4)

print(mi_vector)
mi_vector[mi_vector>=0]

[-3 -2 -1  0  1  2  3]


array([0, 1, 2, 3])

In [None]:
# Esta vez definimos el filtro y se lo aplicamos a nuestro vector
mascara_1 = (mi_vector >= 0)
mi_vector[mascara_1]

array([0, 1, 2, 3])

Las máscaras o mejor dicho los **filtros** realmente son **vectores de índice booleano**. Si el valor en un índice es _True_, ese elemento se conserva en la matriz filtrada, y si el valor en ese índice es _False_, ese elemento se excluye de la matriz filtrada.

In [None]:
print(mascara_1)
type(mascara_1)

[False False False  True  True  True  True]


numpy.ndarray

In [None]:
mascara_2 = [True, True, True, True, True, True, False]
print(mi_vector)
mi_vector[mascara_2]

[-3 -2 -1  0  1  2  3]


array([-3, -2, -1,  0,  1,  2])

Si nos interesa sacar los índices de aquellos elementos de un array que cumplen una condición, utilizamos la función **np.where(condición)**

In [None]:
print(mi_vector)
np.where(mi_vector==0)

[-3 -2 -1  0  1  2  3]


(array([3]),)

Se peuede utilizar esta misma función para aplicar la condición de filtrado y tratar los valores del array en función del cumplimiento de la condición: **np.where(condición, valor_si_cumple, valor_si_no_cumple)**  

In [None]:
print(mi_vector)
np.where(mi_vector==0, 100, 1)

[-3 -2 -1  0  1  2  3]


array([  1,   1,   1, 100,   1,   1,   1])

## Copias vs. vistas de arrays

Cuando seleccionamos un subarray dentro de un array, simplemente estamos generando una nueva vista que sigue apuntando a nuestro array original sin crear una copia.

In [None]:
# Muestra el array original x2
arr_original = np.full((3,3), 7)
arr_original

In [None]:
# Asignamos una nueva variable llamada arr_original_sub que contenga las dos primeras filas y las dos primeras columnas
arr_original_sub = arr_original[:2,:2]
arr_original_sub

In [None]:
# Cambiamos el valor del primer elemento
arr_original_sub[0,0] = 0
arr_original_sub

In [None]:
# Volvemos nuevamente a consultar el array original
arr_original

Para mantener de forma intacta nuestro array original podemos usar el método **copy()** que nos crea una copia en vez de generar una vista como antes.

In [None]:
# Creamos una nueva variable llamada arr_copia que sea una copia del original
arr_original = np.full((3,3), 7)
arr_copia = arr_original.copy()

In [None]:
# Modificamos en arr_copia el valor del primer elemento
arr_copia[0,0] = 80

In [None]:
# Consultamos el array copiado
arr_copia

In [None]:
# De nuevo mostramos el array original
arr_original

Debemos de tener en cuenta la diferencia entre la vista y la copia también a a hora de asignar nuevas variables a partir del array original

In [None]:
# Creamos un nuevo array y generamos una copia de ese vector
a = np.array([1,2,4,8,16,32])
a_copia = a.copy()

print(a)
print(a_copia)

In [None]:
# Asignamos una  ueva variable que sea igual que el array original
b = a

print(a)
print(b)

In [None]:
# Modificamos el segundo elemento usando el indexado de arrays
b[1] = 64

In [None]:
# Imprimimos los valores de cada vector
print("El array original = ", a)
print("El array cambiado = ", b)
print("El array copiado =  ", a_copia)

![](../Sesion3-materiales/fig-06.webp)

![](fig-06.webp)

### **`Ejercicio 3.3`**

**`3.3.1`** Crea un array de tamaño (3x4) de todos los números enteros entre 0 y 100 que sean múltiplos de 9.  
**`3.3.2`** Filtra todos los valores del vector creado en el paso anterior de la siguiente manera:  
- Si son valores positivos y múltiplos de 5 se conservan sin cambios  
- En el caso contratio se sustituyen con el valor -1  

In [None]:
## Solución
# Ejercicio 3.3.1
arrayNumeros=np.arange(0,101,9).reshape(3,4)
# Ejercicio 3.3.2
arrayNumerosfiltrado=arrayNumeros.copy()
changeNumbers= (arrayNumerosfiltrado %5!=0) & (arrayNumerosfiltrado >=0)
for i in range(len(arrayNumerosfiltrado)):
    arrayNumerosfiltrado[changeNumbers]=-1
print("Ejercicio 3.3.1:\n",arrayNumeros, "\n Ejercicio 3.3.2: \n",arrayNumerosfiltrado)







Ejercicio 3.3.1:
 [[ 0  9 18 27]
 [36 45 54 63]
 [72 81 90 99]] 
 Ejercicio 3.3.2: 
 [[ 0 -1 -1 -1]
 [-1 45 -1 -1]
 [-1 -1 90 -1]]
