# Numpy Arrays

Las listas de Python son elementos fundamentales y muy útiles pero hay ciertas operaciones que no podemos realizar con ellas.

Los numpy arrays son conocidos por ser estructuras de datos muy fáciles de emplear al almacenar datos dentro de Python.

Se les suelen atribuir dos características importantes:
- Todos los datos dentro de un numpy array deben ser de un mismo tipo. Si se intenta ingresar un dato de otro tipo, se forzará a ese dato a convertirse en el tipo de dato predominante.
- Pueden ser estructuras de una dimensión, de dos dimensiones, incluso de 7 dimensiones. Sin embargo, al menos en análisis de datos, siempre es mejor tratar con información en en forma matricial (dos dimensiones).

## Reglas básicas de los Numpy Arrays

In [None]:
import numpy

In [None]:
numpy.array([1,2,3])

array([1, 2, 3])

In [None]:
import numpy as np  #importamos bajo un pseudónimo np

**Solo pueden contener datos de un mismo tipo**: Si intentamos crear un arreglo de Numpy con datos de distintos tipos, Numpy "forzará" a todos los datos a ser de uno mismo.

Los numpy arrays no pueden incluir distintos tipos de datos al mismo tiempo. En el caso siguiente 1.0 ha sido convertido a string por consistencia

In [None]:
array0 = np.array([1.0, 'is', True])
array0

array(['1.0', 'is', 'True'], dtype='<U32')

El tipo de datos de un array es numpy.narray

In [None]:
array1 = np.array([1, 1, 2, 3, 5])

In [None]:
type(array1)

numpy.ndarray

Cada uno de los elementos puede ser accedidos con su índice comenzando desde 0. En este caso cada elemento es un entero

In [None]:
type(array1[3]) #acceder a través de u índice

numpy.int64

El primer arreglo tenía strings

In [None]:
type(array0[0])

numpy.str_

In [None]:
type(array0[2])

numpy.str_

dtype nos dice que tipo de datos contiene el arreglo de numpy

In [None]:
print(array1.dtype)    #https://numpy.org/doc/stable/user/basics.types.html

int64


In [None]:
print(array0.dtype)    #'U'Unicode string  https://numpy.org/doc/stable/reference/arrays.dtypes.html

<U32


**El operador + tiene un comportamiento diferente**: Si lo empleamos en listas, las concatenará. Si lo empleamos con arreglos, sumará los valores contenidos en ellos.

In [None]:
python_list = [1, 2, 3] # Lista
numpy_array = np.array([1, 2, 3]) # Arreglo Numpy

In [None]:
# Concatenando listas
python_list + python_list

[1, 2, 3, 1, 2, 3]

In [None]:
# Sumando arreglos
numpy_array + numpy_array

array([2, 4, 6])

No podemos aplicar el operador + cuando el contenido son strings

In [None]:
array0 + array0

UFuncTypeError: ignored

## Problema: Calcular el BMI (índice de masa corporal) de un grupo de personas


Estamos realizando un estudio sobre la nutrición en un grupo de personas de determinada edad.

Formulando las primeras preguntas, nos hemos dado cuenta que necesitamos conocer el BMI de las personas involucradas. Desafortunadamente, no contamos con ese dato, pero podemos calcularlo a partir de los pesos y estaturas que hallamos en los registros del grupo.

Intentemos resolver este problema con listas:

In [None]:
# Generamos una nueva lista con las estaturas de las personas en el grupo
height = [1.73, 1.68, 1.71, 1.89, 1.50]
height

[1.73, 1.68, 1.71, 1.89, 1.5]

In [None]:
# Generamos una nueva lista con los pesos de las personas en el grupo
weight = [65.4, 59.2, 63.6, 88.4, 54.0]
weight

[65.4, 59.2, 63.6, 88.4, 54.0]

Para calcular el BMI, la fórmula es dividir el peso con la estatura, elevada al cuadrado:

In [None]:
# Sin embargo, no es posible realizar operaciones sobre los
# elementos de la lista de esta manera
#por lo que nos arrojara un error
weight / height ** 2

TypeError: ignored

### Solución: Vamos a convertir nuestras listas en arreglos de Numpy

In [None]:
# Importar el paquete numpy como np
#import numpy as np

# Crear 2 array numpy desde height y weight
np_height = np.array(height)
np_weight = np.array(weight)

Intentemos calcular el BMI de nuevo:

In [None]:
np_weight

array([65.4, 59.2, 63.6, 88.4, 54. ])

In [None]:
np_height

array([1.73, 1.68, 1.71, 1.89, 1.5 ])

In [None]:
np_height ** 2

array([2.9929, 2.8224, 2.9241, 3.5721, 2.25  ])

Finalmente podemos calcular el índice de masa corporal

In [None]:
bmi = np_weight / np_height ** 2
bmi

array([21.85171573, 20.97505669, 21.75028214, 24.7473475 , 24.        ])

## Muestreo (subsetting)

Tener nuestros datos en arrays de Numpy nos facilita las cosas al momento de consultar datos bajo ciertos criterios

In [None]:
bmi

array([21.85171573, 20.97505669, 21.75028214, 24.7473475 , 24.        ])

In [None]:
bmi[3]

24.74734749867025

Podemos obtener condicionales al aplicar operadores relacionales directamente a un arreglo de Numpy

In [None]:
bmi > 23

array([False, False, False,  True,  True])

Podemos seleccionar elementos del arreglo de Numpy utilizando listas con True y False donde True significa que ese elemento debe ser seleccionado

In [None]:
lista = [True, False, True, False, True]
bmi[lista]

array([21.85171573, 21.75028214, 24.        ])

Seleccionamos solo los elementos mayores a 23

In [None]:
bmi[bmi > 23]

array([24.7473475, 24.       ])

Al igual que en las listas podemos utilizar el operador ":"

In [None]:
 bmi[2:]

array([21.75028214, 24.7473475 , 24.        ])

In [None]:
bmi[:2]

array([21.85171573, 20.97505669])

Seleccionamos elementos con saltos de 1

In [None]:
bmi[::2]

array([21.85171573, 21.75028214, 24.        ])

## Creación de Arreglos

Hay arreglos bastante comunes que pueden ser inicializados

Zeros y unos

In [None]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [None]:
np.ones(5)

array([1., 1., 1., 1., 1.])

Ayuda sobre arange. Similar a range pero en numpy

In [None]:
np.arange?

In [None]:
np.arange(5)

array([0, 1, 2, 3, 4])

In [None]:
np.arange(2, 9)

array([2, 3, 4, 5, 6, 7, 8])

In [None]:
np.arange(2, 9, 2)

array([2, 4, 6, 8])

In [None]:
np.arange(2, 9, 0.5)

array([2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. , 6.5, 7. , 7.5, 8. ,
       8.5])

### Linspace es otra opción para crear. Definimos los puntos inicio y fin, por default crea 50 puntos

In [None]:
np.linspace?

In [None]:
np.linspace(0, 2)

array([0.        , 0.04081633, 0.08163265, 0.12244898, 0.16326531,
       0.20408163, 0.24489796, 0.28571429, 0.32653061, 0.36734694,
       0.40816327, 0.44897959, 0.48979592, 0.53061224, 0.57142857,
       0.6122449 , 0.65306122, 0.69387755, 0.73469388, 0.7755102 ,
       0.81632653, 0.85714286, 0.89795918, 0.93877551, 0.97959184,
       1.02040816, 1.06122449, 1.10204082, 1.14285714, 1.18367347,
       1.2244898 , 1.26530612, 1.30612245, 1.34693878, 1.3877551 ,
       1.42857143, 1.46938776, 1.51020408, 1.55102041, 1.59183673,
       1.63265306, 1.67346939, 1.71428571, 1.75510204, 1.79591837,
       1.83673469, 1.87755102, 1.91836735, 1.95918367, 2.        ])

### No se incluye el punto final

In [None]:
np.linspace(0, 2, endpoint = False)

array([0.  , 0.04, 0.08, 0.12, 0.16, 0.2 , 0.24, 0.28, 0.32, 0.36, 0.4 ,
       0.44, 0.48, 0.52, 0.56, 0.6 , 0.64, 0.68, 0.72, 0.76, 0.8 , 0.84,
       0.88, 0.92, 0.96, 1.  , 1.04, 1.08, 1.12, 1.16, 1.2 , 1.24, 1.28,
       1.32, 1.36, 1.4 , 1.44, 1.48, 1.52, 1.56, 1.6 , 1.64, 1.68, 1.72,
       1.76, 1.8 , 1.84, 1.88, 1.92, 1.96])

### Definimos el número de steps

In [None]:
np.linspace(2, 4, 20)

array([2.        , 2.10526316, 2.21052632, 2.31578947, 2.42105263,
       2.52631579, 2.63157895, 2.73684211, 2.84210526, 2.94736842,
       3.05263158, 3.15789474, 3.26315789, 3.36842105, 3.47368421,
       3.57894737, 3.68421053, 3.78947368, 3.89473684, 4.        ])

## Numpy arrays en 2 dimensiones

¿Cómo puedo saber si un arreglo de Numpy es de 1 o dos dimensiones?

| Tables        | Are           | Cool  |
| ------------- |:-------------:| -----:|
| col 3 is      | right-aligned | $1600 |

| Tables        | Are           | Cool |
|---------------|---------------|------|
| col 3 is      | right-aligned | 1600 |
| col 2 is      | centered      |   12 |
| zebra stripes | are neat      |    1 |

In [None]:
# Este es de una sola dimensión (arreglo)
type(np_height)

numpy.ndarray

## Utilizamos ahora arreglos de 2 dimensiones

Mira la principal diferencia, ahora, en lugar de utilizar un solo par de corchetes [], utilizamos pares de corchetes dentro de uno principal [[], [], [], ...]

Cada par interno podemos decir que es una "dimensión"

In [None]:
np_2d = np.array([[1.73, 1.68, 1.71, 1.89, 1.79],
                  [65.4, 59.2, 63.6, 88.4, 68.7]])

np_2d

array([[ 1.73,  1.68,  1.71,  1.89,  1.79],
       [65.4 , 59.2 , 63.6 , 88.4 , 68.7 ]])

In [None]:
#Vemos el numero de filas y de columnas
np_2d.shape

(2, 5)

In [None]:
np_2d.dtype

dtype('float64')

### La forma es de 2 x 5 con size obtenemos la cuenta de todos los elementos que son 10

In [None]:
#numero de elementos en total
np_2d.size

10

In [None]:
#Total bytes consumidos por los elementos del array. https://numpy.org/doc/stable/reference/generated/numpy.ndarray.nbytes.html
np_2d.nbytes

80

Recuerda, si intentas introducir un valor de un tipo distinto, podrías estar alterando el tipo de todos los elementos en el arreglo

### Warning

In [None]:
np.array([[1.73, 1.68, 1.71, 1.89, 1.79],
[65.4, 59.2, 63.6, 88.4, "68.7"]])

array([['1.73', '1.68', '1.71', '1.89', '1.79'],
       ['65.4', '59.2', '63.6', '88.4', '68.7']], dtype='<U32')

## Muestreo en 2 dimensiones

In [None]:
print(np_2d)

[[ 1.73  1.68  1.71  1.89  1.79]
 [65.4  59.2  63.6  88.4  68.7 ]]


### Si solo mandamos un parámetro obtenemos una fila completa

In [None]:
# Una fila completa
np_2d[0]

array([1.73, 1.68, 1.71, 1.89, 1.79])

In [None]:
### Accedemos a una fila y columna específica

In [None]:
# El elemento en la primera fila, segunda columna
np_2d[0][2]

1.71

In [None]:
# El elemento en la primera fila, segunda columna con notación de coma
np_2d[0,2]

1.71

In [None]:
# Elementos de todas las filas que corresponden a la columna con índice 0
np_2d[:, 0]

array([ 1.73, 65.4 ])

In [None]:
# Elementos de todas las filas que corresponden a la última columna
np_2d[:,-1]

array([ 1.79, 68.7 ])

In [None]:
# Elementos de la primera fila
np_2d[0, :]

array([1.73, 1.68, 1.71, 1.89, 1.79])

In [None]:
# Los elementos de todas las filas pero en las columnas 1, 2
np_2d[:,1:3]

array([[ 1.68,  1.71],
       [59.2 , 63.6 ]])

In [None]:
# Los elementos de todas las filas pero en las columnas 1, 3
np_2d[:,[1,3]]

array([[ 1.68,  1.89],
       [59.2 , 88.4 ]])

In [None]:
# Los elementos de la segunda fila pero todas las columnas (¿no te suena familiar?)
np_2d[1,:]

array([65.4, 59.2, 63.6, 88.4, 68.7])

### Podemos utilizar condicionales para definir arreglos

In [None]:
np.where?

Object `np.where` not found.


In [None]:
np.where(np_2d > 1.7)

(array([0, 0, 0, 0, 1, 1, 1, 1, 1]), array([0, 2, 3, 4, 0, 1, 2, 3, 4]))

In [None]:
row_index, column_index = np.where(np_2d > 1.7)

In [None]:
for row, column in zip(row_index, column_index):
  print(row, column, np_2d[row, column])

0 0 1.73
0 2 1.71
0 3 1.89
0 4 1.79
1 0 65.4
1 1 59.2
1 2 63.6
1 3 88.4
1 4 68.7


In [None]:
np_2d[np.where(np_2d > 1.7)]

array([ 1.73,  1.71,  1.89,  1.79, 65.4 , 59.2 , 63.6 , 88.4 , 68.7 ])

In [None]:
np_2d[np.where(np_2d == 1.73)]

array([1.73])

## Estadística básica con Numpy

FIFA nos ha proveído amablemente de una base de datos con todo tipo de métricas acerca de jugadores en todos los equipos del mundo. Nosotros, la hemos pedido pues tenemos una corazonada: Creemos que los jugadores que juegan en la posición de portero, tienen en general una estatura mayor que el resto de jugadores, pero nadie nos cree :(

Utilizaremos [estos datos](https://assets.datacamp.com/production/repositories/288/datasets/026a5211b906ac118a09b1a0dbf7df48faafb379/fifa.csv) para comprobarlo:

In [None]:
# Importamos nuestros datos
import pandas as pd
import numpy as np
data = pd.read_csv("https://assets.datacamp.com/production/repositories/288/datasets/026a5211b906ac118a09b1a0dbf7df48faafb379/fifa.csv") 


In [None]:
# Mostramos las columnas con las que contamos 
data.columns

Index(['id', ' name', ' rating', ' position', ' height', ' foot', ' rare',
       ' pace', ' shooting', ' passing', ' dribbling', ' defending',
       ' heading', ' diving', ' handling', ' kicking', ' reflexes', ' speed',
       ' positioning'],
      dtype='object')

In [None]:
data.head()

Unnamed: 0,id,name,rating,position,height,foot,rare,pace,shooting,passing,dribbling,defending,heading,diving,handling,kicking,reflexes,speed,positioning
0,1001,Gábor Király,69,GK,191,Right,0,,,,,,,70.0,66.0,63.0,74.0,35.0,66.0
1,100143,Frederik Boi,65,M,184,Right,0,61.0,65.0,63.0,59.0,62.0,62.0,,,,,,
2,100264,Tomasz Szewczuk,57,A,185,Right,0,65.0,54.0,43.0,53.0,55.0,74.0,,,,,,
3,100325,Steeve Joseph-Reinette,63,D,180,Left,0,68.0,38.0,51.0,46.0,64.0,71.0,,,,,,
4,100326,Kamel Chafni,72,M,181,Right,0,75.0,64.0,67.0,72.0,57.0,66.0,,,,,,


### Podemos convertir columnas en numpy arrays

In [None]:
# Convertimos las columnas a Numpy Arrays
np_positions = np.array(data[' position'])
np_heights = np.array(data[' height'])
print(np_positions)
print(np_heights)

[' GK' ' M' ' A' ... ' D' ' D' ' M']
[191 184 185 ... 183 179 179]


Checamos cual es portero

In [None]:
np_positions == ' GK' #goalkeeper=portero

array([ True, False, False, ..., False, False, False])

In [None]:
# Heights/Altura de los goalkeepers (porteros): gk_heights
gk_heights = np_heights[np_positions == ' GK']

# Heights/Altura de los demás jugadores: other_heights
other_heights = np_heights[np_positions != ' GK']

![image.png](attachment:3bcdfa22-e289-440b-aae7-501ad25f6e41.png)

Ahora imprimamos algunas medidas estadísticas

In [None]:
# Vamos a imprimir la mediana en la estatura de los porteros. Replace 'None'
print("Median height of goalkeepers: " + str(np.median(gk_heights)))

# Print out the median height of other players. Replace 'None'
print("Median height of other players: " + str(np.median(other_heights)))

Median height of goalkeepers: 188.0
Median height of other players: 181.0


# Enlaces:

Si tienes dudas sobre el uso de Markdown, puedes consultar el siguiente [link](https://github.com/adam-p/markdown-here/wiki/Markdown-Cheatsheet)