# Numpy Arrays

Las listas de Python son elementos fundamentales y muy útiles pero hay ciertas operaciones que no podemos realizar con ellas.

Los numpy arrays son conocidos por ser estructuras de datos muy fáciles de emplear al almacenar datos dentro de Python.

Se les suelen atribuir dos características importantes:
- Todos los datos dentro de un numpy array deben ser de un mismo tipo. Si se intenta ingresar un dato de otro tipo, se forzará a ese dato a convertirse en el tipo de dato predominante.
- Pueden ser estructuras de una dimensión, de dos dimensiones, incluso de 7 dimensiones. Sin embargo, al menos en análisis de datos, siempre es mejor tratar con información en en forma matricial (dos dimensiones).

## Reglas básicas de los Numpy Arrays

In [None]:
import numpy as np

**Solo pueden contener datos de un mismo tipo**: Si intentamos crear un arreglo de Numpy con datos de distintos tipos, Numpy "forzará" a todos los datos a ser de uno mismo.

Los numpy arrays no pueden incluir distintos tipos de datos al mismo tiempo. En el caso siguiente 1.0 ha sido convertido a string por consistencia

El tipo de datos de un array es numpy.narray

Cada uno de los elementos puede ser accedidos con su índice comenzando desde 0. En este caso cada elemento es un entero

El primer arreglo tenía strings

dtype nos dice que tipo de datos contiene el arreglo de numpy

**El operador + tiene un comportamiento diferente**: Si lo empleamos en listas, las concatenará. Si lo empleamos con arreglos, sumará los valores contenidos en ellos.

No podemos aplicar el operador + cuando el contenido son strings

## Problema: Calcular el BMI (índice de masa corporal) de un grupo de personas


Estamos realizando un estudio sobre la nutrición en un grupo de personas de determinada edad.

Formulando las primeras preguntas, nos hemos dado cuenta que necesitamos conocer el BMI de las personas involucradas. Desafortunadamente, no contamos con ese dato, pero podemos calcularlo a partir de los pesos y estaturas que hallamos en los registros del grupo.

Intentemos resolver este problema con listas:

Para calcular el BMI, la fórmula es dividir el peso con la estatura, elevada al cuadrado:

### Solución: Vamos a convertir nuestras listas en arreglos de Numpy

Intentemos calcular el BMI de nuevo:

Finalmente podemos calcular el índice de masa corporal

## Muestreo (subsetting)

Tener nuestros datos en arrays de Numpy nos facilita las cosas al momento de consultar datos bajo ciertos criterios

Podemos obtener condicionales al aplicar operadores relacionales directamente a un arreglo de Numpy

Podemos seleccionar elementos del arreglo de Numpy utilizando listas con True y False donde True significa que ese elemento debe ser seleccionado

Seleccionamos solo los elementos mayores a 23

Al igual que en las listas podemos utilizar el operador ":"

Seleccionamos elementos con saltos de 1

## Creación de Arreglos

Hay arreglos bastante comunes que pueden ser inicializados

Zeros y unos

Ayuda sobre arange. Similar a range pero en numpy

### Linspace es otra opción para crear. Definimos los puntos inicio y fin, por default crea 50 puntos

### No se incluye el punto final

### Definimos el número de steps

## Numpy arrays en 2 dimensiones

¿Cómo puedo saber si un arreglo de Numpy es de 1 o dos dimensiones?

| Tables        | Are           | Cool  |
| ------------- |:-------------:| -----:|
| col 3 is      | right-aligned | $1600 |

| Tables        | Are           | Cool |
|---------------|---------------|------|
| col 3 is      | right-aligned | 1600 |
| col 2 is      | centered      |   12 |
| zebra stripes | are neat      |    1 |

In [None]:
# Este es de una sola dimensión (arreglo)


## Utilizamos ahora arreglos de 2 dimensiones

Mira la principal diferencia, ahora, en lugar de utilizar un solo par de corchetes [], utilizamos pares de corchetes dentro de uno principal [[], [], [], ...]

Cada par interno podemos decir que es una "dimensión"

In [None]:
#Vemos el numero de filas y de columnas


### La forma es de 2 x 5 con size obtenemos la cuenta de todos los elementos que son 10

In [None]:
#numero de elementos en total


In [None]:
#Total bytes consumidos por los elementos del array. https://numpy.org/doc/stable/reference/generated/numpy.ndarray.nbytes.html


Recuerda, si intentas introducir un valor de un tipo distinto, podrías estar alterando el tipo de todos los elementos en el arreglo

### Warning

## Muestreo en 2 dimensiones

### Si solo mandamos un parámetro obtenemos una fila completa

In [None]:
# Una fila completa


In [None]:
### Accedemos a una fila y columna específica

In [None]:
# El elemento en la primera fila, segunda columna


In [None]:
# El elemento en la primera fila, segunda columna con notación de coma


In [None]:
# Elementos de todas las filas que corresponden a la columna con índice 0


In [None]:
# Elementos de todas las filas que corresponden a la última columna


In [None]:
# Elementos de la primera fila


In [None]:
# Los elementos de todas las filas pero en las columnas 1, 2


In [None]:
# Los elementos de todas las filas pero en las columnas 1, 3


In [None]:
# Los elementos de la segunda fila pero todas las columnas (¿no te suena familiar?)


### Podemos utilizar condicionales para definir arreglos

## Estadística básica con Numpy

FIFA nos ha proveído amablemente de una base de datos con todo tipo de métricas acerca de jugadores en todos los equipos del mundo. Nosotros, la hemos pedido pues tenemos una corazonada: Creemos que los jugadores que juegan en la posición de portero, tienen en general una estatura mayor que el resto de jugadores, pero nadie nos cree :(

Utilizaremos [estos datos](https://assets.datacamp.com/production/repositories/288/datasets/026a5211b906ac118a09b1a0dbf7df48faafb379/fifa.csv) para comprobarlo:

In [None]:
# Importamos nuestros datos
import pandas as pd
import numpy as np
data = pd.read_csv("https://assets.datacamp.com/production/repositories/288/datasets/026a5211b906ac118a09b1a0dbf7df48faafb379/fifa.csv") 


In [None]:
# Mostramos las columnas con las que contamos 


### Podemos convertir columnas en numpy arrays

In [None]:
# Convertimos las columnas a Numpy Arrays


Checamos cual es portero

In [None]:
# Heights/Altura de los goalkeepers (porteros): gk_heights


# Heights/Altura de los demás jugadores: other_heights


![image.png](attachment:3bcdfa22-e289-440b-aae7-501ad25f6e41.png)

Ahora imprimamos algunas medidas estadísticas

In [None]:
# Vamos a imprimir la mediana en la estatura de los porteros. Replace 'None'

# Print out the median height of other players. Replace 'None'


# Enlaces:

Si tienes dudas sobre el uso de Markdown, puedes consultar el siguiente [link](https://github.com/adam-p/markdown-here/wiki/Markdown-Cheatsheet)