# 7.- Arreglos con NUMPY

En este capítulo aprenderás a utilizar algunas cualidades básicas de NumPy (Numerical Python).
NumPy es una de las librerías más populares de Python, ya que puede procesar listas de múltiples
dimensiones

## 7.2.- Arreglo de Datos

Como en la sección anterior, invocaremos a la librería NumPy como np

In [1]:
import numpy as np

Armemos un arreglo del 1 al 6

In [2]:
arreglo = np.array(list(range(1,6)))
arreglo

array([1, 2, 3, 4, 5])

Verifica el tipo de objeto que generamos

In [3]:
type(arreglo)

numpy.ndarray

In [4]:
type?

[1;31mInit signature:[0m [0mtype[0m[1;33m([0m[0mself[0m[1;33m,[0m [1;33m/[0m[1;33m,[0m [1;33m*[0m[0margs[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m     
type(object) -> the object's type
type(name, bases, dict, **kwds) -> a new type
[1;31mType:[0m           type
[1;31mSubclasses:[0m     ABCMeta, EnumType, _AnyMeta, NamedTupleMeta, _TypedDictMeta, _ABC, MetaHasDescriptors, CType_Type, _TzSingleton, _TzFactory, ...

La función array copia automáticamente las dimensiones del argumento. Por ejemplo, el siguiente arreglo (array) está formado por tres filas y dos columnas.

In [5]:
np.array([[1,2],[3,4],[5,6]])

array([[1, 2],
       [3, 4],
       [5, 6]])

#### Por tu cuenta

Arma un arreglo de una dimensión desde una compresnidón de lista que produce todos los números nones del 1 al 30

In [6]:
arreglo = np.array(list(filter(lambda i : i%2!=0,range(1,30))))
arreglo


array([ 1,  3,  5,  7,  9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29])

In [7]:
arreglo = np.array([i for i in range(1,30,2)])
arreglo

array([ 1,  3,  5,  7,  9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29])

### 7.2.2 - Atributos de Arreglos

En esta sección usaremos los siguientes 2 arreglos

enteros = np.array([[9,10,11,12],[8,7,6,5]])

flotantes=np.array([[9**(1/2),10**(1/2),3.33,],[10/3,3.4,3.03]])

In [8]:
enteros = np.array([[9,10,11,12],[8,7,6,5]])


In [9]:
flotantes=np.array([[9**(1/2),10**(1/2),3.33,],[10/3,3.4,3.03]])

Checa el tipo de elemento con dtype

In [10]:
enteros.dtype

dtype('int64')

In [11]:
flotantes.dtype

dtype('float64')

Revisa que puedes ver dimensione con ndim y forma con shape del arreglo

In [12]:
enteros.ndim

2

In [13]:
enteros.shape

(2, 4)

Size y itemsize te permite conocer el numero de elemntos y de bytes para almacenar

In [14]:
enteros.itemsize

8

Se puede iterar facilmente a través de un arreglo

In [15]:
for fila in flotantes:
    for columna in fila:
        print(columna, end=", ")
    print()

3.0, 3.1622776601683795, 3.33, 
3.3333333333333335, 3.4, 3.03, 


#### Por tu cuenta

Para el arreglo que armaste en el "Por tu cuenta" previo, checa el numero de dmiensiones y forma del arreglo

In [16]:
np.array([i for i in range(1,30,2)]).ndim

1

In [17]:
np.array([i for i in range(1,30,2)]).shape

(15,)

### 7.2.3 - Creando Arreglos desde Rangos

La función arange (una sola R!!!!) nos permite crear rangos de enteros. Crea:

- Un arreglo del 0 al 7
- Un arreglo del 3 al 7
- Un arreglo del 12 al 2 en pasos de 3 en 3 (si, en orden inverso)

In [18]:
np.arange(8)

array([0, 1, 2, 3, 4, 5, 6, 7])

In [19]:
np.arange(3,8)

array([3, 4, 5, 6, 7])

In [20]:
np.arange(12,2,-3) #cambia direcciones con los saltos, puede ser util

array([12,  9,  6,  3])

Tambien se pueden usar tamaños de paso no enteros. Crea un arreglo con linspace de 0 al 1 que vaya de .25 en .25

In [21]:
np.linspace(0,1,5) # para numeros no enteros

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

Y se puede cambiar la forma del arreglo con reshape. Crea un arreglo con arange que vaya del 21 al 1 en orden inverso, y luego dale forma de matriz de 4x5

In [22]:
np.arange(21,1,-1).reshape(4,5)

array([[21, 20, 19, 18, 17],
       [16, 15, 14, 13, 12],
       [11, 10,  9,  8,  7],
       [ 6,  5,  4,  3,  2]])

In [23]:
np.arange(21,1,-1).reshape(4,4)

ValueError: cannot reshape array of size 20 into shape (4,4)

Checate que si el arreglo tiene 1000 o más elementos, numpy no muestra la totalidad de los datos. Generaun arreglo de 0 a 9999 y dale forma de 5 x 2000

In [None]:
np.arange(0,10000).reshape(5,2000)

#### Por tu cuenta

Usa la función arange para crear una arreglo de 20 enteros pares del 42 al 80, y luego rearmalo en una matriz de 4x5

In [None]:
np.arange(42,81,2).reshape(4,5)

### 7.2.4 - ¿Que tan más rapido es un arreglo?

Usa la magia %timeit y la librería random para crear una comprensión de lista que simule un tiro de dao 6000000 de veces y medir su tiempo

In [None]:
import random

In [None]:
%timeit?

Ahora usa %timeit para medir el tiempo de un tiro de dado 6000000 de veces pero hecho con arreglo

In [None]:
%timeit tirodado = [random.randint(1,7) for i in range(6000000)]

In [None]:
%timeit tirodado = np.random.randint(1,7,6000000)

#### Por tu cuenta

Usa %timeit para ver que es mas rapido - una lista que sume todos los enteros del 0 al 9 999 999 o un arreglo que haga lo mismo con el metodo sum

In [None]:
%timeit sum(range(10000000))

In [None]:
%timeit np.sum(np.arange(10000000))

## 7.3.- Operaciones con Arreglos

Arma un arreglo de todos los pares del 2 al 15.

- Sumale 1 al arreglo
- Multiplicalo por 3
- Sacale raiz cuadrada

In [None]:
arreglo = np.arange(1,16,2)
arreglo

In [None]:
arreglo + 1

In [None]:
arreglo *3

In [None]:
arreglo**(1/2)

Al mismo arreglo, aplicale un +=10

In [None]:
arreglo+=10

In [None]:
arreglo

Arma un arreglo (lista1) que vaya del 2 al 18 de 3 en 3, y otro arreglo (lista2) usando linspace que vaya del -2 al 20 dividido en 6 numeros

- Resta lista1 de lista2
- divide lista2 entre lista1

In [None]:
lista1 = np.arange(2,19,3)
lista1

In [None]:
lista2 = np.linspace(-2, 20,6)
lista2

In [None]:
lista2-lista1

In [None]:
lista2/lista1

También puedes comparar los arreglos

In [None]:
lista2>lista1

#### Por tu cuenta

Crea un arreglo de los valores que vayan del 1 al 5, y luego elvealo al cuadrado usando **

In [None]:
np.arange(1,6)**2

### 7.3.2.- Métodos de Cálculo

Considera el siguiente arreglo 

ventas=np.array( [[554,606,710,851],[1244,898,416,1763],
 [841,655,1105,1067]])


In [None]:
ventas=np.array( [[554,606,710,851],[1244,898,416,1763], [841,655,1105,1067]])

Podemos usar métodos para calcular la sum, min, max, mean, std, var. 

In [None]:
ventas.sum()

In [None]:
ventas.min()

In [None]:
ventas.max()

In [None]:
ventas.mean()

In [None]:
ventas.std()

In [None]:
ventas.var()

También es posible hacerlo por filas y columnas. Checa como se hace con axis = 1 y 0

In [None]:
ventas.mean(axis=1) # columnas (1)

In [None]:
ventas.mean(axis=0) # filas (0)

#### Por tu cuenta

Usa el generador de numeros aleatoreos de numpy (np.random.randint) para crear una rreglo de 12 calificaciones aleatorias del 60 al 100, y luego dale forma en una matriz de 3x4. Calcula el promedio de todas las calificaciones, el promedio de cada columna y de cada fila. 

In [None]:
calif = np.random.randint(60,100,12).reshape(3,4) # el tercer numero sirve para repeticiones
calif

In [None]:
calif.mean()

In [None]:
calif.mean(axis=0)

In [None]:
calif.mean(axis=1)

## 7.4.- Indexando y Cortando arreglos

Crea el arreglo

ventas=np.array ([[ 554, 606, 710, 851],
 [1244, 898, 416, 1763],
 [ 841, 655, 1105, 1067]])
 
 - Selecciona el item 2,1
 - Selecciona el item 1,3
 - Selecciona la fila 1

In [None]:
ventas=np.array ([[ 554, 606, 710, 851], [1244, 898, 416, 1763], [ 841, 655, 1105, 1067]])

In [None]:
ventas

In [None]:
ventas[1,0] #fila 1 #columna 0

In [None]:
ventas[0,2]

In [None]:
ventas[0] # pilla toda la fila

Solicita las filas con índices 0 y 1

In [None]:
ventas[0:2] 

Ahora para solicitar las filas con indices 1 y 2

In [None]:
ventas[1:3]

Quieres solo los elementos de la primera columna?

In [None]:
ventas[:,0] 
#todas las filas solo de la columna 0(o lo que es lo mismo la columna 0)

Que la las columnas con indices 0 y 2?

In [None]:
ventas[:,[0,2]]

#### Por tu cuenta

Dado el siguiente arreglo

array([[1,2,3,4,5],
     [6,7,8,9,10],
     [11,12,13,14,15]])

- Selecciona la segunda fila
- Selecciona la primera y tercera fila
- Selecciona las tres columnas de enmedio

In [None]:
arreglo=np.array([[1,2,3,4,5], [6,7,8,9,10], [11,12,13,14,15]])

In [None]:
arreglo[1]

In [None]:
arreglo[[0,2]]

In [None]:
arreglo[:,1:4]

### 7.4.2.- Transponer

Con **reshape** puedes producir una copia superficial del arreglo con una nueva dimension. 

ventas = np.array([[ 500, 600, 550, 800],
 [1200, 800, 400,1000]])

Usa el arreglo anterior para darle dimension de 1x8

In [None]:
ventas = np.array([[ 500, 600, 550, 800], [1200, 800, 400,1000]])

In [None]:
ventas.reshape(1,8)

El metodo **resize** modifica la forma del original (no crea copia)

In [None]:
ventas.resize(1,8)

In [None]:
ventas

Y **transpose** rapidamente le da la vuelta a filas y columnas, este se hace aplicando el atributo T, que no modifica el original, solo una vista.

In [None]:
ventas.transpose()

## 7.5.- Pandas - Series

Vamos a usar estos datos para Series - tiempo_web = pd.Series([160,256,98,108])

Este es el tiempo que invierten en videojuegos 4 estudiantes

In [28]:
import pandas as pd #PANDAS PANEL-DATA 
#funciona para el manipulacion, manejo y analisis de datos de forma rapida y flexible
#se trabaja con .csv .xslx .json .sql , .etc
#Lista/Tuplas <<<<< Arreglos <<<<<< Series <<<<<< Dataframes

In [29]:
 tiempo_web = pd.Series([160,256,98,108])


In [30]:
tiempo_web

0    160
1    256
2     98
3    108
dtype: int64

Para crear una serie con el mismo elemento

In [31]:
pd.Series(3.1415965,range(5))

0    3.141596
1    3.141596
2    3.141596
3    3.141596
4    3.141596
dtype: float64

Acceder a un elemento es facil

In [32]:
tiempo_web[2]

np.int64(98)

Series tiene acceso a los mismos metodos que arreglos para estadistica descriptiva

In [33]:
tiempo_web.mean()

np.float64(155.5)

Tambien, todo esto se puede resumir con **describe**

In [34]:
tiempo_web.describe()

count      4.000000
mean     155.500000
std       72.302605
min       98.000000
25%      105.500000
50%      134.000000
75%      184.000000
max      256.000000
dtype: float64

También podemos personalizar los indices de series a traves de index

['Laura','Daniel','Alberto','Eva'] 

Asigna esos nombres

In [35]:
tiempo_web = pd.Series([160,256,98,108], index = ['Laura','Daniel','Alberto','Eva'])

In [36]:
tiempo_web

Laura      160
Daniel     256
Alberto     98
Eva        108
dtype: int64

In [37]:
tiempo_web[2]

  tiempo_web[2]


np.int64(98)

In [38]:
tiempo_web.iloc[2]

np.int64(98)

In [39]:
tiempo_web["Alberto"]

np.int64(98)

O puedes usar un diccionario para eso:

In [40]:
tiempo_web=pd.Series({"Laura":160, "Daniel":256, "Alberto": 98, "Eva":108})

In [41]:
tiempo_web

Laura      160
Daniel     256
Alberto     98
Eva        108
dtype: int64

Puedes llamar a los elementos personalizados

In [42]:
tiempo_web["Alberto"]

np.int64(98)

Tambien se pueden llamar como atributos

In [43]:
tiempo_web.Alberto

np.int64(98)

#### Por tu cuenta

Usa el generador aleatorio de NumPy (np.random.randint) para generar 6 calificaciones del 60 al 100 y guardarlos en una serie. 

A continuación arma las siguientes tareas:

- Convierte el arreglo en una SERIE llamada calificacion
- Determina la min, max y promedio
- Produce TODAS las estadisticas descriptivas

In [44]:
cal = np.random.randint(60,100,6)

In [45]:
calificacion = pd.Series(cal) #Lee los enunciados bobo, tenias que hacer una serie, por algo esta aqui

In [46]:
calificacion.min()

61

In [47]:
calificacion.max()

94

In [48]:
calificacion.mean() #promedio

np.float64(76.83333333333333)

In [49]:
calificacion.describe()

count     6.000000
mean     76.833333
std      15.328622
min      61.000000
25%      63.500000
50%      76.500000
75%      89.500000
max      94.000000
dtype: float64

## 7.6.- Pandas - DataFrames

##### Crear un Dataframe de un diccionario

Agarra este diccionario y conviertelo en un dataframe

 reg_peso = {'Vanesa':[68,67,66,65],'Kevin':[89,89,90,88],
 'Fernanda':[59,60,60,62],'Patricia':[70,68,67,65]}

In [50]:
reg_peso = {'Vanesa':[68,67,66,65],'Kevin':[89,89,90,88],
 'Fernanda':[59,60,60,62],'Patricia':[70,68,67,65]}

In [51]:
reg_peso

{'Vanesa': [68, 67, 66, 65],
 'Kevin': [89, 89, 90, 88],
 'Fernanda': [59, 60, 60, 62],
 'Patricia': [70, 68, 67, 65]}

In [52]:
peso = pd.DataFrame(reg_peso)

In [53]:
peso

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
0,68,89,59,70
1,67,89,60,68
2,66,90,60,67
3,65,88,62,65


##### El atributo Index

Añade los siguientes indices personalizados

peso.index = ['Mes 1','Mes 2','Mes 3','Mes 4']

In [54]:
peso.index = ['Mes 1','Mes 2','Mes 3','Mes 4']

In [55]:
peso

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
Mes 1,68,89,59,70
Mes 2,67,89,60,68
Mes 3,66,90,60,67
Mes 4,65,88,62,65


##### Accesar Columnas

Selecciona la información de Fernanda

In [56]:
peso["Fernanda"]

Mes 1    59
Mes 2    60
Mes 3    60
Mes 4    62
Name: Fernanda, dtype: int64

Selecciona la de Patricia pero como atributo

In [57]:
peso.Fernanda

Mes 1    59
Mes 2    60
Mes 3    60
Mes 4    62
Name: Fernanda, dtype: int64

##### Loc y iloc

Selecciona la información del Mes1 usando Loc

In [58]:
peso.loc["Mes 1"]

Vanesa      68
Kevin       89
Fernanda    59
Patricia    70
Name: Mes 1, dtype: int64

Ahora solo la fila 1 usando iloc

In [59]:
peso.iloc[0]

Vanesa      68
Kevin       89
Fernanda    59
Patricia    70
Name: Mes 1, dtype: int64

Ahora del Mes 1 al Mes 3 usando loc

In [60]:
peso.loc["Mes 1":"Mes 3"]

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
Mes 1,68,89,59,70
Mes 2,67,89,60,68
Mes 3,66,90,60,67


Saca filas especificas (mes 1 y 3) usando loc

In [61]:
peso.loc[["Mes 1","Mes 3"]]

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
Mes 1,68,89,59,70
Mes 3,66,90,60,67


Y ahora los Meses 2 y 3 de Vanesa y Patricia solamente con loc

In [62]:
peso.loc["Mes 2":"Mes 3", ["Vanesa","Patricia"]]

Unnamed: 0,Vanesa,Patricia
Mes 2,67,68
Mes 3,66,67


### Indices Booleanos

Dime los pesos mayores a 70kg en la tabla

In [63]:
peso[peso>70]

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
Mes 1,,89,,
Mes 2,,89,,
Mes 3,,90,,
Mes 4,,88,,


In [64]:
peso>70

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
Mes 1,False,True,False,False
Mes 2,False,True,False,False
Mes 3,False,True,False,False
Mes 4,False,True,False,False


Y ahora los pesos mayores a 65kg y menores a 80kg

In [65]:
peso[(peso>65) & (peso<80)]

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
Mes 1,68.0,,,70.0
Mes 2,67.0,,,68.0
Mes 3,66.0,,,67.0
Mes 4,,,,


##### Accesar una celda especifica de un Dataframe

Que pasa si solo queremos cuanto pesaba Patricia en el mes 3? Usa at

In [66]:
peso.at["Mes 3", "Patricia"]

np.int64(67)

Resulta que Kevin en realidad pesaba 85kg en el mes 4, cambia su valor usando at

In [67]:
peso.at["Mes 4", "Kevin"] = 85

##### Estádistica descriptiva

Puedes usar el metodo **Describe** para sacar todas las estadisticas del dataframe

In [68]:
peso.describe()

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
count,4.0,4.0,4.0,4.0
mean,66.5,88.25,60.25,67.5
std,1.290994,2.217356,1.258306,2.081666
min,65.0,85.0,59.0,65.0
25%,65.75,88.0,59.75,66.5
50%,66.5,89.0,60.0,67.5
75%,67.25,89.25,60.5,68.5
max,68.0,90.0,62.0,70.0


También puedes cambiar la cantidad de decimales usando **Precision**

In [72]:
pd.set_option("display.precision",1) # El segundo numero es para ver cuantos decimales se sacan

In [71]:
peso.describe()

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
count,4.0,4.0,4.0,4.0
mean,66.5,88.2,60.2,67.5
std,1.3,2.2,1.3,2.1
min,65.0,85.0,59.0,65.0
25%,65.8,88.0,59.8,66.5
50%,66.5,89.0,60.0,67.5
75%,67.2,89.2,60.5,68.5
max,68.0,90.0,62.0,70.0


Y también se pueden aplicar los metodos de estadistica descriptiva individuales como mean

In [76]:
peso.mean() # media por pesona creo

Vanesa      66.5
Kevin       88.2
Fernanda    60.2
Patricia    67.5
dtype: float64

##### Transponer

Si quisieramos voltear el dataframe, tendríamos que hacer el método T

In [74]:
peso.T # la t viene de transpose, no se esta guardando en ningun lado, como tal es solo una vista para el programador

Unnamed: 0,Mes 1,Mes 2,Mes 3,Mes 4
Vanesa,68,67,66,65
Kevin,89,89,90,85
Fernanda,59,60,60,62
Patricia,70,68,67,65


Y ahora eso nos ayudaría a sacar los estadísticos para los meses en vez de para las personas

In [78]:
peso.T.mean() # media por mes crep

Mes 1    71.5
Mes 2    71.0
Mes 3    70.8
Mes 4    69.2
dtype: float64

Y el peso promedio por mes de nuestra gente

In [79]:
peso.T.describe()

Unnamed: 0,Mes 1,Mes 2,Mes 3,Mes 4
count,4.0,4.0,4.0,4.0
mean,71.5,71.0,70.8,69.2
std,12.6,12.5,13.2,10.6
min,59.0,60.0,60.0,62.0
25%,65.8,65.2,64.5,64.2
50%,69.0,67.5,66.5,65.0
75%,74.8,73.2,72.8,70.0
max,89.0,89.0,90.0,85.0


##### Ordenar el Dataframe

Ahora vamos a arreglar el dataframe por fila, con los indices en orden descendente

In [80]:
peso.sort_index(ascending=False)

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
Mes 4,65,85,62,65
Mes 3,66,90,60,67
Mes 2,67,89,60,68
Mes 1,68,89,59,70


Las columnas en orden ascendente

In [83]:
peso.sort_index(axis=1)

Unnamed: 0,Fernanda,Kevin,Patricia,Vanesa
Mes 1,59,89,70,68
Mes 2,60,89,68,67
Mes 3,60,90,67,66
Mes 4,62,85,65,65


In [86]:
peso.sort_index(axis=0) # para hacer lo mismo pero con filas

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
Mes 1,68,89,59,70
Mes 2,67,89,60,68
Mes 3,66,90,60,67
Mes 4,65,85,62,65


Y también se vale ordenar los valores según una fila o columna especifica.  El siguiente código ordena de forma descendente los datos del DataFrame con respecto
a los valores del Mes 1.

In [97]:
peso.loc["Mes 1"].sort_index(ascending=False) #esta ordenando indices, les esta dando la vuelta al ser descendente

Vanesa      68
Patricia    70
Kevin       89
Fernanda    59
Name: Mes 1, dtype: int64