<a href="https://colab.research.google.com/github/l19060741/Curso-Phyton/blob/main/Anahi_Gonzalez_4_Operaciones_con_arreglos_Numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lento o rápido

El cómputo en las operaciones con Numpy puede ser lento o rápido. La clave esta en el uso de operaciones vectorizadas, implementadas con las funciones universales de Numpy.

In [None]:
# Importar la biblioteca
import numpy as np
np.random.seed(0)

In [None]:
#Función que divide 1 sobre cada valor de un arreglo
def divide_uno_sobre_elementos(arreglo):
    salida = np.zeros(len(arreglo))
    for i in range(len(arreglo)):
        salida[i] = 1/arreglo[i]
    return salida

In [None]:
#Definimos un arreglo con valores enteros aleatorios
arreglo = np.random.randint(1,10,size=5)

#Probamos la función definida
divide_uno_sobre_elementos(arreglo)

array([0.16666667, 1.        , 0.25      , 0.25      , 0.125     ])

In [None]:
#Definimos otro arreglo con una mayor cantidad de elementos
arreglo = np.random.randint(1,10,size=1000000)

#Ahora contabilizamos la duración de la ejecución de la función
%timeit divide_uno_sobre_elementos(arreglo)

318 ms ± 10.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [None]:
#Usamos una forma alternativa, aprovechando la vectorización de Numpy
%timeit 1.0/arreglo    #<-- Esta operación es elemento por elemento

2.57 ms ± 65.1 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


# Operaciones básicas

Numpy tiene operaciones básicas implementadas de forma eficiente:

- (suma) +   
- (resta) -   
- (multiplicación) *   
- (división) /   
- (entero de la división ) //  
- (módulo) %   
- (elevar a una potencia) **  

In [None]:
#Generamos dos arreglos
x = np.arange(1,5)
y = np.random.randint(1,4,size=4)
print(x)
print(y)

[1 2 3 4]
[3 1 2 1]


In [None]:
# Sumar dos arreglos
x+y

array([4, 3, 5, 5])

In [None]:
# Restar dos arreglos
x-y

In [None]:
# Multiplicar dos arreglos (de forma no matricial)
x*y

In [None]:
# Dividir dos arreglos (elemento por elemento)
x/y

In [None]:
# Obtener los enteros de la división de dos arreglos (elemento por elemento)
x//y

In [None]:
# Elevar al cuadrado elemento por elemento del arreglo
x**2

In [None]:
# Obtener el módulo de cada elemento
x%2

array([1, 0, 1, 0])

In [None]:
# Hacer varias operaciones 
(-0.5*x+1)**2

In [None]:
# Otra forma de escribir estas operaciones
# +
#np.add
np.add(x,y)

### Tabla con nombres de funciones
- np.add(suma) +   
- np.subtract (resta) -   
- np.multiply (multiplicación) *   
- np.divide (división) /   
- np.floor_divide (entero de la división ) //  
- np.mod (módulo) %   
- np.power (elevar a una potencia) **  
- np.negative

### Más funciones

- np.abs()
- np.sin()
- np.cos()
- np.tan()
- np.ln()
- np.log2()
- np.log10()
- np.exp()

# Agregaciones

En algunas ocasiones tenemos que lidear con una cantidad grande de datos, y en esos casos el primer paso es obtener un resumen de estadísticos de los datos en cuestión. Los más populares son la media y la desviación estándar, que permiten resumir el comportamiento típico del conjunto de datos, pero existen otras agregaciones que también son útiles:

- suma
- producto
- mediana
- mínimo
- máximo
- cuantiles
- etc

In [None]:
#Suma en una dimensión
arr = np.random.random(100)
np.sum(arr)

In [None]:
# Obtener el máximo de un arreglo
np.max(arr)

In [None]:
# Obtener el mínimo de un arreglo
np.min(arr)

### Agregaciones en arreglos multidimensionales


In [None]:
# Creamos un arreglo multidimensional
mat = np.random.random((3,4))
print(mat)

[[0.345151   0.23346074 0.38064999 0.80351516]
 [0.44480604 0.66925971 0.63053011 0.65843811]
 [0.24503895 0.27820458 0.44202878 0.579177  ]]


In [None]:
# Obtenemos la suma de todos los elementos de la matriz
np.sum(mat)

5.710260166903916

In [None]:
# Obtenemos la suma de todos los elementos por cada columnas
np.sum(mat,axis=0)

array([1.03499599, 1.18092503, 1.45320888, 2.04113027])

In [None]:
# Obtenemos la suma de todos los elementos por cada renglón
np.sum(mat,axis=1)

array([1.76277689, 2.40303397, 1.54444931])

In [None]:
# Obtenemos la suma de todos los elementos considerando el último eje
np.sum(mat,axis=-1)

array([1.76277689, 2.40303397, 1.54444931])

In [None]:
# Definimos un arreglo con más dimensiones
np.random.seed(0)
arr3D= np.random.randint(0,5,size=(4,3,5))
print(arr3D)

[[[4 0 3 3 3]
  [1 3 2 4 0]
  [0 4 2 1 0]]

 [[1 1 0 1 4]
  [3 0 3 0 2]
  [3 0 1 3 3]]

 [[3 0 1 1 1]
  [0 2 4 3 3]
  [2 4 2 0 0]]

 [[4 0 4 1 4]
  [1 2 2 0 1]
  [1 1 1 3 3]]]


In [None]:
np.sum(arr3D,axis=-1)

array([[13, 10,  7],
       [ 7,  8, 10],
       [ 6, 12,  8],
       [13,  6,  9]])

### Poner tabla con funciones para hacer agregaciones

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


| Nombre de función | Versión segura por NAN | Descripción |
| --- | --- | --- |
| np.sum | np.nansum  | Suma de elementos|
| np.prod | np.nanprod  | Producto de elementos|
| np.mean | np.nanmean  | Media de elementos|
| np.std  | np.nanstd  | Desviación estándar|
| np.var | np.nanvar  | Varianza|
| np.min | np.nanmin  | Valor mínimo|
| np.max | np.namax  | Valor máximo|
| np.argmin | np.nanargmin  | Índice de valor mínimo|
| np.argmax | np.nanargmax  | Índice de valor mÁnimo|
| np.median | np.nanmedian  |Mediana de elementos|
| np.percentile | np.nanpercentile  | Percentiles|
| np.any |  | Valor mínimo|
| np.all |   | Valor mínimo|

# Pequeño ejercicio

In [None]:
#Leer datos de un archivo csv
from numpy import genfromtxt
my_data = genfromtxt('/content/drive/MyDrive/Classroom/Aprendizaje Automático con Python/Anahi Gonzalez - president_heights.csv', delimiter=',')

In [None]:
#Conocer la forma de los datos
my_data.shape

(43, 3)

In [None]:
# Ver los datos
my_data

array([[ nan,  nan,  nan],
       [  1.,  nan, 189.],
       [  2.,  nan, 170.],
       [  3.,  nan, 189.],
       [  4.,  nan, 163.],
       [  5.,  nan, 183.],
       [  6.,  nan, 171.],
       [  7.,  nan, 185.],
       [  8.,  nan, 168.],
       [  9.,  nan, 173.],
       [ 10.,  nan, 183.],
       [ 11.,  nan, 173.],
       [ 12.,  nan, 173.],
       [ 13.,  nan, 175.],
       [ 14.,  nan, 178.],
       [ 15.,  nan, 183.],
       [ 16.,  nan, 193.],
       [ 17.,  nan, 178.],
       [ 18.,  nan, 173.],
       [ 19.,  nan, 174.],
       [ 20.,  nan, 183.],
       [ 21.,  nan, 183.],
       [ 23.,  nan, 168.],
       [ 25.,  nan, 170.],
       [ 26.,  nan, 178.],
       [ 27.,  nan, 182.],
       [ 28.,  nan, 180.],
       [ 29.,  nan, 183.],
       [ 30.,  nan, 178.],
       [ 31.,  nan, 182.],
       [ 32.,  nan, 188.],
       [ 33.,  nan, 175.],
       [ 34.,  nan, 179.],
       [ 35.,  nan, 183.],
       [ 36.,  nan, 193.],
       [ 37.,  nan, 182.],
       [ 38.,  nan, 183.],
 

In [None]:
# Leer los datos de otra forma
import pandas as pd
my_data = pd.read_csv('/content/drive/MyDrive/Classroom/Aprendizaje Automático con Python/Anahi Gonzalez - president_heights.csv')

In [None]:
# Ver los datos
my_data

Unnamed: 0,order,name,height(cm)
0,1,George Washington,189
1,2,John Adams,170
2,3,Thomas Jefferson,189
3,4,James Madison,163
4,5,James Monroe,183
5,6,John Quincy Adams,171
6,7,Andrew Jackson,185
7,8,Martin Van Buren,168
8,9,William Henry Harrison,173
9,10,John Tyler,183


In [None]:
# Asignar como arreglo Numpy
alturas = np.array(my_data['height(cm)'])
print(alturas)

[189 170 189 163 183 171 185 168 173 183 173 173 175 178 183 193 178 173
 174 183 183 168 170 178 182 180 183 178 182 188 175 179 183 193 182 183
 177 185 188 188 182 185]


In [None]:
# Describir el conjunto de datos
print("Altura media: ",alturas.mean())
print("Desviación estándar: ",alturas.std())
print("Altura mínima: ",alturas.min())
print("Altura máxima: ",alturas.max())

Altura media:  179.73809523809524
Desviación estándar:  6.931843442745892
Altura mínima:  163
Altura máxima:  193
