# Funciones principales de numpy

### np.max( )
Sirve para encontrar el valor más grande presente en el array. también podría expresarse como: `array.max()`  

podría tener como parámetro especificando si la búsqueda se hará por:
* **filas (0)**
* **columnas (1)**


### np.argmax( )
Sirve para ubicar el mayor valor por su número de índice en el array. No muestra el valor en cuestión sino su ubicación.
si colocamos como argumento en la función `np.argmax(array, 0)`: 
* estamos ubicando la posición de índice del mayor **valor en columnas**

Si colocamos como argumento en la función `np.argmax(array, 1)`:
* estamos ubicando la posicíon de índice del mayor **valor en filas**



In [1]:
import numpy as np

In [2]:
array = np.random.randint(0,10, (2,3))
print(f' array: \n {array} \nshape: {array.shape}')

 array: 
 [[2 6 9]
 [1 1 3]] 
shape: (2, 3)


In [3]:
array_max = array.max()  # ver el máximo valor del array
max_rows = array.max(1) #ver el máximo valor en cada fila
max_cols = array.max(0) #ver el máximo valor en cada columna

print(f' el máximo valor:\n ')
print(f' de todo el array: {array_max} \n de cada fila:    {max_rows} \n de cada columna: {max_cols}')

 el máximo valor:
 
 de todo el array: 9 
 de cada fila:    [9 3] 
 de cada columna: [2 6 9]


In [4]:
index_max = np.argmax(array)
in_max_rows = array.argmax(1)    # uvicación del máximo valor en cada fila 
in_max_cols = np.argmax(array, 0) # ubicación del máximo valor en cada columna


print(array, "\n Índices de los valores más grandes:")
print(f' en todo el array: {index_max}\n en cada fila: {in_max_rows}\
      \n en cada columna: {in_max_cols}')


[[2 6 9]
 [1 1 3]] 
 Índices de los valores más grandes:
 en todo el array: 2
 en cada fila: [2 2]      
 en cada columna: [0 0 0]


### np.min y np.argmin
usamos estas funciones para encontrar el valor míninmo de un array, siendo:
* El valor más chico: `np.min()` *0 = columnas* y *1 = filas*
* La ubicación del índice del valor más chico: `np.argmin()` *0 = columnas* y *1 = filas*

El comportamiento de ambas funciones es igual al de `np.max()` y `np.argmax()` pero con los valore mínimos

### np.unique()
Esta función elimina todos los elementos que estén repetidos dentro de un array, dejando solo uno por cada valor.

In [5]:
array = np.random.randint(1,10,(3,3))

print(f' matriz: \n{array} \n sacamos los valores repetidos: {np.unique(array)}')

 matriz: 
[[7 4 7]
 [7 7 7]
 [2 8 9]] 
 sacamos los valores repetidos: [2 4 7 8 9]


# Análisis estadístico
Las funciones para análisis estadístico que contiene numpy son las siguientes:

### sort( )
 `sort()` función para ordenar elementos de un array (el más chico al más grande)

 * así: `arr = np.array([4, 9, 2, 0, 6])` $\rightarrow$ `arr.sort()` $\rightarrow$ [0, 2, 4, 6, 9]

 * para ordenar los elementos del más chico al más grande sería: 
  * `np.sort(arr)[::-1]`$\rightarrow$ [9, 6, 4, 2, 0]

Es posible colocar como argumento el tipo de algoritmo de ordenamiento que se estará usando para ordenar:
* `kind = 'mergesort'`: funciona bien en array's grandes su rendimiento es `O(n * log n)`
* `kind = 'quicksort'`: predeterminado, es rápido. En el mejor de los casos funciona como `O(n^2)`, su rendimiento promedio es de `O(n * log n)`
* `kind = 'heapsort'` : funciona bien en array's pequeños 
* `kind = 'stable'`: se usa para indicar que los elementos con valores iguales mantengan su orden relativo después de ordenar 
* `kind = 'introselect'` : algoritmo de selección introductoria que funciona combinando los algoritmos de selección y los de partición rápida 

### algoritmos Big O notation: O(n log n)
O(n log n): significa que el tiempo de ejecución del algoritmo aumenta proporcionalmente a n multiplicado por el logaritmo de n

* un ejemplo es el `mergesort`: Si tenemos una lista de n elementos, el merge sort dividirá recursivamente la lista en sublistas más pequeñas hasta que cada sublista contenga un solo elemento, y luego las fusionará en orden ascendente

* este algoritmo esmás eficiente que el Big O($n^2$)

### ordenamiendo: Algoritmos de sección  partición rápida

**de selección**/  **mergesort**: Es un algoritmo que busca el elemento más pequeño y lo va colocando hasta el principio del array, después sigue con el siguiente hasta intercambiar todos los lugares actuales con los valores ordenados 
* su Big O notation es de O($n^2$) 

**de partición rápida** / **quicksort**:  Es un algoritmo recursivo que selecciona un elemento "pivote" y reorganiza los elementos de una "sublista" de manera en la que los elementos más pequeños que el "pivote" queden a su izquierda y los más grandes a la derecha
* se aplica este proceso hasta que todos los valores estén ordenados


#### Diferencias entre mergesort y quicksort
La principal es que el *quicksort* es más eficiente que el *mergesort* ya que tiene complejidad mucho menor
* es el que suele utilizarse en software's modernos y se considera uno de los algoritmos más eficientes

In [6]:
arr = np.array([4, 9, 2, 0, 6])
arr_sorted = np.sort(arr)[: : -1]
arr_sorted

array([9, 6, 4, 2, 0])

In [7]:
# implementando un quicksort con numpy
quicksort = array.sort(kind = "quicksort")

# implementando un mergesort con numpy
mergesort = array.sort(kind = "mergesort")

### np.ptp( )
Esta función nos permite saber cuál es la diferencia en cuanto a sus valores entre el más grande y el más chico.
* esto nos puede ayudar a observar de qué manera están distribuidos los valores dentro del array

teniendo un array con un máximo de 76 y un mínimo de 20, el `np.ptp()` sería 56: $\space76-20=56$


In [8]:
a = np.array(np.random.randint(20,77, (100,50)))
a.ptp()

print( f' valor max: {a.max()} mínimo: {a.min()} ptp: {a.ptp()}')

 valor max: 76 mínimo: 20 ptp: 56


### np.percentile( )

Usamos esta función para calcular el valor posicionado en un percentil especificado en los argumentos
* `np.percentile(arr, 50)` para ubicar el valor ubicado en el percentil 50

* los percentiles más comunes usados en estadística son los: $0, 25, 50, 75$ (cuartiles)

In [9]:
np.percentile(array, 50)

7.0

#### Otros estadísticos:

* **np.median( )**: Usamos esta función para calcular la mediana de un array 
  * La mediana es equivalente al *percentil 50*
* **np.mean( )**: Calcular el promedio
* **np.str( )**: Calcular la desviación estándar
* **np.var( )**: calcular la varianza
  * Es equivalente a la desviación estándar al cuadrado

In [10]:
array= np.sort(array, kind= 'quicksort')

median = round(np.median(array), 3)
mean = round(np.mean(array),3)
standar_deviation = round(np.std(array),3)
variance = round(np.var(array),3)

print(f' {array}\n a partir de esta matriz ordenada, calculamos los estadísticos:')
print(f' mediana: {median} promedio: {mean} \n desviación estándar: {standar_deviation}',
        f'varianza: {variance}')


 [[4 7 7]
 [7 7 7]
 [2 8 9]]
 a partir de esta matriz ordenada, calculamos los estadísticos:
 mediana: 7.0 promedio: 6.444 
 desviación estándar: 2.006 varianza: 4.025


### conviertiendo una matriz a un vector 

In [13]:
vector = array.reshape(1,9).squeeze()

### np.concatenate( )
Sirve para concatenar arrays. Estos deberían tener la misma cantidad de dimensiones para poder concatenarse
* tiene como argumentos:
  * una tupla con los array a concatenar
  * `axis = 0` especificar en qué eje se van a concatenar (0 es por filas, 1 por columnas)

In [14]:
a = np.array([[1,2],[3,4]])
b = np.array([5,6])

#agregamos una dimención a "b" para que tengan las mismas dimensiones
b = np.expand_dims(b, axis = 0) # por filas 

# concatenar por filas
concat_rows = np.concatenate((a,b), axis = 0)
print(f' concatenamos por filas: \n{concat_rows}')

 concatenamos por filas: 
[[1 2]
 [3 4]
 [5 6]]


In [15]:
a = np.array([[1,2],[3,4]])
b = np.array([5,6], ndmin=2).T #transponemos para poder concatenar por columnas

# concatenar por columnas
concat_cols = np.concatenate((a,b), axis = 1)
print(f'concatenamos por columnas:\n {concat_cols}')

concatenamos por columnas:
 [[1 2 5]
 [3 4 6]]


## El siguiente es un ejercicio para importar scripts desde un pyfile (ignorar)

In [16]:
import sys 
import os
sys.path


['/Users/holamauricios/Documents/python_practice/pandas_numpy/notebooks/numpy',
 '/Users/holamauricios/anaconda3/envs/python_projects/lib/python39.zip',
 '/Users/holamauricios/anaconda3/envs/python_projects/lib/python3.9',
 '/Users/holamauricios/anaconda3/envs/python_projects/lib/python3.9/lib-dynload',
 '',
 '/Users/holamauricios/anaconda3/envs/python_projects/lib/python3.9/site-packages']

In [17]:
CURRENT_DIR = os.getcwd()
#enlace a la carpeta deseada
SCRIPT_DIR =  os.path.join(CURRENT_DIR,"..", os.pardir, "utils")

In [18]:
SCRIPT_DIR

'/Users/holamauricios/Documents/python_practice/pandas_numpy/notebooks/numpy/../../utils'

In [None]:
#verificando el contenido de la carpeta "utils"
[os.path.join(SCRIPT_DIR, item) for item in os.listdir(SCRIPT_DIR)]

['/Users/holamauricios/Documents/python_practice/pandas_numpy/notebooks/numpy/../../utils/__pycache__',
 '/Users/holamauricios/Documents/python_practice/pandas_numpy/notebooks/numpy/../../utils/utils.py']

In [19]:
sys.path.insert(0,SCRIPT_DIR)

In [20]:
import utils

In [21]:
promedio = utils.func(array)
promedio

6.444444444444445