<a href="https://colab.research.google.com/github/DiegoSReco/intro_python_para_economistas/blob/main/script_python_4_numerical_python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **4. Introducción a `numpy`**

`Numpy` (o *Numerical Python*) es uno de los modulos más importantes en Python, ya que muchos otros sistemas o modulos utilizan  arreglos de N-dimensiones  (`ndarray`) los cuales son la estrcutura de datos proncipal en este paquete. Además, este tipo de estrucutras son la base para casi todos los ecosistemas de computación científica en Python como son los modulos de procesamiento de datos, áljebra lineal, modelos estadísticos, machine learning y deep learning.


## **4.1 Arreglos en `numpy`**

Los arreglos son estructuras de datos conformadas por una o multiples listas con valores homogéneos que permiten realizar operaciones matemáticas y estadísticas eficientemente.

Para definir un arreglo debemos tener importar el modulo numpy de la siguiente forma:

In [None]:
import numpy as np

El modulo`numpy` se define con la palabra clave `np`.

**Sintáxis**

Para definir un arregalo utilizaremos la función `array()` con la palabra clave :
```Python
np.array(lista)
```

Lo anterior de define como arreglo de una , pero se puede tener tener arreglos de dos dimensiones:

```Python
np.array([lista_1, lista_2, lista_3,...,lista_n])
```

Los arreglos de dos dimensiones se consideran **matrices** y son gran utilidad para la construcción de modelos estadísticos que utilicen vectores y matrices para su construcción

Ejemplos de definición de arreglos:

* Arreglo de una dimensión

In [None]:
#Definir arreglo
array_1 = np.array( [100, 404, 404, 55, 44, 55, 150, 700, 1000, 38])
#Imprimir
print(array_1, type(array_1))

[ 100  404  404   55   44   55  150  700 1000   38] <class 'numpy.ndarray'>


* Arreglo de dos dimensiones

In [None]:
#Crear arreglo
array_2 = np.array([ [3,4,4] ,
                     [4,10,32],
                     [24,33,43] ])

print(array_2)

[[ 3  4  4]
 [ 4 10 32]
 [24 33 43]]


Una de las características más importante de los arreglos es que sólo recibe **valores homogéneos** en las listas, y si no son homogéneos los transforma. Por ejemplo.

In [None]:
#Crear arreglo
array_3 = np.array([ [True,False, True] ,
                     [4,10,32],
                     [24,33,43] ])


print(array_3)

[[ 1  0  1]
 [ 4 10 32]
 [24 33 43]]


### **4.1.1 Creación y manejo de arreglos**

### **4.1.1.1 Creación de arreglos**
En `numpy` existen una serie de funciones para crear arreglos que contengan ceros, unos, números generados de forma aleatoria, muestras a partir de distribuciones de probabilidad discretas y continuas, etc.

1. Para crear arreglos con zeros se utiliza la función `np.zeros(shape)` , en donde el argumento será el tamaño del arreglo de ceros de una dimensión:


In [None]:
#Crear arreglos de ceros 1D
array_ceros_1d = np.zeros(5)

print(array_ceros_1d)

[0. 0. 0. 0. 0.]


  * Para crear una matriz o arreglo de dos dimensiones:

In [None]:
#Crear arreglos de ceros de 2D
array_ceros_2d = np.zeros((5,5))

print(array_ceros_2d)

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


2. Para crear arreglos con el número uno se utiliza la función `np.ones(shape)` con la misma sintáxis que en la de los ceros:


In [None]:
#Crear arreglos de unos 1D
array_unos_1d = np.ones(5)

print(array_unos_1d)

#Crear arreglos de ceros de 2D
array_unos_2d = np.ones((5,5))

print(array_unos_2d)

[1. 1. 1. 1. 1.]
[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


3. Creación de arreglos de números aleatorios:

   La sintáxis será la siguiente:

   ```Python  
   np.random.randint(inicio, final, tamaño)
   ```



In [None]:
#Definir arreglo 1D
array_random_1D = np.random.randint(0, 10, 5)
#Resultado
print( f"Arreglo de una dimensión:\n {array_random_1D}" )

#Definir arreglo 2D
array_random_2D = np.random.randint(0, 10, (5,5))
#Resultado
print( f"Arreglo de dos dimensiones o matriz:\n {array_random_2D}" )

Arreglo de una dimensión:
 [0 9 2 4 2]
Arreglo de dos dimensiones o matriz:
 [[9 9 5 2 2]
 [8 0 0 4 1]
 [7 5 3 4 4]
 [4 4 1 3 5]
 [6 2 2 6 3]]


3. Creación de un arreglo con muestra de variables alteorias a partir de una distribución binomial:

   La sintáxis será la siguiente:

   ```Python  
   random.binomial(n, p, size=None)
   ```
   Donde:

   `n`: Número de ensayos por experimento.

   `p`: Probabilidad de éxito en cada ensayo.

   `tamaño`: Número de experimentos independientes que se realizarán.


In [None]:
#Creación de arreglo
array_binom_1d = np.random.binomial(10, .5, size= 4)
#Imprimir resultado
print( f"Arreglo de una dimensión :\n {array_binom_1d}" )

#Creación de arreglo
array_binom_2d = np.random.binomial(10, .5, size= (4,5))
#Imprimir resultado

print( f"Arreglo de dos dimensiones :\n {array_binom_2d}" )

Arreglo de una dimensión :
 [3 8 5 4]
Arreglo de dos dimensiones :
 [[7 6 3 7 5]
 [5 2 7 5 5]
 [8 3 4 6 6]
 [4 6 6 7 7]]


Numpy ofrece una gran cantidad de funciones para crear muestreos de variables a aleatorias a partir de cierta distribución de probabilidad (las veremos más adelante). Para consultar todas las funciones disponibles:   [NumPy](https://numpy.org/)

### **4.1.1.2 Manejo de arreglos**

Como mencionamos, los arreglos en numpy se crean a  partir de listas por lo que heredan las caráterísticas de **mutabilidad**. En otras palabras, podemos acceder, sustituir, agregar y eliminar elementos de un arreglo en numpy.

**Tamaño del arreglo y dimensión**

Para saber el tamaño (número de elementos) y las dimensiones que tiene los arreglos con los que trabajamos se utilizan una serie de funciones de de base así como del modulo numpy.

* Las funciones `size` y  `np.size()` muestran el número de elementos independientemente si trabajamos con arreglos de una o más dimensiones.

  Ejemplo:


In [None]:
#Tamaño del arreglo
print(array_binom_1d.size)

#Tamaño del arreglo
print(np.size(array_binom_2d))

4
20


* La función `shape` regresa una tupla que indica la dimensión del arreglo.
   
   Ejemplo:

In [None]:
#Tamaño del arreglo
print(array_binom_1d.shape)

#Tamaño del arreglo
print(array_binom_2d.shape)

(4,)
(4, 5)


**Acceso a elementos**

Para acceder a los elementos de un arreglo usamos la misma sintáxis que en las lista. Especificamente, se utilizan los corchetes cuadrados:


* Arreglo de una dimensión

   ```Python
   array_1d[posición]
   
   ```

* Para el arreglo de dos dimensiones (matriz) se utiliza la posición fila, columna para extraer el elemento de interes

   ```Python
   matriz[posición_fila, posición_col]
   
   ```
  Ejemplo:

In [None]:
#Acceder primer valor de arrelo de una dimensión
print(array_binom_1d[0])
#Acceder primer elemento de una matriz
print(array_binom_2d[0,0])

3
7


Para acceder a multiples elementos, al igual que en las listas, se utilizan `:` con los cuales definiremos el rango de elementos a lque queremos acceder.

* Arreglo de una dimensión

   ```Python

   array_1d[posición_inicial : posición_final ]
   
   ```

* Para el arreglo de dos dimensiones (matriz) se utiliza la posición fila, columna para extraer el elemento de interes

   ```Python
   matriz[posición_fila_inicial : posición_fila_final , posición_col_inicial :posición_col_final ]
   
   ```

   Ejemplo:

In [None]:
#Acceder a primeros dos valores
print(array_binom_1d[0:2])

#Acceder a primeras dos filas completas
print(array_binom_2d[0:2, 0:])

[3 8]
[[7 6 3 7 5]
 [5 2 7 5 5]]


In [None]:
#Otra forma de acceder a arreglos es por listas anidadas
array_binom_2d[[0,1], :]

array([[7, 6, 3, 7, 5],
       [5, 2, 7, 5, 5]], dtype=int32)

**Sustitución de elementos**

Dado que un arreglo es mutable podemos reemplazar sus elementos  a partir de la selección de un elemento o un rango de elementos y asignando nuevos valores con el signo =.

**Sintáxis**

```Python
   array[elemento] = [elemento_nuevo]
   ```
Ejemplo:

In [None]:
print("Seguimos con el arreglo de muestreo de una distribución binomial", array_binom_1d)
#Remplazar valor 1 con un 4
array_binom_1d[0] = 4
print(array_binom_1d)

Seguimos con el arreglo de muestreo de una distribución binomial [3 8 5 4]
[4 8 5 4]


In [None]:
print("Seguimos con el arreglo de muestreo de una distribución binomial \n",  array_binom_2d)

#Reemplazar fila dos por 1
array_binom_2d[1,:] = 1
#array_binom_2d[1,:] = [1,1,1,1,1]
print(array_binom_2d)


Seguimos con el arreglo de muestreo de una distribución binomial 
 [[7 6 3 7 5]
 [5 2 7 5 5]
 [8 3 4 6 6]
 [4 6 6 7 7]]
[[7 6 3 7 5]
 [1 1 1 1 1]
 [8 3 4 6 6]
 [4 6 6 7 7]]


In [None]:
#Reemplazar todo con 0
array_binom_2d[:] = 0
print(array_binom_2d)

[[0 0 0 0 0]
 [0 0 0 0 0]
 [0 0 0 0 0]
 [0 0 0 0 0]]


**Agregar elementos**

Para agregar elementos nuevos a un arreglo se utiliza la función `np.append()` es la versión numpy de la que utilizamos con las listas (`append()`).

**Sintáxis**
```Python
   array_new = np.append(array_old, valor_nuevo)
   ```
Ejemplo:

In [None]:
print("Seguimos con el arreglo de muestreo de una distribución binomial", array_binom_1d)
#Agregar un valor 0 al arreglo
array_binom_1d = np.append(array_binom_1d,0)
print(array_binom_1d)

Seguimos con el arreglo de muestreo de una distribución binomial [4 4 6 5]
[4 4 6 5 0]


* Para agregar en una posición específica se utiliza la función `np.insert()` de la siguiente forma:

In [None]:
#Agregar un valor 0  en la primera posición
array_binom_1d = np.insert(array_binom_1d,0,0 )
print(array_binom_1d)

[0 4 4 6 5 0]


Para los arreglos de dos dimensiones o matrices la sintáxis es diferente, ya que podemos agregar filas o columnas completas:

* Columnas
  
   Para las columnas se utiliza la función append con la siguiente sitnáxis:
    ```Python
    matriz_new = np.append(matriz_old, col_new, axis=1)
    ```


In [None]:
#Agregar el siguiente arreglo como columna
array_col = np.array([[1], [1], [1], [1]])

#Agregamos arreglo como columna
array_binom_2d  =  np.append(array_binom_2d, array_col , axis = 1)

#Imrpimir resultado
print(array_binom_2d)

[[0 0 0 0 0 1]
 [0 0 0 0 0 1]
 [0 0 0 0 0 1]
 [0 0 0 0 0 1]]


* Filas

   Para agregar toda una fila a una matriz utilizaremos la función  `np.vstack()` con la siguiente sintáxis:
    ```Python
    matriz_new = np.vstack([ matriz_old, row_new])
    ```

In [None]:
#Agregar el siguiente arreglo como fila
array_row = np.array([1,1,1,1,1,1])

#Agregamos arreglo como columna
array_binom_2d  =  np.vstack([array_binom_2d,array_row])

#Imrpimir resultado
print(array_binom_2d)

[[0 0 0 0 0 1]
 [0 0 0 0 0 1]
 [0 0 0 0 0 1]
 [0 0 0 0 0 1]
 [1 1 1 1 1 1]]


**Eliminar elementos de un arreglo**

Para eliminar elementos de un arreglo se utiliza la función `np.delete()` de la siguiente forma:

**Sintáxis**

* Eliminar un elemento
  ```Python
    array_new = np.delete(array_old,(posición_elemento))
  ```

* Eliminar más de un elemento
  ```Python
    array_new = np.delete(array_old, [posición_0,..., posición_n])
   ```
Ejemplo:

Eliminar ultimo elemento:

In [None]:
#Eliminar último
array_binom_n =  np.delete(array_binom_1d, (-1))
print(array_binom_1d,"\n", array_binom_n)

#Eliminar los dos primeros
array_binom_n1 =  np.delete(array_binom_n, [0,1])
print(array_binom_n,"\n", array_binom_n1)


[4 8 5 4] 
 [4 8 5]
[4 8 5] 
 [5]


Cuando tenemos un matriz podemos eliminar filas o columnas con la siguiente sintáxis:


* Eliminar columna

  ```Python
    matriz_new = np.delete( matriz_old ,(posición_fila), axis=1 )
  ```

* Eliminar filas
  ```Python
    matriz_new = np.delete( matriz_old ,(posición_fila), axis=0 )
   ```


>Nota: Cuando trabajamos con estructura de datos de dos dimensiones como arreglos o data frames el `axis = 1` siempre se usa para indicar que la función se aplicará a las columnas. mientras que `axis = 0` se utilizá para trabajar en las filas.

  

Ejemplo:

* Eliminar última columna

In [None]:
#Eliminar última columna
matriz_n =  np.delete(array_binom_2d, (-1), axis=1)

print(array_binom_2d, 2*"\n", matriz_n)


[[0 0 0 0 0 1]
 [0 0 0 0 0 1]
 [0 0 0 0 0 1]
 [0 0 0 0 0 1]
 [1 1 1 1 1 1]] 

 [[0 0 0 0 0]
 [0 0 0 0 0]
 [0 0 0 0 0]
 [0 0 0 0 0]
 [1 1 1 1 1]]


* Eliminar primera fila

In [None]:
#Eliminar primera fila
matriz_n1 =  np.delete(array_binom_2d, (0), axis=1)

print(array_binom_2d,2*"\n", matriz_n1)

[[0 0 0 0 0 1]
 [0 0 0 0 0 1]
 [0 0 0 0 0 1]
 [0 0 0 0 0 1]
 [1 1 1 1 1 1]] 

 [[0 0 0 0 1]
 [0 0 0 0 1]
 [0 0 0 0 1]
 [0 0 0 0 1]
 [1 1 1 1 1]]


**Ordenar arreglos**

El ordenamiento es otro de los cambios aplicables a los arreglos. Para ello se utiliza la función `np.sort()` de la siguiente forma:

* Arreglo de una dimensión:

  ```Python
  np.sort(array)
  ```

In [None]:
#Ordenar arreglo
array_sort = np.sort(array_binom_1d)

print(array_sort)

[4 4 5 8]


In [None]:
#Ordenar descendente
array_sort_desc = np.sort(array_binom_1d)[::-1]

print(array_sort_desc)

[8 5 4 4]


Para arreglos de dos dimensiones:

* Se utiliza para ordenar por columna
  ```Python
  matriz_sort = np.sort(matriz_old, axis = 0)
  ```

* Se utiliza para ordenar por fila
  ```Python
  matriz_sort = np.sort(matriz_old axis = 1)
  ```

In [None]:
#Definimos  matriz
matriz_binom  = np.random.binomial(10, .5, size= (4,5))

#Matriz ordenada
matriz_sort = np.sort(matriz_binom, axis = 0)

print(matriz_binom, 2*"\n", matriz_sort)


[[6 5 3 5 7]
 [4 4 4 7 5]
 [6 2 5 5 7]
 [4 4 7 7 6]] 

 [[4 2 3 5 5]
 [4 4 4 5 6]
 [6 4 5 7 7]
 [6 5 7 7 7]]


### **4.1.2 Funciones matemáticas y estadísticas para arreglos**

Las funciones matemáticas y estadísticas para arreglos en Python son herramientas fundamentales que nos permiten realizar cálculos y análisis sobre conjuntos de datos de manera eficiente. Python, especialmente a través de bibliotecas como NumPy, proporciona una amplia gama de funciones predefinidas que simplifican el procesamiento de datos numéricos en arreglos.

Estas funciones son especialmente útiles cuando trabajamos con grandes conjuntos de datos, ya que están optimizadas para operar sobre arreglos completos sin necesidad de escribir bucles explícitos. Esto no solo hace que nuestro código sea más limpio y legible, sino que también mejora significativamente el rendimiento de nuestras aplicaciones.

Entre las operaciones más comunes que podemos realizar encontramos:

* Cálculos básicos como suma, resta, multiplicación y división de arreglos
* Funciones estadísticas como media, mediana, moda y desviación estándar
* Operaciones de agregación y reducción
* Transformaciones matemáticas como exponenciales, logaritmos y funciones trigonométricas



#### **4.1.2.1 Operaciones básicas entre arreglos**

Numpy ofrece una amplía variedad de funciones que realizan operaciones matemáticas aplicables a arreglos. En la siguiente tabla se presentan algunas operaciones entre arreglos:

| Operación | Sintáxis | Descripción de la acción |
|-----------|---------------------------|------------------------|
| **Suma** | `x + y` o `np.add(x, y)` | Suma elemento por elemento de los arrays |
| **Resta** | `x - y` o `np.subtract(x, y)` | Resta elemento por elemento de los arrays |
| **Multiplicación** | `x * y` o `np.multiply(x, y)` | Multiplica elemento por elemento |
| **División** | `x / y` o `np.divide(x, y)` | Divide elemento por elemento |
| **Potencia** | `x ** 2` o `np.square(x)` | Eleva cada elemento a una potencia |

Para operar entre arreglo se tienen que cumplir  algunas reglas parecidas a las que se aplican para operar entre vectores y matrices en álgebra lineal, pero para los arreglos son más flexibles. A esta operación entre arreglos se le conoce como  ***broadcasting***.

**Caso 1: Array 1D con escalar**

In [None]:
#Arreglos y escalar
import numpy as np
a = np.array([3, 10,5])           # 1D array (3,)
b = 4

print(np.add(a,b))
print(np.multiply(a,b))

[ 7 14  9]
[12 40 20]


**Caso 2: Array 1D con Array de 1D**

In [None]:
#Arreglos de
a = np.array([3, 10,5])           # 1D array (3,)
c = np.array([1, 1, 1])

print(np.add(a,c), '\n')
print(np.multiply(a,c))

[ 4 11  6] 

[ 3 10  5]


**Caso 3: Array 1D con Array de 2D**

In [None]:
a_arr2d = np.array([[1, 2, 3],
                  [4, 5, 6]])

print(np.add(a, a_arr2d), '\n')
print(np.multiply(a,a_arr2d))

[[ 4 12  8]
 [ 7 15 11]] 

[[ 3 20 15]
 [12 50 30]]


**Caso 4: Array 2D con Array de 2D**

In [None]:
b_arr2d = np.array([[10, 34, 45],
                    [15, 21, 32]])

print(np.add(a_arr2d, b_arr2d), '\n')

print(np.multiply(a_arr2d, b_arr2d))

[[11 36 48]
 [19 26 38]] 

[[ 10  68 135]
 [ 60 105 192]]


**Casos 5: No válidos**

Para que se pueda realizar la operación entre arreglos se tiene que cumplir :

* Igualdad en el tamaño del arreglo
* Uno de ellos sea n = 1
* Uno de ellos no existe

Ejemplo de operación no válida :


In [None]:
a = np.array([1, 2, 3])           # (1,)
b = np.array([[1, 2 , 3, 4]])    # (4,)

print(np.add(a, b), '\n')

print(np.multiply(a, b))

ValueError: operands could not be broadcast together with shapes (3,) (1,4) 

Como buena práctica se puede utilizar la combinación de las funciones `shape` y `np.broadcast_shapes()` par veririficar si es posible operar diferentes arreglos:

**Sintáxis**
 ```Python
    np.broadcast_shapes(shape(array1), shape(array2))
 ```
Ejemplo:

In [None]:
#Verificar si es posible el broadcast
a = np.array([1, 2, 3])           # (1,)

b = np.array([[4,5,3,5]])    # (4,)

#Verificar
np.broadcast_shapes(a.shape, b.shape)

ValueError: shape mismatch: objects cannot be broadcast to a single shape.  Mismatch is between arg 0 with shape (3,) and arg 1 with shape (1, 4).

In [None]:
#Verificar si es posible el broadcast
a = np.array([1,2,3])           # (1,)
c = np.array([4,4,3])


print(np.broadcast_shapes(a.shape, c.shape))

(1, 3)


#### **4.1.2.2 Funciones matemáticas básicas aplicadas a arreglos**

Numpy tiene funciones que se pueden aplicar a cada elemento de un arreglo o bien hacer una operación con todos los elementos del arreglo.



| Operación | Sintáxis | Descripción de la acción |
|-----------|---------------------------|------------------------|
| **Raíz Cuadrada** | `np.sqrt(x)` | Calcula raíz cuadrada de cada elemento |
| **Exponencial** | `np.exp(x)` | Calcula e elevado a cada elemento |
| **Logaritmo** | `np.log(x)` | Calcula logaritmo natural de cada elemento |
| **Valor Absoluto** | `np.abs(x)` | Obtiene valor absoluto de cada elemento |
| **Redondeo** | `np.round(x)` | Redondea cada elemento al entero más cercano |
| **Suma Total** | `np.sum(x)` | Suma todos los elementos del array |
| **Máximo** | `np.max(x)` | Encuentra el valor máximo del array |
| **Mínimo** | `np.min(x)` | Encuentra el valor mínimo del array |
| **Producto** | `np.prod(x)` | Multiplica todos los elementos |
| **Acumulado** | `np.cumsum(x)` | Suma acumulativa de elementos |
| **Producto Acumulado** | `np.cumprod(x)` | Producto acumulativo de elementos |
| **Ordenar** | `np.sort(x)` | Ordena los elementos del array |



Como  ejemplo se utilizan las funciones `np.sqrt()` para calcular la raiz cuadrada de cada elementos o utilizar `np.log()` para calcular el logaritmo natural de cada elemento:


In [None]:
#Definir arreglo
salarios_empre = np.array([3000, 3500, 4000 , 4500, 5000, 5500, 2800, 3200, 3600])
#Aplicar raíz cuadrada
sqrt_salarios = np.sqrt(salarios_empre)
print(sqrt_salarios)

#Aplicar logarítmo
ln_salarios = np.log(salarios_empre)
print(ln_salarios)


[54.77225575 59.16079783 63.2455532  67.08203932 70.71067812 74.16198487
 52.91502622 56.56854249 60.        ]
[8.00636757 8.16051825 8.29404964 8.41183268 8.51719319 8.61250337
 7.9373747  8.07090609 8.18868912]


Como ejemplo de funciones que operan todos los elemenots de un arreglo se tiene la suma acumulada (`np.cumsum()`) o un producto acumulado  (`np.cumprod()`)

* Ejemplo con arreglo de dos dimensiones:

In [None]:
salarios_departamentos = np.array([#Enlace #Jefe #Subdi
                                   [3000,  3500,  4000],  # Departamento 1
                                   [4500,  5000,  5500],  # Departamento 2
                                   [2800,  3200,  3600]   # Departamento 3
                                  ])

#Suma acum por departamento
suma_acum = np.cumsum(salarios_departamentos, axis=1) #axis = 1 filas
print(f"{suma_acum}")

#Sum acum por posición
suma_acum_pos =  np.cumsum(salarios_departamentos, axis=0) #axis = 0 columnas
print(f"\n {suma_acum_pos}")


[[ 3000  6500 10500]
 [ 4500  9500 15000]
 [ 2800  6000  9600]]

 [[ 3000  3500  4000]
 [ 7500  8500  9500]
 [10300 11700 13100]]


#### **4.1.2.3 Funciones de estadística descriptiva aplicadas a arreglos**

Numpy también ofrece una serie de funciones para calcular estadística descriptiva a los arreglos o conjunto de arreglos.

| Operación | Sintáxis | Descripción de la operación |
|-----------|----------|-------------|
| Suma | `sum(x), nansum(x)` | Suma de los elementos de x (nansum(x) no toma en cuenta valores NaN) |
| Media | `mean(x), nanmean() `| Promedio de x |
| Mediana | `median(x), nanmedian()` | Mediana de x |
| Promedio ponderado | `average(x)` | Promedio de x (posibilidad de usar pesos con el argumento weight) |
| Mínimo | `min(x), nanmin()` | Valor mínimo de x |
| Máximo | `max(x), nanmax()` | Valor máximo de x |
| Percentil | ``percentile(x,p), nanpercentile(n,p)`` | Percentil P de x |
| Varianza | ``var(x), nanvar(x)`` | Varianza de x |
| Desviación estándar | `std(x), nanstd()` | Desviación estándar de x |
| Covarianza | `cov(x)` | Covarianza de x |
| Coeficiente de correlación | `corrcoef(x)` | Coeficiente de correlación |
| Moda | `mode(x) `| Valor más frecuente en x |
| Asimetría | `skew(x)` | Medida de asimetría de la distribución |
| Curtosis | `kurtosis(x) `| Medida de la forma de la distribución |
| Rango intercuartil | `iqr(x)` | Diferencia entre Q3 y Q1 |


In [42]:
#Continuamos con arreglo de salarios

salarios_empre = np.array([3000, 3500, 4000, 4500, 5000, 5500, 2800, 3200, 3600])

# Estadísticas básicas
print("Estadísticas de salarios en la empresa:")
print(f"Media: ${np.mean(salarios_empre):.2f}")
print(f"Mediana: ${np.median(salarios_empre):.2f}")
print(f"Desviación estándar: ${np.std(salarios_empre):.2f}")
print(f"Mínimo: ${np.min(salarios_empre)}")
print(f"Máximo: ${np.max(salarios_empre)}")





Estadísticas de salarios en la empresa:
Media: $3900.00
Mediana: $3600.00
Desviación estándar: $875.60
Mínimo: $2800
Máximo: $5500


In [43]:
# Percentiles
print("\nPercentiles:")
print(f"25% (Q1): ${np.percentile(salarios_empre, 25):.2f}")
print(f"75% (Q3): ${np.percentile(salarios_empre, 75):.2f}")



Percentiles:
25% (Q1): $3200.00
75% (Q3): $4500.00


In [44]:
# Rango intercuartil
q75, q25 = np.percentile(salarios_empre, [75, 25])
iqr = q75 - q25
print(f"Rango intercuartil: ${iqr:.2f}")

# Varianza
print(f"\nVarianza: ${np.std(salarios_empre):.2f}")

Rango intercuartil: $1300.00

Varianza: $875.60


* Ejemplo de cálculo de covarianza con la función `np.cov`:

   * Suponemos que también tenemos los años de experiencia de los empleados

In [None]:
#Definir areglo de años de experiencia
anos_experiencia = np.array([2, 3, 4, 5, 6, 7, 1, 2, 3])

# Calculamos la covarianza entre salarios y años de experiencia
covarianza = np.cov(salarios_empre, anos_experiencia)
print("\nMatriz de varianzas y covarianzas entre salarios y años de experiencia:")
print(covarianza)


Matriz de varianzas y covarianzas entre salarios y años de experiencia:
[[8.625e+05 1.850e+03]
 [1.850e+03 4.000e+00]]


* Ejemplo de cálculo de correlación entre salarios y años de experiencia utilizando la función `np.corrcoef()`:

In [None]:
# Coeficiente de correlación
correlacion = np.corrcoef(salarios_empre, anos_experiencia)
print(f"\nCoeficiente de correlación: {correlacion[0,1]:.4f}")


Coeficiente de correlación: 0.9960



> **Nota**: Los valores `np.nan` representan valores faltantes o indefinidos en datos numéricos, los cuales pueden contaminar los resultados.
> Para ignorar éstos se pueden utilizar las funciones `np.nanmean()`, `np.nanmedian()`, `np.nansum()`,etc.
>
>  * A continuación se presentan ejemplos con funciones que ignoran los valores `nan`:

>

In [None]:
#Definir arreglo con nanS:
salarios_empre_nan = np.array([3000, np.nan, 4000, 4500, 5000, np.nan ,5500, 2800, 3200, 3600])

#Aplicar mean para ignorar nans:
print( f'La media de salarios es {np.mean(salarios_empre_nan)}, e ignorando los valores nan es {np.nanmean(salarios_empre_nan)}' )



La media de salarios es nan, e ignorando los valores nan es 3950.0
La mediana de salarios es nan, e ignorando los valores nan es 3800.0


In [45]:

print( f'La mediana de salarios es {np.median(salarios_empre_nan)}, e ignorando los valores nan es {np.nanmedian(salarios_empre_nan)}' )

La mediana de salarios es nan, e ignorando los valores nan es 3800.0


- **Identificar y eliminar valors nulos**

In [46]:
#Identificar nulos
salarios_empre_nan = np.array([3000, np.nan, 4000, 4500, 5000, np.nan, 5500, 2800, 3200, 3600])
print(np.isnan(salarios_empre_nan))

[False  True False False False  True False False False False]


In [47]:
#Eliminar
salarios_sin_nan = salarios_empre_nan[~np.isnan(salarios_empre_nan)]
print(salarios_sin_nan)

[3000. 4000. 4500. 5000. 5500. 2800. 3200. 3600.]


#### Reemplazo de valores condicionalmente

Para el reemplazo de valores utilizamos la función `np.where`

Sintáxis

```Python
np.where(condición, True, False)
```



In [49]:
# Reemplazamos NaN por 0
print(salarios_empre_nan)
salarios_con_0 = np.where(np.isnan(salarios_empre_nan), 0, salarios_empre_nan)

print(salarios_con_0 )

[3000.   nan 4000. 4500. 5000.   nan 5500. 2800. 3200. 3600.]
[3000.    0. 4000. 4500. 5000.    0. 5500. 2800. 3200. 3600.]
