# Uso de numpy y pandas

**Autor:** Jazna Meza Hidalgo

**Correo Electrónico:** ja.meza@profesor.duoc.cl

**Fecha de Creación:** Diciembre de 2024  
**Versión:** 1.0  

---

## Descripción

Este notebook ofrece un ejemplo del uso de las funcionalidades de numpy y su combinación con pandas

---

## Requisitos de Software

Este notebook fue desarrollado con Python 3.9. A continuación se listan las bibliotecas necesarias:

- pandas (2.2.2)
- numpy (1.26.4)

Para verificar la versión instalada ejecutar usando el siguiente comando, usando la librería de la cual quieres saber la versión:

```bash
import pandas as pd
print(pd.__version__)
````

# Numpy

In [3]:
import pandas as pd
import numpy as np

In [4]:
# Crear lista
valores = [2,4,6,7]
lx = np.array(valores)
lx

array([2, 4, 6, 7])

In [5]:
print(type(lx))
print(type(valores))

<class 'numpy.ndarray'>
<class 'list'>


In [6]:
np.array(valores, dtype='float32')

array([2., 4., 6., 7.], dtype=float32)

In [7]:
np.zeros(7)

array([0., 0., 0., 0., 0., 0., 0.])

In [8]:
np.zeros((3,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [9]:
np.ones((4,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [10]:
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [11]:
x = np.array([2,4,6,8,10,12])
x

array([ 2,  4,  6,  8, 10, 12])

In [12]:
# Crea un arreglo unidimensional con valores correlativos
a = np.arange(7)
print(a)

[0 1 2 3 4 5 6]


In [13]:
# Ahora usa un valor inicial y un incremento
a = np.arange(3,15,2)
print(a)

[ 3  5  7  9 11 13]


In [14]:
# Arreglo con valores espaciados de manera uniforme entre 0 y 1
# Notar que acá SI SE INCLUYE el 1
a = np.linspace(0, 1, 5)
print(a)

[0.   0.25 0.5  0.75 1.  ]


In [15]:
# Si se quiere exlcuir el último valor de la secuencia
a = np.linspace(0, 1, 5, endpoint=False)
print(a)

[0.  0.2 0.4 0.6 0.8]


In [16]:
# Genera 7 números aleatorios entre 1 y 29
a = np.random.randint(1,29, size=7)
print(a)

[13  1 18 28 15 25 26]


In [17]:
# Genera 8 números aleatorios entre 3 y 15, organizados en 2 filas y 4 columnas
a = np.random.randint(3,15, size=(2,4))
print(a)

[[12  8 13 11]
 [ 6  9  4  3]]


# Operaciones matemáticas

In [18]:
# Suma
a = np.array([1, 2, 4])
b = np.array([15,25,30])
c = a + b
print(c)

[16 27 34]


In [19]:
# Resta
a = np.array([1, 2, 4])
b = np.array([15,25,30])
c = a - b
print(c)

[-14 -23 -26]


In [20]:
# Multiplicación
a = np.array([1, 2, 4])
b = np.array([15,25,30])
c = a * b
print(c)

[ 15  50 120]


In [21]:
# División
a = np.array([1, 2, 4])
b = np.array([15,25,30])
c = a / b
print(c)

[0.06666667 0.08       0.13333333]


In [22]:
# Usando escalares
a = np.array([15,3,25])
b = a + 7
print(b)

[22 10 32]


## Uso de reshape

In [23]:
y = x.reshape(3,2)
y

array([[ 2,  4],
       [ 6,  8],
       [10, 12]])

In [24]:
y.shape

(3, 2)

In [25]:
x.shape

(6,)

# Funciones universales

In [26]:
valores = np.array([2,3,5,6])
print("Elementos", valores)

Elementos [2 3 5 6]


In [27]:
# Cálculo del promedio de los valores
np.mean(valores)

4.0

In [28]:
# Suma de los valores
np.sum(valores)

16

In [29]:
# Acumula los valores del arreglo
np.cumsum(valores)

array([ 2,  5, 10, 16])

In [30]:
# Obtiene la productoria de los elementos del arreglo
np.cumprod(valores)

array([  2,   6,  30, 180])

In [31]:
valores = np.array([[2,4,5,6],[8,10,15,50]])
valores

array([[ 2,  4,  5,  6],
       [ 8, 10, 15, 50]])

In [32]:
# Suma todos lo valores del arreglo bidimensional
np.sum(valores)

100

In [33]:
# Suma los valores por fila
np.sum(valores, axis = 1)

array([17, 83])

In [34]:
# Suma los valores por columna
np.sum(valores, axis = 0)

array([10, 14, 20, 56])

# Indexación y selección

In [35]:
valores = np.array([20,3,5,6,1,-3,10,45,43,50,4])
print("Elementos", valores)

Elementos [20  3  5  6  1 -3 10 45 43 50  4]


In [36]:
# Acceso a un elemento, por su índice
valores[4]

1

In [37]:
# Selección con uso de slice - Versión 1
valores[:2]

array([20,  3])

In [38]:
# Selección con uso de slice - Versión 2
valores[4:]

array([ 1, -3, 10, 45, 43, 50,  4])

In [39]:
# Selección con uso de slice - Versión 3
valores[4:10]

array([ 1, -3, 10, 45, 43, 50])

In [40]:
# Selección usando condición
valores[valores > 15]

array([20, 45, 43, 50])

# Orden y búsqueda

In [41]:
# Conjunto de edades
edades = np.array([18,78,50,46,45,11,14,15,82,85,98])

In [42]:
# Busca las edades cuyo valor sea superior o igual a 18
edades[edades >= 18]

array([18, 78, 50, 46, 45, 82, 85, 98])

In [43]:
# Ahora busca a los menores usando la función where
edades[np.where(edades < 18)]

array([11, 14, 15])

In [44]:
# Obtiene el índice del elemento mayor
edades.argmax()

10

In [45]:
# Obtiene el índice del elemento menor
edades.argmin()

5

In [46]:
edades.sort()

In [47]:
# Introduciendo valores nulos
edades = np.array([18,78,50,46,45,11,14,15,82,85,98, np.NaN, 12, 48, 51, 49, np.NaN, 46])
edades

array([18., 78., 50., 46., 45., 11., 14., 15., 82., 85., 98., nan, 12.,
       48., 51., 49., nan, 46.])

In [48]:
# Búsqueda usando una condición
edades[np.where(edades < 18)]

array([11., 14., 15., 12.])

In [49]:
# Cálculo del promedio
np.mean(edades)

nan

In [50]:
# Promedio sin valores nulos
np.nanmean(edades)

46.75

# Funciones de estadística descriptiva

In [51]:
# Pesos de personas
pesos = np.array([62,85,78,90,110,58,60,75,68,95])

## Medidas de tendencia central

In [52]:
# Cálculo del promedio
np.mean(pesos)

78.1

In [53]:
# Mediana de los valores
np.median(pesos)

76.5

## Medidas de dispersión

In [54]:
# Desviación estándar
np.std(pesos)

16.108693305169105

In [55]:
# Varianza
np.var(pesos)

259.48999999999995

In [56]:
# Cálculo de rango intercuartilico
q1 = np.quantile(pesos, 0.25)
q3 = np.quantile(pesos, 0.75)
iqr = q3 - q1
print("IQR:", iqr)

IQR: 25.25


## Medidas de posición

In [57]:
# Cuartiles
print("Primer cuartil", np.quantile(pesos, 0.25))
print("Segundo cuartil", np.quantile(pesos, 0.5))
print("Tercer cuartil", np.quantile(pesos, 0.75))

Primer cuartil 63.5
Segundo cuartil 76.5
Tercer cuartil 88.75


# Combinación con pandas

In [58]:
df = pd.DataFrame({'categorical': pd.Categorical(['d','e','f']),
                   'numeric': [1, 2, 3],
                   'object': ['a', 'b', 'c']
                  })
df.describe()

Unnamed: 0,numeric
count,3.0
mean,2.0
std,1.0
min,1.0
25%,1.5
50%,2.0
75%,2.5
max,3.0


In [59]:
# Incluye solo las columnas numéricas
df.describe(include=[np.number])

Unnamed: 0,numeric
count,3.0
mean,2.0
std,1.0
min,1.0
25%,1.5
50%,2.0
75%,2.5
max,3.0


In [62]:
# Incluye solo las columnas de tipo string
df.describe(include=[np.object_])

Unnamed: 0,object
count,3
unique,3
top,a
freq,1


In [63]:
# También se puede excluir
df.describe(exclude=[np.number])

Unnamed: 0,categorical,object
count,3,3
unique,3,3
top,d,a
freq,1,1
