# Exploración de datos con NumPy

Comencemos mirando algunos datos simples.

Supongamos que un profesor universitario toma una muestra de las calificaciones de los estudiantes de una clase para analizarlas.


In [1]:
data = [50,50,47,97,49,3,53,42,26,74,82,62,37,15,70,27,36,35,48,52,63,64]
print(data)

[50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64]



Los datos se cargaron en una estructura de lista de Python, que es un buen tipo de datos para la manipulación general de datos, pero no está optimizado para el análisis numérico. Para eso, vamos a utilizar el paquete NumPy, que incluye funciones y tipos de datos específicos para trabajar con Numbers en Python.

In [2]:
import numpy as np

grades = np.array(data)
print(grades)

[50 50 47 97 49  3 53 42 26 74 82 62 37 15 70 27 36 35 48 52 63 64]


En caso de que se esté preguntando acerca de las diferencias entre una lista y una matriz NumPy, comparemos cómo se comportan estos tipos de datos cuando los usamos en una expresión que los multiplica por dos.

In [3]:
print (type(data),'x 2:', data * 2)
print('---')
print (type(grades),'x 2:', grades * 2)

<class 'list'> x 2: [50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64, 50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64]
---
<class 'numpy.ndarray'> x 2: [100 100  94 194  98   6 106  84  52 148 164 124  74  30 140  54  72  70
  96 104 126 128]


Tenga en cuenta que multiplicar una lista por dos crea una nueva lista del doble de longitud con la secuencia original de elementos de la lista repetida. Multiplicar una matriz NumPy, por otro lado, realiza un cálculo por elementos en el que la matriz se comporta como un vector, por lo que terminamos con una matriz del mismo tamaño en la que cada elemento se ha multiplicado por dos.

La conclusión clave de esto es que las matrices NumPy están diseñadas específicamente para admitir operaciones matemáticas en datos numéricos, lo que las hace más útiles para el análisis de datos que una lista genérica.

Es posible que haya notado que el tipo de clase para la matriz NumPy anterior es numpy.ndarray. El nd indica que se trata de una estructura que puede constar de múltiples dimensiones. (Puede tener "n" dimensiones). Nuestra instancia específica tiene una sola dimensión de calificaciones de los estudiantes.


In [4]:
grades.shape

(22,)

al ejecutar "grades.shape" confirma que esta matriz tiene solo una dimensión, que contiene 22 elementos. (Hay 22 grados en la lista original). Puede acceder a los elementos individuales de la matriz por su posición ordinal de base cero. Obtengamos el primer elemento (el que está en la posición 0).

In [5]:
grades[0]

50

Ahora que conoce la matriz NumPy, es hora de realizar un análisis de los datos de las calificaciones.

Puede aplicar agregaciones a los elementos de la matriz, así que encontremos la calificación promedio simple (en otras palabras, el valor de la calificación media).

In [6]:
grades.mean()

49.18181818181818

Entonces, la calificación media es de alrededor de 50, más o menos en el medio del rango posible de 0 a 100.

Agreguemos un segundo conjunto de datos para los mismos estudiantes. Esta vez, registraremos la cantidad típica de horas por semana que dedicaron a estudiar.

In [7]:
# Definimos un arreglo con las horas de estudio de los estudiantes
study_hours = [10.0,11.5,9.0,16.0,9.25,1.0,11.5,9.0,8.5,14.5,15.5,
               13.75,9.0,8.0,15.5,8.0,9.0,6.0,10.0,12.0,12.5,12.0]

# Creamos un arreglo de 2 dimensiones (una array de arrays)
student_data = np.array([study_hours, grades])

# Mostramos la matriz
student_data

array([[10.  , 11.5 ,  9.  , 16.  ,  9.25,  1.  , 11.5 ,  9.  ,  8.5 ,
        14.5 , 15.5 , 13.75,  9.  ,  8.  , 15.5 ,  8.  ,  9.  ,  6.  ,
        10.  , 12.  , 12.5 , 12.  ],
       [50.  , 50.  , 47.  , 97.  , 49.  ,  3.  , 53.  , 42.  , 26.  ,
        74.  , 82.  , 62.  , 37.  , 15.  , 70.  , 27.  , 36.  , 35.  ,
        48.  , 52.  , 63.  , 64.  ]])

Ahora los datos consisten en una matriz bidimensional; una matriz de matrices. Veamos su forma.

In [9]:
student_data.shape

(2, 22)

La matriz student_data contiene dos elementos, cada uno de los cuales es una matriz que contiene 22 elementos.

Para navegar por esta estructura, debe especificar la posición de cada elemento en la jerarquía. Entonces, para encontrar el primer valor en la primera matriz (que contiene los datos de las horas de estudio), puede usar el siguiente código.

In [19]:
student_data[0][0]

10.0

Ahora tiene una matriz multidimensional que contiene tanto el tiempo de estudio del estudiante como la información de calificaciones, que puede usar para comparar el tiempo de estudio con la calificación de un estudiante.

In [12]:
# Get the mean value of each sub-array
avg_study = student_data[0].mean()
avg_grade = student_data[1].mean()

print('Average study hours: {:.2f}\nAverage grade: {:.2f}'.format(avg_study, avg_grade))

Average study hours: 10.52
Average grade: 49.18
