Explorando matrices de datos con NumPy <br>
Empecemos analizando algunos datos sencillos.

Supongamos que un profesor universitario toma una muestra de las notas de los alumnos de una clase para analizarlas.

Ejecuta el código en la celda de abajo haciendo clic en el botón ► Ejecutar para ver los datos.

In [34]:

data = [50,50,47,97,49,3,53,42,26,74,82,62,37,15,70,27,36,35,48,52,63,64]
print(data)


[50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64]


Los datos se han cargado en una estructura de lista de Python, que es un buen tipo de datos para la manipulación general de datos, pero no está optimizado para el análisis numérico. Para ello, vamos a utilizar el paquete NumPy, que incluye tipos de datos y funciones específicas para trabajar con números en Python.

Ejecuta la celda de abajo para cargar los datos en un array NumPy.

In [35]:
import numpy as np

grades = np.array(data)
print(grades)

[50 50 47 97 49  3 53 42 26 74 82 62 37 15 70 27 36 35 48 52 63 64]


Por si te estás preguntando cuáles son las diferencias entre una lista y un array NumPy, vamos a comparar cómo se comportan estos tipos de datos cuando los utilizamos en una expresión que los multiplica por 2.

In [36]:

print (type(data),'x 2:', data * 2)
print('---')
print (type(grades),'x 2:', grades * 2)

<class 'list'> x 2: [50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64, 50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64]
---
<class 'numpy.ndarray'> x 2: [100 100  94 194  98   6 106  84  52 148 164 124  74  30 140  54  72  70
  96 104 126 128]


Tenga en cuenta que multiplicar una lista por 2 crea una nueva lista del doble de longitud con la secuencia original de elementos de la lista repetida. La multiplicación de una matriz NumPy por otro lado realiza un cálculo elemento a elemento en el que la matriz se comporta como un vector, por lo que terminamos con una matriz del mismo tamaño en el que cada elemento se ha multiplicado por 2.

La clave es que las matrices de NumPy están diseñadas específicamente para soportar operaciones matemáticas sobre datos numéricos, lo que las hace más útiles para el análisis de datos que una lista genérica.

Es posible que hayas notado que el tipo de clase para el arreglo NumPy anterior es numpy.ndarray. La nd indica que se trata de una estructura que puede constar de múltiples dimensiones. (Puede tener n dimensiones.) Nuestra instancia específica tiene una sola dimensión de calificaciones de estudiantes.

Ejecuta la celda de abajo para ver la forma del array.

In [37]:
grades.shape

(22,)

Ahora que ya sabes cómo funciona una matriz NumPy, es hora de realizar algunos análisis de los datos de las calificaciones.

Puedes aplicar agregaciones a través de los elementos del array, así que vamos a encontrar la nota media simple (en otras palabras, el valor medio de la nota).

In [38]:
grades.mean()

49.18181818181818

Por tanto, la nota media se sitúa en torno a 50, más o menos en el centro del intervalo posible de 0 a 100.

Añadamos una segunda serie de datos de los mismos estudiantes. Esta vez, registraremos el número típico de horas semanales que dedican al estudio.

In [39]:
# Define an array of study hours
study_hours = [10.0,11.5,9.0,16.0,9.25,1.0,11.5,9.0,8.5,14.5,15.5,
               13.75,9.0,8.0,15.5,8.0,9.0,6.0,10.0,12.0,12.5,12.0]

# Create a 2D array (an array of arrays)
student_data = np.array([study_hours, grades])

# display the array
student_data


array([[10.  , 11.5 ,  9.  , 16.  ,  9.25,  1.  , 11.5 ,  9.  ,  8.5 ,
        14.5 , 15.5 , 13.75,  9.  ,  8.  , 15.5 ,  8.  ,  9.  ,  6.  ,
        10.  , 12.  , 12.5 , 12.  ],
       [50.  , 50.  , 47.  , 97.  , 49.  ,  3.  , 53.  , 42.  , 26.  ,
        74.  , 82.  , 62.  , 37.  , 15.  , 70.  , 27.  , 36.  , 35.  ,
        48.  , 52.  , 63.  , 64.  ]])


Ahora los datos consisten en una matriz bidimensional, una matriz de matrices. Veamos su forma.

In [40]:
# Show shape of 2D array
student_data.shape

(2, 22)

La matriz student_data contiene dos elementos, cada uno de los cuales es una matriz que contiene 22 elementos.

Para navegar por esta estructura, es necesario especificar la posición de cada elemento en la jerarquía. Así, para encontrar el primer valor de la primera matriz (que contiene los datos de horas de estudio), puede utilizar el siguiente código.

In [41]:
# Show the first element of the first element
student_data[0][0]

10.0

Ahora tiene una matriz multidimensional que contiene tanto el tiempo de estudio del estudiante como la información de la calificación, que puede utilizar para comparar el tiempo de estudio con la calificación de un estudiante.


La matriz student_data contiene dos elementos, cada uno de los cuales es una matriz que contiene 22 elementos.

Para navegar por esta estructura, es necesario especificar la posición de cada elemento en la jerarquía. Así, para encontrar el primer valor de la primera matriz (que contiene los datos de horas de estudio), puede utilizar el siguiente código.

Explorando datos tabulares con Pandas
NumPy proporciona muchas de las funcionalidades y herramientas que necesitas para trabajar con números, como arrays de valores numéricos. Sin embargo, cuando empiezas a tratar con tablas bidimensionales de datos, el paquete Pandas ofrece una estructura más cómoda para trabajar: el DataFrame.

Ejecute la siguiente celda para importar la librería Pandas y crear un DataFrame con tres columnas. La primera columna es una lista de nombres de estudiantes, y la segunda y tercera columnas son las matrices NumPy que contienen los datos de tiempo de estudio y calificación.

In [42]:
import pandas as pd

df_students = pd.DataFrame({'Name': ['Dan', 'Joann', 'Pedro', 'Rosie', 'Ethan', 'Vicky', 'Frederic', 'Jimmie', 
                                     'Rhonda', 'Giovanni', 'Francesca', 'Rajab', 'Naiyana', 'Kian', 'Jenny',
                                     'Jakeem','Helena','Ismat','Anila','Skye','Daniel','Aisha'],
                            'StudyHours':student_data[0],
                            'Grade':student_data[1]})

df_students 

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


Tenga en cuenta que, además de las columnas especificadas, el DataFrame incluye un índice para identificar de forma exclusiva cada fila. Podríamos haber especificado el índice explícitamente y haber asignado cualquier tipo de valor apropiado (por ejemplo, una dirección de correo electrónico). Sin embargo, como no hemos especificado un índice, se ha creado uno con un valor entero único para cada fila.

Buscar y filtrar datos en un DataFrame
Puede utilizar el método loc del DataFrame para recuperar datos para un valor de índice específico, de la siguiente manera.

In [43]:
# Get the data for index value 5
df_students.loc[5]

Name          Vicky
StudyHours      1.0
Grade           3.0
Name: 5, dtype: object

También puedes obtener los datos en un rango de valores de índice, de esta forma:

In [44]:
df_students.loc[0:5]

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0


Además de poder utilizar el método **loc** para encontrar filas basándose en el índice, puede utilizar el método **iloc** para encontrar filas basándose en su posición ordinal en el DataFrame (independientemente del índice)

In [45]:
# Get data in the first five rows
df_students.iloc[0:5]

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0


Observa detenidamente los resultados de iloc[0:5] y compáralos con los de loc[0:5] que obtuviste anteriormente. ¿Puede detectar la diferencia?

El método loc devolvía las filas con etiqueta de índice en la lista de valores de 0 a 5, que incluye 0, 1, 2, 3, 4 y 5 (seis filas). Sin embargo, el método iloc devuelve las filas en las posiciones incluidas en el rango de 0 a 5. Dado que los rangos de enteros no incluyen el valor del límite superior, esto incluye las posiciones 0, 1, 2, 3 y 4 (cinco filas).

iloc identifica valores de datos en un DataFrame por posición, que se extiende más allá de las filas a las columnas. Así, por ejemplo, puede utilizarlo para encontrar los valores de las columnas en las posiciones 1 y 2 de la fila 0, de esta forma:

In [46]:
df_students.iloc[0,[1,2]]

StudyHours    10.0
Grade         50.0
Name: 0, dtype: object

Volvamos al método loc y veamos cómo funciona con columnas. Recuerde que loc se utiliza para localizar elementos de datos basados en valores de índice en lugar de posiciones. En ausencia de una columna índice explícita, las filas de nuestro DataFrame se indexan como valores enteros, pero las columnas se identifican por su nombre:

In [47]:
df_students.loc[0,'Grade']

50.0

He aquí otro truco útil. Puede utilizar el método loc para encontrar filas indexadas basándose en una expresión de filtrado que haga referencia a columnas con nombre que no sean el índice, de la siguiente manera:

In [48]:
df_students.loc[df_students['Name']=='Aisha']

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


En realidad, no es necesario utilizar explícitamente el método **loc** para hacerlo. Puedes simplemente aplicar una expresión de filtrado DataFrame, como esta:

In [49]:
df_students[df_students['Name']=='Aisha']

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


Y por si fuera poco, puedes conseguir los mismos resultados utilizando el método de consulta del DataFrame, de la siguiente manera:

In [50]:
df_students.query('Name=="Aisha"')

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


Los tres ejemplos anteriores subrayan una verdad confusa sobre el trabajo con Pandas. A menudo, hay múltiples formas de conseguir los mismos resultados. Otro ejemplo de esto es la forma de referirse al nombre de columna de un DataFrame. Puede especificar el nombre de la columna como un valor de índice con nombre (como en los ejemplos df_students['Nombre'] que hemos visto hasta ahora), o puede utilizar la columna como una propiedad del DataFrame, como en este caso:

In [51]:
df_students[df_students.Name == 'Aisha']

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


Cargar un DataFrame desde un fichero<br>
Hemos construido el DataFrame a partir de algunas matrices existentes. Sin embargo, en muchos escenarios del mundo real, los datos se cargan desde fuentes como archivos. Sustituyamos el DataFrame de las notas de los alumnos por el contenido de un fichero de texto.

In [None]:
# !wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/ml-basics/grades.csv
# df_students = pd.read_csv('grades.csv',delimiter=',',header='infer')
# df_students.head()

El método read_csv de DataFrame se utiliza para cargar datos de archivos de texto. Como puede ver en el código de ejemplo, puede especificar opciones como el delimitador de columna y qué fila (si la hay) contiene cabeceras de columna. (En este caso, el delimitador es una coma y la primera fila contiene los nombres de las columnas. Estos son los ajustes por defecto, por lo que los parámetros podrían haberse omitido).

Tratamiento de los valores omitidos<br>
Uno de los problemas más comunes a los que se enfrentan los científicos de datos son los datos incompletos o ausentes. ¿Cómo podemos saber que el DataFrame contiene valores perdidos? Puede utilizar el método isnull para identificar qué valores individuales son nulos, de la siguiente manera:

In [53]:
df_students.isnull()

Unnamed: 0,Name,StudyHours,Grade
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
5,False,False,False
6,False,False,False
7,False,False,False
8,False,False,False
9,False,False,False


Por supuesto, con un DataFrame más grande, sería ineficiente revisar todas las filas y columnas individualmente, por lo que podemos obtener la suma de valores perdidos para cada columna de esta manera:

In [54]:
df_students.isnull().sum()

Name          0
StudyHours    0
Grade         0
dtype: int64

Ahora sabemos que falta un valor de Horas de estudio y dos valores de Notas.

Para verlos en contexto, podemos filtrar el DataFrame para incluir sólo las filas en las que alguna de las columnas (eje 1 del DataFrame) sea nula.

In [55]:
df_students[df_students.isnull().any(axis=1)]

Unnamed: 0,Name,StudyHours,Grade


Cuando se recupera el DataFrame, los valores numéricos que faltan aparecen como NaN (no es un número).

Ahora que hemos encontrado los valores nulos, ¿qué podemos hacer con ellos?

Un método habitual es imputar valores de sustitución. Por ejemplo, si falta el número de horas de estudio, podemos suponer que el alumno estudió una media de tiempo y sustituir el valor que falta por la media de horas de estudio. Para ello, podemos utilizar el método fillna de la siguiente manera:

In [56]:
df_students.StudyHours = df_students.StudyHours.fillna(df_students.StudyHours.mean())
df_students

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


Alternativamente, puede ser importante asegurarse de que sólo utiliza datos que sabe que son absolutamente correctos. En este caso, puede eliminar filas o columnas que contengan valores nulos utilizando el método dropna. Por ejemplo, eliminaremos las filas (eje 0 del DataFrame) en las que alguna de las columnas contenga valores nulos:

In [57]:
df_students = df_students.dropna(axis=0, how='any')
df_students

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


Explorar los datos en el DataFrame
Ahora que hemos limpiado los valores que faltaban, estamos listos para explorar los datos en el DataFrame. Empecemos comparando la media de horas de estudio y las calificaciones.

In [58]:
# Get the mean study hours using to column name as an index
mean_study = df_students['StudyHours'].mean()

# Get the mean grade using the column name as a property (just to make the point!)
mean_grade = df_students.Grade.mean()

# Print the mean study hours and mean grade
print('Average weekly study hours: {:.2f}\nAverage grade: {:.2f}'.format(mean_study, mean_grade))

Average weekly study hours: 10.52
Average grade: 49.18


Bien, vamos a filtrar el DataFrame para encontrar sólo los estudiantes que estudiaron durante más tiempo que la media.

In [59]:
# Get students who studied for the mean or more hours
df_students[df_students.StudyHours > mean_study]

Unnamed: 0,Name,StudyHours,Grade
1,Joann,11.5,50.0
3,Rosie,16.0,97.0
6,Frederic,11.5,53.0
9,Giovanni,14.5,74.0
10,Francesca,15.5,82.0
11,Rajab,13.75,62.0
14,Jenny,15.5,70.0
19,Skye,12.0,52.0
20,Daniel,12.5,63.0
21,Aisha,12.0,64.0


Tenga en cuenta que el resultado filtrado es en sí mismo un DataFrame, por lo que puede trabajar con sus columnas como con cualquier otro DataFrame.

Por ejemplo, busquemos la nota media de los estudiantes que dedicaron más tiempo al estudio que la media.

In [60]:
# What was their mean grade?
df_students[df_students.StudyHours > mean_study].Grade.mean()

66.7

Supongamos que la nota de aprobado del curso es 60.

Podemos utilizar esa información para añadir una nueva columna al DataFrame que indique si cada alumno ha aprobado o no.

Primero, crearemos una Serie Pandas que contenga el indicador de aprobado/no aprobado (Verdadero o Falso), y luego concatenaremos esa serie como una nueva columna (eje 1) en el DataFrame.

In [61]:
passes  = pd.Series(df_students['Grade'] >= 60)
df_students = pd.concat([df_students, passes.rename("Pass")], axis=1)

df_students

Unnamed: 0,Name,StudyHours,Grade,Pass
0,Dan,10.0,50.0,False
1,Joann,11.5,50.0,False
2,Pedro,9.0,47.0,False
3,Rosie,16.0,97.0,True
4,Ethan,9.25,49.0,False
5,Vicky,1.0,3.0,False
6,Frederic,11.5,53.0,False
7,Jimmie,9.0,42.0,False
8,Rhonda,8.5,26.0,False
9,Giovanni,14.5,74.0,True


Los DataFrames están diseñados para datos tabulares, y puede utilizarlos para realizar muchos de los mismos tipos de operaciones de análisis de datos que puede hacer en una base de datos relacional, como agrupar y agregar tablas de datos.

Por ejemplo, puede utilizar el método groupby para agrupar los datos de los alumnos en grupos basados en la columna Pass que añadió anteriormente y contar el número de nombres de cada grupo. En otras palabras, puede determinar cuántos alumnos aprobaron y cuántos suspendieron.

In [62]:
print(df_students.groupby(df_students.Pass).Name.count())

Pass
False    15
True      7
Name: Name, dtype: int64


Puede agregar múltiples campos en un grupo utilizando cualquier función de agregación disponible. Por ejemplo, puede encontrar el tiempo medio de estudio y la calificación de los grupos de alumnos que aprobaron y suspendieron el curso.

In [63]:
print(df_students.groupby(df_students.Pass)['StudyHours', 'Grade'].mean())

       StudyHours      Grade
Pass                        
False    8.783333  38.000000
True    14.250000  73.142857


  print(df_students.groupby(df_students.Pass)['StudyHours', 'Grade'].mean())


Los DataFrames son increíblemente versátiles y facilitan la manipulación de datos. Muchas operaciones con DataFrame devuelven una nueva copia del DataFrame. Así que si quieres modificar un DataFrame pero mantener la variable existente, necesitas asignar el resultado de la operación a la variable existente. Por ejemplo, el siguiente código ordena los datos de los estudiantes en orden descendente por Grado y asigna el DataFrame ordenado resultante a la variable original df_students.

In [64]:
# Create a DataFrame with the data sorted by Grade (descending)
df_students = df_students.sort_values('Grade', ascending=False)

# Show the DataFrame
df_students

Unnamed: 0,Name,StudyHours,Grade,Pass
3,Rosie,16.0,97.0,True
10,Francesca,15.5,82.0,True
9,Giovanni,14.5,74.0,True
14,Jenny,15.5,70.0,True
21,Aisha,12.0,64.0,True
20,Daniel,12.5,63.0,True
11,Rajab,13.75,62.0,True
6,Frederic,11.5,53.0,False
19,Skye,12.0,52.0,False
1,Joann,11.5,50.0,False


Resumen<br>
NumPy y DataFrames son los caballos de batalla de la ciencia de datos en Python. Nos proporcionan formas de cargar, explorar y analizar datos tabulares. Como veremos en módulos posteriores, incluso los métodos de análisis avanzados suelen depender de NumPy y Pandas para estas importantes funciones.

En nuestro próximo libro de trabajo, echaremos un vistazo a cómo crear gráficos y explorar tus datos de formas más interesantes.

Examen de datos del mundo real
Completado
100 XP
3 minutos
Los datos presentados en el material educativo suelen ser notablemente perfectos, diseñados para mostrar a los alumnos cómo encontrar relaciones claras entre las variables. Los datos del mundo real son algo menos sencillos.

Debido a la complejidad de los datos del "mundo real", hay que inspeccionar los datos sin procesar para detectar problemas antes de utilizarlos.

Por ello, el procedimiento recomendado es inspeccionar los datos sin procesar y procesarlos antes de utilizarlos, lo que reduce los errores o problemas, normalmente eliminando los puntos de datos erróneos o modificando los datos para que sean más útiles.

Problemas de los datos del mundo real
Los datos del mundo real pueden contener muchos problemas diferentes que pueden afectar a la utilidad de los datos y a nuestra interpretación de los resultados.

Es importante tener en cuenta que la mayoría de los datos del mundo real están influenciados por factores que no se registraron en ese momento. Por ejemplo, podríamos tener una tabla con los tiempos de los coches de carreras junto con los tamaños de los motores, pero otros factores que no se anotaron, como el clima, probablemente también influyeron. Si son problemáticos, la influencia de estos factores puede reducirse a menudo aumentando el tamaño del conjunto de datos.

En otras situaciones, los puntos de datos que están claramente fuera de lo esperado, también conocidos como valores atípicos, a veces se pueden quitar de forma segura de los análisis, aunque se debe tener cuidado para no quitar puntos de datos que proporcionen información real.

Otro problema común en los datos del mundo real es el sesgo. El sesgo se refiere a la tendencia a seleccionar ciertos tipos de valores con más frecuencia que otros, de forma que se falsea la población subyacente, o el "mundo real". A veces se puede identificar el sesgo explorando los datos y teniendo en cuenta los conocimientos básicos sobre la procedencia de estos.

Recuerde que los datos del mundo real siempre tendrán problemas, pero esto suele ser un problema superable. Recuerde:

Compruebe los valores que faltan y los datos registrados de forma incorrecta.
Considere la posibilidad de eliminar valores atípicos obvios.
Considere qué factores del mundo real podrían afectar al análisis y vea si el tamaño del conjunto de datos es lo suficientemente grande como para controlarlos.
Compruebe si los datos sin procesar están sesgados y considere sus opciones para corregirlos, si se encuentran.