Ahora que ya sabes cómo accesar tus datos y trabajar con ellos, llegó el momento de analizarlos. Pero para hacerlo, primero debemos garantizar su calidad, y no podemos hacerlo si no sabemos qué buscar. En esta lección, veremos cuáles son los problemas con los datos que más comúnmente debemos resolver antes de comenzar nuestro análisis.

La razón para ello es simple: si los datos usados para el análisis tienen problemas, las conclusiones arrojadas no serán confiables. A esto se le suele conocer como "entra basura, sale basura" (GIGO, por sus siglas en inglés "garbage in, garbage out"). Nuestro objetivo es ayudarte a identificar valores ausentes, datos duplicados y errores de presentación en tus datos para evitar GIGO.

Valores ausentes y duplicados

Los valores ausentes son valores en filas que no tenemos disponibles por alguna razón. Esto podría deberse a que la persona no respondió a una de las preguntas en una consulta, ya sea por problemas técnicos o cualquier otra razón. En los DataFrames de pandas, estos valores suelen indicarse con NaN. NaN significa "not a number" ("no es un número") y es una forma común de marcar valores ausentes.

Los valores duplicados indican que una de las filas es exactamente igual a otra en la tabla. La mayoría de las veces, estos valores se generan por un problema técnico en el procesamiento de datos, pero, a veces, y dependiendo de tus datos, podría haber falsos duplicados. 

Por ejemplo, puedes escuchar una misma canción muchas veces, y si compilas datos solamente sobre el nombre de las canciones que has escuchado, claramente no habrá valores duplicados. La cantidad de entradas iguales indicará cuántas veces la has escuchado. ¿Y si necesitas una lista de las canciones que has escuchado, sin tomar en cuenta las veces que la has escuchado? Entonces se convertirán en valores duplicados y tendrás que trabajar con ellos.

Veamos cómo se ven los valores ausentes y duplicados en la práctica.

Seguiremos trabajando con el dataset music_log, pero esta vez usaremos su versión sin procesar: music_log_raw (del inglés "raw", en bruto, sin procesar). Es la versión original de este conjunto de datos que tiene algunos problemas de calidad. Como profesional de los datos, a menudo recibirás conjuntos de datos sin procesar como este.

Para verificar su calidad, echemos un vistazo rápido a las primeras 10 filas.

user_id	total play	Artist	genre	track
0	BF6EA5AF	92.851388	Marina Rei	pop	Musica
1	FB1E568E	282.981000	Stive Morgan	ambient	Love Planet
2	FB1E568E	282.981000	Stive Morgan	ambient	Love Planet
3	EF15C7BA	8.966000	NaN	dance	Loving Every Minute
4	82F52E69	193.776327	Rixton	pop	Me And My Broken Heart
5	4166D680	3.007000	Henry Hall & His Gleneagles Hotel Band	jazz	Home
6	F4F5677	0.100000	NaN	classicmetal	NaN
7	386FE1ED	211.880000	NaN	electronic	Riviera
8	A5E0D927	3.161000	Andrew Paul Woodworth	pop	The Name of This Next Song Is Called
9	E9E8A0CA	274.390000	Pillar Point	indie	Dove
Entonces, ¿qué tenemos?

Las filas 3, 6 y 7 contienen valores ausentes, indicados con NaN. NaN significa «no es un número» (en inglés, "not a number") y es una forma común de marcar valores ausentes.

Mira las filas 1 y 2. La misma pista se repite dos veces, lo que representa un valor duplicado. Un analista que se pierda esto puede concluir que la canción es más popular de lo que realmente es.

Estos son los únicos problemas que tenemos en nuestros datos; son problemas de contenido. Pero también podemos tener problemas estructurales.

Errores de presentación

Ahora examinemos la estructura de la tabla en sí. Los nombres de las columnas también pueden ser incorrectos. Extraigamos los datos de la columna 'user_id':

print(df['user_id'])

KeyError: 'user_id'

Como resultado, recibimos un mensaje de error que indica que la columna especificada no existe. ¿Pero por qué? A primera vista, el nombre de la columna puede parecer correcto. Sin embargo, hay un espacio antes del nombre de la columna: ' user_id'.

Es difícil determinar la cantidad de espacios visualmente, por lo que generalmente es mejor evitar usar espacios en los nombres de las columnas. Si el nombre de una columna consta de varias palabras, lo mejor es usar snake_case.

Snake case (estilizado como snakecase) se refiere al estilo de escritura en el que cada espacio se reemplaza por un guion bajo (``) y la primera letra de cada palabra se escribe en minúsculas.

Los caracteres no deseados, como los espacios, se pueden introducir de forma inesperada en los procesos de importación o exportación de datos. Esto es exactamente lo que pasó con el nombre de nuestra columna ' user_id'.

Todos los temas tratados en esta lección requieren nuestra atención. Debemos abordarlos antes de proceder al análisis en sí. ¡Te enseñaremos cómo hacerlo en las próximas lecciones!

Práctica guiada

Ejercicio 1

Para familiarizarnos con los valores ausentes (NaN), vamos a examinar las primeras 10 filas de nuestro conjunto de datos music_log_raw.

Utiliza el método head() para mostrar las primeras 10 filas del DataFrame.
Observa detenidamente las filas para identificar cualquier valor NaN. Recuerda que NaN se representa como un espacio en blanco o un punto.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_raw.csv')

# Muestra las primeras 10 filas del DataFrame
print(df.head(10))# ... tu código aquí ...

Ejercicio 2

Intenta imprimir los valores de la columna total play, sin adicionar espacios y con un guion bajo.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_raw.csv')

# Imprime los valores de la columna total play
print(df['total play'])