Examen del capítulo

Introducción

Esta es una recapitulación rápida de lo que has aprendido:

En este capítulo, exploraste cómo manejar y transformar tipos de datos de forma efectiva:

Identificación de tipos de datos: aprendiste cómo identificar los tipos de datos de las diferentes columnas de tu conjunto de datos.

- Conversión de tipos de datos: dominaste la conversión de un tipo de datos en otro para garantizar consistencia y corrección.

# Conversión de 'year_of_release' de flotante a entero
df['year_of_release'] = df['year_of_release'].astype(int)

# Conversión de 'quantity' de string a tipo numérico, haciendo caso omiso de valores no numéricos.
df['quantity'] = pd.to_numeric(df['quantity'], errors='coerce')

# Conversión de 'price' de flotante a entero
df['price'] = df['price'].astype(int)

- Corrección de tipos de datos incorrectos: abordaste la corrección de tipos de datos que estaban identificados de manera incorrecta.

# Garantía de que la columna 'SSN' no tiene guiones y su conversión a entero
df['SSN'] = df['SSN'].str.replace('-', '').astype(int)

# Eliminación de ambigüedades en la conversión de fechas y horas
df['date'] = pd.to_datetime(df['date'], format='%Y-%m-%d')

# Conversión de husos horarios
df['datetime'] = df['datetime'].dt.tz_localize('CET').dt.tz_convert('EST')

- Trabajo con fechas y horas: aprendiste a manejar fechas y horas, incluyendo la conversión de husos horarios y la eliminación de ambigüedades.
Estas técnicas potenciarán tu capacidad para manipular y analizar tus datos de forma más efectiva. ¡Ahora prueba tu comprensión con los cuestionarios!

Práctica guiada

Pregunta

Cuestionario 1

Si te dan el conjunto de datos de ventas de videojuegos, ¿a qué tipo de datos convertirías year_of_release, que actualmente es un float? Podemos suponer que no hay valores NaN en year_of_release.

No es necesario porque ya es un float.

- int (entero)
Dado el rango de valores y la posibilidad de deshacerse de la parte fraccionaria innecesaria que contienen los floats sin perder el significado, un int (o entero) sería una opción natural.

string

datetime

¡Lo has entendido bien!

Pregunta

Cuestionario 2

Quieres convertir el campo quantity, que actualmente es un string, del tipo de datos stock al tipo de datos numérico. Algunos de los valores de quantity no son números, sino mensajes de estado como ‘Fuera de stock’, ‘Ya no se fabrica’, etc. ¿Qué función utilizarías para convertir quantityen un tipo de datos numérico que ignora los mensajes de estado?

as_type()

- to_numeric()
La función proporciona el conveniente parámetro errors. Al establecer el parámetro errors como 'coerce', todos los valores no válidos serán reemplazados por NaN.

astype()

to_numerical()

¡Bien hecho!

Pregunta

Cuestionario 3

Has convertido price al tipo de datos int y has notado que el precio total de todos los productos en stock ha disminuido, lo cual es una señal preocupante. ¿Qué pasó?

Los valores de price se han redondeado al valor entero más cercano.

- Los valores de price perdieron su parte decimal.
Convertir de float a int es así de sencillo.

Los valores de price se han redondeado y disminuido en 1.

¡Buen trabajo!

Pregunta

Cuestionario 4

Tienes datos de clientes con residencia en EE.UU. con sus números de la Seguridad Social (SSN o "Social Security Number"). Los primeros tres dígitos de un SSN emitido antes de 2011 identifican la ubicación geográfica (ver más detalles aquí). Quieres eliminar los guiones de los SSN, ya que son innecesarios para nuestro análisis, y convertir los dígitos sobrantes (como el número entero) al tipo de datos entero. ¿Existe el riesgo de perder alguna información tras la conversión?

No, ya que se conservarán todos los dígitos.

- Sí, debemos mantenerlos como strings, ya que podemos perder ceros al principio del número.
Puede haber ceros al principio de un SSN que se perderán debido a la conversión.

No se puede convertir un SSN a ningún tipo de número entero, ya que hay demasiados dígitos que almacenar.

¡Tu comprensión del material es impresionante!

Pregunta

Cuestionario 5

Has convertido una columna a datetime con pd.to_datetime() y has notado que hay fechas ambiguas como 2022-04-04, 2022-03-03. No sabes qué componente representa el mes. ¿Qué puedes hacer para que la salida de la conversión no sea ambigua?

Aquí no hay ninguna ambigüedad, por lo que no es necesario añadir nada.

- Podemos agregar un formato de fecha datetime relevante.
Podemos pasar la máscara explícita de datetime con el parámetro format al llamar a pd.to_datetime().

¡Lo has entendido bien!

Pregunta

Cuestionario 6

Has leído los datos de un archivo de Excel y te has dado cuenta de que hay una columna datetime que también contiene la zona horaria, CET. Quieres convertirla a EST y localizarla, ¿cómo puedes hacerlo?

Ejecuta .dt.tz_convert().

- Ejecuta ambas funciones .dt.tz_convert() y .dt.tz_localize() de forma consecutiva.
Primero tenemos que cambiar las zonas horarias a EST y luego ‘eliminar’ el componente de la zona horaria localizando los valores datetime.

Ejecuta .dt.tz_localize().

¡Buen trabajo!

Siguientes pasos

En este capítulo, desarrollaste un sólido conocimiento de los tipos de datos y las técnicas de conversión con Pandas. Por ahora, ya puedes:

- Identificar los tipos de datos en tu conjunto de datos.
- Convertir datos entre diferentes tipos para garantizar exactitud y consistencia.
- Manejar y corregir correctamente los tipos de datos identificados de manera incorrecta.
- Manejar datos de fecha y hora, incluyendo conversiones de husos horarios y formateo de fechas.

En el siguiente capítulo, llevarás tu experiencia al siguiente nivel profundizando más en la ingeniería de características. Tendrás la oportunidad de consolidar tus habilidades trabajando con conjuntos de datos de ventas de videojuegos, creando columnas nuevas a partir de los datos existentes, escribiendo funciones para lidiar escenarios complejos y aplicando el método apply() para realizar sofisticadas transformaciones de datos. Esto te ayudará a perfeccionar tus técnicas de manipulación de datos y a desarrollar más tus capacidades analíticas.