Sprint 3: Manipulación de datos (Data Wrangling)


Capítulo 2/6

Leer y visualizar datos

Examen del capítulo

Introducción

En este capítulo, exploraste funcionalidades esenciales de la librería de Pandas para manejar y analizar datos. Ahora tienes las habilidades para:

Leer archivos CSV con varios delimitadores y archivos Excel con múltiples hojas.
Analizar la estructura general y propiedades de tus datos utilizando métodos como head() y tail().
Obtener estadísticas resumidas básicas de las características numéricas con describe().
Esta es una recapitulación rápida de lo que has aprendido:

Puedes manejar archivos de datos de manera efectiva utilizando funciones como pd.read_csv() y pd.read_excel(). Por ejemplo:

import pandas as pd

# Leer un archivo CSV con un delimitador de tabulación
df = pd.read_csv('clients.csv', sep='\\t')

# Leer un archivo Excel con múltiples hojas
clients_df = pd.read_excel('month_stats.xlsx', sheet_name='Clients')
cities_df = pd.read_excel('month_stats.xlsx', sheet_name='Cities')
También aprendiste a explorar las estructuras de los DataFrames con atributos como shape y métodos como info(), así como a recuperar resúmenes estadísticos con describe().

# Explorar los atributos de los DataFrames
print(df.shape)
print(df.info())

# Obtener resúmenes estadísticos de las columnas numéricas
print(df.describe())
Para recuperar datos específicos, puedes utilizar métodos como sample() para un muestreo aleatorio; o head() y tail() para filas secuenciales. Puedes indexar DataFrames tanto con notación extensa como abreviada.

# Muestrear aleatoriamente a partir del DataFrame
sample_df = df.sample(n=5)

# Obtener las primeras filas
print(df.head())

# Indexar con la notación extensa y abreviada
mean_duration = df[df.loc[:, 'genre'] == 'pop']['total play'].mean()
Ahora que ya dominas estas funcionalidades clave, ¡llegó la hora de poner a prueba tus conocimientos con los cuestionarios!

Práctica guiada
Pregunta

Cuestionario 1
¿Un archivo CSV puede utilizar ; como delimitador?

No, CSV significa valores separados por comas ("comma-separated values") y como tal solo utilizará , como delimitador.

*Sí, no es necesario que un archivo CSV utilice una coma como delimitador.

Se puede utilizar cualquier carácter como delimitador. Por ejemplo, valores separados por un delimitador de tabulación (valores separados por tabuladores) es otro formato común. A veces pueden encontrarse como archivos .tsv o .tab, además de .csv.

Sí, pero sería un archivo CSV no compatible.

¡Excelente trabajo!

Pregunta

Cuestionario 2

Tienes un archivo CSV llamado clients.csv con el delimitador tab. ¿Cómo se leería en un objeto DataFrame?

pd.read_tsv('clients.csv')

*pd.read_csv('clients.csv', sep='\\t')
Con el parámetro sep se puede especificar cualquier carácter o una secuencia de caracteres como delimitador de campo.

pd.read_csv('clients.csv')

pd.read_csv('clients.csv', delim='\\t')

¡Bien hecho!

Pregunta

Cuestionario 3

Tienes un archivo CSV. Al examinar las primeras filas del archivo en un editor de texto has notado que se utiliza un delimitador poco común. ¿Cómo se leería en un objeto DataFrame?

Year<DEL>"Score"<DEL>"Title"
1968<DEL>86<DEL>"Greetings"
1970<DEL>17<DEL>"Bloody Mama"
1970<DEL>73<DEL>"Hi, Mom!"
1971<DEL>40<DEL>"Born to Win"
1973<DEL>98<DEL>"Mean Streets"
1973<DEL>88<DEL>"Bang the Drum Slowly"
1974<DEL>97<DEL>"The Godfather, Part II"
No es un archivo CSV estándar. Pediré una versión corregida.

Puedo leerlo con pd.read_csv() indicando solo el nombre del archivo.

*Puedo especificar el delimitador como <DEL> utilizando el parámetro sep='<DEL>'.

Es bastante habitual tener que especificar un parámetro adicional (mediante el parámetro sep) para leer correctamente los archivos CSV. En lugar de estudiarlos y memorizarlos todos, es más fácil revisar la documentación para cualquier parámetro que ayude a leer un archivo CSV específico de forma correcta. 

¡Buen trabajo!

Pregunta

Cuestionario 4
Tienes un archivo llamado clients.tsv. Se supone que se trata de un archivo CSV. ¿Cómo se leería en un objeto DataFrame?

pd.read_tsv('clients.tsv')

*pd.read_csv('clients.tsv', sep='\t')
La extensión del archivo, .tsv, sugiere que se trata de un archivo separado por tabuladores, por lo que se puede utilizar el parámetro sep para especificar el delimitador como tab.

pd.read_csv('clients.tsv')

¡Lo has entendido bien!
Pregunta

Cuestionario 5

Tienes un archivo Excel month_stats.xlsx con dos hojas de cálculo llamadas Clients y Cities. Necesitas los datos de ambas. ¿Cómo podrías cargar todos estos datos en objetos DataFrame?

Elige tantas como quieras
No es posible, ya que Pandas permite leer datos solo de la primera hoja.

*df = pd.read_excel('month_stats.xlsx'). Carga los datos de todas las hojas en un objeto DataFrame.
Si no se especifica el parámetro sheet_name, la función pd.read_excel() utilizará 0 por defecto. Esto significa que solo se utilizará la primera hoja y el resto de las hojas, a partir de ese momento, se ignorarán.

*df = pd.read_excel('month_stats.xlsx', sheet_name=['Clients', 'Cities]). Cargará los datos de todas las hojas en un objeto DataFrame.
Funcionará ya que carga los datos de todas las hojas especificadas en un diccionario con los nombres de las hojas como claves y los objetos DataFrame como valores.

python
df_clients = pd.read_excel('month_stats.xlsx', sheet_name='Clients')
df_citites = pd.read_excel('month_stats.xlsx', sheet_name='Cities')

*Cargará los datos de las dos hojas especificadas en los objetos DataFrame correspondientes.
Probablemente, es el método más simple y transparente. Alternativamente, podemos especificar sheet_name=['Clients', 'Cities] y cargará los datos de todas las hojas especificadas en un diccionario con los nombres de las hojas como claves y los objetos DataFrame como valores.

¡Perfecto!
Pregunta

Cuestionario 6
¿En qué casos es preferible sample() que head()?

Elige tantas como quieras

*Si sospechamos que los puntos de datos del principio de un conjunto de datos no son tan representativos del conjunto de datos como una muestra aleatoria del mismo.
El método sample() selecciona filas aleatorias del DataFrame en lugar de filas consecutivas del principio. Aumenta la probabilidad de ver una imagen "más amplia" de los datos.

Si queremos ordenar las primeras filas del conjunto de datos en un orden aleatorio.

Si quisiéramos obtener una muestra de un dataset muy grande, sería más rápido utilizar sample() que head().

*Si quisiéramos ejecutar sample() varias veces para examinar los datos a través de varias muestras.
Cada ejecución de sample(), a menos que fijemos el estado aleatorio, devolverá una nueva muestra. Esto nos permite ver distintos puntos de datos de diferentes partes de los datos. head() seguiría devolviendo los mismos puntos de datos del principio del conjunto de datos.

¡Buen trabajo!
Pregunta

Cuestionario 7
Quieres obtener el número total de valores no nulos para cada columna. ¿Qué método sería el más adecuado?

*info()
Devuelve el número total de valores no ausentes de cada columna.

describe()

info(), describe()

isna()

¡Excelente trabajo!
Pregunta

Cuestionario 8

Quieres obtener estadísticas de resumen de un DataFrame para todas las columnas y llamas a describe() para conseguirlas. Lamentablemente, en la salida faltan algunas columnas. ¿Cómo puedes obtener las estadísticas básicas de todas las columnas?

Elige tantas como quieras

Enumera todos los nombres de las columnas en el parámetro include.

*Pasa una lista de tipos de datos que cubran todas las columnas del parámetro include.
Es una opción viable, aunque podría ser insuficiente para averiguar y enumerar todos los tipos de datos relevantes.

*Pasa 'all' en el parámetro include.
Es probable que las columnas que se pierdan sean las no numéricas. La opción include='all' hace que describe() proporcione estadísticas de todos los tipos de datos dentro del conjunto de datos, es decir, de todas las columnas (más detalles).

¡Lo has entendido bien!
Siguientes pasos

Este es un resumen de lo que has logrado:

Leer varios formatos de archivos. Aprendiste como leer archivos CSV con diferentes delimitadores y archivos Excel con múltiples hojas, incrementando tu habilidad para manejar una diversidad de conjuntos de datos.

Explorar estructuras de datos. Ahora puedes examinar estructuras de DataFrames utilizando métodos como head() o tail() y atributos como shape e info().

Recuperar y analizar datos. Dominaste técnicas de indexación, tanto la notación extensa como la abreviada, y eres experto en aplicar funciones de agregación como count(), sum() y mean().

Resumir datos. Utilizaste describe() para obtener estadísticas básicas acerca de las características numéricas que te ayudaron a obtener un panorama general rápido de tu conjunto de datos.

Estas técnicas sientan una base sólida para el manejo y análisis exploratorio de datos (EDA, por sus siglas en inglés). Con estas habilidades, estarás listo para comenzar tu análisis de datos y formular preguntas significativas.
