- Identificar las características básicas de las Series y DataFrames de Pandas.
- Leer JSONs usando Pandas.
- Utilizar herramientas básicas de exploración de datos.
Series de Pandas
Las Series
son una de las dos estructuras de datos que ofrece pandas
que nos hacen la vida mucho más fácil como científicos de datos.
Las Series
son una especie de híbrido entre listas
y diccionarios
.
Vamos a ver cómo funcionan.
He elegido enseñar el operador
loc
desde el principio. Usar eloperador de indexación
sinloc
oiloc
, aunque pareciera mejor por su similitud a laslistas
se presta a muchas confusiones y puede acarrear muchos errores. Creo que es mejor acostumbrarse a ser específicos al respecto de si estamos pidiendo los índices por su nombre o por su posición.
Métodos avanzados de indexación
Podemos usar otros métodos de indexación en las Series
que resultan súmamente útiles a la hora de explorar y procesar datos.
Podemos elegir, por ejemplo, rangos de datos usando una sintaxis como la siguiente:
serie.loc[4:23]
Dataframes
Los DataFrames
son la segunda estructura de datos de pandas
que vamos estar usando constantemente. Un DataFrame
está hecho de dos o más Series
acomodadas de manera que obtenemos una estructura tabular.
Los DataFrames
son bidimensionales, tienen filas y columnas. Cada columna es una Serie
que tiene un nombre. Los DataFrames
nos ayudan a manejar datos en estructura tabular de manera muy eficiente.
Veamos cómo funcionan.
Manipulación de columnas en un DataFrame
Podemos agregar, reasignar y eliminar columnas de nuestros DataFrames
. La sintaxis es muy parecida a la que se usa con los diccionarios
.
Lectura de archivos JSON
Uno de los formatos más comunes en los que vamos a encontrar conjuntos de datos es el formato JSON. Como probablemente ya sabrás, el formato JSON se parece bastante al formato que tienen los diccionarios
de Python:
{
"llave_1": "valor_1",
"llave_2": "valor_2",
"llave_3": "valor_3",
"llave_4": "valor_4"
}
Vamos a aprender a leer archivos JSON y a convertirlos en DataFrames
.
Lectura de CSVs y adquisición de datos por medio de APIs y Bases de Datos se estudian más adelante en el módulo.
Análisis Exploratorio de Datos
El Ánalisis Exploratorio de Datos es el proceso a través del cual exploramos un nuevo conjunto de datos para conocer su contenido a profundidad. Este paso es extremadamente importante, puesto que nos ayuda a saber cómo limpiar y reestructurar nuestro conjunto de datos de manera que podamos realizar un mejor análisis y visualización de los datos.
Vamos a ver algunas herramientas básicas que tienen los DataFrames
para explorar un conjunto de datos.
Por ahora estamos haciendo una exploración muy básica. Lo que importa es que el alumno entienda los principios básicos de cómo crear
DataFrames
a partir de conjuntos de datos existentes. En la sesión que sigue se verá Análisis Exploratorio a más profundidad.