# Manipulación de datos con Pandas

En la [Parte 2](02.00-Introducción-a-NumPy.ipynb), profundizamos en NumPy y su objeto `ndarray`, que permite el almacenamiento y la manipulación eficientes de matrices de tipos densos en Python.
Aquí desarrollaremos este conocimiento analizando en profundidad las estructuras de datos proporcionadas por la biblioteca Pandas.
Pandas es un paquete más nuevo creado sobre NumPy que proporciona una implementación eficiente de un "DataFrame".
Los ``DataFrame`` son esencialmente matrices multidimensionales con etiquetas de filas y columnas adjuntas, a menudo con tipos heterogéneos y/o datos faltantes.
Además de ofrecer una cómoda interfaz de almacenamiento para datos etiquetados, Pandas implementa una serie de potentes operaciones de datos familiares para los usuarios tanto de marcos de bases de datos como de programas de hojas de cálculo.

Como hemos visto, la estructura de datos "ndarray" de NumPy proporciona características esenciales para el tipo de datos limpios y bien organizados que normalmente se ven en las tareas de computación numérica.
Si bien sirve muy bien para este propósito, sus limitaciones se vuelven claras cuando necesitamos más flexibilidad (por ejemplo, adjuntar etiquetas a los datos, trabajar con datos faltantes, etc.) y cuando intentamos operaciones que no se corresponden bien con la transmisión por elementos (por ejemplo, agrupaciones, pivotes, etc.), cada uno de los cuales es una pieza importante para analizar los datos menos estructurados disponibles en muchas formas en el mundo que nos rodea.
Pandas, y en particular sus objetos `Series` y `DataFrame`, se basa en la estructura de matriz NumPy y proporciona acceso eficiente a este tipo de tareas de "gestión de datos" que ocupan gran parte del tiempo de un científico de datos.

En esta parte del libro, nos centraremos en la mecánica del uso eficaz de "Series", "DataFrame" y estructuras relacionadas.
Usaremos ejemplos extraídos de conjuntos de datos reales cuando sea apropiado, pero estos ejemplos no son necesariamente el foco.

## Instalación y uso de Pandas

La instalación de Pandas en su sistema requiere la instalación de NumPy, y si está creando la biblioteca desde el código fuente, necesitará las herramientas adecuadas para compilar las fuentes C y Cython en las que se basa Pandas.
Los detalles sobre el proceso de instalación se pueden encontrar en la [documentación de Pandas] (http://pandas.pydata.org/).
Si siguió los consejos descritos en el [Prefacio](00.00-Prefacio.ipynb) y utilizó la pila Anaconda, ya tiene Pandas instalado.

Una vez instalado Pandas, puedes importarlo y comprobar la versión; Aquí está la versión utilizada por este libro:

In [1]:
import pandas
pandas.__version__

'1.3.5'

Así como generalmente importamos NumPy con el alias `np`, importaremos Pandas con el alias `pd`:

In [2]:
import pandas as pd

Esta convención de importación se utilizará a lo largo del resto de este libro.

## Recordatorio sobre la documentación integrada

Mientras lee esta parte del libro, no olvide que IPython le brinda la posibilidad de explorar rápidamente el contenido de un paquete (usando la función de completar tabulación), así como la documentación de varias funciones (usando el `?` personaje). Consulte [Ayuda y documentación en IPython] (01.01-Help-And-Documentation.ipynb) si necesita un repaso sobre esto.

Por ejemplo, para mostrar todo el contenido del espacio de nombres de Pandas, puedes escribir:

```ipython
En [3]: pd.<TAB>
```

Y para mostrar la documentación integrada de Pandas, puedes usar esto:

```ipython
En [4]: ​​pd?
```

Puede encontrar documentación más detallada, junto con tutoriales y otros recursos, en http://pandas.pydata.org/.