# Introducción a NumPy

Este capítulo, junto con el capítulo 3, describe las técnicas para cargar, almacenar y manipular eficazmente los datos en memoria en Python.
El tema es muy amplio: los conjuntos de datos pueden provenir de una amplia gama de fuentes y una amplia gama de formatos, incluyendo ser colecciones de documentos, colecciones de imágenes, colecciones de clips de sonido, colecciones de medidas numéricas, o casi cualquier otra cosa.
A pesar de esta aparente heterogeneidad, nos ayudará pensar en todos los datos fundamentalmente como arrays de números.


Por ejemplo, las imágenes, sobre todo las digitales, pueden considerarse simplemente como arrays bidimensionales de números que representan el brillo de los píxeles en el área. Los clips de sonido pueden considerarse como arrays unidimensionales de intensidad en función del tiempo.
El texto puede convertirse de varias maneras en representaciones numéricas, tal vez en dígitos binarios que representan la frecuencia de ciertas palabras o pares de palabras.
Sean cuales sean los datos, el primer paso para hacerlos analizables será transformarlos en arrays de números.
(Discutiremos algunos ejemplos específicos de este proceso más adelante en [Ingeniería de rasgos](05.04-Ingeniería-de-rasgos.ipynb))



Por esta razón, el almacenamiento y la manipulación eficiente de arrays numéricas es absolutamente fundamental para el proceso de hacer ciencia de datos.
A continuación veremos las herramientas especializadas que tiene Python para manejar dichos arrays numéricos: el paquete NumPy, y el paquete Pandas (discutido en el Capítulo 3).

Este capítulo cubrirá NumPy en detalle. NumPy (abreviatura de *Python numérico*) proporciona una interfaz eficiente para almacenar y operar con buffers de datos densos.
En cierto modo, los arrays de NumPy son como el tipo ``list`` incorporado de Python, pero los arrays de NumPy proporcionan un almacenamiento y unas operaciones de datos mucho más eficientes a medida que los arrays crecen en tamaño.
Las arrays NumPy forman el núcleo de casi todo el ecosistema de herramientas de ciencia de datos en Python, por lo que el tiempo dedicado a aprender a utilizar NumPy de forma eficaz será valioso independientemente del aspecto de la ciencia de datos que te interese.

Si has seguido los consejos del Prefacio y has instalado la pila Anaconda, ya tienes NumPy instalado y listo para funcionar.
Si eres más del tipo "hazlo tú mismo", puedes ir a http://www.numpy.org/ y seguir las instrucciones de instalación que se encuentran allí.
Una vez que lo hagas, puedes importar NumPy y comprobar la versión:

In [None]:
import numpy
numpy.__version__

'1.11.1'

Para las piezas del paquete que se discuten aquí, yo recomendaría NumPy versión 1.8 o posterior.
Por convención, encontrarás que la mayoría de la gente en el mundo de SciPy/PyData importará NumPy usando ``np`` como alias:

In [None]:
import numpy as np

A lo largo de este capítulo, y de hecho del resto del libro, verás que esta es la forma en que importaremos y usaremos NumPy.

## Recordatorio sobre la documentación incorporada

A medida que leas este capítulo, no olvides que IPython te da la posibilidad de explorar rápidamente el contenido de un paquete (usando la función de completado de pestañas), así como la documentación de varias funciones (usando el carácter ``?`` - Vuelve a consultar [Ayuda y Documentación en IPython](01.01-Ayuda-Y-Documentación.ipynb)).

Por ejemplo, para mostrar todo el contenido del espacio de nombres de numpy, puedes escribir esto:


```ipython
In [3]: np.<TAB>
```

Y para mostrar la documentación incorporada de NumPy, puedes usar esto:

```ipython
In [4]: np?
```

Puede encontrar documentación más detallada, junto con tutoriales y otros recursos, en http://www.numpy.org.