# Prefacio

## ¿Qué es la ciencia de los datos?

Este es un libro sobre cómo hacer ciencia de datos con Python, lo que inmediatamente lleva a la pregunta: ¿qué es la *ciencia de datos*?
Es una definición sorprendentemente difícil de precisar, sobre todo teniendo en cuenta lo omnipresente que se ha vuelto el término.
Los críticos han rechazado el término como una etiqueta superflua (después de todo, ¿qué ciencia no implica datos?) o como una simple palabra de moda que sólo existe para salar los currículos y llamar la atención de los reclutadores tecnológicos demasiado entusiastas.

En mi opinión, estas críticas pasan por alto algo importante.
La ciencia de los datos, a pesar de su apariencia exagerada, es quizás la mejor etiqueta que tenemos para el conjunto de habilidades interdisciplinarias que se están volviendo cada vez más importantes en muchas aplicaciones en la industria y el mundo académico.
Esta parte interdisciplinar es clave: en mi opinión, la mejor definición que existe de la ciencia de los datos se ilustra en el diagrama de Venn de la ciencia de los datos de Drew Conway, publicado por primera vez en su blog en septiembre de 2010:

![Data Science Venn Diagram](https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/Data_Science_VD.png?raw=1)

<small>(Fuente: [Drew Conway](http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram). Utilizado con permiso.)</small>

Aunque algunas de las etiquetas de las intersecciones son un poco irónicas, este diagrama capta la esencia de lo que creo que la gente quiere decir cuando dice "ciencia de los datos": es fundamentalmente un tema *interdisciplinario*.
La ciencia de los datos comprende tres áreas distintas que se superponen: las habilidades de un *estadístico* que sabe cómo modelar y resumir conjuntos de datos (que son cada vez más grandes); las habilidades de un *científico informático* que puede diseñar y utilizar algoritmos para almacenar, procesar y visualizar estos datos de manera eficiente; y la *experiencia en el dominio* -lo que podríamos considerar como formación "clásica" en un tema- necesaria tanto para formular las preguntas correctas como para poner sus respuestas en contexto.

Teniendo esto en cuenta, le animo a que piense en la ciencia de los datos no como un nuevo dominio de conocimiento que hay que aprender, sino como un nuevo conjunto de habilidades que puede aplicar dentro de su actual área de experiencia.
Tanto si se trata de informar sobre los resultados de las elecciones, como de pronosticar el rendimiento de las acciones, optimizar los clics de los anuncios en línea, identificar microorganismos en las fotos del microscopio, buscar nuevas clases de objetos astronómicos o trabajar con datos en cualquier otro campo, el objetivo de este libro es proporcionarle la capacidad de formular y responder nuevas preguntas sobre el tema que ha elegido.

## ¿Para quién es este libro?

En mis enseñanzas tanto en la Universidad de Washington como en varias conferencias y encuentros centrados en la tecnología, una de las preguntas más comunes que he escuchado es la siguiente: "¿Cómo debo aprender Python?"
Las personas que preguntan son generalmente estudiantes, desarrolladores o investigadores con mentalidad técnica, a menudo con una sólida experiencia en la escritura de código y el uso de herramientas computacionales y numéricas.
La mayoría de estas personas no quieren aprender Python *per se*, sino que quieren aprender el lenguaje con el objetivo de utilizarlo como herramienta para la ciencia computacional y de datos intensivos.
Aunque existe un gran mosaico de vídeos, entradas de blog y tutoriales para este público en Internet, hace tiempo que me siento frustrado por la falta de una única y buena respuesta a esta cuestión; eso es lo que ha inspirado este libro.

El libro no pretende ser una introducción a Python o a la programación en general; asumo que el lector está familiarizado con el lenguaje Python, incluyendo la definición de funciones, la asignación de variables, la llamada a métodos de objetos, el control del flujo de un programa y otras tareas básicas.
En cambio, pretende ayudar a los usuarios de Python a aprender a utilizar la pila de ciencia de datos de Python -bibliotecas como IPython, NumPy, Pandas, Matplotlib, Scikit-Learn y herramientas relacionadas- para almacenar, manipular y obtener información de los datos de manera eficaz.

## ¿Por qué Python?

Python ha surgido en las últimas dos décadas como una herramienta de primera clase para tareas de computación científica, incluyendo el análisis y la visualización de grandes conjuntos de datos.
Esto puede resultar sorprendente para los primeros defensores del lenguaje Python: el propio lenguaje no fue diseñado específicamente para el análisis de datos o la computación científica.
La utilidad de Python para la ciencia de datos se debe principalmente al amplio y activo ecosistema de paquetes de terceros: *NumPy* para la manipulación de datos homogéneos basados en arrays, *Pandas* para la manipulación de datos heterogéneos y etiquetados, *SciPy* para tareas comunes de computación científica, *Matplotlib* para visualizaciones con calidad de publicación, *IPython* para la ejecución interactiva y la compartición de código, *Scikit-Learn* para el aprendizaje automático, y muchas más herramientas que se mencionarán en las siguientes páginas.

Si buscas una guía del propio lenguaje Python, te sugiero el proyecto hermano de este libro, "[A Whirlwind Tour of the Python Language](https://github.com/jakevdp/WhirlwindTourOfPython)".
Este breve informe ofrece un recorrido por las características esenciales del lenguaje Python, dirigido a los científicos de datos que ya están familiarizados con uno o varios otros lenguajes de programación.

### Python 2 vs Python 3

Este libro utiliza la sintaxis de Python 3, que contiene mejoras del lenguaje que no son compatibles con la serie 2.x de Python.
Aunque Python 3.0 se publicó por primera vez en 2008, su adopción ha sido relativamente lenta, especialmente en las comunidades de desarrollo científico y web.
Esto se debe principalmente a que se necesitó algún tiempo para que muchos de los paquetes y kits de herramientas esenciales de terceros se hicieran compatibles con el nuevo lenguaje interno.
Sin embargo, desde principios de 2014, las versiones estables de las herramientas más importantes del ecosistema de la ciencia de los datos son totalmente compatibles tanto con Python 2 como con 3, por lo que este libro utilizará la sintaxis más reciente de Python 3.
Sin embargo, la gran mayoría de los fragmentos de código de este libro también funcionarán sin modificaciones en Python 2: en los casos en los que se utilice una sintaxis incompatible con Py2, haré todo lo posible por indicarlo explícitamente.

## Esquema del libro

Cada capítulo de este libro se centra en un paquete o herramienta concreta que aporta una pieza fundamental de la historia de Python Data Sciece.

1. IPython y Jupyter: estos paquetes proporcionan el entorno computacional en el que trabajan muchos científicos de datos que utilizan Python.
2. NumPy: esta biblioteca proporciona el ``ndarray`` para el almacenamiento y la manipulación eficiente de matrices de datos densos en Python.
3. Pandas: esta biblioteca proporciona el ``DataFrame`` para el almacenamiento y la manipulación eficiente de datos etiquetados/columnares en Python.
4. Matplotlib: esta biblioteca proporciona capacidades para una gama flexible de visualizaciones de datos en Python.
5. Scikit-Learn: esta biblioteca proporciona implementaciones eficientes y limpias en Python de los algoritmos de aprendizaje automático más importantes y establecidos.

El mundo de PyData es ciertamente mucho más grande que estos cinco paquetes, y está creciendo cada día.
Con esto en mente, hago todo lo posible a través de estas páginas para proporcionar referencias a otros esfuerzos, proyectos y paquetes interesantes que están empujando los límites de lo que se puede hacer en Python.
Sin embargo, estos cinco son actualmente fundamentales para gran parte del trabajo que se realiza en el espacio de la ciencia de datos de Python, y espero que sigan siendo importantes incluso cuando el ecosistema siga creciendo a su alrededor.

## Uso de los ejemplos de código

El material complementario (ejemplos de código, figuras, etc.) está disponible para su descarga en http://github.com/jakevdp/PythonDataScienceHandbook/. Este libro está aquí para ayudarle a realizar su trabajo. En general, si el código de ejemplo se ofrece con este libro, puede utilizarlo en sus programas y documentación. No es necesario que se ponga en contacto con nosotros para pedir permiso, a menos que reproduzca una parte importante del código. Por ejemplo, escribir un programa que utilice varios trozos de código de este libro no requiere permiso. Vender o distribuir un CD-ROM con ejemplos de los libros de O'Reilly sí requiere permiso. Responder a una pregunta citando este libro y citando código de ejemplo no requiere permiso. Incorporar una cantidad significativa de código de ejemplo de este libro en la documentación de su producto sí requiere permiso.

Agradecemos, pero no exigimos, la atribución. Una atribución suele incluir el título, el autor, la editorial y el ISBN. Por ejemplo:

> *The Python Data Science Handbook* de Jake VanderPlas (O'Reilly). Copyright 2016 Jake VanderPlas, 978-1-491-91205-8.

Si crees que tu uso de los ejemplos de código está fuera del uso justo o de la misión indicada anteriormente, no dudes en ponerte en contacto con nosotros en permissions@oreilly.com.

## Consideraciones sobre la instalación

La instalación de Python y del conjunto de bibliotecas que permiten la computación científica es sencilla. En esta sección se describen algunas de las consideraciones a tener en cuenta a la hora de configurar el ordenador.

Aunque hay varias maneras de instalar Python, la que yo sugeriría para su uso en la ciencia de los datos es la distribución Anaconda, que funciona de manera similar si usted utiliza Windows, Linux o Mac OS X.
La distribución Anaconda viene en dos sabores:

- [Miniconda](http://conda.pydata.org/miniconda.html) ofrece el intérprete de Python, junto con una herramienta de línea de comandos llamada ``conda`` que funciona como un gestor de paquetes multiplataforma orientado a los paquetes de Python, similar en espíritu a las herramientas apt o yum con las que los usuarios de Linux pueden estar familiarizados.

- [Anaconda](https://www.continuum.io/downloads) incluye tanto Python como conda, y además incluye un conjunto de otros paquetes preinstalados orientados a la computación científica. Debido al tamaño de este paquete, es de esperar que la instalación consuma varios gigabytes de espacio en disco.

Cualquiera de los paquetes incluidos en Anaconda también puede ser instalado manualmente sobre Miniconda; por esta razón sugiero comenzar con Miniconda.

Para empezar, descargue e instale el paquete de Miniconda -asegúrese de elegir una versión con Python 3- y luego instale los paquetes principales utilizados en este libro:

```
[~]$ conda install numpy pandas scikit-learn matplotlib seaborn jupyter
```

A lo largo del texto, también haremos uso de otras herramientas más especializadas del ecosistema científico de Python; la instalación suele ser tan sencilla como escribir **``conda install packagename``**.
Para más información sobre conda, incluyendo información sobre la creación y uso de entornos conda (que yo *recomendaría*), consulte [la documentación online de conda](http://conda.pydata.org/docs/).