<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/camino-udea/blob/main/0_diagnostico/diagnos_prueba_inicial_pivu/41.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
</table>

# Capítulo 1 Python for data analysis 

McKinney

## Preliminares 

## 1.1 ¿De qué trata este libro?

Este libro se ocupa de los aspectos básicos de   

* la manipulación, 
* la limpieza y 
* el procesamiento de datos en Python.

Mi objetivo es ofrecer una guía de las partes del lenguaje de programación Python y su ecosistema de biblioteca orientada a datos y herramientas que lo equiparán para convertirse en un analista de datos efectivo.

Si bien el "análisis de datos" se encuentra en el título del libro, el enfoque se centra específicamente en la programación, las bibliotecas y las herramientas de Python en lugar de la metodología de análisis de datos.

Esta es la programación de Python que necesita para el análisis de datos.

## ¿Qué tipo de datos?

Cuando digo "datos", ¿a qué me refiero exactamente? 

El enfoque principal está en los datos estructurados, un término deliberadamente vago que abarca muchas formas comunes diferentes de datos, como:

* Datos tabulares o similares a una hoja de cálculo en los que cada columna puede ser de un tipo diferente (cadena, numérico, fecha u otro). 

Esto incluye la mayoría de los tipos de datos comúnmente almacenados en bases de datos relacionales o archivos de texto delimitados por tabulaciones o comas.

* Arrays multidimensionales (matrices).

* Múltiples tablas de datos interrelacionados por columnas clave (lo que serían claves primarias o foráneas para un usuario de SQL).

* Series de tiempo uniforme o desigualmente espaciadas.

Esto no es de ninguna manera una lista completa. Aunque no siempre sea obvio, un gran porcentaje de conjuntos de datos se puede transformar en una forma estructurada que sea más adecuada para el análisis y el modelado. 

De lo contrario, es posible extraer características de un conjunto de datos en un formulario estructurado. 

Como ejemplo, una colección de artículos de noticias podría procesarse en una tabla de frecuencia de palabras, que luego podría usarse para realizar un análisis de sentimiento.

La mayoría de los usuarios de programas de hojas de cálculo como Microsoft Excel, quizás la herramienta de análisis de datos más utilizada en el mundo, no serán ajenos a este tipo de datos.

## 1.2 ¿Por qué Python para el análisis de datos?

Para muchas personas, el lenguaje de programación Python tiene un gran atractivo. 

Desde su primera aparición en 1991, Python se ha convertido en uno de los lenguajes de programación interpretados más populares, junto con Perl, Ruby y otros.

Python y Ruby se han vuelto especialmente populares desde 2005 aproximadamente para crear sitios web utilizando sus numerosos marcos web, como Rails (Ruby) y Django (Python). 

Tales lenguajes son a menudo llamados lenguajes de secuencias de comandos, ya que se pueden usar para escribir rápidamente pequeños programas o secuencias de comandos para automatizar otras tareas. 

No me gusta el término "lenguaje de secuencias de comandos", ya que conlleva la connotación de que no se pueden usar para crear software serio. 

Entre lenguajes interpretados, por varias razones históricas y culturales, Python ha desarrollado una gran y activa comunidad científica de computación y análisis de datos. 

En el último 10 años, Python ha pasado de ser un lenguaje informático científico de vanguardia o "bajo su propio riesgo" a uno de los lenguajes más importantes para la ciencia de datos, máquina aprendizaje y desarrollo de software en general en la academia y la industria.

Para el análisis de datos y la computación interactiva y la visualización de datos, Python inevitablemente establecerá comparaciones con otros lenguajes y herramientas de programación comerciales y de código abierto de amplio uso, como R, MATLAB, SAS, Stata y otros.

En los últimos años, el soporte mejorado de Python para bibliotecas (como pandas y scikit-learn) lo ha convertido en una opción popular para las tareas de análisis de datos. 

Combinado con la fortaleza general de Python para la ingeniería de software de propósito general, es una excelente opción como lenguaje principal para crear aplicaciones de datos.

## Python como pegamento

Parte del éxito de Python en la computación científica es la facilidad de integrar código C, C++ y FORTRAN. 

La mayoría de los entornos informáticos modernos comparten un conjunto similar de bibliotecas FORTRAN y C heredadas para realizar álgebra lineal, optimización, integración, transformadas rápidas de Fourier y otros algoritmos similares.

La misma historia ha sido válida para muchas empresas y laboratorios nacionales que han utilizado Python para unir décadas de software heredado.

Muchos programas consisten en pequeñas porciones de código en las que se gasta la mayor parte del tiempo, con grandes cantidades de "código adhesivo" que no se ejecuta con frecuencia. 

En muchos casos, el tiempo de ejecución del código adhesivo es insignificante; el esfuerzo se invierte de manera más fructífera en optimizar los cuellos de botella computacionales, a veces moviendo el código a un lenguaje de nivel inferior como C.

## Resolviendo el problema de los "dos lenguajes"

En muchas organizaciones, es común investigar, crear prototipos y probar nuevas ideas usando un lenguaje informático más especializado como SAS o R y luego trasladar esas ideas para que formen parte de un sistema de producción más grande escrito, por ejemplo, en Java, C# o C++. 

Lo que la gente encuentra cada vez más es que Python es un lenguaje adecuado no solo para investigar y crear prototipos, sino también para construir los sistemas de producción.

¿Por qué mantener dos entornos de desarrollo cuando uno es suficiente? 

Creo que cada vez más empresas seguirán este camino, ya que a menudo hay beneficios organizacionales significativos al tener tanto investigadores como ingenieros de software usando el mismo conjunto de herramientas de programación.

# ¿Por qué no Python?

Si bien Python es un entorno excelente para crear muchos tipos de aplicaciones analíticas y sistemas de uso general, hay una serie de usos para los que Python puede ser menos adecuado.

Como Python es un lenguaje de programación interpretado, en general, la mayoría del código de Python se ejecutará considerablemente más lento que el código escrito en un lenguaje compilado como Java o C++.

Como el tiempo del programador suele ser más valioso que el tiempo de la CPU, muchos están felices de hacer este intercambio.

Sin embargo, en una aplicación con una latencia muy baja o requisitos exigentes de utilización de recursos (por ejemplo, un sistema comercial de alta frecuencia), el tiempo dedicado a programar en un lenguaje de nivel inferior (pero también de menor productividad) como C++ para lograr el máximo rendimiento posible podría ser tiempo bien invertido.

Python puede ser un lenguaje desafiante para crear aplicaciones de subprocesos múltiples altamente concurrentes, particularmente aplicaciones con muchos subprocesos vinculados a la CPU.

La razón de esto es que tiene lo que se conoce como bloqueo global del intérprete (GIL), un mecanismo que evita que el intérprete ejecute más de una instrucción de Python a la vez.

Las razones técnicas de por qué existe el GIL están más allá del alcance de este libro.

Si bien es cierto que en muchas aplicaciones de procesamiento de big data, se puede requerir un grupo de computadoras para procesar un conjunto de datos en una cantidad de tiempo razonable, todavía hay situaciones en las que es deseable un sistema de proceso único y multiproceso.

Esto no quiere decir que Python no pueda ejecutar código paralelo verdaderamente multiproceso.

Las extensiones de Python C que usan subprocesos múltiples nativos (en C o C++) pueden ejecutar código en paralelo sin verse afectadas por la GIL, siempre que no necesiten interactuar regularmente con objetos de Python.

## 1.3 Bibliotecas esenciales de Python

Para aquellos que están menos familiarizados con el ecosistema de datos de Python y las bibliotecas utilizadas a lo largo del libro, daré una breve descripción general de algunas de ellas.

# NumPy

NumPy, abreviatura de **Numerical Python**, ha sido durante mucho tiempo una piedra angular de la **computación numérica** en Python.

Proporciona las estructuras de datos, los algoritmos y el pegamento de biblioteca necesarios para la mayoría de las aplicaciones científicas que involucran datos numéricos en Python.

NumPy contiene, entre otras cosas:

* Un ndarray de objetos de matriz multidimensional rápido y eficiente

* Funciones para realizar cálculos por elementos con matrices u operaciones matemáticas entre matrices

* Herramientas para leer y escribir conjuntos de datos basados en matrices en el disco

* Operaciones de álgebra lineal, transformada de Fourier y generación de números aleatorios

* Una API C madura para habilitar las extensiones de Python y el código C o C++ nativo para acceder a las estructuras de datos y las instalaciones computacionales de NumPy. Más allá de las capacidades de procesamiento rápido de matrices que NumPy agrega a Python, uno de sus usos principales en el análisis de datos es como contenedor de datos. para ser pasado entre algoritmos y bibliotecas.

Para datos numéricos, las matrices NumPy son más eficientes para almacenar y manipular datos que las otras estructuras de datos integradas de Python.

Además, las bibliotecas escritas en un lenguaje de nivel inferior, como C o Fortran, pueden operar con los datos almacenados en una matriz NumPy sin copiar los datos en alguna otra representación de memoria.

Por lo tanto, muchas herramientas de computación numérica para Python asumen arreglos NumPy como una estructura de datos principal o apuntan a una interoperabilidad perfecta con NumPy.

# pandas

pandas proporciona funciones y estructuras de datos de alto nivel diseñadas para hacer que trabajar con datos estructurados o tabulares sea rápido, fácil y expresivo. 

Desde su aparición en 2010, ha ayudado a que Python sea un entorno de análisis de datos poderoso y productivo. 

Los objetos principales en pandas que se utilizarán en este libro son `DataFrame`, una estructura de datos tabular orientada a columnas con etiquetas de fila y columna, y `Series`, un objeto de matriz etiquetado unidimensional.

pandas combina las ideas de computación de matriz de alto rendimiento de NumPy con las capacidades flexibles de manipulación de datos de las hojas de cálculo y las bases de datos relacionales (como SQL). 

Proporciona una funcionalidad de indexación sofisticada para facilitar la remodelación, el corte, la realización de agregaciones y la selección de subconjuntos de datos. 

Dado que la manipulación, preparación y limpieza de datos es una habilidad tan importante en el análisis de datos, pandas es uno de los enfoques principales de este libro.

Como antecedentes, comencé a construir pandas a principios de 2008 durante mi mandato en AQR Capital Management, una empresa de gestión de inversiones cuantitativas. 

En ese momento, tenía un conjunto distinto de requisitos que no estaban bien abordados por ninguna herramienta única en
mi disposición:

# matplotlib

matplotlib es la biblioteca de Python más popular para producir gráficos y otras visualizaciones de datos bidimensionales.

Originalmente fue creado por John D. Hunter y ahora lo mantiene un gran equipo de desarrolladores. 

Está diseñado para crear parcelas adecuadas para su publicación. 

Si bien hay otras bibliotecas de visualización disponibles para los programadores de Python, matplotlib es la más utilizada y, como tal, generalmente tiene una buena integración con el resto del ecosistema. 

Creo que es una opción segura como herramienta de visualización predeterminada.

# IPython y Jupyter

El proyecto IPython comenzó en 2001 como un proyecto paralelo de Fernando Pérez para crear un mejor intérprete interactivo de Python. 

En los siguientes 16 años se ha convertido en una de las herramientas más importantes en la pila de datos moderna de Python. 

Si bien no proporciona ninguna herramienta informática o de análisis de datos por sí mismo, IPython está diseñado desde cero para maximizar su productividad tanto en la informática interactiva como en el desarrollo de software. 

Fomenta un flujo de trabajo de ejecución y exploración en lugar del típico flujo de trabajo de edición, compilación y ejecución de muchos otros lenguajes de programación. 

También proporciona fácil acceso al shell y al sistema de archivos de su sistema operativo. 

Dado que gran parte de la codificación del análisis de datos implica exploración, prueba y error e iteración, IPython puede ayudarlo a realizar el trabajo más rápido.

En 2014, Fernando y el equipo de IPython anunciaron el proyecto Jupyter, una iniciativa más amplia para diseñar herramientas informáticas interactivas independientes del lenguaje.

El cuaderno web IPython se convirtió en el cuaderno Jupyter, con soporte ahora para más de 40 lenguajes de programación.

El sistema IPython ahora se puede usar como kernel (un modo de lenguaje de programación) para usar Python con Jupyter.

IPython se ha convertido en un componente del proyecto de código abierto mucho más amplio Jupyter, que proporciona un entorno productivo para la computación interactiva y exploratoria. 

Su "modo" más antiguo y simple es como un shell de Python mejorado diseñado para acelerar la escritura, prueba y depuración del código de Python.

También puede usar el sistema IPython a través de Jupyter Notebook, un "notebook" de código interactivo basado en la web que ofrece soporte para docenas de lenguajes de programación.

Los cuadernos IPython shell y Jupyter son especialmente útiles para la exploración y visualización de datos.

El sistema de cuadernos Jupyter también le permite crear contenido en Markdown y HTML, lo que le brinda un medio para crear documentos enriquecidos con código y texto.

Otros lenguajes de programación también han implementado kernels para Jupyter para permitirle usar lenguajes distintos a Python en Jupyter.

Para mí, IPython suele estar involucrado con la mayoría de mi trabajo de Python, incluida la ejecución, la depuración y la prueba del código.

En los materiales del libro adjunto, encontrará cuadernos Jupyter que contienen todos los ejemplos de código de cada capítulo.

# SciPy

SciPy es una colección de paquetes que abordan varios dominios de problemas estándar diferentes en computación científica. 

Aquí hay una muestra de los paquetes incluidos:

`scipy.integrate`  
Rutinas de integración numérica y solucionadores de ecuaciones diferenciales

In [2]:
import scipy.integrate as integrate 

In [3]:
integrate.quad(lambda x:x**2,0,1)

(0.33333333333333337, 3.700743415417189e-15)

`scipy.linalg`    
Rutinas de álgebra lineal y descomposición de matrices que se extienden más allá de las proporcionadas en `numpy.linalg`

scipy.optimize
Optimizadores de funciones (minimizadores) y algoritmos de búsqueda de raíces

`scipy.signal`  
Herramientas de procesamiento de señales

`scipy.sparse`  
Matrices dispersas y solucionadores de sistemas lineales dispersos

`scipy.special`  
Envoltorio alrededor de SPECFUN, una biblioteca Fortran que implementa muchas funciones matemáticas, como la función `gamma`.

`scipy.stats`  
Distribuciones de probabilidad discretas y continuas estándar (funciones de densidad, muestreadores, funciones de distribución continua), varias pruebas estadísticas y estadísticas más descriptivas

Juntos, NumPy y SciPy forman una base computacional razonablemente completa y madura para muchas aplicaciones informáticas científicas tradicionales.

# scikit-learn

Desde el inicio del proyecto en 2010, scikit-learn se ha convertido en el principal conjunto de herramientas de aprendizaje automático de propósito general para los programadores de Python. 

En solo siete años, ha tenido más de 1.500 colaboradores de todo el mundo. Incluye submódulos para modelos como:

* Clasificación: SVM, vecinos más cercanos, bosque aleatorio, regresión logística, etc.  
* Regresión: Lasso, regresión de cresta, etc.  
* Clustering: k-means, clustering espectral, etc.  
* Reducción de dimensionalidad: PCA, selección de características, factorización de matrices, etc.  
* Selección de modelo: búsqueda en cuadrícula, validación cruzada, métricas  
* Preprocesamiento: extracción de características, normalización  

Junto con pandas, statsmodels e IPython, scikit-learn ha sido fundamental para permitir que Python sea un lenguaje de programación de ciencia de datos productivo. 

Si bien no podré incluir una guía completa de scikit-learn en este libro, daré una breve introducción a algunos de sus modelos y cómo usarlos con las otras herramientas presentadas en el libro.

# statsmodels

statsmodels es un paquete de análisis estadístico que fue iniciado por el trabajo del profesor de estadística de la Universidad de Stanford, Jonathan Taylor, quien implementó una serie de modelos de análisis de regresión populares en el lenguaje de programación R.

Skipper Seabold y Josef Perktold crearon formalmente el nuevo proyecto statsmodels en 2010 y desde entonces han hecho crecer el proyecto hasta alcanzar una masa crítica de usuarios y colaboradores comprometidos.

Nathaniel Smith desarrolló el proyecto Patsy, que proporciona un marco de especificación de fórmulas o modelos para modelos estadísticos inspirados en el sistema de fórmulas de R.

En comparación con scikit-learn, statsmodels contiene algoritmos para estadísticas y econometría clásicas (principalmente frecuentistas). Esto incluye submódulos como:  

* Modelos de regresión: regresión lineal, modelos lineales generalizados, modelos lineales robustos modelos, modelos lineales de efectos mixtos, etc.
* Análisis de varianza (ANOVA)  
* Análisis de series temporales: AR, ARMA, ARIMA, VAR y otros modelos  
* Métodos no paramétricos: estimación de densidad kernel, regresión kernel  
* Visualización de resultados de modelos estadísticos  

statsmodels se centra más en la inferencia estadística, proporcionando estimaciones de incertidumbre y valores p para los parámetros. 

scikit-learn, por el contrario, se centra más en la predicción.  

Al igual que con scikit-learn, daré una breve introducción a statsmodels y cómo usarlo con NumPy y pandas.

# 1.4 Instalación y configuración

Dado que todos usan Python para diferentes aplicaciones, no existe una solución única para configurar Python y los paquetes complementarios necesarios. 

Muchos lectores no tendrán un entorno de desarrollo de Python completo adecuado para seguir este libro, por lo que aquí daré instrucciones detalladas para configurar cada sistema operativo. 

Recomiendo usar la distribución gratuita de Anaconda. 

En el momento de escribir este artículo, Anaconda se ofrece en las formas Python 2.7 y 3.6, aunque esto podría cambiar en algún momento en el futuro. Este libro usa Python 3.6, y lo animo a usar Python 3.6 o superior.

## Windows

To get started on Windows, download the Anaconda installer. 

I recommend following the installation instructions for Windows available on the Anaconda download page, which may have changed between the time this book was published and when you are reading this.

Now, let’s verify that things are configured correctly. 

Para abrir la aplicación Símbolo del sistema (también conocida como cmd.exe), haga clic con el botón derecho en el menú Inicio y seleccione Símbolo del sistema.

Try starting the Python interpreter by typing python. 

You should see a message that matches the version of Anaconda you installed:

```python
C:\Users\wesm>python
```


To exit the shell, press Ctrl-D (on Linux or macOS), Ctrl-Z (on Windows), or type the command exit() and press Enter

## Apple (OS X, macOS)

Download the OS X Anaconda installer, which should be named something like Anaconda3-4.1.0-MacOSX-x86_64.pkg. Double-click the .pkg file to run the installer.

When the installer runs, it automatically appends the Anaconda executable path to your .bash_profile file. This is located at /Users/$USER/.bash_profile.

To verify everything is working, try launching IPython in the system shell (open the
Terminal application to get a command prompt):
$ ipython

To exit the shell, press Ctrl-D or type exit() and press Enter.

## GNU/Linux

Linux details will vary a bit depending on your Linux flavor, but here I give details for such distributions as Debian, Ubuntu, CentOS, and Fedora. Setup is similar to OS X with the exception of how Anaconda is installed. 

The installer is a shell script that must be executed in the terminal. 

Depending on whether you have a 32-bit or 64-bit system, you will either need to install the x86 (32-bit) or x86_64 (64-bit) installer. 

You will then have a file named something similar to Anaconda3-4.1.0-Linux-x86_64.sh.

To install it, execute this script with bash:
$ bash Anaconda3-4.1.0-Linux-x86_64.sh

Some Linux distributions have versions of all the required Python packages in their package managers and can be installed using a tool like apt. 

The setup described here uses Anaconda, as it’s both easily reproducible across distributions and simpler to upgrade packages to their latest versions.

After accepting the license, you will be presented with a choice of where to put the Anaconda files. 

I recommend installing the files in the default location in your home
directory—for example, /home/$USER/anaconda (with your username, naturally).
The Anaconda installer may ask if you wish to prepend its bin/ directory to your
$PATH variable. If you have any problems after installation, you can do this yourself by
modifying your .bashrc (or .zshrc, if you are using the zsh shell) with something akin
to:
export PATH=/home/$USER/anaconda/bin:$PATH

After doing this you can either start a new terminal process or execute your .bashrc
again with source ~/.bashrc

## Installing or Updating Python Packages

At some point while reading, you may wish to install additional Python packages that are not included in the Anaconda distribution. 

In general, these can be installed with the following command:
conda install package_name
If this does not work, you may also be able to install the package using the pip pack‐
age management tool:
pip install package_name
You can update packages by using the conda update command:
conda update package_name
pip also supports upgrades using the --upgrade flag:
pip install --upgrade package_name
You will have several opportunities to try out these commands throughout the book.

While you can use both conda and pip to install packages, you should not attempt to update conda packages with pip, as doing so
can lead to environment problems. 

When using Anaconda or Miniconda, it’s best to first try updating with conda.

## Python 2 and Python 3

The first version of the Python 3.x line of interpreters was released at the end of 2008.

It included a number of changes that made some previously written Python 2.x code incompatible. 

Because 17 years had passed since the very first release of Python in 1991, creating a “breaking” release of Python 3 was viewed to be for the greater good given the lessons learned during that time.

In 2012, much of the scientific and data analysis community was still using Python
2.x because many packages had not been made fully Python 3 compatible. 

Thus, the first edition of this book used Python 2.7. 

Now, users are free to choose between Python 2.x and 3.x and in general have full library support with either flavor.

However, Python 2.x will reach its development end of life in 2020 (including critical
security patches), and so it is no longer a good idea to start new projects in Python
2.7. Therefore, this book uses Python 3.6, a widely deployed, well-supported stable
release. We have begun to call Python 2.x “Legacy Python” and Python 3.x simply
“Python.” I encourage you to do the same.

This book uses Python 3.6 as its basis. Your version of Python may be newer than 3.6,
but the code examples should be forward compatible. Some code examples may work
differently or not at all in Python 2.7.

## Integrated Development Environments (IDEs) and Text Editors

When asked about my standard development environment, I almost always say “IPython plus a text editor.” I typically write a program and iteratively test and debug each piece of it in IPython or Jupyter notebooks. 

It is also useful to be able to play around with data interactively and visually verify that a particular set of data manipulations is doing the right thing. 

Libraries like pandas and NumPy are designed to be easy to use in the shell.

When building software, however, some users may prefer to use a more richly featured IDE rather than a comparatively primitive text editor like Emacs or Vim. 

Here are some that you can explore:

• PyDev (free), an IDE built on the Eclipse platform
• PyCharm from JetBrains (subscription-based for commercial users, free for open
source developers)
• Python Tools for Visual Studio (for Windows users)
• Spyder (free), an IDE currently shipped with Anaconda
• Komodo IDE (commercial)

Due to the popularity of Python, most text editors, like Atom and Sublime Text 2, have excellent Python support.

## 1.5 Community and Conferences

Outside of an internet search, the various scientific and data-related Python mailing
lists are generally helpful and responsive to questions. Some to take a look at include:
• pydata: A Google Group list for questions related to Python for data analysis and
pandas
• pystatsmodels: For statsmodels or pandas-related questions
• Mailing list for scikit-learn (scikit-learn@python.org) and machine learning in
Python, generally
• numpy-discussion: For NumPy-related questions
• scipy-user: For general SciPy or scientific Python questions
I deliberately did not post URLs for these in case they change. They can be easily
located via an internet search.
Each year many conferences are held all over the world for Python programmers. If
you would like to connect with other Python programmers who share your interests,
I encourage you to explore attending one, if possible. Many conferences have finan‐
cial support available for those who cannot afford admission or travel to the confer‐
ence. Here are some to consider:
• PyCon and EuroPython: The two main general Python conferences in North
America and Europe, respectively
• SciPy and EuroSciPy: Scientific-computing-oriented conferences in North Amer‐
ica and Europe, respectively
• PyData: A worldwide series of regional conferences targeted at data science and
data analysis use cases
• International and regional PyCon conferences (see http://pycon.org for a com‐
plete listing)

## 1.6 Navigating This Book

If you have never programmed in Python before, you will want to spend some time in Chapters 2 and 3, where I have placed a condensed tutorial on Python language features and the IPython shell and Jupyter notebooks. 

These things are prerequisite knowledge for the remainder of the book. If you have Python experience already, you may instead choose to skim or skip these chapters.

Next, I give a short introduction to the key features of NumPy, leaving more
advanced NumPy use for Appendix A. Then, I introduce pandas and devote the rest
of the book to data analysis topics applying pandas, NumPy, and matplotlib (for visu‐
alization). I have structured the material in the most incremental way possible,
though there is occasionally some minor cross-over between chapters, with a few iso‐
lated cases where concepts are used that haven’t necessarily been introduced yet.
While readers may have many different end goals for their work, the tasks required
generally fall into a number of different broad groups:
Interacting with the outside world
Reading and writing with a variety of file formats and data stores
Preparation
Cleaning, munging, combining, normalizing, reshaping, slicing and dicing, and
transforming data for analysis
Transformation
Applying mathematical and statistical operations to groups of datasets to derive
new datasets (e.g., aggregating a large table by group variables)
Modeling and computation
Connecting your data to statistical models, machine learning algorithms, or other
computational tools

*Presentation*    
Creating interactive or static graphical visualizations or textual summaries. 

## Code Examples

Most of the code examples in the book are shown with input and output as it would
appear executed in the IPython shell or in Jupyter notebooks:
In [5]: CODE EXAMPLE
Out[5]: OUTPUT
When you see a code example like this, the intent is for you to type in the example
code in the In block in your coding environment and execute it by pressing the Enter
key (or Shift-Enter in Jupyter). You should see output similar to what is shown in the
Out block.

## Data for Examples

Datasets for the examples in each chapter are hosted in a GitHub repository. You can
download this data either by using the Git version control system on the command
1.6 Navigating This Book | 13
line or by downloading a zip file of the repository from the website. If you run into
problems, navigate to my website for up-to-date instructions about obtaining the
book materials.
I have made every effort to ensure that it contains everything necessary to reproduce
the examples, but I may have made some mistakes or omissions. If so, please send me
an email: book@wesmckinney.com. The best way to report errors in the book is on the
errata page on the O’Reilly website.

## Import Conventions

The Python community has adopted a number of naming conventions for commonly
used modules:

In [2]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import statsmodels as sm

This means that when you see np.arange, this is a reference to the arange function in
NumPy. This is done because it’s considered bad practice in Python software develop‐
ment to import everything (from numpy import *) from a large package like NumPy.
Jargon
I’ll use some terms common both to programming and data science that you may not
be familiar with. Thus, here are some brief definitions:
Munge/munging/wrangling
Describes the overall process of manipulating unstructured and/or messy data
into a structured or clean form. The word has snuck its way into the jargon of
many modern-day data hackers. “Munge” rhymes with “grunge.”
Pseudocode
A description of an algorithm or process that takes a code-like form while likely
not being actual valid source code.
Syntactic sugar
Programming syntax that does not add new features, but makes something more
convenient or easier to type

# CHAPTER 2

# Python Language Basics, IPython, and Jupyter Notebooks

Cuando escribí la primera edición de este libro en 2011 y 2012, había menos recursos disponibles para aprender a realizar análisis de datos en Python.

Esto fue en parte un problema del huevo y la gallina; muchas bibliotecas que ahora damos por sentadas, como pandas, scikit-learn y statsmodels, eran comparativamente inmaduras en ese entonces.

En 2017, ahora hay una creciente literatura sobre ciencia de datos, análisis de datos y aprendizaje automático, que complementa los trabajos anteriores sobre computación científica de propósito general dirigidos a científicos computacionales, físicos y profesionales en otros campos de investigación.

También hay excelentes libros sobre cómo aprender el lenguaje de programación Python y convertirse en un ingeniero de software eficaz.

Como este libro pretende ser un texto introductorio para trabajar con datos en Python, creo que es valioso tener una descripción general independiente de algunas de las características más importantes de las estructuras y bibliotecas de datos integradas de Python desde la perspectiva de la manipulación de datos.

Por lo tanto, en este capítulo y en el Capítulo 3 solo presentaré la información suficiente para permitirle continuar con el resto del libro.

En mi opinión, no es necesario volverse competente en la creación de un buen software en Python para poder realizar análisis de datos de manera productiva.

Lo animo a que use los cuadernos IPython shell y Jupyter para experimentar con los ejemplos de código y explorar la documentación de los distintos tipos, funciones y métodos.

Si bien hice todo lo posible para presentar el material del libro de forma incremental, es posible que ocasionalmente encuentre cosas que aún no se han presentado por completo.

Gran parte de este libro se centra en el análisis basado en tablas y las herramientas de preparación de datos para trabajar con grandes conjuntos de datos.

Para usar esas herramientas, a menudo primero debe hacer algo de munging para acorralar los datos desordenados en una forma tabular (o estructurada) más agradable.

Afortunadamente, Python es un lenguaje ideal para poner rápidamente en forma sus datos.

Cuanto mayor sea su facilidad con el lenguaje Python, más fácil le resultará preparar nuevos conjuntos de datos para el análisis.

Some of the tools in this book are best explored from a live IPython or Jupyter session. 

Once you learn how to start up IPython and Jupyter, I recommend that you follow along with the examples so you can experiment and try different things. 

As with any keyboard-driven console-like environment, developing muscle-memory for the common commands is also part of the learning curve.

There are introductory Python concepts that this chapter does not cover, like classes and object-oriented programming, which you
may find useful in your foray into data analysis in Python.

To deepen your Python language knowledge, I recommend that you supplement this chapter with the official Python tutorial and
potentially one of the many excellent books on general-purpose Python programming. 

Some recommendations to get you started include:

* Python Cookbook, Third Edition, by David Beazley and Brian K. Jones (O’Reilly)  
* Fluent Python by Luciano Ramalho (O’Reilly)  
* Effective Python by Brett Slatkin (Pearson)  

## 2.1 The Python Interpreter

Python es un lenguaje interpretado.

El intérprete de Python ejecuta un programa ejecutando una declaración a la vez.

El intérprete de Python interactivo estándar se puede invocar en la línea de comando con el comando python:

```python
$ python

```

Type "help", "copyright", "credits" or "license" for more information.

In [None]:
>>> a = 5
>>> print(a)

The >>> you see is the prompt where you’ll type code expressions. 

To exit the Python interpreter and return to the command prompt, you can either type exit() or press Ctrl-D.

Running Python programs is as simple as calling python with a .py file as its first
argument. Suppose we had created hello_world.py with these contents:

In [None]:
print('Hello world')

You can run it by executing the following command (the hello_world.py file must be in your current working terminal directory):

```python

python hello_world.py

```


Mientras que algunos programadores de Python ejecutan todo su código de Python de esta manera, aquellos que realizan análisis de datos o computación científica utilizan IPython, un intérprete de Python mejorado, o cuadernos de Jupyter, cuadernos de código basados en la web creados originalmente dentro del proyecto IPython.

I give an introduction to using IPython and Jupyter in this chapter and have included a deeper look at IPython functionality in Appendix A. 

When you use the %run command, IPython executes the code in the specified file in the same process, enabling you to explore the results interactively when it’s done:

```python
$ ipython

```

```python
In [1]: %run hello_world.py
Hello world
In [2]:
    ```

The default IPython prompt adopts the numbered In [2]: style compared with the standard >>> prompt.

## 2.2 IPython Basics

In this section, we’ll get you up and running with the IPython shell and Jupyter notebook, and introduce you to some of the essential concepts.

### Running the IPython Shell

You can launch the IPython shell on the command line just like launching the regular
Python interpreter except with the ipython command:

```python
$ ipython

    ```
Python 3.6.0 | packaged by conda-forge | (default, Jan 13 2017, 23:17:12)
Type "copyright", "credits" or "license" for more information.
IPython 5.1.0 -- An enhanced Interactive Python.
? -> Introduction and overview of IPython's features.
%quickref -> Quick reference.
help -> Python's own help system.

```python

    In [1]: a = 5
    In [2]: a
    Out[2]: 5
    ```

Puede ejecutar declaraciones de Python arbitrarias escribiéndolas y presionando Return (o Enter).

Cuando escribe solo una variable en IPython, muestra una representación de cadena del objeto:

In [5]:
import numpy as np
data = {i : np.random.randn() for i in range(7)}
data



{0: -0.5303764895176484,
 1: 1.00803612093614,
 2: -1.3995809442989582,
 3: -1.0984794827266045,
 4: -1.2991893067079792,
 5: 0.0246909662470246,
 6: -0.7360656931230894}

The first two lines are Python code statements; the second statement creates a variable named data that refers to a newly created Python dictionary. 

The last line prints the value of data in the console.

Many kinds of Python objects are formatted to be more readable, or pretty-printed, which is distinct from normal printing with print. 

If you printed the above data variable in the standard Python interpreter, it would be much less readable:

In [6]:
from numpy.random import randn
data = {i : randn() for i in range(7)}
print(data)


{0: -0.1634136845883612, 1: -0.4412205783081764, 2: 1.891500321907079, 3: 0.22091722324135665, 4: 0.12538523391090728, 5: -0.7982033037186305, 6: 0.45782753797936876}


IPython also provides facilities to execute arbitrary blocks of code (via a somewhat glorified copy-and-paste approach) and whole Python scripts. 

You can also use the Jupyter notebook to work with larger blocks of code, as we’ll soon see.

## Running the Jupyter Notebook

One of the major components of the Jupyter project is the notebook, a type of interac‐
tive document for code, text (with or without markup), data visualizations, and other
output. The Jupyter notebook interacts with kernels, which are implementations of the Jupyter interactive computing protocol in any number of programming lan‐
guages. Python’s Jupyter kernel uses the IPython system for its underlying behavior.
To start up Jupyter, run the command jupyter notebook in a terminal:

```python

$ jupyter notebook
[I 15:20:52.739 NotebookApp] Serving notebooks from local directory:
/home/wesm/code/pydata-book
[I 15:20:52.739 NotebookApp] 0 active kernels
[I 15:20:52.739 NotebookApp] The Jupyter Notebook is running at:
http://localhost:8888/
[I 15:20:52.740 NotebookApp] Use Control-C to stop this server and shut down
all kernels (twice to skip confirmation).
Created new window in existing browser session.

    ```

On many platforms, Jupyter will automatically open up in your default web browser
(unless you start it with --no-browser). Otherwise, you can navigate to the HTTP
address printed when you started the notebook, here http://localhost:8888/. See
Figure 2-1 for what this looks like in Google Chrome.

Many people use Jupyter as a local computing environment, but it
can also be deployed on servers and accessed remotely. I won’t
cover those details here, but encourage you to explore this topic on
the internet if it’s relevant to your needs.


<img src = ''>

To create a new notebook, click the New button and select the “Python 3” or “conda
[default]” option. You should see something like Figure 2-2. If this is your first time,
try clicking on the empty code “cell” and entering a line of Python code. Then press
Shift-Enter to execute it.

<img src = ''>

When you save the notebook (see “Save and Checkpoint” under the notebook File
menu), it creates a file with the extension .ipynb. This is a self-contained file format
that contains all of the content (including any evaluated code output) currently in the
notebook. These can be loaded and edited by other Jupyter users. To load an existing
notebook, put the file in the same directory where you started the notebook process
(or in a subfolder within it), then double-click the name from the landing page. You
can try it out with the notebooks from my wesm/pydata-book repository on GitHub.
See Figure 2-3.
While the Jupyter notebook can feel like a distinct experience from the IPython shell,
nearly all of the commands and tools in this chapter can be used in either environ‐
ment.

# Tab Completion

On the surface, the IPython shell looks like a cosmetically different version of the
standard terminal Python interpreter (invoked with python). One of the major
improvements over the standard Python shell is tab completion, found in many IDEs
or other interactive computing analysis environments. While entering expressions in
the shell, pressing the Tab key will search the namespace for any variables (objects,
functions, etc.) matching the characters you have typed so far:

## Referencias  

Guía del usuario de scipy: https://docs.scipy.org/doc/scipy/tutorial/general.html  