<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/didactica_ciencia_datos/blob/main/referentes/mckinney/c2/c2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
</table>

# CHAPTER 2  

## Python Language Basics, IPython, and Jupyter Notebooks

Cuando escribí la primera edición de este libro en 2011 y 2012, había menos recursos disponibles para aprender a realizar análisis de datos en Python.

Esto fue en parte un problema del huevo y la gallina; muchas bibliotecas que ahora damos por sentadas, como pandas, scikit-learn y statsmodels, eran comparativamente inmaduras en ese entonces.

En 2017, ahora hay una creciente literatura sobre ciencia de datos, análisis de datos y aprendizaje automático, que complementa los trabajos anteriores sobre computación científica de propósito general dirigidos a científicos computacionales, físicos y profesionales en otros campos de investigación.

También hay excelentes libros sobre cómo aprender el lenguaje de programación Python y convertirse en un ingeniero de software efectivo.

Como este libro pretende ser un texto introductorio para trabajar con datos en Python, creo que es valioso tener una descripción general independiente de algunas de las características más importantes de las estructuras y bibliotecas de datos integradas de Python desde la perspectiva de la manipulación de datos.

Por lo tanto, en este capítulo y en el Capítulo 3 solo presentaré la información suficiente para permitirle continuar con el resto del libro.

En mi opinión, no es necesario volverse competente en la creación de un buen software en Python para poder realizar análisis de datos de manera productiva. 

Lo animo a que use 
* **los cuadernos IPython shell y 
* Jupyter 

para experimentar con los ejemplos de código y explorar la documentación de los diversos tipos, funciones y métodos. 

Si bien hice todo lo posible para presentar el material del **libro de forma incremental**, es posible que ocasionalmente encuentre cosas que aún no se han presentado por completo.

Gran parte de este libro se centra en el análisis basado en tablas y las herramientas de preparación de datos para trabajar con grandes conjuntos de datos. 

Para usar esas herramientas, a menudo primero debe hacer algo de munging para acorralar los datos desordenados en una forma tabular (o estructurada) más agradable. 

Afortunadamente, Python es un lenguaje ideal para poner rápidamente en forma sus datos. 

Cuanto mayor sea su facilidad con el lenguaje Python, más fácil le resultará preparar nuevos conjuntos de datos para el análisis.

Algunas de las herramientas de este libro se exploran mejor desde una sesión en vivo de IPython o Jupyter. Una vez que aprenda cómo iniciar IPython y Jupyter, le recomiendo que siga los ejemplos para que pueda experimentar y probar cosas diferentes.

Al igual que con cualquier entorno similar a una consola controlado por teclado, desarrollar **memoria muscular para los comandos comunes** también es parte de **la curva de aprendizaje**.

Hay conceptos introductorios de Python que este capítulo no cubre, como 
* clases y 
* programación orientada a objetos, 

que pueden resultarle útiles en su incursión en el análisis de datos en Python.

Para profundizar su conocimiento del lenguaje Python, le recomiendo que complemente este capítulo con el tutorial oficial de Python y, potencialmente, uno de los muchos libros excelentes sobre programación de Python de propósito general.

Algunas recomendaciones para comenzar incluyen:  

* Python Cookbook, tercera edición, por David Beazley y Brian K. Jones (O'Reilly)  

* Fluent Python por Luciano Ramalho (O'Reilly)  

* Python efectivo por Brett Slatkin (Pearson)  

## 2.1 The Python Interpreter

Python es un lenguaje interpretado. 

El intérprete de Python ejecuta un programa ejecutando una declaración a la vez.

El **intérprete de Python interactivo estándar** se puede invocar en la línea de comando con el comando `python`:

`Python`


In [1]:
a = 5
print(a)

5


El `>>>` que ve es el indicador donde escribirá expresiones de código.

Para salir del intérprete de Python y volver al símbolo del sistema, puede escribir `exit()` o presionar Ctrl-D.

Ejecutar programas de Python es tan simple como llamar a python con un archivo `.py` como primer argumento.

Supongamos que hubiéramos creado `hello_world.py` con estos contenidos:

In [2]:
print('Hello world') 

Hello world


Puede ejecutarlo ejecutando el siguiente comando (el archivo hello_world.py debe estar en el directorio de su terminal de trabajo actual):

```python

>>> python hello_world.py
```

Mientras que algunos programadores de Python ejecutan todo su código de Python de esta manera, aquellos que realizan análisis de datos o computación científica utilizan 

* IPython, un intérprete de Python mejorado, o 
* cuadernos de Jupyter, cuadernos de código basados en la web creados originalmente dentro del proyecto IPython.

Ofrezco una introducción al uso de IPython y Jupyter en este capítulo y he incluido una mirada más profunda a la funcionalidad de IPython en el Apéndice A.

Cuando usa el comando `%run`, IPython ejecuta el código en el archivo especificado en el mismo proceso, lo que le permite explorar los resultados de forma interactiva cuando termina:

```python

>>> ipython
```
 

In [2]:
%run hello_world.py 

Hello world


El indicador predeterminado de IPython adopta 
* el estilo numerado `In [2]:` 
* en comparación con el indicador `>>>` estándar.

## 2.2 IPython Basics

En esta sección, lo pondremos en marcha con IPython shell y Jupyter notebook, y le presentaremos algunos de los conceptos esenciales.

## Ejecución de IPython Shell

Puede iniciar el shell de IPython en la línea de comando al igual que iniciar el intérprete de Python normal, excepto con el comando `ipython`:

```python

>>> ipython  
 ```

In [6]:
a = 5
a


5

Puede ejecutar declaraciones de Python arbitrarias escribiéndolas y presionando Return (o Enter).

Cuando escribe solo una variable en IPython, muestra una representación de cadena del objeto:

In [3]:
import numpy as np

In [5]:
data = {i : np.random.randn() for i in range(7)}
data

{0: -0.579382474476148,
 1: -2.2121793911356002,
 2: -0.02530928144427655,
 3: 0.552262636583711,
 4: -0.2105951531301924,
 5: 1.4002123643863775,
 6: 0.2969592743515701}

Las primeras dos líneas son declaraciones de código de Python; la segunda declaración crea una variable llamada datos que hace referencia a un diccionario de Python recién creado. 

La última línea imprime el valor de los datos en la consola.

Muchos tipos de objetos de Python están formateados para que sean más legibles, o bien impresos, lo cual es distinto de la impresión normal con `print()`.

Si imprimió la variable de datos anterior en **el intérprete estándar de Python**, sería mucho menos legible:

In [8]:
from numpy.random import randn
data = {i : randn() for i in range(7)}
print(data)


{0: 1.0361621861289856, 1: 0.36554451878864763, 2: 0.4675809330998359, 3: 0.11969422878245792, 4: 2.002226455597078, 5: 0.4896890591538855, 6: -1.3137609276535736}


IPython también proporciona funciones para ejecutar bloques arbitrarios de código (a través de un enfoque algo glorificado de copiar y pegar) y secuencias de comandos completas de Python. 

También puede usar el cuaderno Jupyter para trabajar con bloques de código más grandes, como veremos pronto.

# Running the Jupyter Notebook

Uno de los principales componentes del proyecto Jupyter es el cuaderno, un tipo de documento interactivo para código, texto (con o sin marcado), visualizaciones de datos y otros resultados.

El cuaderno Jupyter interactúa con los núcleos, que son implementaciones del protocolo informático interactivo Jupyter en varios lenguajes de programación.

El núcleo Jupyter de Python utiliza el sistema IPython para su comportamiento subyacente.

Para iniciar Jupyter, ejecute el comando jupyter notebook en una terminal:

`jupyter notebook`


En muchas plataformas, Jupyter se abrirá automáticamente en su navegador web predeterminado (a menos que lo inicie con --no-browser). De lo contrario, puede navegar a la dirección HTTP impresa cuando inició el portátil, aquí http://localhost:8888/.

Consulte la Figura 2-1 para ver cómo se ve esto en Google Chrome.

figura 2-1  
<img src = ''>

Mucha gente usa Jupyter como un entorno informático local, pero también se puede implementar en servidores y acceder de forma remota.

No cubriré esos detalles aquí, pero lo animo a explorar este tema en Internet si es relevante para sus necesidades.

Para crear un nuevo cuaderno, haga clic en el botón Nuevo y seleccione la opción "Python 3" o `conda [predeterminado]`. 

Debería ver algo como la Figura 2-2.
<img src = ''>

If this is your first time, try clicking on the empty code “cell” and entering a line of Python code. 

Then press Shift-Enter to execute it.

When you save the notebook (see “Save and Checkpoint” under the notebook File menu), it creates a file with the extension `.ipynb`. 

This is a self-contained file format that contains all of the content (including any evaluated code output) currently in the notebook. 

These can be loaded and edited by other Jupyter users. 

To load an existing notebook, put the file in the same directory where you started the notebook process (or in a subfolder within it), then double-click the name from the landing page. 

You can try it out with the notebooks from my wesm/pydata-book repository on GitHub.

See Figure 2-3.

Si bien el cuaderno Jupyter puede sentirse como una experiencia distinta del shell de IPython, casi todos los comandos y herramientas de este capítulo se pueden usar en cualquier entorno.

# Tab Completion

En la superficie, el shell de IPython parece una versión cosméticamente diferente del intérprete estándar de terminal de Python (invocado con python).

Una de las principales mejoras con respecto al shell estándar de Python es la finalización con pestañas, que se encuentra en muchos IDE u otros entornos de análisis informático interactivo. 

Mientras ingresa expresiones en el shell, al presionar la tecla Tab buscará en el espacio de nombres cualquier variable (objetos, funciones, etc.) que coincida con los caracteres que ha escrito hasta ahora:

In [3]:
an_apple = 27

In [4]:
an_example = 42


In [5]:
an_apple

27

En este ejemplo, tenga en cuenta que IPython mostró las dos variables que definí, así como la palabra clave de Python y la **función incorporada** `any`.

Naturalmente, también puede completar métodos y atributos en cualquier objeto después de escribir un punto:

In [6]:
b = [1,2,3] 

In [None]:
b.

Lo mismo ocurre con los módulos:

In [7]:
import datetime

In [None]:
datetime.

En el cuaderno Jupyter y en las versiones más recientes de IPython (5.0 y posteriores), las funciones de autocompletado se muestran en un **cuadro desplegable** en lugar de como **salida de texto**.

Tenga en cuenta que IPython oculta de forma predeterminada los métodos y atributos que comienzan con guiones bajos, como los **métodos mágicos** y los **métodos y atributos internos "privados"**, para evitar saturar la pantalla (¡y confundir a los usuarios novatos!).

Estos también se pueden completar con tabuladores, pero primero debe escribir un guión bajo para verlos.

Si prefiere ver siempre dichos métodos en la finalización de pestañas, puede cambiar esta configuración en la configuración de IPython. Consulte la documentación de IPython para saber cómo hacerlo.

La finalización de pestañas funciona en muchos contextos fuera de la búsqueda en el espacio de nombres interactivo y la finalización de atributos de objetos o módulos.

Al escribir cualquier cosa que parezca una ruta de archivo (incluso en una cadena de Python), presionar la tecla Tab completará cualquier cosa en el sistema de archivos de su computadora que coincida con lo que ha escrito:

C:/users/marco/documents/github/

In [7]: path = 'datasets/movielens/<Tab>
datasets/movielens/movies.dat datasets/movielens/README
datasets/movielens/ratings.dat datasets/movielens/users.dat

En combinación con el comando `%run` (consulte “El comando `%run`” en la página 25), esta funcionalidad puede ahorrarle muchas pulsaciones de teclas.

Another area where tab completion saves time is in the completion of function key‐word arguments (and including the = sign!). See Figure 2-4.

In [8]:
def func_with_keywords(abra = 1, abbra = 2, abbbra = 3):
    return abra, abbra, abbbra 

In [None]:
func_with_keywords(a)

We’ll have a closer look at functions in a little bit.

# Introspection

El uso de un signo de interrogación (?) antes o después de una variable mostrará información general sobre el objeto:

In [1]:
b = [1,2,3]

In [2]:
b?

In [11]:
print?

Esto se conoce como introspección de objetos.

Si el objeto es una función o un método de instancia, también se mostrará la cadena de documentación, si está definida.

Supongamos que escribimos la siguiente función (que puedes reproducir en IPython o Jupyter):

In [3]:
def add_numbers(a, b):
    """
    Add two numbers together
    Returns
    -------
    the_sum : type of arguments
    """
    return a + b

Entonces usando? nos muestra el docstring:

In [4]:
add_numbers?

Usando ?? también mostrará el código fuente de la función si es posible:

In [5]:
add_numbers??


? tiene un uso final, que es para buscar en el espacio de nombres de IPython de manera similar a la línea de comandos estándar de Unix o Windows.

A number of characters combined with the wildcard (*) will show all names matching the wildcard expression. 

Por ejemplo, podríamos obtener una lista de todas las funciones en el espacio de nombres NumPy de nivel superior que contiene `load`:

In [10]:
import numpy as np 

In [11]:
np.*load*?

## The %run Command

You can run any file as a Python program inside the environment of your IPython session using the %run command. 

Suppose you had the following simple script stored in ipython_script_test.py:

In [15]:
def f(x, y, z):
    return (x + y) / z
a = 5
b = 6
c = 7.5
result = f(a, b, c)


Puede ejecutar esto pasando el nombre del archivo a `%run`:

python```

In [14]: %run ipython_script_test.py  

    ```

The script is run in an empty namespace (with no imports or other variables defined) so that the behavior should be identical to running the program on the command line using python script.py. 

All of the variables (imports, functions, and globals) defined in the file (up until an exception, if any, is raised) will then be accessible in the IPython shell:

In [None]:
In [15]: c
Out [15]: 7.5
In [16]: result
Out[16]: 1.4666666666666666