## ¿Qué son los Jupyter Notebooks?

[Jupyter](https://jupyter.org/) es un entorno de desarrollo interactivo basado en la web que soporta múltiples lenguajes de programación. Se utiliza comúnmente como un "IDE" (Entorno de Desarrollo Integrado) para el lenguaje de programación Python, especialmente cuando se realiza ciencia de datos. El entorno interactivo que proporciona Jupyter permite a los investigadores crear análisis reproducibles y formular una historia a partir de los datos dentro de un solo documento.

[Aquí](http://nbviewer.jupyter.org/github/cossatot/lanf_earthquake_likelihood/blob/master/notebooks/lanf_manuscript_notebook.ipynb) hay un ejemplo de un Jupyter Notebook completado de una investigación científica que incluye un amplio código, matemáticas, gráficos y texto.

Concretamente, un Jupyter notebook es un archivo con la extensión ".ipynb". Puedes descargar y compartir estos archivos para compartir tu trabajo.

### ¿Cómo funciona?

Jupyter es una interfaz que se ejecuta en un navegador web. El código que escribes en un Jupyter notebook no se ejecuta en el navegador, en su lugar, Jupyter se conecta a una sesión de Python que puede estar ejecutándose en tu computadora, o en algún lugar de la nube. En este curso, usarás Jupyter notebooks que interfazan con sesiones de Python que se ejecutan en la nube de Coursera.

### La estructura de un Jupyter notebook

Un Jupyter notebook es una serie de "celdas". Cada celda en un Jupyter notebook es una "celda de código" o una "celda de Markdown". En la barra de herramientas verás un desplegable que te permite cambiar el tipo de celda. Para esta serie de cursos, el código será siempre código Python. El contenido de las celdas de "Markdown" se ingresa como texto simple, opcionalmente formateado usando Markdown como se explica más adelante.

Haz doble clic en una celda para editar su contenido. Luego presiona shift-enter para que las celdas de Markdown se rendericen, y las celdas de código se ejecuten.

Después de ejecutar una celda, todo lo que sea explícitamente impreso por tu código se mostrará debajo de la celda. El resultado de la última línea de código en una celda siempre se imprimirá, a menos que la línea termine con un punto y coma. Si tu código genera algún gráfico, se mostrará debajo de la celda.

### Flujo del programa

En un Jupyter notebook probablemente organizarás tu código en múltiples celdas. Estas celdas se ejecutan en la misma sesión subyacente de Python y pueden acceder a los resultados de los cálculos de otras celdas. Nota que es posible ejecutar las celdas en cualquier orden (presionando shift-enter en las celdas en alguna secuencia). Sin embargo, hacer esto puede ser bastante peligroso ya que los resultados pueden depender del orden en que se ejecuten las celdas. Se recomienda encarecidamente ejecutar siempre las celdas en orden, comenzando desde la primera celda, a menos que estés seguro de que no hay dependencias entre las celdas. El menú "Cell" en la barra de herramientas contiene una opción para "Run All" celdas, que es la forma más segura de producir un resultado reproducible.

El número junto a cada celda de código indica el orden en que las celdas fueron ejecutadas. Una celda que aún no se ha ejecutado no tendrá un número asignado, y una celda que se esté ejecutando actualmente tendrá un asterisco (*) en lugar de un número.

## Algunos ejemplos simples de ejecución de celdas

In [2]:
# Esto es una celda de python 
prin("This is a python code cell")

NameError: name 'prin' is not defined

In [3]:
# Todas las líneas de código se ejecutan, pero solo se muestran los resultados de la última línea.
1+2
1+3

4

In [4]:
# Para mostrar el resultado de una línea que no es la última, utiliza `print`.
print(1+2)
1+3

3


4

In [5]:
# Para suprimir la visualización de la última línea de código, utiliza un punto y coma.
1+2
1+3;

In [6]:
### Las variables globales inicializadas en una celda son visibles en cualquier celda que se ejecute posteriormente.

x = 1738

print("x has been set to " + str(x))

x has been set to 1738


In [7]:
### Print x

print(x)

1738


# Bibliotecas de Python y una introducción a la manipulación de datos

El lenguaje central de Python es, por diseño, algo minimalista. Como otros lenguajes de programación, Python tiene un ecosistema de módulos (bibliotecas de código) que amplían el lenguaje base. Algunas de estas bibliotecas son "estándar", lo que significa que están incluidas en tu distribución de Python. Muchas otras bibliotecas de código abierto se pueden obtener de las organizaciones que apoyan su desarrollo.

Piensa en una biblioteca como una colección de funciones y tipos de datos que se pueden acceder para completar ciertas tareas de programación sin tener que implementar todo desde cero.

Este curso hará un uso extensivo de las siguientes bibliotecas:

* **[Numpy](http://numpy.org)** es una biblioteca para trabajar con arreglos de datos.

* **[Pandas](http://pandas.pydata.org)** proporciona estructuras de datos de alto rendimiento y herramientas de análisis de datos fáciles de usar.

* **[Scipy](http://scipy.org)** es una biblioteca de técnicas para el cálculo numérico y científico.

* **[Matplotlib](http://matplotlib.org)** es una biblioteca para crear gráficos.

* **[Seaborn](http://seaborn.pydata.org)** es una interfaz de nivel superior para Matplotlib que puede simplificar muchas tareas de creación de gráficos.

* **[Statsmodels](http://www.statsmodels.org)** es una biblioteca que implementa muchas técnicas estadísticas.

Este notebook introduce las bibliotecas Pandas y Numpy, que se utilizan para manipular conjuntos de datos. La próxima semana daremos una visión general de las bibliotecas Matplotlib y Seaborn, que se utilizan para producir gráficos. El paquete Statsmodels se utilizará en el segundo y tercer curso de la serie que introduce el análisis estadístico formal y la modelización.

# Documentación

Ningún científico de datos o ingeniero de software memoriza todas las características de cada herramienta de software que utilizan. Los científicos de datos eficaces aprovechan los recursos (principalmente en línea) para resolver los desafíos que encuentran al desarrollar código y analizar datos. La documentación es el recurso oficial y autorizado para cualquier lenguaje de programación o biblioteca. Aquí están los enlaces a la documentación oficial del [lenguaje Python](https://docs.python.org/3/) y de la [Biblioteca Estándar de Python](https://docs.python.org/3/library/index.html#library-index).

### Importación de bibliotecas

Cuando utilizas Python, generalmente comienzas tus scripts importando las bibliotecas que vas a utilizar.

Las siguientes instrucciones importan las bibliotecas Numpy y Pandas, asignándoles nombres abreviados:

In [9]:
import numpy as np
import pandas as pd

In [8]:
! pip install numpy



### Utilización de funciones de bibliotecas

Después de importar una biblioteca, sus funciones pueden ser llamadas desde tu código anteponiendo el nombre de la biblioteca al nombre de la función. Por ejemplo, para usar la función '`dot`' de la biblioteca '`numpy`', escribirías '`numpy.dot`'. Para evitar tener que escribir repetidamente el nombre de la biblioteca en tus scripts, es común definir una abreviatura de dos o tres letras para cada biblioteca; por ejemplo, '`numpy`' se abrevia generalmente como '`np`'. Esto nos permite usar '`np.dot`' en lugar de '`numpy.dot`'. De manera similar, la biblioteca Pandas se abrevia típicamente como '`pd`'.

La siguiente celda muestra cómo llamar a funciones de una biblioteca importada:

In [10]:
a = np.array([0,1,2,3,4,5,6,7,8,9,10]) 
np.mean(a)

5.0

In [11]:
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

Como puedes ver, primero usamos la función `array` de la biblioteca numpy para crear un array unidimensional literal, y luego utilizamos la función `mean` de la biblioteca para calcular su valor promedio (esto se llama un array "literal" porque los datos se ingresan directamente en el notebook).

## NumPy

NumPy es un paquete fundamental para la computación científica con Python. Incluye tipos de datos para vectores, matrices y arrays de orden superior (tensores), así como muchas funciones matemáticas comúnmente usadas, como logaritmos.

#### Arrays de Numpy (ndarray)

Nos interesa principalmente el objeto [ndarray](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html), que es un array n-dimensional de valores, y los métodos que nos permiten manipular tales arrays. Recuerda que una lista de Python puede contener valores de diferentes tipos, por ejemplo, [1, "pig", [3.2, 4.5]] es una lista de Python que contiene tres elementos: un entero, una cadena y otra lista que a su vez contiene dos valores de punto flotante. Las listas que contienen tipos heterogéneos son convenientes, pero no son eficientes para la computación numérica a gran escala. El ndarray de numpy es un array homogéneo que puede tener cualquier número de ejes. Dado que es homogéneo, todos los valores en un ndarray deben tener el mismo tipo de datos (por ejemplo, todos los valores son enteros o todos son números de punto flotante).

Un array de numpy es una tabla de valores que puede tener cualquier número de "ejes". Un array unidimensional de numpy tiene un solo eje y es algo análogo a una lista de Python o a un vector matemático. Un array bidimensional de numpy tiene dos ejes y puede verse como una tabla o matriz. Los arrays de orden superior (tensores) pueden ser útiles en casos específicos, pero no se encuentran con tanta frecuencia. Como se mencionó anteriormente, todos los valores en un array de Numpy tienen el mismo tipo de datos. Los arrays de Numpy se indexan mediante una secuencia de posiciones enteras basadas en cero, es decir, `x[0]` es el primer elemento del array unidimensional `x`. El número de ejes (dimensiones) es el rango del array; la forma de un array es una tupla de enteros que da el tamaño del array a lo largo de cada dimensión.

A continuación se muestran algunas expresiones de una sola línea que ilustran el uso básico de Numpy.

In [12]:
### Create a rank-1 numpy array with 1 axes of length 3.
a = np.array([1, 2, 3])

### Print object type
print("type(a) =", type(a))

### Print shape
print("\na.shape =", a.shape)

### Print some values in a
print("\nValues in a: ", a[0], a[1], a[2])

### Create a 2x2 numpy array
b = np.array([[1, 2], [3, 4]])

### Print shape
print("\nb.shape =", b.shape)

## Print some values in b
print("\nValues in b: ", b[0, 0], b[0, 1], b[1, 1])

### Create a 3x2 numpy array
c = np.array([[1, 2], [3, 4], [5, 6]])

### Print shape
print("\nc.shape =", c.shape)

### Print some values in c
print("\nValues in c: ", c[0, 1], c[1, 0], c[2, 0], c[2, 1])

type(a) = <class 'numpy.ndarray'>

a.shape = (3,)

Values in a:  1 2 3

b.shape = (2, 2)

Values in b:  1 2 4

c.shape = (3, 2)

Values in c:  2 3 5 6


In [13]:
### 2x3 array containing zeros 
d = np.zeros((2, 3))
print("d =\n", d)

### 4x2 array of ones
e = np.ones((4, 2))
print("\ne =\n", e)

### 2x2 constant array
f = np.full((2, 2), 9)
print("\nf =\n", f)

### 3x3 random array
g = np.random.random((3, 3))
print("\ng =\n", g)

### 2x2 array with uninitialized values
h = np.empty((2, 2))
print("\nh =\n", h)

d =
 [[0. 0. 0.]
 [0. 0. 0.]]

e =
 [[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]

f =
 [[9 9]
 [9 9]]

g =
 [[0.92720539 0.8233552  0.32037326]
 [0.81553929 0.47013903 0.77588836]
 [0.94347983 0.41827812 0.01896619]]

h =
 [[2.12199579e-314 4.67296746e-307]
 [8.08291397e-321 3.79442416e-321]]


#### Indexación de Arrays y Alias

Es importante tener en cuenta que los arrays en Python pueden compartir memoria, en cuyo caso cambiar los valores en un array puede alterar los valores en otro array.

In [14]:
### Create 3x4 array
h = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])

print("h=\n", h)

### Slice array to make a 2x2 sub-array
i = h[:2, 1:3]

print("\ni=\n", i)

print("\nh[0, 1] =", h[0, 1])

### Modify the slice
i[0, 0] = 1738

### Print to show how modifying the slice also changes the base object
print("\nh[0, 1] =", h[0, 1])

h=
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

i=
 [[2 3]
 [6 7]]

h[0, 1] = 2

h[0, 1] = 1738


Si deseas asegurarte de que dos arrays no compartan memoria, utiliza el método `copy`:

In [None]:
h = np.zeros((3, 3))
i = h[0:2, 0:2].copy()
h[0, 0] = 99
print("h =\n", h)
print("\ni =\n", i)

#### Aritmética de Arrays

Las funciones matemáticas básicas operan elemento por elemento en los arrays y están disponibles tanto mediante símbolos de operadores (+, -, etc.) como a través de funciones en el módulo numpy:

In [None]:
x = np.array([[1, 2],[3, 4]], dtype=np.float64)
y = np.array([[5, 6],[7, 8]], dtype=np.float64)

# Elementwise sum; both produce the array
# [[ 6.0  8.0]
#  [10.0 12.0]]
print("x + y =\n", x + y)
print(np.add(x, y))

# Elementwise difference; both produce the array
# [[-4.0 -4.0]
#  [-4.0 -4.0]]
print("\nx - y =\n", x - y)
print(np.subtract(x, y))

# Elementwise product; both produce the array
# [[ 5.0 12.0]
#  [21.0 32.0]]
print("\nx * y =\n", x * y)
print(np.multiply(x, y))

# Elementwise division; both produce the array
# [[ 0.2         0.33333333]
#  [ 0.42857143  0.5       ]]
print("\nx / y =\n", x / y)
print(np.divide(x, y))

# Elementwise square root; produces the array
# [[ 1.          1.41421356]
#  [ 1.73205081  2.        ]]
print("\nsqrt(x) =\n", np.sqrt(x))

In [None]:
x = np.array([[1,2],[3,4]])
print("x =\n", x)

### Compute sum of all elements; prints "10"
print("\nsum(x) =", np.sum(x))

### Compute sum of each column; prints "[4 6]"
print("sum(x, axis=0) =", np.sum(x, axis=0)) 

### Compute sum of each row; prints "[3 7]"
print("sum(x, axis=1) =", np.sum(x, axis=1))

In [None]:
x = np.array([[1,2],[3,4]])
print("x =\n", x)

### Compute mean of all elements; prints "2.5"
print("\nmean(x) =", np.mean(x))

### Compute mean of each column; prints "[2 3]"
print("mean(x, axis=0) =", np.mean(x, axis=0)) 

### Compute mean of each row; prints "[1.5 3.5]"
print("mean(x, axis=1) =", np.mean(x, axis=1))

# Gestión de Datos con Pandas

Numpy es útil para cálculos matemáticos en los que todo es un número. En ciencia de datos, a menudo tratamos con datos heterogéneos que incluyen números, texto y valores de tiempo. Pandas es una biblioteca que proporciona funcionalidad para trabajar con el tipo de datos que surge frecuentemente en la ciencia de datos del mundo real. Pandas ofrece funcionalidades para manipular datos (por ejemplo, transformar valores y seleccionar subconjuntos), resumir datos, leer datos de y hacia archivos, entre muchas otras tareas.

La estructura de datos principal con la que trabaja Pandas se llama [DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html). Este es una tabla bidimensional de datos en la que las filas representan típicamente casos u observaciones (por ejemplo, Participantes en el Concurso de Cartwheels), y las columnas representan variables. Pandas también tiene una estructura de datos unidimensional llamada [Series](https://pandas.pydata.org/docs/reference/api/pandas.Series.html) que encontraremos al acceder a una sola columna de un DataFrame.

Pandas tiene una variedad de funciones llamadas '`read_xxx`' para leer datos en diferentes formatos desde fuentes "estáticas" como archivos. En este momento nos enfocaremos en leer archivos '`csv`', donde "csv" significa "valores separados por comas". Un archivo csv es muy similar a una hoja de cálculo, pero se almacena en formato de texto, utilizando comas para "delimitar" los valores en una fila dada. Otros formatos de archivo importantes incluyen excel, json y sql, por mencionar algunos.

Existen muchas otras opciones para '`read_csv`' que son muy útiles. Por ejemplo, usarías la opción `sep='\t'` en lugar del `sep=','` por defecto si los campos de tu archivo de datos están delimitados por tabulaciones en lugar de comas. Consulta [aquí](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html) la documentación completa para '`read_csv`'.

In [None]:
# The file name string that holds our .csv file
fname = "Cartwheeldata.csv"

# Read the .csv file and store it as a Pandas Data Frame
df = pd.read_csv(fname)

# Print the object type
type(df)

Podemos ver las primeras filas de nuestro DataFrame llamando al método `head()`.

In [None]:
df.head()

El método `head()` simplemente muestra las primeras 5 filas de nuestro DataFrame. Si deseas ver, por ejemplo, las primeras 10 filas de datos, pasarías '10' como argumento al método `head`:

```python
data_frame.head(10)
```

In [None]:
df.head(10)

Como puedes ver, tenemos una tabla bidimensional de valores, donde cada fila es una observación en nuestros datos de cartwheels, y cada columna es una variable que describe alguna característica de los participantes.

Para ver los nombres de las columnas, accede al atributo `columns` del DataFrame:

```python
data_frame.columns
```

In [None]:
df.columns

En un DataFrame, cada columna tiene un único tipo, pero diferentes columnas pueden tener tipos distintos. Esto es importante ya que los conjuntos de datos en el mundo real contienen variables que pueden tener tipos diferentes, pero dentro de una variable, todas las observaciones deben tener el mismo tipo. Accede al atributo `dtypes` del DataFrame para ver el tipo de datos de cada columna:

```python
data_frame.dtypes
```

In [None]:
df.dtypes

### Cortar DataFrames

Al igual que cualquier tabla, las filas y columnas de un DataFrame de Pandas pueden referirse por posición. Dado que Python siempre cuenta desde 0, las filas y columnas están numeradas como 0, 1, 2, etc.

Los DataFrames de Pandas también tienen "índices" de filas y columnas que pueden ser más naturales de usar que las posiciones numéricas en muchos casos. Por ejemplo, si nuestro DataFrame contiene información sobre personas, podríamos tener una columna llamada "Edad". Aunque podemos saber que la columna de edad está en la posición 3 (la cuarta columna debido a la indexación basada en cero), generalmente es preferible acceder a esta columna por su nombre ("Edad") en lugar de por su posición (3). Una razón para esto es que en algún momento podríamos manipular el DataFrame de tal manera que las posiciones de las columnas cambien.

Los valores de índice predeterminados son simplemente las posiciones. En muchos casos no reemplazamos los índices de filas predeterminados por otro índice, por lo que no hay una diferencia significativa entre las operaciones de fila basadas en etiquetas y basadas en posiciones. Pero la mayoría de los conjuntos de datos tienen nombres de columnas informativos, por lo que es poco común encontrar un DataFrame que utilice los índices de columna predeterminados.

Las formas más comunes de indexar y seleccionar valores de DataFrames de Pandas son bastante sencillas, pero también existen muchas técnicas de indexación avanzadas. Consulta [aquí](https://pandas.pydata.org/docs/user_guide/indexing.html) para una explicación más completa de este tema.

Existen tres formas principales de "cortar" un DataFrame:

1. `.loc()` -- seleccionar basado en valores de índice
2. `.iloc()` -- seleccionar basado en posiciones
3. `.ix()`

Aquí cubriremos las funciones de corte `.loc()` y `.iloc()`.

### Indexación con .loc()

El método `.loc()` para un DataFrame toma dos valores de indexación separados por una coma. El primer valor de indexación selecciona las filas y el segundo valor de indexación selecciona las columnas. Un valor de indexación puede ser un único valor de índice, un rango de valores de índice o una lista que contenga uno o más valores de índice. A continuación, proporcionamos ejemplos para cubrir algunos de los casos de uso más comunes:

In [None]:
# Return all observations of the variable CWDistance
df.loc[:,"CWDistance"]

La siguiente sintaxis es equivalente a la que utilizamos anteriormente:

In [None]:
df["CWDistance"]

La siguiente sintaxis también es equivalente a los dos ejemplos anteriores, pero es algo menos preferida (en casos raros, el uso de esta sintaxis puede provocar conflictos entre los nombres de los métodos y los nombres de las variables, y esta sintaxis no funciona si tienes nombres de variables que incluyan espacios en blanco o símbolos de puntuación).

In [None]:
df.CWDistance

En el siguiente ejemplo, seleccionamos todas las filas para múltiples columnas, ["CWDistance", "Height", "Wingspan"]:

In [None]:
df.loc[:,["CWDistance", "Height", "Wingspan"]]

La sintaxis a continuación es equivalente:

In [None]:
df[["CWDistance", "Height", "Wingspan"]]

En el siguiente ejemplo, seleccionamos un rango limitado de filas para múltiples columnas, ["CWDistance", "Height", "Wingspan"]. Nota que estamos utilizando los valores de índice de fila predeterminados, que coinciden con las posiciones de las filas.

In [None]:
df.loc[:9, ["CWDistance", "Height", "Wingspan"]]

A continuación seleccionamos un rango limitado de filas para todas las columnas:

In [None]:
df.loc[10:15]

La función `.loc()` requiere dos argumentos: los índices de las filas y los nombres de las columnas que deseas observar.

En el caso anterior, `:` especifica todas las filas, y nuestra columna es `CWDistance`. Entonces, se usaría `df.loc[:, "CWDistance"]`.

Ahora, supongamos que solo queremos devolver las primeras 10 observaciones:

In [None]:
df.loc[:9, "CWDistance"]

### Indexación con .iloc()

El método `.iloc()` se utiliza para el corte basado en posiciones. Recuerda que Python usa indexación basada en cero, por lo que el primer valor está en la posición cero. Aquí tienes algunos ejemplos:

In [None]:
df.iloc[:4]

In [None]:
df.iloc[1:5, 2:4]

En el siguiente ejemplo, combinamos el corte basado en posiciones en las filas y la indexación basada en etiquetas en las columnas:


In [None]:
df.iloc[1:5, :][["Gender", "GenderGroup"]]


Podemos ver los tipos de datos de las columnas de nuestro DataFrame visualizando el atributo `.dtypes` de nuestro DataFrame:

In [None]:
df.dtypes

El resultado indica que tenemos enteros, flotantes y objetos en nuestro DataFrame. Una variable con el tipo de dato "object" a menudo contiene cadenas de texto, pero en algunos casos puede contener otros valores que están "envueltos" como valores de Python.

También podríamos querer observar los diferentes valores únicos dentro de una columna específica. Vamos a hacer esto para la variable `Gender`:

In [None]:
# List unique values in the df['Gender'] column
df["Gender"].unique()

Hay otra variable llamada `GenderGroup`, consideremos también esta variable:

In [None]:
df["GenderGroup"].unique()

Parece que estas dos variables podrían contener información redundante. Exploremos esto más a fondo mostrando únicamente estas dos columnas:

In [None]:
df[["Gender", "GenderGroup"]]

Al inspeccionar esta salida, parece que estas variables contienen la misma información en diferentes esquemas de codificación. Podemos confirmar aún más esta suposición utilizando la función `crosstab` en Pandas:

In [None]:
pd.crosstab(df["Gender"], df["GenderGroup"])

Del resultado anterior, está claro que todos aquellos cuyo género es "F" tienen un valor de `GenderGroup` de 1, y todos aquellos cuyo género es "M" tienen un valor de `GenderGroup` de 2.

El mismo resultado se puede obtener utilizando los métodos `groupby()` y `size()`:

In [None]:
df.groupby(['Gender','GenderGroup']).size()