In [35]:
%%html

<link rel="stylesheet" type="text/css" href="./css/lesson.css" />
<link rel="stylesheet" type="text/css" href="./css/custom.css" />

# Programación con Python

## Análisis de los datos del paciente

<blockquote class="objectives">
<h2>Visión general</h2>

Enseñanza: 30 min

Ejercicios: 0 min 

Preguntas**
* ¿Cómo puedo procesar archivos de datos tabulares en Python?

Objetivos
* Explica qué es una librería y para qué se utilizan las librerías.
* Importe una librería de Python y use las funciones que contiene.
* Lea datos tabulares de un archivo en un programa.
* Asignar valores a las variables.
* Seleccione valores individuales y subsecciones de datos.
* Realizar operaciones en matrices de datos.
* Traza gráficos simples a partir de datos.
</blockquote>

En esta lección aprenderemos cómo manipular el conjunto de datos de inflamación con Python. Pero antes de discutir cómo lidiar con muchos puntos de datos, le mostraremos cómo almacenar un valor único en la computadora.

La siguiente línea asigna el valor `55` a una variable `weight_kg`:

<pre class="input">
weight_kg = 55
</pre>

Una variable es solo un nombre para un valor, como `x_val`, `current_temperature` o `subject_id`. Las variables de Python deben comenzar con una letra y son sensibles a mayúsculas y minúsculas. Podemos crear una nueva variable asignándole un valor usando `=`. Cuando terminemos de escribir y presione **Shift + Enter**, la notebook ejecuta nuestro comando.

Una vez que una variable tiene un valor, podemos imprimirlo en la pantalla:

<pre class="input">
print(weight_kg)
</pre>

<pre class="output">
55
</pre>

y haz aritmética con eso:

<pre class="input">
print('peso en libras:', 2.2 * weight_kg)
</pre>

<pre class="output">peso en libras: 121.00000000000001</pre>

Como muestra el ejemplo anterior, podemos imprimir varias cosas a la vez separándolas con comas.

También podemos cambiar el valor de una variable asignándole una nueva:

<pre class="input">
weight_kg = 57.5
print ('peso en kilogramos es ahora:', weight_kg)
</pre>

<pre class="output">
peso en kilogramos es ahora: 57.5
</pre>

Si imaginamos la variable como una nota adhesiva con un nombre escrito en ella, la asignación es como poner la nota adhesiva en un valor particular:

![Variables como notas adhesivas](https://swcarpentry.github.io/python-novice-inflammation/fig/python-sticky-note-variables-01.svg)

Esto significa que asignar un valor a una variable no cambia los valores de otras variables. Por ejemplo, almacenemos el peso del sujeto en libras en una variable:

<pre class="input">
weight_lb = 2.2 * weight_kg
print ('peso en kilogramos:', weight_kg, 'y en libras:', weight_lb)
</pre>

<pre class="output">
peso en kilogramos: 57.5 y en libras: 126.50000000000001
</pre>

![Creando Otra Variable](https://swcarpentry.github.io/python-novice-inflammation/fig/python-sticky-note-variables-02.svg)

y luego cambia `weight_kg`:

<pre class="input">
weight_kg = 100.0
print (
    'el peso en kilogramos es ahora:', 
    weight_kg, 
    'y el peso en libras sigue siendo:', 
    weight_lb
)
</pre>

<pre class="output">
el peso en kilogramos es ahora: 100.0 y el peso en libras sigue siendo: 126.50000000000001
</pre>

![Actualización de una variable](https://swcarpentry.github.io/python-novice-inflammation/fig/python-sticky-note-variables-03.svg)

Como `weight_lb` no "recuerda" de dónde vino su valor, no se actualiza automáticamente cuando `weight_kg` cambia. Esto es diferente de la forma en que funcionan las hojas de cálculo.

<blockquote class="callout">
<h2>Quién es quién en la memoria</h2>

Puede utilizar el comando %whos en cualquier momento para ver qué variables ha creado y qué módulos ha cargado en la memoria de la computadora. Como se trata de un comando IPython, solo funcionará si se encuentra en un terminal IPython o en el Jupyter Notebook.

<pre class="input">
%whos
</pre>

<pre class="output">
Variable    Type     Data/Info
------------------------------
weight_kg   float    100.0
weight_lb   float    126.50000000000001
</pre>

</blockquote>

Las palabras son útiles, pero lo que es más útil son las oraciones e historias que construimos con ellas. Del mismo modo, mientras que muchas herramientas potentes y generales están integradas en lenguajes como **Python**, las herramientas especializadas creadas a partir de estas unidades básicas viven en librerías que se pueden utilizar cuando es necesario.

Para cargar nuestros datos de inflamación, necesitamos acceder (importar en terminología de **Python**) a una libreria llamada **NumPy**. En general, debe utilizar esta librería si desea hacer cosas elegantes con números, especialmente si tiene matrices o matrices. Podemos importar **NumPy** usando:

<pre class="input">
import numpy
</pre>

Importar una librería es como sacar un equipo de laboratorio de un armario de almacenamiento y colocarlo en el banco. Las librerías proporcionan funcionalidad adicional al paquete básico de **Python**, al igual que una nueva pieza de equipo agrega funcionalidad a un espacio de laboratorio. Al igual que en el laboratorio, importar demasiadas librerías a veces puede complicar y ralentizar sus programas, por lo que solo importamos lo que necesitamos para cada programa. Una vez que hayamos importado la librería, podemos pedirle a la librería que lea nuestro archivo de datos:

<pre class="input">
numpy.loadtxt(fname='inflammation-01.csv', delimiter=',')
</pre>

<pre class="output">
array([[0., 0., 1., ..., 3., 0., 0.],
       [0., 1., 2., ..., 1., 0., 1.],
       [0., 1., 1., ..., 2., 1., 1.],
       ...,
       [0., 1., 1., ..., 1., 1., 1.],
       [0., 0., 0., ..., 0., 2., 0.],
       [0., 0., 1., ..., 1., 1., 0.]])
</pre>

La expresión `numpy.loadtxt(...)` es una llamada a función que le pide a Python que ejecute la función `loadtxt` que pertenece a la librería `numpy`. Esta notación punteada se usa en todas partes en **Python** para referirse a las partes de las cosas como `cosa.componente`.

`numpy.loadtxt` tiene dos parámetros: el nombre del archivo que queremos leer y el delimitador que separa los valores en una línea. Ambos necesitan ser cadenas de caracteres (o cadenas para abreviar), así que los ponemos entre comillas.

Como no le hemos indicado que haga nada más con la salida de la función, el notebook lo muestra. En este caso, ese resultado es la información que acabamos de cargar. Por defecto, solo se muestran unas pocas filas y columnas (con `...` para omitir elementos cuando se muestran grandes matrices). Para ahorrar espacio, Python muestra los números como `1.` en lugar de `1.0` cuando no hay nada interesante después del punto decimal.

Nuestra llamada a `numpy.loadtxt` leyó nuestro archivo, pero no guardó los datos en la memoria. Para hacer eso, necesitamos asignar la matriz a una variable. Del mismo modo que podemos asignar un valor único a una variable, también podemos asignar una matriz de valores a una variable con la misma sintaxis. Vamos a volver a ejecutar `numpy.loadtxt` y guardar su resultado:

<pre class="input">
data = numpy.loadtxt (fname = 'inflammation-01.csv', delimiter = ',')
</pre>

Esta declaración no produce ningún resultado porque la asignación no muestra nada. Si queremos verificar que nuestros datos se hayan cargado, podemos imprimir el valor de la variable:

<pre class="input">
print(data)
</pre>

<pre class="output">
[[0. 0. 1. ..., 3. 0. 0.]
 [0. 1. 2. ..., 1. 0. 1.]
 [0. 1. 1. ..., 2. 1. 1.]
 ...,
 [0. 1. 1. ..., 1. 1. 1.]
 [0. 0. 0. ..., 0. 2. 0.]
 [0. 0. 1. ..., 1. 1. 0.]]
</pre>

Ahora que nuestros datos están en la memoria, podemos comenzar a hacer cosas con ellos. Primero, preguntémonos a qué tipo de datos se refieren `data`:

<pre class="input">
print(type(data))
</pre>

<pre class="output">
&lt;class 'numpy.ndarray''&gt;
</pre>

La salida nos dice que actualmente `data` se refieren a una matriz N-dimensional creada por la librería **NumPy**. Estos datos corresponden a la inflamación de los pacientes con artritis. Las filas son los pacientes individuales y las columnas son sus mediciones diarias de inflamación.

<blockquote class="callout">
<h2>Tipo de datos</h2>

Una matriz **Numpy** contiene uno o más elementos del mismo tipo. `type` solo le dirá que una variable es una matriz **NumPy**. También podemos averiguar el tipo de datos contenidos en la matriz **NumPy**.

<pre class="input">
print(data.dtype)
</pre>

<pre class="output">
dtype('float64')
</pre>

Esto nos dice que los elementos de la matriz **NumPy** son números de coma flotante.

</blockquote>

Con este comando podemos ver la forma de la matriz:

<pre class="input">
print (data.shape)
</pre>

<pre class="output">
(60, 40)
</pre>

Esto nos dice que `data` tienen 60 filas y 40 columnas. Cuando creamos la variable `data` para almacenar nuestros datos de artritis, no solo creamos la matriz, también creamos información sobre la matriz, llamada miembros o atributos. Esta información adicional describe `data` de la misma manera que un adjetivo describe un sustantivo. `data.shape` es un atributo de `data` que describe las dimensiones de `data`. Usamos la misma notación punteada para los atributos de las variables que usamos para las funciones en las bibliotecas porque tienen la misma relación de parte y todo.

Si queremos obtener un solo número de la matriz, debemos proporcionar un índice entre corchetes, tal como lo hacemos en matemáticas al referirnos a un elemento de una matriz. Nuestros datos de inflamación tienen dos dimensiones, por lo que necesitaremos usar dos índices para referirnos a un valor:

<pre class="input">
print('primer valor en datos:', data[0, 0])
</pre>

<pre class="output">
primer valor en datos: 0.0
</pre>

<pre class="input">
print ('valor medio en datos:', data[30, 20])
</pre>

<pre class="output">
valor medio en datos: 13.0
</pre>

La expresión `data[30, 20]` acceden al elemento en la fila 30, columna 20. Si bien esta expresión puede no sorprenderle, `data[0, 0]` podrían. Los lenguajes de programación como **Fortran**, **MATLAB** y **R** comienzan a contar a 1, porque eso es lo que los seres humanos han hecho durante miles de años. Los idiomas en la familia **C** (incluyendo **C++**, **Java**, **Perl** y **Python**) cuentan desde 0 porque representan un desplazamiento desde el primer valor en la matriz (el segundo valor se compensa con un índice desde el primer valor). Esto está más cerca de la forma en que las computadoras representan las matrices (si está interesado en las razones históricas detrás de los índices de conteo desde cero, puede leer la publicación de Mike Hoye en el blog). Como resultado, si tenemos una matriz M × N en Python, sus índices van de 0 a M-1 en el primer eje y de 0 a N-1 en el segundo. Lleva un tiempo acostumbrarse, pero una forma de recordar la regla es que el índice es cuántos pasos debemos tomar desde el principio para obtener el artículo que queremos.

![Índice cero](https://swcarpentry.github.io/python-novice-inflammation/fig/python-zero-index.png)

<blockquote class="callout">
<h2>En la esquina</h2>
Lo que también puede sorprender es que cuando Python muestra una matriz, muestra el elemento con índice `[0, 0]` en la esquina superior izquierda en lugar de la esquina inferior izquierda. Esto es consistente con la forma en que los matemáticos dibujan matrices, pero diferente de las coordenadas cartesianas. Los índices son (fila, columna) en lugar de (columna, fila) por el mismo motivo, lo que puede ser confuso al trazar los datos.
</blockquote>

Un índice como `[30, 20]` selecciona un solo elemento de una matriz, pero también podemos seleccionar secciones completas. Por ejemplo, podemos seleccionar los primeros diez días (columnas) de valores para los primeros cuatro pacientes (filas) como este:

<pre class="input">
print(data[0: 4, 0:10])
</pre>

<pre class="output">
[[0. 0. 1. 3. 1. 2. 4. 7. 8. 3.]
 [0. 1. 2. 1. 2. 1. 3. 2. 2. 6.]
 [0. 1. 1. 3. 3. 2. 6. 2. 5. 9.]
 [0. 0. 2. 0. 4. 2. 2. 1. 6. 7.]]
</pre>

El intervalo (**slice**) `0:4` significa, "Comience en el índice 0 y suba, pero sin incluir, el índice 4." De nuevo, el up-to-not-not-taking toma un tiempo para acostumbrarse, pero la regla es que la diferencia entre los límites superior e inferior es la cantidad de valores en el sector.

No tenemos que comenzar los intervalos en 0:

<pre class="input">
print(data[5:10, 0:10])
</pre>

<pre class="output">
[[ 0.  0.  1.  2.  2.  4.  2.  1.  6.  4.]
 [ 0.  0.  2.  2.  4.  2.  2.  5.  5.  8.]
 [ 0.  0.  1.  2.  3.  1.  2.  3.  5.  3.]
 [ 0.  0.  0.  3.  1.  5.  6.  5.  5.  8.]
 [ 0.  1.  1.  2.  1.  3.  5.  3.  5.  8.]]
</pre>

Tampoco tenemos que incluir el límite superior e inferior en la porción. Si no incluimos el límite inferior, Python usa 0 de manera predeterminada; si no incluimos la parte superior, la sección se ejecuta hasta el final del eje y, si no incluimos ninguna (es decir, si solo usamos ':'), la porción incluye todo:

<pre class="input">
small = data[:3, 36:]
print('pequeño es:')
print(data)
</pre>

<pre class="output">
pequeño es:
[[2. 3. 0. 0.]
 [1. 1. 0. 1.]
 [2. 2. 1. 1.]]
</pre>

Las matrices también saben cómo realizar operaciones matemáticas comunes en sus valores. Las operaciones más simples con datos son la aritmética: sumar, restar, multiplicar y dividir. Cuando realiza tales operaciones en matrices, la operación se realiza en cada elemento individual de la matriz. Así:

<pre class="input">
doubledata = data * 2.0
</pre>

creará una nueva **array** `doubledata` de matriz cuyos elementos tienen el valor de dos veces el valor de los elementos correspondientes en `data`:

<pre class="input">
print('original:')
print(data[:3, 36:])
print('doubledata:')
print(doubledata[:3, 36:])
</pre>

<pre class="output">
original:
[[2. 3. 0. 0.]
 [1. 1. 0. 1.]
 [2. 2. 1. 1.]]
doubledata:
[[4. 6. 0. 0.]
 [2. 2. 0. 2.]
 [4. 4. 2. 2.]]
</pre>

Si, en lugar de tomar una matriz y hacer aritmética con un solo valor (como se indica más arriba), realizó la operación aritmética con otra matriz de la misma forma, la operación se realizará en los elementos correspondientes de las dos matrices. Así:

<pre class="input">
tripledata = doubledata + data
</pre>

le dará una **array** donde `tripledata[0,0]` será igual a `doubledata[0,0]` más `data[0,0]`, y así sucesivamente para todos los demás elementos de las **arrays**.

<pre class="input">
print('tripledata:')
print(tripledata[:3, 36:])
</pre>

<pre class="output">
Tripledata:
[[6. 9. 0. 0.]
 [3. 3. 0. 3.]
 [6. 6. 3. 3.]]
</pre>

A menudo, queremos hacer más que agregar, restar, multiplicar y dividir valores de datos. **NumPy** sabe cómo hacer operaciones más complejas en **arrays**. Si queremos encontrar la inflamación promedio para todos los pacientes, por ejemplo, podemos pedirle a **NumPy** que calcule el valor medio de `data`:

<pre class="input">
print(numpy.mean(data))
</pre>

<pre class="output">
6.14875
</pre>

`mean` es una función que toma una **array** como argumento. Si las variables son sustantivos, las funciones son verbos: hacen cosas con variables.

<blockquote class="callout">
<h2>No todas las funciones tienen entrada</h2>

Generalmente, una función usa entradas para producir salidas. Sin embargo, algunas funciones producen salidas sin necesidad de ninguna entrada. Por ejemplo, verificar la hora actual no requiere ninguna entrada.

<pre class="input">
import time
print(time.ctime())
</pre>

<pre class="output">
'Sáb mar 26 13:07:33 2016'
</pre>

Para funciones que no incluyen argumentos, aún necesitamos paréntesis (`()`) para decirle a **Python** que haga algo por nosotros.

</blockquote>

**NumPy** tiene muchas funciones útiles que toman una **array** como entrada. Usemos tres de esas funciones para obtener algunos valores descriptivos sobre el conjunto de datos. También usaremos asignación múltiple, una práctica función de **Python** que nos permitirá hacer esto todo en una sola línea.

<pre class="input">
maxval, minval, stdval = numpy.max(data), numpy.min(data), numpy.std(data)

print('inflamación máxima:', maxval)
print('mínima inflamación:', minval)
print('desviación estándar:', estándar)
</pre>

<pre class="output">
Inflamación máxima: 20.0
inflamación mínima: 0.0
desviación estándar: 4.61383319712
</pre>

<blockquote class="callout">
<h2>Misterio de funciones en IPython</h2>

¿Cómo sabemos qué funciones tiene **NumPy** y cómo usarlas? Si está trabajando en el cuaderno **IPython** / **Jupyter**, hay una manera fácil de averiguarlo. Si escribe el nombre de algo seguido de un punto, puede usar la finalización de tabulación (por ejemplo, escriba `numpy.` y luego presione tabulación) para ver una lista de todas las funciones y atributos que puede usar. Después de seleccionar uno, también puede agregar un signo de interrogación (por ejemplo, `numpy.cumprod`?) E ¡**IPython** devolverá una explicación del método! Esto es lo mismo que hacer `help(numpy.cumprod)`.
</blockquote>

Sin embargo, al analizar datos, a menudo deseamos ver estadísticas parciales, como el valor máximo por paciente o el valor promedio por día. Una forma de hacerlo es crear una nueva **array** temporal de los datos que queremos, y luego pedirle que haga el cálculo:

<pre class="input">
patient_0 = data [0,:] # 0 en el primer eje (filas), todo en el segundo (columnas)
print('inflamación máxima para el paciente 0:', patient_0.max())
</pre>

<pre class="output">
Inflamación máxima para el paciente 0: 18.0
</pre>

Todo en una línea de código que sigue al símbolo '#' es un comentario ignorado por Python. Los comentarios permiten a los programadores dejar notas explicativas para otros programadores o sus futuros yoes.

En realidad, no necesitamos almacenar la fila en una variable propia. En cambio, podemos combinar la selección y la llamada a la función:

<pre class="input">
print('inflamación máxima para el paciente 2:', numpy.max(data [2,:]))
</pre>

<pre class="output">
Inflamación máxima para el paciente 2: 19.0
</pre>

¿Qué pasa si necesitamos la máxima inflamación para cada paciente durante todos los días (como en el siguiente diagrama a la izquierda), o el promedio de cada día (como en el diagrama de la derecha)? Como muestra el siguiente diagrama, queremos realizar la operación en un eje:

![Operaciones a través de ejes](https://swcarpentry.github.io/python-novice-inflammation/fig/python-operations-across-axes.png)

Para respaldar esto, la mayoría de las funciones de **array** nos permiten especificar el eje en el que queremos trabajar. Si solicitamos el promedio en el eje 0 (filas en nuestro ejemplo 2D), obtenemos:

<pre class="input">
print(numpy.mean(data, axis=0))
</pre>

<pre class="output">
[  0.           0.45         1.11666667   1.75         2.43333333   3.15
   3.8          3.88333333   5.23333333   5.51666667   5.95         5.9
   8.35         7.73333333   8.36666667   9.5          9.58333333
  10.63333333  11.56666667  12.35        13.25        11.96666667
  11.03333333  10.16666667  10.           8.66666667   9.15         7.25
   7.33333333   6.58333333   6.06666667   5.95         5.11666667   3.6
   3.3          3.56666667   2.48333333   1.5          1.13333333
   0.56666667]
</pre>

Como una comprobación rápida, podemos preguntarle a esta **array** cuál es su forma:

<pre class="input">
print(numpy.mean(data, axis=0) .shape)
</pre>

<pre class="output">
(40,)
</pre>

La expresión `(40,)` nos dice que tenemos un vector N × 1, por lo que esta es la inflamación promedio por día para todos los pacientes. Si promediamos en el eje 1 (columnas en nuestro ejemplo 2D), obtenemos:

<pre class="input">
print(numpy.mean(data, axis=1))
</pre>

<pre class="output">
[ 5.45   5.425  6.1    5.9    5.55   6.225  5.975  6.65   6.625  6.525
  6.775  5.8    6.225  5.75   5.225  6.3    6.55   5.7    5.85   6.55
  5.775  5.825  6.175  6.1    5.8    6.425  6.05   6.025  6.175  6.55
  6.175  6.35   6.725  6.125  7.075  5.725  5.925  6.15   6.075  5.75
  5.975  5.725  6.3    5.9    6.75   5.925  7.225  6.15   5.95   6.275  5.7
  6.1    6.825  5.975  6.725  5.7    6.25   6.4    7.05   5.9  ]
</pre>

que es la inflamación promedio por paciente en todos los días.

El matemático Richard Hamming dijo una vez: "El propósito de la informática es la comprensión, no los números", y la mejor manera de desarrollar una percepción a menudo es visualizar los datos. La visualización merece una conferencia completa (por supuesto) propia, pero aquí podemos explorar algunas características de la librería `matplotlib` de **Python**. Si bien no existe una librería de trazado "oficial", este paquete es el estándar de facto. Primero, importaremos el módulo `pyplot` de `matplotlib` y usaremos dos de sus funciones para crear y visualizar un mapa de calor de nuestros datos:

<pre class="input">
import matplotlib.pyplot
image = matplotlib.pyplot.imshow(data)
matplotlib.pyplot.show()
</pre>

![Mapa de calor de los datos](https://swcarpentry.github.io/python-novice-inflammation/fig/01-numpy_71_0.png)

Las regiones azules en este mapa de calor son valores bajos, mientras que las rojas muestran valores altos. Como podemos ver, la inflamación aumenta y disminuye durante un período de 40 días.

<blockquote class="callout">
Alguna magia de IPython
Si está usando una notebook IPython / Jupyter, deberá ejecutar el siguiente comando para que sus imágenes matplotlib aparezcan en la libreta cuando se llame a show():

<pre class="input">
%matplotlib inline
</pre>

El `%` indica una función mágica de IPython, una función que solo es válida en el entorno del portátil. Tenga en cuenta que solo debe ejecutar esta función una vez por computadora portátil.
</blockquote>

Echemos un vistazo a la inflamación promedio a lo largo del tiempo:

<pre class="input">
ave_inflammation = numpy.mean(data, axis=0)
ave_plot = matplotlib.pyplot.plot(ave_inflammation)
matplotlib.pyplot.show()
</pre>

![Inflamación promedio a lo largo del tiempo](https://swcarpentry.github.io/python-novice-inflammation/fig/01-numpy_73_0.png)

Aquí, hemos puesto el promedio por día en todos los pacientes en la variable `ave_inflammation`, luego le pedimos a `matplotlib.pyplot` que cree y muestre un gráfico lineal de esos valores. El resultado es aproximadamente un aumento y una caída lineales, lo que es sospechoso: según otros estudios, esperamos un aumento más pronunciado y una caída más lenta. Echemos un vistazo a otras dos estadísticas:

<pre class="input">
max_plot = matplotlib.pyplot.plot(numpy.max(data, axis=0))
matplotlib.pyplot.show()
</pre>

![Valor máximo a lo largo del primer eje](https://swcarpentry.github.io/python-novice-inflammation/fig/01-numpy_75_1.png)

<pre class="input">
min_plot = matplotlib.pyplot.plot(numpy.min(data, axis = 0))
matplotlib.pyplot.show()
</pre>

![Valor mínimo a lo largo del primer eje](https://swcarpentry.github.io/python-novice-inflammation/fig/01-numpy_75_3.png)

El valor máximo sube y baja perfectamente, mientras que el mínimo parece ser una función de paso. Ninguno de los resultados parece ser particularmente probable, por lo que existe un error en nuestros cálculos o algo está mal con nuestros datos. Esta información habría sido difícil de alcanzar mediante el examen de los datos sin herramientas de visualización.

Puede agrupar parcelas similares en una sola figura usando subtramas. Este script a continuación usa una cantidad de nuevos comandos. La función `matplotlib.pyplot.figure()` crea un espacio en el cual colocaremos todas nuestras gráficas. El parámetro `figsize` le dice a **Python** qué tan grande es hacer este espacio. Cada subparcela se coloca en la figura usando su método `add_subplot`. El método `add_subplot` toma 3 parámetros. El primero denota cuántas filas totales de subparcelas hay, el segundo parámetro se refiere al número total de columnas de subtrama, y ​​el parámetro final indica a qué subtrama se refiere su variable (de izquierda a derecha, de arriba hacia abajo). Cada subparcela se almacena en una variable diferente (`axes1`, `axes2`, `axes3`). Una vez que se crea una subtrama, los ejes se pueden titular utilizando el comando `set_xlabel()` (o `set_ylabel()`). Aquí están nuestras tres parcelas una al lado de la otra:

<pre class="input">
importar numpy
importar matplotlib.pyplot

data = numpy.loadtxt(fname = 'inflammation-01.csv', delimiter = ',')

fig = matplotlib.pyplot.figure (figsize = (10.0, 3.0))

axes1 = fig.add_subplot(1, 3, 1)
axes2 = fig.add_subplot(1, 3, 2)
axes3 = fig.add_subplot(1, 3, 3)

axes1.set_ylabel ('promedio')
axes1.plot(numpy.mean(data, axis=0))

axes2.set_ylabel ('max')
axes2.plot(numpy.max(data, axis=0))

axes3.set_ylabel ('min')
axes3.plot(numpy.min(data, axis=0))

fig.tight_layout ()

matplotlib.pyplot.show()
</pre>

![Las parcelas anteriores como subtramas](https://swcarpentry.github.io/python-novice-inflammation/fig/01-numpy_80_0.png)

La llamada a `loadtxt` lee nuestros datos, y el resto del programa le dice a la librería de trazado qué tan grande queremos que sea la figura, que estamos creando tres subtramas, que dibujar para cada una y que queremos un diseño ajustado. (Perversamente, si omitimos esa llamada a `fig.tight_layout()`, los gráficos se apretarán más estrechamente).

<blockquote class="callout">
<h2>A los científicos no les gusta escribir</h2>

Siempre usaremos la sintaxis `import numpy` para importar **NumPy**. Sin embargo, para ahorrar tipeo, a menudo se sugiere hacer un atajo como ese: `import numpy as np`. Si alguna vez ves el código de **Python** en línea usando una función **NumPy** con `np` (por ejemplo, `np.loadtxt(...))`, es porque han usado este atajo. Al trabajar con otras personas, es importante acordar una convención de cómo se importan las librerías comunes.
</blockquote>

<blockquote class="challenge">
<h2>Chequea tu entendimiento</h2>

Dibuje diagramas que muestren qué variables se refieren a qué valores después de cada declaración en el siguiente programa:

<pre class="input">
mass = 47.5
age = 122
mass = mass * 2.0
age = age - 20
</pre>
</blockquote>

<blockquote class="challenge">
<h2>Ordenar referencias</h2>

¿Qué imprime el siguiente programa?

<pre class="input">
first, second = 'Grace', 'Hopper'
third, fourth = second, first
print(third, fourth)
</pre>

<blockquote class="solution">
<h2>Solución</h2>

<pre class="output">
Hopper Grace
</pre>
</blockquote>
</blockquote>

<blockquote class="challenge">
<h2>Cortar cadenas</h2>

Una sección de una **array** se llama rebanada. También podemos tomar segmentos de cadenas de caracteres:

<pre class="input">
element = 'oxygen'
print('first three characters:', element[0:3])
print('last three characters:', element[3:6])
</pre>

<pre class="output">
first three characters: oxy
last three characters: gen
</pre>

¿Cuál es el valor de `element[:4]`? ¿Qué pasa con el `element[4:]`? O `element[:]`?

<blockquote class="solution">
<h2>Solución</h2>
<pre class="output">
oxyg
en
oxygen
</pre>
</blockquote>

¿Qué es el `element[-1]`? ¿Qué es el `element[-2]`?

<blockquote class="solution">
<h2>Solución</h2>
<pre class="output">
n
e
</pre>
</blockquote>

Dadas esas respuestas, explica qué hace `element[1: -1]`.

<blockquote class="solution">
<h2>Solución</h2>

Crea una subcadena del índice 1 hasta (sin incluir) el índice final, eliminando efectivamente la primera y la última letra de 'oxígeno'

</blockquote>

</blockquote>

<blockquote class="challenge">
<h2>Intervalos finos</h2>
El elemento de expresión [3: 3] produce una cadena vacía, es decir, una cadena que no contiene caracteres. Si los datos contienen nuestra **array** de datos de pacientes, ¿qué produce la información [3: 3, 4: 4]? ¿Qué pasa con los datos [3: 3,:]?

</blockquote>

<blockquote class="challenge">
Trazado de escala
¿Por qué todas nuestras tramas se detienen justo antes del extremo superior de nuestro gráfico?

Solución
Si queremos cambiar esto, podemos usar el método set_ylim (min, max) de cada 'hacha', por ejemplo:

<pre class="input">
axes3.set_ylim(0,6)
</pre>

Actualice su código de trazado para establecer automáticamente una escala más apropiada. (Sugerencia: puede utilizar los métodos máximo y mínimo para ayudar).

Solución

Solución


</blockquote>

<blockquote class="challenge">
Dibujando líneas rectas

En las subparcelas central y derecha de arriba, esperamos que todas las líneas parezcan funciones escalonadas, porque el valor no entero no es realista para los valores mínimo y máximo. Sin embargo, puede ver que las líneas no son siempre verticales u horizontales, y en particular la función de paso en la subparcela de la derecha parece inclinada. ¿Por qué es esto?

Solución
</blockquote>

<blockquote class="challenge">
Haga su propio complot

Cree un gráfico que muestre la desviación estándar (numpy.std) de los datos de inflamación para cada día en todos los pacientes.

Solución

<pre class="input">
std_plot = matplotlib.pyplot.plot(numpy.std(data, axis=0))
matplotlib.pyplot.show()
</pre>
</blockquote>

<blockquote class="challenge">
Moviendo parcelas alrededor

Modifique el programa para mostrar los tres gráficos uno encima del otro en lugar de uno al lado del otro.

Solución

<pre class="input">
importar numpy
importar matplotlib.pyplot

data = numpy.loadtxt(fname = 'inflammation-01.csv', delimiter = ',')
</pre>

# change figsize (ancho y altura de intercambio)
<pre class="input">
fig = matplotlib.pyplot.figure (figsize = (3.0, 10.0))
</pre>

# change add_subplot(cambiar los dos primeros parámetros)
<pre class="input">
axes1 = fig.add_subplot(3, 1, 1)
axes2 = fig.add_subplot(3, 1, 2)
axes3 = fig.add_subplot(3, 1, 3)

axes1.set_ylabel ('promedio')
axes1.plot(numpy.mean(data, axis=0))

axes2.set_ylabel ('max')
axes2.plot(numpy.max(data, axis=0))

axes3.set_ylabel ('min')
axes3.plot(numpy.min(data, axis=0))

fig.tight_layout ()

matplotlib.pyplot.show()
</pre>
</blockquote>

<blockquote class="challenge">
Arrays de apilamiento

Las **arrays** se pueden concatenar y apilar una encima de la otra, utilizando las funciones vstack y hstack de **NumPy** para el apilamiento vertical y horizontal, respectivamente.

<pre class="input">
importar numpy

A = numpy.array ([[1,2,3], [4,5,6], [7, 8, 9]])
print('A =')
print(A)

B = numpy.hstack ([A, A])
print('B =')
print(B)

C = numpy.vstack ([A, A])
print('C =')
print(C)
A =
[[1 2 3]
 [4 5 6]
 [7 8 9]]
B =
[[1 2 3 1 2 3]
 [4 5 6 4 5 6]
 [7 8 9 7 8 9]]
C =
[[1 2 3]
 [4 5 6]
 [7 8 9]
 [1 2 3]
 [4 5 6]
 [7 8 9]]
</pre>

Escriba algún código adicional que corte la primera y la última columna de A, y las apile en una **array** de 3x2. Asegúrese de imprimir los resultados para verificar su solución.

Solución

Un 'gotcha' con indexación de **array** es que las dimensiones de singleton se descartan por defecto. Eso significa que A [:, 0] es una **array** unidimensional, que no se apilará como se desee. Para conservar las dimensiones de singleton, el índice en sí mismo puede ser un corte o una **array**. Por ejemplo, A [:,: 1] devuelve una **array** bidimensional con una dimensión singleton (es decir, un vector de columna).

<pre class="input">
D = numpy.hstack ((A [:,: 1], A [:, -1:]))
print('D =')
print(D)
D =
[[1 3]
 [4 6]
 [7 9]]
</pre>

Solución

Una forma alternativa de lograr el mismo resultado es usar la función de eliminación de Numpy para eliminar la segunda columna de A.

<pre class="input">
D = numpy.delete (A, 1, 1)
print('D =')
print(D)
D =
[[1 3]
 [4 6]
 [7 9]]
</pre>
</blockquote>

<blockquote class="challenge">
Cambio en la inflamación

Los datos de este paciente son longitudinales en el sentido de que cada fila representa una serie de observaciones relacionadas con un individuo. Esto significa que cambiar la inflamación es un concepto significativo.

La función numpy.diff() toma una matriz **NumPy** y devuelve la diferencia a lo largo de un eje especificado.

¿Qué eje tendría sentido usar esta función?

Solución

Si la forma de un archivo de datos individual es (60, 40) (60 filas y 40 columnas), ¿cuál sería la forma de la matriz después de ejecutar la función diff () y por qué?

Solución

¿Cómo encontraría el mayor cambio en la inflamación de cada paciente? ¿Importa si el cambio en la inflamación es un aumento o una disminución?

Solución
</blockquote>

<blockquote class="keypoints">
<h2>Puntos clave</h2>
<ul>
<li>Importe una librería en un programa usando `import nombre_de_la_libería`.</li>
<li>Use la librería `numpy` para trabajar con **arrays** en **Python**.</li>
<li>Use `variable = valor` para asignar un valor a una variable para grabarla en la memoria.</li>
<li>Las variables se crean a pedido siempre que se les asigna un valor.</li>
<li>Use `print(algo)` para mostrar el valor de `algo`.</li>
<li>La expresión `array.shape` da la forma de una **array**.</li>
<li>Use la `array[x, y]` para seleccionar un solo elemento de una **array** 2D.</li>
<li>Los índices de **array** comienzan en 0, no en 1.</li>
<li>Use `bajo:alto` para especificar un intervalo que incluya los índices entre `bajo` a `alto-1`.</li>
<li>Toda la indexación y intervalo que funciona en **arrays** también funciona en cadenas de texto.</li>
<li>Use `# algún tipo de explicación` para agregar comentarios a los programas.</li>
<li>Utilice `numpy.mean(array)`, `numpy.max(array)` y `numpy.min(array)` para calcular estadísticas simples.</li>
<li>Utilice `numpy.mean(array, axis=0)` o `numpy.mean(array, axis=1)` para calcular las estadísticas en el eje especificado.</li>
<li>Utilice la librería de `pyplot` de `matplotlib` para crear visualizaciones simples.</li>
</ul>
</blockquote>