# Cuaderno 10: Series

En este cuaderno iniciamos la revisión del módulo `pandas` del lenguaje Python. Este módulo implementa estructuras de datos rápidas y flexibles para la manipulación de conjuntos de datos *etiquetados* y *relacionales*, conjuntamente con funciones para su análisis.

La clase `Series` es una de las dos estructuras de datos fundamentales de `pandas`. Está diseñada para implementar arreglos unidimensionales de valores indexados por etiquetas. Tiene por tanto características comunes con los tipos `ndarray` de NumPy y `dict` (diccionario).

Es usual importar el módulo `pandas` con el alias `pd`:

In [1]:
import pandas as pd
# también necesitaremos en este cuaderno el módulo NumPy
import numpy as np

# Creación de Series

Un objeto de tipo `Series` puede crearse a partir de un arreglo unidimensional de NumPy y una lista de *etiquetas* o *claves* para cada elemento del arreglo. Esta lista de claves se conoce como **índice** de la serie y está referida por el atributo `index`: 

In [None]:
s = pd.Series(np.random.randint(1, 10, 5), index=['a', 'b', 'c', 'd', 'e'])
print(s)
print('---')
print(type(s))
print(s.index)

Los elementos del índice pueden ser de diferentes tipos. Los valores de la serie son del mismo tipo, pues provienen de un arreglo. El tipo de los valores de la serie está dado por el atributo `dtype`.

In [None]:
s = pd.Series(np.random.randint(1, 10, 5), index=['a', 'b', 3, 'd', (1.5,2)])
print(s)
print('---')
print(type(s))
print(s.index)
print(s.dtype)

La lista especificada para los índices debe tener el mismo tamaño del arreglo, de lo contrario se genera un error.

In [None]:
s = pd.Series(np.random.randint(1, 10, 5), index=['a', 'b', 'c', 'd'])
print(s)

Es posible omitir el índice al crear una serie, en cuyo caso se genera automáticamente un índice con enteros consecutivos empezando desde el cero.

In [None]:
s = pd.Series(np.random.randint(1, 10, 5))
print(s)
print('---')
print(type(s))
print(s.index)

Aunque el uso de elementos duplicados en un índice está permitido, es responsabilidad del programador determinar si aquello es semánticamente correcto en una aplicación dada (generalmente no lo será). Algunas funciones generan excepciones cuando se aplican sobre series con índices duplicados.

In [None]:
s = pd.Series(np.random.randint(1, 10, 5), index=['a', 'b', 'c', 'd', 'a'])
print(s)
print('---')
print(type(s))
print(s.index)

También es posible crear `Series` a partir de diccionarios, en cuyo caso las claves del diccionario pasan a ser los índices de la serie, y los valores del diccionario se transforman en los valores correspondientes de la serie. 

In [None]:
import random
D = {i : random.randint(10, 20) for i in range(1,6)}
print(D)
s = pd.Series(D)
print(s)

Si los valores del diccionario son de diferentes tipos, el atributo `dtype` de la serie es un tipo suficientemente genérico para albergar a todos su valores; en el caso más general se emplea el tipo `object`:

In [None]:
D[4]=5.33
print(D)
s = pd.Series(D)
print(s)
print('---')
D[4]='casa'
print(D)
s = pd.Series(D)
print(s)

Es posible especificar explícitamente una lista de claves del diccionario para el índice, en cuyo caso la misma se emplea para extraer los valores correspondientes. Si uno de los elementos de la lista no es una clave del diccionario, en la posición correspondiente en la serie se inserta el valor `NaN`.

`NaN` (*not a number*) es el marcador empleado siempre por `pandas` para indicar datos faltantes.

In [None]:
D = {i : random.randint(10, 20) for i in range(1,6)}
print(D)
s = pd.Series(D, index=[1,3,7])
print(s)

Por último, es posible construir una serie a partir de un valor escalar $x$ y de una lista para el índice. En este caso, se entiende que *cada valor* de la serie es igual a $x$:

In [None]:
s = pd.Series(2, index=['a', 'b', 'c', 'd', 'e'])
print(s)

## Operaciones aritméticas, funciones e indexación

Los valores de una serie se comportan como un arreglo unidimensional de NumPy. Es posible aplicar sobre ellos operaciones aritméticas vectorizadas y funciones universales que se evalúan elemento a elemento:

In [None]:
s1 = pd.Series(np.random.randint(11, 20, 5), index=['a', 'b', 'c', 'd', 'e'])
s2 = pd.Series(np.random.randint(11, 20, 5), index=['a', 'b', 'c', 'd', 'e'])
print('s1:')
print(s1)
print('---')
print('s2:')
print(s2)
print('---')
# elevar cada elemento de s1 al cuadrado
print('s1**2:')
print(s1**2)
print('---')
# sumar s1 y s2
print('s1+s2:')
print(s1+s2)
print('---')
# sumar 3 a cada elemento de s2
print('s2+3:')
print(s2+3)
print('---')
# calcular la raíz cuadrada de cada elemento de s2
print('sqrt(s2):')
print(np.sqrt(s2))


De manera similar, pueden aplicarse las funciones de agregación disponibles para arreglos. Recordar que la serie tiene dimensión 1.

In [None]:
print("Suma de los elementos de s1 : {}".format(s1.sum()))
print("Promedio de los elementos de s2 : {}".format(s2.mean()))
print("Máximo elemento de s1 : {}".format(s1.max()))
print("Mediana de los elementos de s2 : {}".format(s2.median()))


Puede usarse el operador de indexación `[]` para acceder a valores individuales de la serie. Para ello, puede asumirse que los elementos de la serie tienen índices enteros que empiezan desde cero. Adicionalmente, es posible emplear el operador de rango `:`  con todas las técnicas de *slicing*. 

Al indexar un elemento, se retorna únicamente su valor; al indexar un rango se retorna una subserie que comprende tanto los índices de la serie como sus valores:

In [2]:
s1 = pd.Series(np.random.randint(11, 20, 5), index=['a', 'b', 'c', 'd', 'e'])
print(s1)
print(s1[1])  # valor del 2do elemento
print(s1[-1])  # valor del último elemento
print(s1[2:])  # subserie desde el 3er elemento en adelante, índice y valor
print(s1[-2:])  # subserie con los dos últimos elementos, índice y rango
print(s1[0:5:2])  # subserie con los elementos 0, 2 y 4, índice y rango

a    19
b    12
c    11
d    16
e    18
dtype: int64
12
18
c    11
d    16
e    18
dtype: int64
d    16
e    18
dtype: int64
a    19
c    11
e    18
dtype: int64


Los accesos pueden usarse tanto para lectura como para escritura:

In [None]:
s1[0]= -1
s1[-2:]= 1
print(s1)

Es posible indexar una serie con una lista de índices:

In [3]:
print(s1[[0, 2, 3]])

a    19
c    11
d    16
dtype: int64


También es posible usar una expresión booleana como índice para filtrar ciertos elementos de una serie:

In [4]:
s1 = pd.Series(np.random.randint(10, 30, 5), index=['a', 'b', 'c', 'd', 'e'])
print(s1)
print('---')
print(s1[s1 > 20])

a    26
b    21
c    25
d    24
e    26
dtype: int64
---
a    26
b    21
c    25
d    24
e    26
dtype: int64


Los índices de una serie pueden utilizarse de manera similar que las claves de un diccionario para acceder a los valores asociados a estos:

In [5]:
print(s1['b'])
print('---')
s1['b']= -2
print(s1)
print('---')
print('c' in s1)
print('f' in s1)

21
---
a    26
b    -2
c    25
d    24
e    26
dtype: int64
---
True
False


Como los índices de la serie pertenecen a una lista ordenada, es posible utilizar el operador de rango `:` para retornar subseries mediante *slicing*:

In [6]:
print(s1['b':'d'])
print(s1[:'b'])
print(s1['c':])

b    -2
c    25
d    24
dtype: int64
a    26
b    -2
dtype: int64
c    25
d    24
e    26
dtype: int64


Notar que el criterio que determina el orden de los elementos en una serie es el orden de los índices especificado durante su creación:

In [7]:
s1 = pd.Series(np.random.randint(10, 30, 5), index=['e', 'b', 'c', 'd', 'a'])
print(s1)
print('---')
print(s1['a':'b'])
print('---')
print(s1['e':'b'])

e    18
b    23
c    28
d    24
a    25
dtype: int64
---
Series([], dtype: int64)
---
e    18
b    23
dtype: int64


Cuando una serie es creada a partir de un diccionario, el orden de sus elementos está dado por el orden de inserción de los elementos en el diccionario:

In [None]:
s = pd.Series({'a' : -3, 'c' : 34, 'e' : 10, 'b' : 5, 'd' : -25})
print(s)
print(s.index)
print(s['e':])

Al igual que en un diccionario, intentar acceder a un elemento con un índice incorrecto produce una excepción del tipo `KeyError`:

In [None]:
print(s['f'])

Alternativamente, la función `get` retorna el valor asociado a un índice de la serie, o el valor de `None` cuando se una un índice no válido:

In [None]:
print(s)
print(s.get('a'))
print(s.get('f'))

Debe tenerse especial cuidado si una serie tiene como índice a una lista de números enteros. En las operaciones de indexación, se asumirá que el índice es un elemento de `index` cuando se accede a elementos individuales; pero cuando se especifican rangos, se asumirá que los índices se refieren a las posiciones en la serie:

In [8]:
s1 = pd.Series(np.random.randint(10, 30, 5), index=[4, 0, 3, 2, 1])
print(s1)
# para la siguiente indexación se interpreta a 0 como un elemento de la lista de índices
print(s1[1])
# para las siguientes operaciones, los "índices" indican posiciones
print(s1[0:2])
print(s1[3:1])

4    15
0    23
3    22
2    12
1    22
dtype: int64
22
4    15
0    23
dtype: int64
Series([], dtype: int64)


Para resolver ambigüedades, pueden utilizarse las propiedades `loc[]` y `iloc[]`. Con `loc` se fuerza que la indexación sea en base a la lista de los elementos de `index`. Con `iloc` se fuerza que la indexación sea en base a posiciones en la serie:

In [9]:
print(s1)
print('---')
# consultar el valor asociado al índice 1
print(s1.loc[1])
print('---')
# consultar el elemento en la 2da posición
print(s1.iloc[1])
print('---')
# rango desde el elemento asociado al índice 0, al elemento asociado al índice 2, INCLUSIVOS
print(s1.loc[0:2])
# rango del primer al segundo elementos
print('---')
print(s1.iloc[0:2])

4    15
0    23
3    22
2    12
1    22
dtype: int64
---
22
---
23
---
0    23
3    22
2    12
dtype: int64
---
4    15
0    23
dtype: int64


## Alineamiento

Si se realizan operaciones entre dos series que requieran de la combinación de sus elementos individuales (por ejemplo, la suma de dos series), los elementos a combinar entre sí son aquellos que están asociados a los mismos índices, indistintamente de su posición en las series. Esto se conoce como *alineamiento* y es una de las características fundamentales de las series:

In [None]:
s1 = pd.Series(np.random.randint(10, 30, 5), index=['e', 'd', 'b', 'c', 'a'])
s2 = pd.Series(np.random.randint(10, 30, 5), index=['a', 'b', 'c', 'e', 'd'])
print(s1)
print('---')
print(s2)
print('---')
print(s1+s2)

Si las series no tienen el mismo índice, la nueva serie está indexada por la unión de los dos índices. Aquellos elementos en los cuales no es posible realizar la operación (porque falta uno de los dos operandos) tienen  valores iguales a `NaN`:

In [None]:
s1 = pd.Series(np.random.randint(10, 30, 4), index=['d', 'b', 'c', 'a'])
s2 = pd.Series(np.random.randint(10, 30, 4), index=['a', 'b', 'e', 'd'])
print(s1)
print('---')
print(s2)
print('---')
print(s1+s2)

## Accediendo al arreglo de valores

A veces se requiere acceder al arreglo de los valores contenidos en una serie. Esto puede hacerse a través del atributo `array`:

In [None]:
print(s1)
print(s1.array)
print(type(s1.array))

Notar que el tipo del atributo `array` es `PandasArray`. Si se desea obtener un arreglo en el formato NumPy debe emplearse el método `to_numpy()`:

In [None]:
print(s1.to_numpy())
print(type(s1.to_numpy()))

## Nombre de una serie

Al crear una serie es posible especificar un nombre para la misma. Este nombre es accesible luego a través del atributo `name`:

In [None]:
s = pd.Series(np.random.randint(10, 30, 5), index=['a', 'b', 'c', 'd', 'e'], name='aleatorios')
print(s)
print('---')
print(s.name)

El método `rename` copia los valores e índices de una serie en una *nueva* serie, con un nuevo nombre:

In [None]:
s2 = s.rename('otra')
# notar que s2 apunta a un nuevo objeto:
s2[0]= 0
print(s)
print(s2)

## Más información

Para información más detallada acerca de la clase Series, incluyendo una guía del usuario y una guía de referencia del API, puede consultarse el sitio web de `pandas` <https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html#series>.