# Pandas: Data Series
Una Serie es el elemento más basico de Pandas para organizar datos.

Ideas clave:

* Una serie en una organizacion de datos en una sola dimension
* Una serie es una colección que obtiene propiedades combinadas de todas las colecciones anteriores:
    * Es mutable pero sus métodos retornan Series nuevas (como un str), a menos que se utilice la propiedad inplace=True
    * Soporta indexación (como un list) pero esta apunta al dato y no a la posición
    * La indexación se puede personalizar (como en un dict) pero los valores son mas importantes que las llaves
    * Cada elemento esta compuesto por index-value, pero las operaciones solo afectan valores (como en un np.array)
* Los elementos en blanco en un serie se especifican con NaN y su gestión es importante en los resultados

In [25]:
import pandas as pd
import numpy as np

Una Serie es el elemento básico de Pandas. Es una colección de valores asociados a un indice. Se puede crear a partir de una tupla o una lista/arreglo:

In [26]:
ser = pd.Series([10, 20, 30, 40, 50])
ser

0    10
1    20
2    30
3    40
4    50
dtype: int64

También se puede crear una Serie a partir de un diccionario, donde las llaves se convertiran en índices y los valores en los datos de la Serie.

In [27]:
ser = pd.Series({1: 'ENE', 2: 'FEB', 3: 'MAR', 4: 'ABR', 5: 'MAY', 6: 'JUN'})
ser

1    ENE
2    FEB
3    MAR
4    ABR
5    MAY
6    JUN
dtype: object

### Pregunta
¿Qué se obtendrá de la siguiente instrucción?

In [28]:
ser = pd.Series(zip([0, 1, 2], ['A', 'B', 'C']))
ser

0    (0, A)
1    (1, B)
2    (2, C)
dtype: object

## Series a detalle
Se puede especificar los detalles de una serie con los atributos `index`, `data`, `name`, `dtype`, etc.

In [29]:
ser = pd.Series(index=['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], 
                data=np.random.randint(1, 100, 10), 
                name='numeros', 
                dtype=np.float32)

In [30]:
ser

A    76.0
B    12.0
C    57.0
D    72.0
E    84.0
F    38.0
G    25.0
H    56.0
I    63.0
J    52.0
Name: numeros, dtype: float32

Una Serie tiene propiedades como en el caso de un arreglo, utilizando métodos con el mismo nombre:

In [31]:
print(f"Nombre: {ser.name}")
print(f"Tamaño: {ser.size}")
print(f"Forma: {ser.shape}")
print(f"Tipo de datos: {ser.dtype}")
print(f"Numero de bytes: {ser.nbytes}")

Nombre: numeros
Tamaño: 10
Forma: (10,)
Tipo de datos: float32
Numero de bytes: 40


Las propiedades más visibles de una serie son los `index` y los `values`. Estos se pueden obtener de manera aislada llamado a estas propiedades:

In [32]:
# ELEMENTOS DE UNA SERIE
print(ser.index)
print(ser.values)

Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], dtype='object')
[76. 12. 57. 72. 84. 38. 25. 56. 63. 52.]


El método `describe()` retorna las estadísticas de la Serie:

In [33]:
print(ser.describe())

count    10.000000
mean     53.500000
std      22.765715
min      12.000000
25%      41.500000
50%      56.500000
75%      69.750000
max      84.000000
Name: numeros, dtype: float64


Los índices de un dato en una Serie se pueden utilizar como en el caso de una lista, utilizando `[]`, incluyendo index-slicing pero con la particularidad de que el índice superior esta incluido en la selección. Así también se puede utilizar indexación lógica.

In [34]:
ser['A']

76.0

In [35]:
ser['A':'C']

A    76.0
B    12.0
C    57.0
Name: numeros, dtype: float32

In [38]:
ser[ser < 25]

B    12.0
Name: numeros, dtype: float32

Estas mismas operaciones se puede lograr invocando en método `loc`. Esto es lo más común para distinguir una Serie de una lista/arreglo:

In [39]:
ser.loc['A']

76.0

In [40]:
ser.loc['A':'C']

A    76.0
B    12.0
C    57.0
Name: numeros, dtype: float32

In [41]:
ser.loc[ser < 25]

B    12.0
Name: numeros, dtype: float32

Existe también el método `iloc` que una variación del anterior en donde se utiliza la posición de los elementos. En este caso no se puede utilizar indexación booleana.

In [42]:
ser.iloc[0]

76.0

In [43]:
ser.iloc[0:3]

A    76.0
B    12.0
C    57.0
Name: numeros, dtype: float32

Es importante notar la diferencia que existe entre los "indices" en una Serie y los "indices" en una lista/arreglo. Estos son más parecidos a las llaves de un diccionario que a los índices de las listas/arreglos.

In [44]:
ser.sort_values()

B    12.0
G    25.0
F    38.0
J    52.0
H    56.0
C    57.0
I    63.0
D    72.0
A    76.0
E    84.0
Name: numeros, dtype: float32

Otro detalle a considerar es que las operaciones que se realizan vía métodos en una Serie retornar Series nuevas, por lo que el ordenamiento anterior no altera la Serie ser original.

In [45]:
ser

A    76.0
B    12.0
C    57.0
D    72.0
E    84.0
F    38.0
G    25.0
H    56.0
I    63.0
J    52.0
Name: numeros, dtype: float32

Para cambiar la Serie ser y fijar los cambios hechos por el método, se puede asignar el resultado nuevamente a ser, o se puede especificar que se quiere aplicar los cambios sobre la Serie con la propiedad `inplace=True`

In [46]:
ser.sort_values(inplace=True)
ser

B    12.0
G    25.0
F    38.0
J    52.0
H    56.0
C    57.0
I    63.0
D    72.0
A    76.0
E    84.0
Name: numeros, dtype: float32

## Algunos métodos de una Serie
Los métodos dispoibles para operar sobre una serie son muy amplios. Esto porque al ser una colección cuya intención es la manipulación de datos a nivel aritmético, lógico y de información, contiene muchas operaciones de listas, numpy y base de datos. Aqui se muestran algunos ejemplos de calculo sobre los valores de una Serie:

In [47]:
print(f"Valor maximo: ser[{ser.argmax()}] = {ser.max()}")
print(f"Valor minimo: ser[{ser.argmin()}] = {ser.min()}")
print(f"Suma total: {ser.sum()}")
print(f"Valor promedio: {ser.mean()}")
print(f"Valor del medio: {ser.median()}")
print(f"Desviacion estandar: {ser.std()}")

Valor maximo: ser[9] = 84.0
Valor minimo: ser[0] = 12.0
Suma total: 535.0
Valor promedio: 53.5
Valor del medio: 56.5
Desviacion estandar: 22.765714645385742


Como vimos anteriormente, se puede utilizar la indexación booleana para filtar elementos y obtener una Serie nueva con los elementos que cumplan con una condición:

In [48]:
# Ordenemos la Serie por indices
ser.sort_index(inplace=True)
ser[ser > 80]

E    84.0
Name: numeros, dtype: float32

Se puede extraer un elemento de una Serie con el método `pop`, como sucede con una lista/arreglo, pero se requiere especificar el índice. En este caso, no se requiere especificar `ìnplace=True` para que la Serie se afecte.

In [49]:
val = ser.pop('A')
print(ser)
print("Elemento extraido:", val)

B    12.0
C    57.0
D    72.0
E    84.0
F    38.0
G    25.0
H    56.0
I    63.0
J    52.0
Name: numeros, dtype: float32
Elemento extraido: 76.0


Se puede eliminar un elemento de una Serie con el métdodo `drop`, que requiere un índice como argumento de entrada.

In [50]:
ser.drop('B', inplace=True)
print(ser)

C    57.0
D    72.0
E    84.0
F    38.0
G    25.0
H    56.0
I    63.0
J    52.0
Name: numeros, dtype: float32


Se puede especificar una operación lógica para eliminar varios valores bajo una condición, pero hay que recordar que el método `drop` requiere índices, por lo que será necesario llamar a la propiedad `index` del resultado de la Serie booleana:

In [51]:
ser.drop(ser[ser < 40].index)

C    57.0
D    72.0
E    84.0
H    56.0
I    63.0
J    52.0
Name: numeros, dtype: float32

Para agregar valores a una Serie, se puede utilizar la nomenclatura que se utiliza en un diccionario para agregar elementos:

In [52]:
ser['F'] = 9.0
ser

C    57.0
D    72.0
E    84.0
F     9.0
G    25.0
H    56.0
I    63.0
J    52.0
Name: numeros, dtype: float32

Esto se puede combinar con alguna operación en la Serie:

In [53]:
ser['Z'] = ser.sum()
ser

C     57.0
D     72.0
E     84.0
F      9.0
G     25.0
H     56.0
I     63.0
J     52.0
Z    418.0
Name: numeros, dtype: float64

La conducta de una Serie sobre algunas operaciones es su respuesta que incialmente puede resultar desconcertante. Por ejemplo, cuando se pide mostar los valores de una Seria que sean menores a un valor dado, lo que devolverá es una Serie nueva, en donde los valores han sido reemplazados por elementos booleanos que responden a la condición elemento-a-elemento:

In [54]:
print("Valores en ser mayores a 40:")
ser > 40

Valores en ser mayores a 40:


C     True
D     True
E     True
F    False
G    False
H     True
I     True
J     True
Z     True
Name: numeros, dtype: bool

Se puede utilizar el método `where` que, como en el caso de un arreglo, retorna los índices en donde se cumple con una condición. Sin embargo, en una Serie lo que retornará sera una nueva Serie con elementos `NaN` que se deben interpretar como elemetos en blanco. `NaN` es la forma que tiene Pandas de especificar que no hay dato (lo que en Python se conoce como `None`)

In [55]:
print("Valores en ser mayores a 40:")
ser.where(ser > 40)

Valores en ser mayores a 40:


C     57.0
D     72.0
E     84.0
F      NaN
G      NaN
H     56.0
I     63.0
J     52.0
Z    418.0
Name: numeros, dtype: float64

## Gestión de los NaN
Esto nos lleva a una de las operaciones más comúnes al momento de procesar información en Pandas: ¿qué hacer con los NaN?. Veamos el siguiente ejemplo: ordenemos los elementos por valor:

In [56]:
ser.sort_values(inplace=True)
print(ser)

F      9.0
G     25.0
J     52.0
H     56.0
C     57.0
I     63.0
D     72.0
E     84.0
Z    418.0
Name: numeros, dtype: float64


Ahora, llamemos al método `rolling`. Este método especifica una ventana móvil; esto es que coloca una ventana deslizante sobre los valores para que posteriormente se puede aplicar una operación sobre los valores agrupados en la ventana. En este ejemplo, se crea una ventana de tamaño 3 que va barriendo la Serie y luego se suma cada una de estas agrupaciones:

In [57]:
ser_roll = ser.rolling(window=3).sum()
print(ser_roll)

F      NaN
G      NaN
J     86.0
H    133.0
C    165.0
I    176.0
D    192.0
E    219.0
Z    574.0
Name: numeros, dtype: float64


Los 10 elementos de la Serie original se trasladan a la Serie resultante, solo que en los primeros dos valores no hay elementos suficientes para hacer una ventana de 3 elementos, por lo que el método `sum` retorna `NaN.` ¿Qué hacer con esos `Nan`? Primero, tenemos métodos para que el script pueda saber si hay o no elementos `NaN`:

In [58]:
ser_roll.isna()

F     True
G     True
J    False
H    False
C    False
I    False
D    False
E    False
Z    False
Name: numeros, dtype: bool

In [59]:
ser_roll.notna()

F    False
G    False
J     True
H     True
C     True
I     True
D     True
E     True
Z     True
Name: numeros, dtype: bool

### Pregunta
¿Que instrucciones escribiría para saber cuantos elementos son y no son NaN en la Serie ser_roll?

In [60]:
print("NaN:", ser_roll.isna().sum())
print("No NaN:", ser_roll.count())

NaN: 2
No NaN: 7


Una vez que sabemos que tenemos elementos NaN, debemos decidír que hacer con ellos. Los podemos eliminar de plano:

In [61]:
ser_roll.dropna()

J     86.0
H    133.0
C    165.0
I    176.0
D    192.0
E    219.0
Z    574.0
Name: numeros, dtype: float64

Los podemos reemplazar con otro valor, como 0:

In [62]:
ser_roll.fillna(0)

F      0.0
G      0.0
J     86.0
H    133.0
C    165.0
I    176.0
D    192.0
E    219.0
Z    574.0
Name: numeros, dtype: float64

O lo podemos reemplazar por un valor que no afecte a las estadisticas específicias de la muestra, por ejemplo, reemplazando los NaN por el valor promedio de la Serie no se afecta el promedio de los datos originales:

In [63]:
ser_new = ser_roll.fillna(ser_roll.mean())
print(ser_new)
print("Mediana ser_roll:", ser_roll.mean())
print("Mediana ser_new:", ser_new.mean())

F    220.714286
G    220.714286
J     86.000000
H    133.000000
C    165.000000
I    176.000000
D    192.000000
E    219.000000
Z    574.000000
Name: numeros, dtype: float64
Mediana ser_roll: 220.71428571428572
Mediana ser_new: 220.71428571428572


La gestión de los NaN va a depender del análisis que se esta realizado: en pocas palabras, de los datos.