# Pandas: Data Series
Una Serie es el elemento más basico de Pandas para organizar datos.

Ideas clave:

* Una serie en una organizacion de datos en una sola dimension
* Una serie es una colección que obtiene propiedades combinadas de todas las colecciones anteriores:
    * Es mutable pero sus métodos retornan Series nuevas (como un str), a menos que se utilice la propiedad inplace=True
    * Soporta indexación (como un list) pero esta apunta al dato y no a la posición
    * La indexación se puede personalizar (como en un dict) pero los valores son mas importantes que las llaves
    * Cada elemento esta compuesto por index-value, pero las operaciones solo afectan valores (como en un np.array)
* Los elementos en blanco en un serie se especifican con NaN y su gestión es importante en los resultados

In [2]:
import pandas as pd
import numpy as np

Una Serie es el elemento básico de Pandas. Es una colección de valores asociados a un indice. Se puede crear a partir de una tupla o una lista/arreglo:

In [3]:
ser = pd.Series([10, 20, 30, 40, 50])  # el indice empieza de 0
ser

0    10
1    20
2    30
3    40
4    50
dtype: int64

También se puede crear una Serie a partir de un diccionario, donde las llaves se convertiran en índices y los valore en los datos de la Serie.

In [4]:
ser = pd.Series({1: 'ENE', 2: 'FEB', 3: 'MAR', 4: 'ABR', 5: 'MAY', 6: 'JUN'})
ser

1    ENE
2    FEB
3    MAR
4    ABR
5    MAY
6    JUN
dtype: object

### Pregunta
¿Qué se obtendrá de la siguiente instrucción?

In [4]:
ser = pd.Series(zip([0, 1, 2], ['A', 'B', 'C']))   #genera tuplas
ser

0    (0, A)
1    (1, B)
2    (2, C)
dtype: object

## Series a detalle
Se puede especificar los detalles de una serie con los atributos `index`, `data`, `name`, `dtype`, etc.

In [5]:
ser = pd.Series(index=['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], 
                data=np.random.randint(1, 100, 10),  # arreglo de 10 números aleatorioa del 1 al 100
                name='numeros', # nombre de la serie
                dtype=np.float32)

In [10]:
ser

A    15.0
B    86.0
C    12.0
D    23.0
E    22.0
F    55.0
G    70.0
H    96.0
I    70.0
J    10.0
Name: numeros, dtype: float32

Una Serie tiene propiedades como en el caso de un arreglo, utilizando métodos con el mismo nombre:

In [11]:
print(f"Nombre: {ser.name}")
print(f"Tamaño: {ser.size}")
print(f"Forma: {ser.shape}")  # (# filas, # columnas)
print(f"Tipo de datos: {ser.dtype}")
print(f"Numero de bytes: {ser.nbytes}")

Nombre: numeros
Tamaño: 10
Forma: (10,)
Tipo de datos: float32
Numero de bytes: 40


Las propiedades más visibles de una serie son los `index` y los `values`. Estos se pueden obtener de manera aislada llamado a estas propiedades:

In [8]:
# ELEMENTOS DE UNA SERIE
print(ser.index)
print(ser.values)  #devuelve los valores de la serie, en este caso es un arreglo, ya que no están separados por coma


Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], dtype='object')
[15. 86. 12. 23. 22. 55. 70. 96. 70. 10.]


El método `describe()` retorna las estadísticas de la Serie:

In [7]:
print(ser.describe())      #std: desviación estándar;       25%,50%,75%: percentiles

count    10.000000
mean     60.700001
std      25.660391
min      22.000000
25%      39.500000
50%      67.000000
75%      79.000000
max      96.000000
Name: numeros, dtype: float64


Los índices de un dato en una Serie se pueden utilizar como en el caso de una lista, utilizando `[]`, incluyendo index-slicing pero con la particularidad de que el índice superior esta incluido en la selección. Así también se puede utilizar indexación lógica.

In [9]:
ser['A']

15.0

In [12]:
ser['A':'C']   # index-slicing

A    15.0
B    86.0
C    12.0
Name: numeros, dtype: float32

In [13]:
ser[ser < 50]

A    15.0
C    12.0
D    23.0
E    22.0
J    10.0
Name: numeros, dtype: float32

Estas mismas operaciones se puede lograr invocando en método `loc`. Esto es lo más común para distinguir una Serie de una lista/arreglo:

In [14]:
ser.loc['A'] 

15.0

In [157]:
ser.loc['A':'C']

A    29.0
B    10.0
C    56.0
Name: numeros, dtype: float32

In [13]:
ser.loc[ser < 50]

C    22.0
F    44.0
G    38.0
H    30.0
Name: numeros, dtype: float32

Existe también el método `iloc` que una variación del anterior en donde se utiliza la posición de los elementos. En este caso no se puede utilizar indexación booleana.

In [15]:
ser.iloc[0]  #indice de posición no el indice del dato

15.0

In [16]:
ser.iloc[0:3]

A    15.0
B    86.0
C    12.0
Name: numeros, dtype: float32

Es importante notar la diferencia que existe entre los "indices" en una Serie y los "indices" en una lista/arreglo. Estos son más parecidos a las llaves de un diccionario que a los índices de las listas/arreglos.

In [18]:
ser.sort_values()  #los indices se ordenan respecto a sus datos asociados
                    #sort_values devuelve una serie nueva

J    10.0
C    12.0
A    15.0
E    22.0
D    23.0
F    55.0
G    70.0
I    70.0
B    86.0
H    96.0
Name: numeros, dtype: float32

Otro detalle a considerar es que las operaciones que se realizan vía métodos en una Serie retornan Series nuevas, por lo que el ordenamiento anterior no altera la Serie ser original.

In [19]:
ser

A    15.0
B    86.0
C    12.0
D    23.0
E    22.0
F    55.0
G    70.0
H    96.0
I    70.0
J    10.0
Name: numeros, dtype: float32

Para cambiar la Serie ser y fijar los cambios hechos por el método, se puede asignar el resultado nuevamente a ser, o se puede especificar que se quiere aplicar los cambios sobre la Serie con la propiedad `inplace=True`

In [20]:
ser.sort_values(inplace=True)
ser

J    10.0
C    12.0
A    15.0
E    22.0
D    23.0
F    55.0
G    70.0
I    70.0
B    86.0
H    96.0
Name: numeros, dtype: float32

## Algunos métodos de una Serie
Los métodos disponibles para operar sobre una serie son muy amplios. Esto porque al ser una colección cuya intención es la manipulación de datos a nivel aritmético, lógico y de información, contiene muchas operaciones de listas, numpy y base de datos. Aqui se muestran algunos ejemplos de calculo sobre los valores de una Serie:

In [16]:
print(f"Valor maximo: ser[{ser.argmax()}] = {ser.max()}")  #argmax devuelve la posicion, no el indice
print(f"Valor minimo: ser[{ser.argmin()}] = {ser.min()}")
print(f"Suma total: {ser.sum()}")
print(f"Valor promedio: {ser.mean()}")
print(f"Valor del medio: {ser.median()}")
print(f"Desviacion estandar: {ser.std()}")

Valor maximo: ser[0] = 96.0
Valor minimo: ser[2] = 22.0
Suma total: 607.0
Valor promedio: 60.70000076293945
Valor del medio: 67.0
Desviacion estandar: 25.660390853881836


Como vimos anteriormente, se puede utilizar la indexación booleana para filtar elementos y obtener una Serie nueva con los elementos que cumplan con una condición:

In [21]:
# Ordenemos la Serie por indices
ser.sort_index(inplace=True)
ser[ser > 80]

B    86.0
H    96.0
Name: numeros, dtype: float32

Se puede extraer un elemento de una Serie con el método `pop`, como sucede con una lista/arreglo, pero se requiere especificar el índice. En este caso, no se requiere especificar `ìnplace=True` para que la Serie se afecte.

In [22]:
val = ser.pop('A')
print(ser)
print("Elemento extraido:", val)

B    86.0
C    12.0
D    23.0
E    22.0
F    55.0
G    70.0
H    96.0
I    70.0
J    10.0
Name: numeros, dtype: float32
Elemento extraido: 15.0


Se puede eliminar un elemento de una Serie con el métdodo `drop`, que requiere un índice como argumento de entrada.

In [19]:
ser.drop('B', inplace=True)
print(ser)

A    96.0
C    22.0
D    68.0
E    81.0
F    44.0
G    38.0
H    30.0
I    89.0
J    73.0
Name: numeros, dtype: float32


Se puede especificar una operación lógica para eliminar varios valores bajo una condición, pero hay que recordar que el método `drop` requiere índices, por lo que será necesario llamar a la propiedad `index` del resultado de la Serie booleana:

In [23]:
ser.drop(ser[ser < 40].index)  #ser[ser < 40] devuelve un dataframe nuevo

B    86.0
F    55.0
G    70.0
H    96.0
I    70.0
Name: numeros, dtype: float32

Para agregar valores a una Serie, se puede utilizar la nomenclatura que se utiliza en un diccionario para agregar elementos:

In [24]:
ser['F'] = 9.0    # modifica el valor asociado al índice F
ser

B    86.0
C    12.0
D    23.0
E    22.0
F     9.0
G    70.0
H    96.0
I    70.0
J    10.0
Name: numeros, dtype: float32

Esto se puede combinar con alguna operación en la Serie:

In [25]:
ser['Z'] = ser.sum()
ser

B     86.0
C     12.0
D     23.0
E     22.0
F      9.0
G     70.0
H     96.0
I     70.0
J     10.0
Z    398.0
Name: numeros, dtype: float64

La conducta de una Serie sobre algunas operaciones es su respuesta que incialmente puede resultar desconcertante. Por ejemplo, cuando se pide mostar los valores de una Seria que sean menores a un valor dado, lo que devolverá es una Serie nueva, en donde los valores han sido reemplazados por elementos booleanos que responden a la condición elemento-a-elemento:

In [24]:
print("Valores en ser mayores a 80:")
ser > 80

Valores en ser mayores a 80:


A     True
C    False
D    False
E     True
F    False
G    False
H    False
I     True
J    False
Z     True
Name: numeros, dtype: bool

Se puede utilizar el método `where` que, como en el caso de un arreglo, retorna los índices en donde se cumple con una condición. Sin embargo, en una Serie lo que retornará sera una nueva Serie con elementos `NaN` que se deben interpretar como elemetos en blanco. `NaN` es la forma que tiene Pandas de especificar que no hay dato (lo que en Python se conoce como `None`)

In [25]:
print("Valores en ser mayores a 80:")
ser.where(ser > 80) #devuele en dataframe del mism tamaño ,pero con espacios en blanco


Valores en ser mayores a 80:


A      96.0
C       NaN
D       NaN
E      81.0
F       NaN
G       NaN
H       NaN
I      89.0
J       NaN
Z    1047.0
Name: numeros, dtype: float64

## Gestión de los NaN
Esto nos lleva a una de las operaciones más comúnes al momento de procesar información en Pandas: ¿qué hacer con los NaN?. Veamos el siguiente ejemplo: ordenemos los elementos por valor:

In [26]:
ser.sort_values(inplace=True)
print(ser)

F       9.0
C      22.0
H      30.0
G      38.0
D      68.0
J      73.0
E      81.0
I      89.0
A      96.0
Z    1047.0
Name: numeros, dtype: float64


Ahora, llamemos al método `rolling`. Este método especifica una ventana móvil; esto es que coloca una ventana deslizante sobre los valores para que posteriormente se puede aplicar una operación sobre los valores agrupados en la ventana. En este ejemplo, se crea una ventana de tamaño 3 que va barriendo la Serie y luego se suma cada una de estas agrupaciones:

In [27]:
ser_roll = ser.rolling(window=3).sum()
print(ser_roll)

F       NaN
C       NaN
H      61.0
G      90.0
D     136.0
J     179.0
E     222.0
I     243.0
A     266.0
Z    1232.0
Name: numeros, dtype: float64


Los 10 elementos de la Serie original se trasladan a la Serie resultante, solo que en los primeros dos valores no hay elementos suficientes para hacer una ventana de 3 elementos, por lo que el método `sum` retorna `NaN.` ¿Qué hacer con esos `Nan`? Primero, tenemos métodos para que el script pueda saber si hay o no elementos `NaN`:

In [196]:
ser_roll.isna()

G     True
E     True
J    False
D    False
I    False
H    False
C    False
F    False
Z    False
Name: numeros, dtype: bool

In [114]:
ser_roll.notna()

F    False
I    False
H     True
E     True
B     True
G     True
D     True
J     True
C     True
Z     True
Name: numeros, dtype: bool

### Pregunta
¿Que instrucciones escribiría para saber cuantos elementos son y no son NaN en la Serie ser_roll?

In [217]:
print("NaN:", ser_roll.isna().sum())  #se hace una suma, ya que .isna devolverá '1'
print("No NaN:", ser_roll.count())   # cuenta los datos diferentes a NaN

NaN: 2
No NaN: 7


Una vez que sabemos que tenemos elementos NaN, debemos decidír que hacer con ellos. Los podemos eliminar de plano:

In [115]:
ser_roll.dropna()

H     66.0
E    124.0
B    179.0
G    228.0
D    249.0
J    263.0
C    275.0
Z    756.0
Name: numeros, dtype: float64

Los podemos reemplazar con otro valor, como 0:

In [116]:
ser_roll.fillna(0)

F      0.0
I      0.0
H     66.0
E    124.0
B    179.0
G    228.0
D    249.0
J    263.0
C    275.0
Z    756.0
Name: numeros, dtype: float64

O lo podemos reemplazar por un valor que no afecte a las estadisticas específicias de la muestra, por ejemplo, reemplazando los NaN por el valor promedio de la Serie no se afecta el promedio de los datos originales:

In [28]:
ser_new = ser_roll.fillna(ser_roll.mean())  # mean caluclará el promedio solo con los los valores difreentes a NaN
print(ser_new)
print("Mediana ser_roll:", ser_roll.mean())
print("Mediana ser_new:", ser_new.mean())

F     303.625
C     303.625
H      61.000
G      90.000
D     136.000
J     179.000
E     222.000
I     243.000
A     266.000
Z    1232.000
Name: numeros, dtype: float64
Mediana ser_roll: 303.625
Mediana ser_new: 303.625


La gestión de los NaN va a depender del análisis que se esta realizado: en pocas palabras, de los datos.