# Series

Objetivos de Aprendizaje

1. ¿Qué es una serie?
2. ¿Cómo crear una serie?
3. Series vs Listas
    - Atributos
    - Métodos
    - Filtros

## ¿Qué es una serie?

En esta lección veremos una descripción general de uno de los dos tipos de estructuras disponibles en Pandas, las Series.

Las [Series](https://pandas.pydata.org/docs/reference/series.html) son una matriz etiquetada y unidimensional (~lista) capaz de contener cualquier tipo de datos (enteros, cadenas de texto, número de punto flotante, etc.). Las etiquetas suelen denominarse índices.

> **Principio básico de Pandas**: La alineación entre datos e índices es intrínseca a las, i.e. el vínculo entre los índices y los datos no se romperá a menos que el usuario lo haga explícitamente.

Antes de iniciar importaremos los paquetes necesarios


In [1]:
import numpy as np
import pandas as pd

## ¿Cómo crear una Serie?

Para crear una Serie en Pandas, es necesario hacer uso de su [constructor](https://pandas.pydata.org/docs/reference/api/pandas.Series.html#pandas.Series):

```python

s = pd.Series(data, index)

```

Dónde: 

1. `data`: Se refiere a los datos que serán almacenados en la Serie, pueden ser en la forma de una lista, dict, np.array.
    
2. `index`: Las etiquetas que estarán emparejadas con los datos, tienen que ser un vector unidimensional.

El resto de parámetro son opcionales.

Veamos un par de ejemplos:

In [2]:
# Desde una lista de datos e índices
data = [1, 2, 3, 4, 5]
index = ["a", "b", "c", "e", "f"]

s = pd.Series(data, index)

s

a    1
b    2
c    3
e    4
f    5
dtype: int64

In [3]:
# Desde diccionario
d = {"a": 1, "b": 2, "c": 3}
s = pd.Series(d)
s

a    1
b    2
c    3
dtype: int64

In [4]:
# Desde un np.array()
serie_1 = pd.Series(np.random.randn(40)) 

serie_2 = pd.Series(map(lambda x: x*np.random.rand() ,range(40)))

# Podemos acceder a sus datos, tal y como se se tratara de una lista
serie_2[:4]

0    0.000000
1    0.114136
2    1.298794
3    2.934978
dtype: float64

In [5]:
# También podemos acceder a los datos tal y como si se tratara de un dict 
s["a"]

1

> **Nota**: En la mayoría de las situaciones estaremos creando Series desde un archivo externo, por ejemplo un *.csv 

In [6]:
%%writefile ejemplo.csv
"a"
"b"
"c"
"d"

Overwriting ejemplo.csv


In [8]:
pd.read_csv("ejemplo.csv").squeeze("columns")

0    b
1    c
2    d
Name: a, dtype: object

Todo esto es interesante, pero...

## Series vs Listas

Al igual que las listas, una serie es una abstracción de una estructura de datos. En este sentido una serie es más conveniente por las funcionalidades que añade en comparación con las listas.

Primero crearemos una serie a partir de número generados aletoriamente desde una distribución [normal estándar](https://es.wikipedia.org/wiki/Tabla_normal_est%C3%A1ndar).

In [9]:
serie = pd.Series(np.random.randn(5000))

In [10]:
serie

0      -1.113983
1       1.105729
2      -1.857878
3       0.717069
4      -1.347289
          ...   
4995   -1.564431
4996    1.018331
4997   -0.473388
4998   -0.086333
4999    0.351430
Length: 5000, dtype: float64

### Atributos

En esta sección revisaremos algunos de los atributos más comunes.

In [11]:
# Tipo de datos que almacena
serie.dtype

dtype('float64')

In [12]:
# Número de elementos
serie.size

5000

In [13]:
# Regresa en forma de array los datos de una Serie
serie.values

array([-1.11398316,  1.10572941, -1.85787822, ..., -0.47338807,
       -0.08633313,  0.35143019])

In [14]:
# acceder a los índices de una Serie
serie.index

RangeIndex(start=0, stop=5000, step=1)

### Métodos

En esta sección veremos algunos de los métodos más comunes y útiles de Pandas

#### .head() & .tail()

In [15]:
serie.head()

0   -1.113983
1    1.105729
2   -1.857878
3    0.717069
4   -1.347289
dtype: float64

In [16]:
serie.tail(2)

4998   -0.086333
4999    0.351430
dtype: float64

#### .sort_values()

Sirve para ordenar de manera descendente o ascendente los valores de una serie.

El método contiene varios parámetros que puedes explorar [aquí](https://pandas.pydata.org/docs/reference/api/pandas.Series.sort_values.html#pandas.Series.sort_values), pero de un inicio es importante hacer referencia en dos de ellos:

1. ascending: `True` (valor por defecto) / `False`.
    Indica si ordenaremos de manera ascendente o descendente.
    
2. inplace: `True` / `False` (valor por defecto).
    Indica si la operación modificará o no permanentemente a la Serie.

Veamos un ejemplo:

In [17]:
serie.sort_values().head()

4528   -3.715708
16     -3.429861
656    -3.373241
26     -3.219683
3825   -3.182393
dtype: float64

In [18]:
serie.head()

0   -1.113983
1    1.105729
2   -1.857878
3    0.717069
4   -1.347289
dtype: float64

In [24]:
serie.sort_values(ascending = False, inplace = True)

In [20]:
serie

1770    4.026015
2208    3.819894
4331    3.698275
4436    3.329037
3046    3.206883
          ...   
3825   -3.182393
26     -3.219683
656    -3.373241
16     -3.429861
4528   -3.715708
Length: 5000, dtype: float64

> Si el parámetro `inplace = True` la respuesta es `None`

#### .sort_index() 

Ordenar la Serie usando los índices.

El método contiene varios parámetros que puedes explorar [aquí](https://pandas.pydata.org/docs/reference/api/pandas.Series.sort_index.html).

In [25]:
serie.sort_index()

0      -1.113983
1       1.105729
2      -1.857878
3       0.717069
4      -1.347289
          ...   
4995   -1.564431
4996    1.018331
4997   -0.473388
4998   -0.086333
4999    0.351430
Length: 5000, dtype: float64

In [26]:
serie.head()

1770    4.026015
2208    3.819894
4331    3.698275
4436    3.329037
3046    3.206883
dtype: float64

In [29]:
serie.sort_index(inplace = True)

In [23]:
serie

0      -1.113983
1       1.105729
2      -1.857878
3       0.717069
4      -1.347289
          ...   
4995   -1.564431
4996    1.018331
4997   -0.473388
4998   -0.086333
4999    0.351430
Length: 5000, dtype: float64

#### .apply()

Aplica una función a los valores de una serie.

**Función simple**

In [27]:
def pos_neg(valor: float) -> str:
    
    if valor>= 0:
        return "Positivo"
    else:
        return "Negativo"
    

In [30]:
serie.head()

0   -1.113983
1    1.105729
2   -1.857878
3    0.717069
4   -1.347289
dtype: float64

In [33]:
serie.apply(pos_neg).head()

0    Negativo
1    Positivo
2    Negativo
3    Positivo
4    Negativo
dtype: object

**Función con parámetros**

In [34]:
def restar_valor(valor: float, r: float) -> float:
    return valor - r

In [35]:
serie.head()

0   -1.113983
1    1.105729
2   -1.857878
3    0.717069
4   -1.347289
dtype: float64

In [38]:
serie.apply(
    restar_valor,
    args=(2,)
).head()

0   -3.113983
1   -0.894271
2   -3.857878
3   -1.282931
4   -3.347289
dtype: float64

**Funciones lambda**

In [39]:
serie.apply(lambda x: x ** 2).head()

0    1.240958
1    1.222638
2    3.451711
3    0.514188
4    1.815189
dtype: float64

In [40]:
serie.apply(lambda x: restar_valor(x, 2)).head()

0   -3.113983
1   -0.894271
2   -3.857878
3   -1.282931
4   -3.347289
dtype: float64

#### Método Numéricos de Reducción

In [41]:
# Sumar todos los valore
serie.sum()

91.89988823228884

In [42]:
# Número de registros
serie.count()

5000

In [43]:
# Promedio
serie.mean()

0.018379977646457768

In [44]:
# desviación estándar
serie.std()

1.001737911815329

In [45]:
# Máximo y Mínimo
print(serie.min())
print(serie.max())

-3.715707787104126
4.026014747504358


También es posible saber cuál es el índice del valor mínimo/máximo mediante el uso del método `.idxmin()`/`.idxmax()`, veamos cómo funciona:

In [46]:
print("El valor mínimo está en la posición (renglón): {}".format(serie.idxmin()))
print("El valor mínimo es: {}".format(serie.iloc[serie.idxmin()]))

El valor mínimo está en la posición (renglón): 4528
El valor mínimo es: -3.715707787104126


In [49]:
serie.iloc[4528]

-3.715707787104126

In [50]:
# Mediana
serie.median()

0.03189202445099486

In [51]:
# Resumen estadístico
serie.describe()

count    5000.000000
mean        0.018380
std         1.001738
min        -3.715708
25%        -0.668828
50%         0.031892
75%         0.688286
max         4.026015
dtype: float64

Otro método interesante es `.value_count()`

In [58]:
serie_enteros = pd.Series(data = np.random.randint(low = 1, high = 10, size = 100000))
serie_enteros.head()

0    5
1    5
2    4
3    3
4    4
dtype: int64

In [53]:
serie_enteros.value_counts()

4    52
5    51
9    49
3    46
6    44
8    42
7    41
1    41
2    34
dtype: int64

In [59]:
serie_enteros.value_counts().sort_index()/serie_enteros.count()

1    0.11073
2    0.11100
3    0.11188
4    0.11092
5    0.11186
6    0.11132
7    0.10920
8    0.11181
9    0.11128
dtype: float64

#### Vectorización de Operaciones.

Cuando trabajamos con Series de vaelores numéricos no es necesario realizar un loop para hacer operaciones valor a valor, podemos aplicar una operación tomando ventaja de los múltiples cores de nuestra computadora.

In [60]:
s1 = pd.Series(data = np.random.uniform(size = 5), index = ["a","b","c", "d", "e"])
s1

a    0.347642
b    0.925386
c    0.827738
d    0.980606
e    0.038211
dtype: float64

In [61]:
s2 = pd.Series(data = np.arange(5), index = ["e","d","c", "b","f"])
s2

e    0
d    1
c    2
b    3
f    4
dtype: int64

En este caso podemos ver que las operaciones aritméticas se alinean automáticamente en relación a los índices. Dando lugar a un valor `NaN` (Not a Number) en los sitios en los que sólo existe el índice en sólo una Serie.

In [62]:
s1 + s2

a         NaN
b    3.925386
c    2.827738
d    1.980606
e    0.038211
f         NaN
dtype: float64

In [63]:
s1 + 10

a    10.347642
b    10.925386
c    10.827738
d    10.980606
e    10.038211
dtype: float64

In [64]:
np.exp(s2)

e     1.000000
d     2.718282
c     7.389056
b    20.085537
f    54.598150
dtype: float64

#### Filtros

También es posible vectorizar condiciones lógicas, para quedarnos sólo con los elementos que cumplan la condición.

In [65]:
serie

0      -1.113983
1       1.105729
2      -1.857878
3       0.717069
4      -1.347289
          ...   
4995   -1.564431
4996    1.018331
4997   -0.473388
4998   -0.086333
4999    0.351430
Length: 5000, dtype: float64

In [66]:
serie>0

0       False
1        True
2       False
3        True
4       False
        ...  
4995    False
4996     True
4997    False
4998    False
4999     True
Length: 5000, dtype: bool

In [67]:
serie[serie>0]

1       1.105729
3       0.717069
6       0.041350
11      1.771707
12      0.600917
          ...   
4991    0.951894
4992    0.988354
4993    0.193081
4996    1.018331
4999    0.351430
Length: 2548, dtype: float64

¿Cómo combinamos operaciones lógicas, i.e. cómo usar `and` y `or`?

In [68]:
# En este caso, filtraremos sólo los valores más extremos de la distribución normal
serie[
    (serie > (serie.mean() + 2.95*serie.std())) 
    | (serie < (serie.mean() - 2.95*serie.std()))
]

16     -3.429861
26     -3.219683
429    -3.014698
531    -3.117518
656    -3.373241
878    -2.961614
1164    3.114429
1256    3.184485
1324   -2.978864
1770    4.026015
2208    3.819894
2671   -3.010072
3004    3.032304
3046    3.206883
3555   -3.166072
3825   -3.182393
4121    3.050377
4331    3.698275
4436    3.329037
4528   -3.715708
4617   -3.068921
4927    3.131987
dtype: float64

In [71]:
import math 
serie[
    (serie.apply(math.trunc) % 2 ==0) 
    & (serie.apply(math.trunc) > 0)
]

37      2.005332
63      2.509303
94      2.793881
98      2.104165
116     2.182798
          ...   
4730    2.171736
4800    2.315346
4904    2.627313
4980    2.351998
4985    2.365987
Length: 117, dtype: float64