# Series

Objetivos de Aprendizaje

1. ¿Qué es una serie?
2. ¿Cómo crear una serie?
3. Series vs Listas
    - Atributos
    - Métodos
    - Filtros

## ¿Qué es una serie?

En esta lección veremos una descripción general de uno de los dos tipos de estructuras disponibles en Pandas, las Series.

Las [Series](https://pandas.pydata.org/docs/reference/series.html) son una matriz etiquetada y unidimensional (~lista) capaz de contener cualquier tipo de datos (enteros, cadenas de texto, número de punto flotante, etc.). Las etiquetas suelen denominarse índices.

> **Principio básico de Pandas**: La alineación entre datos e índices es intrínseca a las, i.e. el vínculo entre los índices y los datos no se romperá a menos que el usuario lo haga explícitamente.

Antes de iniciar importaremos los paquetes necesarios


In [1]:
import numpy as np
import pandas as pd

## ¿Cómo crear una Serie?

Para crear una Serie en Pandas, es necesario hacer uso de su [constructor](https://pandas.pydata.org/docs/reference/api/pandas.Series.html#pandas.Series):

```python

s = pd.Series(data, index)

```

Dónde: 

1. `data`: Se refiere a los datos que serán almacenados en la Serie, pueden ser en la forma de una lista, dict, np.array.
    
2. `index`: Las etiquetas que estarán emparejadas con los datos, tienen que ser un vector unidimensional.

El resto de parámetro son opcionales.

Veamos un par de ejemplos:

In [2]:
# Desde una lista de datos e índices
data = [1, 2, 3, 4, 5]
index = ["a", "b", "c", "e", "f"]

s = pd.Series(data, index)

s

a    1
b    2
c    3
e    4
f    5
dtype: int64

In [3]:
# Desde diccionario
d = {"a": 1, "b": 2, "c": 3}
s = pd.Series(d)
s

a    1
b    2
c    3
dtype: int64

In [4]:
# Desde un np.array()
serie_1 = pd.Series(np.random.randn(40)) 

serie_2 = pd.Series(map(lambda x: x*np.random.rand() ,range(40)))

# Podemos acceder a sus datos, tal y como se se tratara de una lista
serie_2[:4]

0    0.000000
1    0.241153
2    0.133699
3    0.673075
dtype: float64

In [5]:
# También podemos acceder a los datos tal y como si se tratara de un dict 
s["a"]

1

> **Nota**: En la mayoría de las situaciones estaremos creando Series desde un archivo externo, por ejemplo un *.csv 

In [6]:
%%writefile ejemplo.csv
"a"
"b"
"c"
"d"

Overwriting ejemplo.csv


In [9]:
pd.read_csv("ejemplo.csv").squeeze("columns")

0    b
1    c
2    d
Name: a, dtype: object

Todo esto es interesante, pero...

## Series vs Listas

Al igual que las listas, una serie es una abstracción de una estructura de datos. En este sentido una serie es más conveniente por las funcionalidades que añade en comparación con las listas.

Primero crearemos una serie a partir de número generados aletoriamente desde una distribución [normal estándar](https://es.wikipedia.org/wiki/Tabla_normal_est%C3%A1ndar).

In [10]:
serie = pd.Series(np.random.randn(5000))

In [11]:
serie

0      -0.046176
1       0.745638
2       1.419435
3      -0.340620
4      -0.485778
          ...   
4995    2.084960
4996   -0.969669
4997    0.218329
4998   -1.977039
4999   -1.954332
Length: 5000, dtype: float64

### Atributos

En esta sección revisaremos algunos de los atributos más comunes.

In [12]:
# Tipo de datos que almacena
serie.dtype

dtype('float64')

In [13]:
# Número de elementos
serie.size

5000

In [14]:
# Regresa en forma de array los datos de una Serie
serie.values

array([-0.04617605,  0.74563758,  1.41943494, ...,  0.2183286 ,
       -1.97703914, -1.95433171])

In [15]:
# acceder a los índices de una Serie
serie.index

RangeIndex(start=0, stop=5000, step=1)

### Métodos

En esta sección veremos algunos de los métodos más comunes y útiles de Pandas

#### .head() & .tail()

In [16]:
serie.head()

0   -0.046176
1    0.745638
2    1.419435
3   -0.340620
4   -0.485778
dtype: float64

In [17]:
serie.tail(2)

4998   -1.977039
4999   -1.954332
dtype: float64

#### .sort_values()

Sirve para ordenar de manera descendente o ascendente los valores de una serie.

El método contiene varios parámetros que puedes explorar [aquí](https://pandas.pydata.org/docs/reference/api/pandas.Series.sort_values.html#pandas.Series.sort_values), pero de un inicio es importante hacer referencia en dos de ellos:

1. ascending: `True` (valor por defecto) / `False`.
    Indica si ordenaremos de manera ascendente o descendente.
    
2. inplace: `True` / `False` (valor por defecto).
    Indica si la operación modificará o no permanentemente a la Serie.

Veamos un ejemplo:

In [18]:
serie.sort_values().head()

4038   -3.704489
1141   -3.649041
1479   -3.278508
2472   -3.241084
322    -3.194142
dtype: float64

In [19]:
serie.head()

0   -0.046176
1    0.745638
2    1.419435
3   -0.340620
4   -0.485778
dtype: float64

In [20]:
serie.sort_values(ascending = False, inplace = True)

In [21]:
serie

1970    3.621421
2301    3.191740
3281    3.131647
4071    3.035614
1684    2.891884
          ...   
322    -3.194142
2472   -3.241084
1479   -3.278508
1141   -3.649041
4038   -3.704489
Length: 5000, dtype: float64

> Si el parámetro `inplace = True` la respuesta es `None`

#### .sort_index() 

Ordenar la Serie usando los índices.

El método contiene varios parámetros que puedes explorar [aquí](https://pandas.pydata.org/docs/reference/api/pandas.Series.sort_index.html).

In [22]:
serie.sort_index()

0      -0.046176
1       0.745638
2       1.419435
3      -0.340620
4      -0.485778
          ...   
4995    2.084960
4996   -0.969669
4997    0.218329
4998   -1.977039
4999   -1.954332
Length: 5000, dtype: float64

In [23]:
serie.head()

1970    3.621421
2301    3.191740
3281    3.131647
4071    3.035614
1684    2.891884
dtype: float64

In [24]:
serie.sort_index(inplace = True)

In [25]:
serie

0      -0.046176
1       0.745638
2       1.419435
3      -0.340620
4      -0.485778
          ...   
4995    2.084960
4996   -0.969669
4997    0.218329
4998   -1.977039
4999   -1.954332
Length: 5000, dtype: float64

#### .apply()

Aplica una función a los valores de una serie.

**Función simple**

In [27]:
def pos_neg(valor: float) -> str:
    
    if valor>= 0:
        return "Positivo"
    else:
        return "Negativo"
    

In [26]:
serie.head()

0   -0.046176
1    0.745638
2    1.419435
3   -0.340620
4   -0.485778
dtype: float64

In [28]:
serie.apply(pos_neg).head()

0    Negativo
1    Positivo
2    Positivo
3    Negativo
4    Negativo
dtype: object

**Función con parámetros**

In [29]:
def restar_valor(valor: float, r: float) -> float:
    return valor - r

In [30]:
serie.head()

0   -0.046176
1    0.745638
2    1.419435
3   -0.340620
4   -0.485778
dtype: float64

In [31]:
serie.apply(
    restar_valor,
    args=(2,)
).head()

0   -2.046176
1   -1.254362
2   -0.580565
3   -2.340620
4   -2.485778
dtype: float64

**Funciones lambda**

In [32]:
serie.apply(lambda x: x ** 2).head()

0    0.002132
1    0.555975
2    2.014796
3    0.116022
4    0.235980
dtype: float64

In [33]:
serie.apply(lambda x: restar_valor(x, 2)).head()

0   -2.046176
1   -1.254362
2   -0.580565
3   -2.340620
4   -2.485778
dtype: float64

#### Método Numéricos de Reducción

In [35]:
# Sumar todos los valore
serie.sum()

-39.061499482914954

In [36]:
# Número de registros
serie.count()

5000

In [37]:
# Promedio
serie.mean()

-0.007812299896582991

In [38]:
# desviación estándar
serie.std()

1.0036483806231875

In [39]:
# Máximo y Mínimo
print(serie.min())
print(serie.max())

-3.7044890568704174
3.621421070700868


También es posible saber cuál es el índice del valor mínimo/máximo mediante el uso del método `.idxmin()`/`.idxmax()`, veamos cómo funciona:

In [40]:
print("El valor mínimo está en la posición (renglón): {}".format(serie.idxmin()))
print("El valor mínimo es: {}".format(serie.iloc[serie.idxmin()]))

El valor mínimo está en la posición (renglón): 4038
El valor mínimo es: -3.7044890568704174


In [43]:
serie.iloc[4038]

-3.7044890568704174

In [44]:
# Mediana
serie.median()

0.00039145466962781713

In [45]:
# Resumen estadístico
serie.describe()

count    5000.000000
mean       -0.007812
std         1.003648
min        -3.704489
25%        -0.681906
50%         0.000391
75%         0.678722
max         3.621421
dtype: float64

Otro método interesante es `.value_count()`

In [46]:
serie_enteros = pd.Series(data = np.random.randint(low = 1, high = 10, size = 100000))
serie_enteros.head()

0    4
1    7
2    8
3    5
4    6
dtype: int64

In [47]:
serie_enteros.value_counts()

4    11277
9    11271
7    11233
3    11182
1    11117
6    11075
5    11018
8    10975
2    10852
dtype: int64

In [48]:
serie_enteros.value_counts().sort_index()/serie_enteros.count()

1    0.11117
2    0.10852
3    0.11182
4    0.11277
5    0.11018
6    0.11075
7    0.11233
8    0.10975
9    0.11271
dtype: float64

#### Vectorización de Operaciones.

Cuando trabajamos con Series de vaelores numéricos no es necesario realizar un loop para hacer operaciones valor a valor, podemos aplicar una operación tomando ventaja de los múltiples cores de nuestra computadora.

In [49]:
s1 = pd.Series(data = np.random.uniform(size = 5), index = ["a","b","c", "d", "e"])
s1

a    0.555367
b    0.929566
c    0.747302
d    0.085672
e    0.117244
dtype: float64

In [50]:
s2 = pd.Series(data = np.arange(5), index = ["e","d","c", "b","f"])
s2

e    0
d    1
c    2
b    3
f    4
dtype: int64

En este caso podemos ver que las operaciones aritméticas se alinean automáticamente en relación a los índices. Dando lugar a un valor `NaN` (Not a Number) en los sitios en los que sólo existe el índice en sólo una Serie.

In [51]:
s1 + s2

a         NaN
b    3.929566
c    2.747302
d    1.085672
e    0.117244
f         NaN
dtype: float64

In [52]:
s1 + 10

a    10.555367
b    10.929566
c    10.747302
d    10.085672
e    10.117244
dtype: float64

In [53]:
np.exp(s2)

e     1.000000
d     2.718282
c     7.389056
b    20.085537
f    54.598150
dtype: float64

#### Filtros

También es posible vectorizar condiciones lógicas, para quedarnos sólo con los elementos que cumplan la condición.

In [54]:
serie

0      -0.046176
1       0.745638
2       1.419435
3      -0.340620
4      -0.485778
          ...   
4995    2.084960
4996   -0.969669
4997    0.218329
4998   -1.977039
4999   -1.954332
Length: 5000, dtype: float64

In [55]:
serie>0

0       False
1        True
2        True
3       False
4       False
        ...  
4995     True
4996    False
4997     True
4998    False
4999    False
Length: 5000, dtype: bool

In [56]:
serie[serie>0]

1       0.745638
2       1.419435
7       1.055186
8       0.627867
9       1.111951
          ...   
4992    0.430026
4993    1.781881
4994    1.395271
4995    2.084960
4997    0.218329
Length: 2501, dtype: float64

¿Cómo combinamos operaciones lógicas, i.e. cómo usar `and` y `or`?

In [None]:
# En este caso, filtraremos sólo los valores más extremos de la distribución normal
serie[
    (serie > (serie.mean() + 2.95*serie.std())) 
    | (serie < (serie.mean() - 2.95*serie.std()))
]

In [None]:
import math 
serie[
    (serie.apply(math.trunc) % 2 ==0) 
    & (serie.apply(math.trunc) > 0)
]