# Series

Objetivos de Aprendizaje

1. ¿Qué es una serie?
2. ¿Cómo crear una serie?
3. Series vs Listas
    - Atributos
    - Métodos
    - Filtros

## ¿Qué es una serie?

En esta lección veremos una descripción general de uno de los dos tipos de estructuras disponibles en Pandas, las Series.

Las [Series](https://pandas.pydata.org/docs/reference/series.html) son una matriz etiquetada y unidimensional (~lista) capaz de contener cualquier tipo de datos (enteros, cadenas de texto, número de punto flotante, etc.). Las etiquetas suelen denominarse índices.

> **Principio básico de Pandas**: La alineación entre datos e índices es intrínseca a las, i.e. el vínculo entre los índices y los datos no se romperá a menos que el usuario lo haga explícitamente.

Antes de iniciar importaremos los paquetes necesarios


In [None]:
import numpy as np
import pandas as pd

## ¿Cómo crear una Serie?

Para crear una Serie en Pandas, es necesario hacer uso de su [constructor](https://pandas.pydata.org/docs/reference/api/pandas.Series.html#pandas.Series):

```python

s = pd.Series(data, index)

```

Dónde: 

1. `data`: Se refiere a los datos que serán almacenados en la Serie, pueden ser en la forma de una lista, dict, np.array.
    
2. `index`: Las etiquetas que estarán emparejadas con los datos, tienen que ser un vector unidimensional.

El resto de parámetro son opcionales.

Veamos un par de ejemplos:

In [None]:
# Desde una lista de datos e índices
data = [1, 2, 3, 4, 5]
index = ["a", "b", "c", "e", "f"]

s = pd.Series(data, index)

s

In [None]:
# Desde diccionario
d = {"a": 1, "b": 2, "c": 3}
s = pd.Series(d)
s

In [None]:
# Desde un np.array()
serie_1 = pd.Series(np.random.randn(40)) 

serie_2 = pd.Series(map(lambda x: x*np.random.rand() ,range(40)))

# Podemos acceder a sus datos, tal y como se se tratara de una lista
serie_2[:4]

In [None]:
# También podemos acceder a los datos tal y como si se tratara de un dict 
s["a"]

> **Nota**: En la mayoría de las situaciones estaremos creando Series desde un archivo externo, por ejemplo un *.csv 

In [None]:
%%writefile ejemplo.csv
"a"
"b"
"c"
"d"

In [None]:
pd.read_csv("ejemplo.csv").squeeze("columns")

Todo esto es interesante, pero...

## Series vs Listas

Al igual que las listas, una serie es una abstracción de una estructura de datos. En este sentido una serie es más conveniente por las funcionalidades que añade en comparación con las listas.

Primero crearemos una serie a partir de número generados aletoriamente desde una distribución [normal estándar](https://es.wikipedia.org/wiki/Tabla_normal_est%C3%A1ndar).

In [None]:
serie = pd.Series(np.random.randn(5000))

In [None]:
serie

### Atributos

En esta sección revisaremos algunos de los atributos más comunes.

In [None]:
# Tipo de datos que almacena
serie.dtype

In [None]:
# Número de elementos
serie.size

In [None]:
# Regresa en forma de array los datos de una Serie
serie.values

In [None]:
# acceder a los índices de una Serie
serie.index

### Métodos

En esta sección veremos algunos de los métodos más comunes y útiles de Pandas

#### .head() & .tail()

In [None]:
serie.head()

In [None]:
serie.tail(2)

#### .sort_values()

Sirve para ordenar de manera descendente o ascendente los valores de una serie.

El método contiene varios parámetros que puedes explorar [aquí](https://pandas.pydata.org/docs/reference/api/pandas.Series.sort_values.html#pandas.Series.sort_values), pero de un inicio es importante hacer referencia en dos de ellos:

1. ascending: `True` (valor por defecto) / `False`.
    Indica si ordenaremos de manera ascendente o descendente.
    
2. inplace: `True` / `False` (valor por defecto).
    Indica si la operación modificará o no permanentemente a la Serie.

Veamos un ejemplo:

In [None]:
serie.sort_values().head()

In [None]:
serie.head()

In [None]:
serie.sort_values(ascending = False, inplace = True)

In [None]:
serie

> Si el parámetro `inplace = True` la respuesta es `None`

#### .sort_index() 

Ordenar la Serie usando los índices.

El método contiene varios parámetros que puedes explorar [aquí](https://pandas.pydata.org/docs/reference/api/pandas.Series.sort_index.html).

In [None]:
serie.sort_index()

In [None]:
serie.head()

In [None]:
serie.sort_index(inplace = True)

In [None]:
serie

#### .apply()

Aplica una función a los valores de una serie.

**Función simple**

In [None]:
def pos_neg(valor: float) -> str:
    
    if valor>= 0:
        return "Positivo"
    else:
        return "Negativo"
    

In [None]:
serie.head()

In [None]:
serie.apply(pos_neg).head()

**Función con parámetros**

In [None]:
def restar_valor(valor: float, r: float) -> float:
    return valor - r

In [None]:
serie.head()

In [None]:
serie.apply(
    restar_valor,
    args=(2,)
).head()

**Funciones lambda**

In [None]:
serie.apply(lambda x: x ** 2).head()

In [None]:
serie.apply(lambda x: restar_valor(x, 2)).head()

#### Método Numéricos de Reducción

In [None]:
# Sumar todos los valore
serie.sum()

In [None]:
# Número de registros
serie.count()

In [None]:
# Promedio
serie.mean()

In [None]:
# desviación estándar
serie.std()

In [None]:
# Máximo y Mínimo
print(serie.min())
print(serie.max())

También es posible saber cuál es el índice del valor mínimo/máximo mediante el uso del método `.idxmin()`/`.idxmax()`, veamos cómo funciona:

In [None]:
print("El valor mínimo está en la posición (renglón): {}".format(serie.idxmin()))
print("El valor mínimo es: {}".format(serie.iloc[serie.idxmin()]))

In [None]:
serie.iloc[4528]

In [None]:
# Mediana
serie.median()

In [None]:
# Resumen estadístico
serie.describe()

Otro método interesante es `.value_count()`

In [None]:
serie_enteros = pd.Series(data = np.random.randint(low = 1, high = 10, size = 100000))
serie_enteros.head()

In [None]:
serie_enteros.value_counts()

In [None]:
serie_enteros.value_counts().sort_index()/serie_enteros.count()

#### Vectorización de Operaciones.

Cuando trabajamos con Series de vaelores numéricos no es necesario realizar un loop para hacer operaciones valor a valor, podemos aplicar una operación tomando ventaja de los múltiples cores de nuestra computadora.

In [None]:
s1 = pd.Series(data = np.random.uniform(size = 5), index = ["a","b","c", "d", "e"])
s1

In [None]:
s2 = pd.Series(data = np.arange(5), index = ["e","d","c", "b","f"])
s2

En este caso podemos ver que las operaciones aritméticas se alinean automáticamente en relación a los índices. Dando lugar a un valor `NaN` (Not a Number) en los sitios en los que sólo existe el índice en sólo una Serie.

In [None]:
s1 + s2

In [None]:
s1 + 10

In [None]:
np.exp(s2)

#### Filtros

También es posible vectorizar condiciones lógicas, para quedarnos sólo con los elementos que cumplan la condición.

In [None]:
serie

In [None]:
serie>0

In [None]:
serie[serie>0]

¿Cómo combinamos operaciones lógicas, i.e. cómo usar `and` y `or`?

In [None]:
# En este caso, filtraremos sólo los valores más extremos de la distribución normal
serie[
    (serie > (serie.mean() + 2.95*serie.std())) 
    | (serie < (serie.mean() - 2.95*serie.std()))
]

In [None]:
import math 
serie[
    (serie.apply(math.trunc) % 2 ==0) 
    & (serie.apply(math.trunc) > 0)
]