# El objeto <code>Series</code> 

<a href="https://colab.research.google.com/github/milocortes/diplomado_ciencia_datos_mide/blob/main/notebooks/series_dmdu_2022.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


El objeto <code>Series</code> es un arreglo unidimensional etiquetado de datos homogéneos. El término *homogéneo* significa que los valores son del mismo tipo de datos.

    
Pandas asigna a cada valor de <code>Series</code> una *etiqueta*-un identificador que podemos usar para ubicar el valor.

La <Series> es una estructura de datos unidimensional porque necesitamos un punto de referencia para acceder a un valor: ya sea una etiqueta o una posición.
    
Vamos a crear un objeto <code>Series</code> a partir de la clase <code>Series</code>. El primer argumento del constructor <code>Series</code> es un objeto iterable cuyos valores llenarán <code>Series</code>.

In [1]:
import pandas as pd

ice_cream_flavors = ["Chocolate","Vanilla","Strawberry","Rum Raisin",]

pd.Series(data = ice_cream_flavors)

0     Chocolate
1       Vanilla
2    Strawberry
3    Rum Raisin
dtype: object

Además de un índice de posición, podemos asignar a cada valor de <code>Series</code> una etiqueta de índice.

Las etiquetas de índice pueden ser de cualquier tipo de datos inmutables: cadenas, tuplas, fechas y horas, etc.

Esta flexibilidad hace que una <code>Series</code> sea poderosa: podemos hacer referencia a un valor por su orden o por una clave/etiqueta. En cierto sentido, cada valor tiene dos identificadores.

In [9]:
days_of_week = ("Monday", "Wednesday", "Friday", "Saturday")
# Las dos líneas siguientes son equivalentes.
pd.Series(ice_cream_flavors, days_of_week)
pd.Series(data = ice_cream_flavors, index = days_of_week)

Monday        Chocolate
Wednesday       Vanilla
Friday       Strawberry
Saturday     Rum Raisin
dtype: object

podemos acceder al valor <code>"Vanilla"</code> ya sea por la etiqueta de índice <code>"Wednesday" </code> o por la posición de índice 1

In [10]:
serie = pd.Series(ice_cream_flavors, days_of_week)
serie[1]

'Vanilla'

In [11]:
serie["Wednesday"]

'Vanilla'

La instrucción <code>dtype</code> en la parte inferior refleja el tipo de datos de los valores en la <code>Series</code>. 

Para la mayoría de los tipos de datos, pandas mostrará un tipo predecible (como <code>bool</code>, <code>float</code> o <code>int</code>). 

Para cadenas y objetos más complejos (como estructuras de datos anidadas), los pandas mostrarán <code>dtype:object<code>.

In [12]:
bunch_of_bools = [True, False, False]
pd.Series(bunch_of_bools)

0     True
1    False
2    False
dtype: bool

In [14]:
stock_prices = [985.32, 950.44]
time_of_day = ["Open", "Close"]
pd.Series(data = stock_prices, index = time_of_day)

Open     985.32
Close    950.44
dtype: float64

In [15]:
lucky_numbers = [4, 8, 15, 16, 23, 42]
pd.Series(lucky_numbers)

0     4
1     8
2    15
3    16
4    23
5    42
dtype: int64

El siguiente ejemplo pasa una lista de enteros al constructor pero pide una <code>Series</code> de punto flotante:

In [16]:
lucky_numbers = [4, 8, 15, 16, 23, 42]
pd.Series(lucky_numbers, dtype = "float")

0     4.0
1     8.0
2    15.0
3    16.0
4    23.0
5    42.0
dtype: float64

## Creando <code>Series</code> con valores faltantes

Cuando pandas ve un valor que falta durante la importación de un archivo, la biblioteca lo sustituye con el objeto <code>nan</code> de NumPy: <code>nan</code> es un objeto de marcador de posición que representa nulidad o ausencia.

In [4]:
import numpy as np
temperatures = [94, 88, np.nan, 91]
pd.Series(data = temperatures)

0    94.0
1    88.0
2     NaN
3    91.0
dtype: float64

Tenga en cuenta que el tipo de serie es float64 . Pandas convierte automáticamente los valores numéricos de enteros a puntos flotantes cuando detecta un valor <code>nan</code>

## Creación de un objeto <code>Serie</code> a partir de objetos de Python

El parámetro <code>data</code> del constructor <code>Series</code> acepta varias entradas, incluidas estructuras de datos nativas de Python y objetos de otras bibliotecas.

Exploraremos cómo el constructor <code>Series</code> trata con diccionarios, tuplas y arreglos de NumPy.

Cuando se le pasa un diccionario, el constructor establece cada llave como una etiqueta de índice correspondiente en la <code>Series</code>:

In [2]:
calorie_info = {"Cereal": 125,"Chocolate Bar": 406,"Ice Cream Sundae": 342,}
diet = pd.Series(calorie_info)
diet

Cereal              125
Chocolate Bar       406
Ice Cream Sundae    342
dtype: int64

Cuando se pasa una tupla, el constructor llena la Serie de la manera esperada:

In [20]:
pd.Series(data = ("Red", "Green", "Blue"))

0      Red
1    Green
2     Blue
dtype: object

El parámetro <code>data</code> del constructor <code>Series</code> también acepta un objeto NumPy <code>ndarray</code>. 

El siguiente ejemplo alimenta al constructor <code>Series</code> con un <code>ndarray</code> generado por la función <code>randint</code> de NumPy:

In [5]:
random_data = np.random.randint(1, 101, 10)
random_data

array([29, 38, 92, 13, 12, 54, 70, 14, 96, 43])

In [6]:
pd.Series(random_data)

0    29
1    38
2    92
3    13
4    12
5    54
6    70
7    14
8    96
9    43
dtype: int64

## Atributos del objeto <code>Series</code>

El atributo <code>values</code> expone el objeto que almacena los valores:

In [26]:
diet = pd.Series(calorie_info)
diet.values

array([125, 406, 342])

Pandas delega la responsabilidad de almacenar valores <code>Series</code> a un objeto de una biblioteca diferente.


Es por eso que NumPy es una dependencia de pandas. El objeto <code>ndarray</code> optimiza la velocidad y la eficiencia al delegar muchos de sus cálculos al lenguaje de programación de bajo nivel C. 


En muchos sentidos, <code>Series</code> es un contenedor, una capa adicional de funcionalidad alrededor de un objeto de biblioteca NumPy central.


El atributo <code>index</code> devuelve el objeto <code>Index</code> que almacena las etiquetas <code>Series</code>:

In [27]:
diet.index

Index(['Cereal', 'Chocolate Bar', 'Ice Cream Sundae'], dtype='object')

Algunos atributos revelan detalles útiles sobre el objeto. <code>dtype</code> , por ejemplo, devuelve el tipo de datos de los valores de <code>Series</code>:

In [28]:
diet.dtype

dtype('int64')


El atributo <code>is_unique</code> devuelve <code>True</code> si todos los valores de <code>Series</code> son únicos:

In [29]:
diet.is_unique

True

## Operaciones matemáticas

### Operaciones estadísticas

In [7]:
numbers = pd.Series([1, 2, 3, np.nan, 4, 5])
numbers

0    1.0
1    2.0
2    3.0
3    NaN
4    4.0
5    5.0
dtype: float64


El método <code>count</code> cuenta el número de valores no nulos:

In [32]:
numbers.count()

5

El método <code>sum</code> suma los valores de <code>Series</code>:

In [34]:
numbers.sum()

15.0

La mayoría de los métodos matemáticos ignoran los valores perdidos por defecto. Podemos pasar un argumento de <code>False</code> al parámetro <code>skipna</code> para forzar la inclusión de valores faltantes.

In [35]:
numbers.sum(skipna = False)

nan


El método <code>product</code> multiplica todos los valores de <code>Series</code> juntos:

In [None]:
numbers.product()

El método <code>cumsum</code> (suma acumulativa) devuelve una nueva <code>Series</code> con una suma continua de valores. 

Cada posición de índice contiene la suma de valores hasta el valor de ese índice incluido. 

Una suma acumulativa ayuda a determinar qué valores contribuyen más al total:

In [37]:
numbers

0    1.0
1    2.0
2    3.0
3    NaN
4    4.0
5    5.0
dtype: float64

In [36]:
numbers.cumsum()

0     1.0
1     3.0
2     6.0
3     NaN
4    10.0
5    15.0
dtype: float64

El método <code>mean</code> devuelve el promedio de los valores en <code>Series</code> .

In [38]:
numbers.mean()

3.0


El método <code>median</code> devuelve el número del medio en una <code>Series</code> ordenada de valores

In [39]:
numbers.median()

3.0

El método <code>std</code> devuelve la desviación estándar, una medida de la variación en los datos

In [40]:
numbers.std()

1.5811388300841898


Los métodos <code>max</code> y <code>min</code> recuperan el valor máximo y mínimo de la <code>Series</code> :

In [None]:
numbers.max(),numbers.min()


<code>describe</code> devuelve una <code>Series</code> de descripciones estadísticas: conteo, media y la desviación estándar:

In [41]:
numbers.describe()

count    5.000000
mean     3.000000
std      1.581139
min      1.000000
25%      2.000000
50%      3.000000
75%      4.000000
max      5.000000
dtype: float64

The <code>sample</code> method selects a random assortment of values from the <code>Series</code>.

In [8]:
numbers.sample(3)

2    3.0
0    1.0
1    2.0
dtype: float64

### Operaciones aritméticas


Podemos realizar operaciones aritméticas en una <code>Series</code> con los operadores matemáticos estándar de Python:

* <code>+</code> para sumar
* <code>-</code> para restar
* <code>*</code> para multiplicar
* <code>/</code> para dividir

In [43]:
s1 = pd.Series(data = [5, np.nan, 15], index = ["A", "B", "C"])
s1

A     5.0
B     NaN
C    15.0
dtype: float64


El siguiente ejemplo agrega 3 a cada valor en la <code>Series</code> <code>s1</code>  :

In [44]:
s1 + 3

A     8.0
B     NaN
C    18.0
dtype: float64


Si se prefiere un enfoque basado en métodos, el método <code>add</code> logra el mismo resultado:

In [45]:
s1.add(3)

A     8.0
B     NaN
C    18.0
dtype: float64


Los siguientes tres ejemplos muestran las opciones de sintaxis complementarias para resta ( <code>-</code> ), multiplicación ( <code>*</code>) y división ( <code>/</code> ). 

A menudo, hay varias formas de realizar la misma operación en pandas:

In [46]:
s1 - 5
s1.sub(5)

A     0.0
B     NaN
C    10.0
dtype: float64

In [47]:
s1 * 2
s1.mul(2)

A    10.0
B     NaN
C    30.0
dtype: float64

In [48]:
s1 / 2
s1.div(2)

A    2.5
B    NaN
C    7.5
dtype: float64

### Broadcasting

Recuerda que, debajo de escena, pandas almacena los valores de <code>Series</code> en un NumPy <code>ndarray</code>.

Ya vimos que el broadcasting en numpy consiste en llevar dos arreglos a la misma forma reorganizando los datos.


El broadcasting también describe operaciones matemáticas entre múltiples objetos <code>Series</code>.


**Como regla general, pandas usa etiquetas de índice compartidas para alinear-emparejar valores en diferentes estructuras de datos.** 


Instanciamos dos <code>Series</code> con el mismo índice de tres elementos:

In [50]:
s1 = pd.Series([1, 2, 3], index = ["A", "B", "C"])
s2 = pd.Series([4, 5, 6], index = ["A", "B", "C"])
s1 + s2

A    5
B    7
C    9
dtype: int64


Las operaciones de comparación entre <code>Series</code> se vuelven más complicadas cuando los índices difieren. 

Un índice puede tener un número mayor o menor de etiquetas, o puede haber una discrepancia entre las propias etiquetas.


El siguiente ejemplo crea dos <code>Series</code> que comparten solo dos etiquetas de índice, B y C:

![series_no_match.png](attachment:series_no_match.png)

In [54]:
s1 = pd.Series(
data = [5, 10, 15], index = ["A", "B", "C"]
)
s2 = pd.Series(
data = [4, 8, 12, 14], index = ["B", "C", "D", "E"]
)

s1 + s2

A     NaN
B    14.0
C    23.0
D     NaN
E     NaN
dtype: float64

In [55]:
pd.Series([2,4,6]) + pd.Series([10,10,10,10])

0    12.0
1    14.0
2    16.0
3     NaN
dtype: float64