<a href="https://colab.research.google.com/github/RafaelCaballero/Julio24/blob/main/code/04series.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a la ciencia de datos con Python
###  Rafa Caballero


## Pandas - Series

Vamos a ver las características principales de esta biblioteca
que "recubre" numpy con estructuras de alto nivel y herramientas que
facilitan el tratamiento de datos. Representa una fila o una columna de un dataframe


### Índice
[Creación](#Creación)<br>
[Índices](#Índices)<br>
[Atributos](#Atributos)<br>
[Valores temporales](#Valores-temporales)<br>


### Creación

La forma más sencilla: a partir de arrays unidimensionales de cualquier tipo admitido por Numpy

In [None]:
import pandas as pd
from pandas import Series

serie = Series([1.0, 7., 5., 3.1]) # creación
serie

Ya vemos algo interesante; salen 2 columnas, el valor que hemos puesto pero antes su posición. Es lo que vamos a llamar *índice* y se puede ver como un "nombre" del valor.

### Índices

Por tanto la columna de la izquierda contiene los índices. Un error muy común es crer que el índice que simplemente es la posición de cada elemento, como parece a primera vista

In [None]:
print(serie[3]) # esto es un valor
print(serie[0:2]) # esto es una serie, e incluye el índice

Pero son un identificador de fila, que puede tomar cualquier valor básico

In [None]:
serie = Series(["Bertoldo", "Peláez", "C/Jazmín", "999999"],
               ["nombre",    "apellido","calle",  "teléfono"]) # creación con ind.
serie

In [None]:
print(serie[3],serie['calle'])

In [None]:
print(serie['nombre':'calle'])

In [None]:
print(serie[0:3])

In [None]:
serie = Series([1.0, 7., 5., 3.1],[5,6,7,8]) # creación con ind.
serie[7]

El índice no debe confundirse con una *clave única*, puede repetirse y en ese caso devuelve una serie

In [None]:
serie = Series([1.0, 7., 5., 3.1],["d","d","b","d"]) # creación con ind.
serie

In [None]:
serie['d']

In [None]:
print(type(serie['b']))
print(type(serie['d']))


En ocasiones puede haber confusión entre índice y posición

In [None]:
serie = Series(data=[1.0, 7., 5., 3.1],index=[1,1,3,1])
serie

In [None]:
serie[1] # accede por índice, pero es confuso

La ambigüedad se resuelve mediante los atributos:

    - `iloc` nos permite acceder por posición
    - `loc` que permite acceder por índice:

In [None]:
serie.iloc[1]

In [None]:
serie.loc[1]

Por tanto una *Serie* tiene dos componentes: los valores y sus índice

In [None]:
print(serie.values, type(serie.values))
print(serie.index, type(serie.index))

Ya que una serie es un array Numpy; podemos usar todo lo que vimos al hablar de esta bibliteca

*Ej.* Mostrar todos los elementos de `serie` mayores que 3

In [None]:
filtro = serie>3
serie[filtro]

In [None]:
serie.loc[filtro] # equivalente

Cambiar por 0 todos los valores de `serie` con índice 'd'

In [None]:
serie['d']=0
serie

En general casi todas las operaciones se refieren a los valores y no a los índices. Solo unas pocas, como `in` se refieren a los índices, lo que puede resultar confuso.

Para entenderlo podemos pensar en una Serie como un diccionario, con los índices las claves.

In [None]:
print(0 in serie, 0 in serie.values)
print('d' in serie)

In [None]:
sdata = {'Madrid': 6507184, 'Barcelona': 5609350,
         'Valencia': 2547986, 'Sevilla': 1939887,
         'Alicante': 1838819, 'Málaga':1641121  }
ciudades = Series(sdata)
ciudades

**Ej.** Nombres de ciudades con más de 2 millones de habitantes

In [None]:
filtro = ciudades>2000000
ciudades[filtro].index

Tiene que haber tantos índices como valores

In [None]:
s2 = Series([4.4,5.5,5],['a','b'])
s2

In [None]:
s2 = Series([4.4,5.5,5],index = ['d','b','c','a'])
s2

Con los diccionarios se pueden hacer cosas un poco más extrañas, que provocan la aparición de valores missing

In [None]:
sdata = {'Madrid': 6507184, 'Barcelona': 5609350,
         'Valencia': 2547986, 'Sevilla': 1939887,
         'Alicante': 1838819, 'Málaga':1641121  }
ciudades2 = Series(sdata)
ciudades2

In [None]:
sdata = {'Madrid': 6507184, 'Barcelona': 5609350,
         'Valencia': 2547986, 'Sevilla': 1939887,
         'Alicante': 1838819, 'Málaga':1641121  }
ciudades2 = Series(sdata, ['Málaga','Sevilla','Móstoles'])
ciudades2

Los predicados `pd.isnull` (método `isnull`) y `pd.notnull` (método `notnull`) permiten devuelve una Serie (o un DataFrame) con valores booleanos para señalar los valores perdidos

In [None]:
print(pd.isnull(ciudades2),"\n",
      ciudades2.notnull(),type(pd.isnull(ciudades2)))

**Ej.** Crear un objeto tipo Series que sea una copia de  `ciudades2` pero con los valores missing puestos a 0

In [None]:
ciudades3 = ciudades2.copy()
ciudades3[ciudades2.isnull()]=0
print(ciudades3,"\n",ciudades2)

Los índices se usan para *alinear* los dataframes/series

In [None]:
ciudades + ciudades3

In [None]:
ciudades + ciudades2

**Ej.** ¿Qué resultado dará el siguiente código?

In [None]:
a = Series([0,1,2,3])
b = Series(range(4),range(3,-1,-1))
a+b

**Ej.** ¿Qué podemos hacer con lo ya visto para sumar componente a componente?

In [None]:
a.values+b.values

Otra posibilidad es modificar los índices de `b`

In [None]:
b.index = range(4)
a+b

El tener los índices en orden poco habitual cuando son numéricos puede dar lugar a confusión

In [None]:
b = Series(range(4),['d','c','b','a'])
b

In [None]:
b['a'],b['b']

In [None]:
b['d':'b']

### Atributos

Además de los atributos *loc*, *iloc*, *index* y *values*, `Series` tiene otros atributos de interés.<br><br>

Los siguientes permiten comprobar si una serie es monótona, monótona creciente o monótona decreciente

In [None]:
a = Series(range(4))
a.is_monotonic, a.is_monotonic_decreasing, a.is_monotonic_increasing

In [None]:
a

En ocasiones es interesante ponerle un nombre a una serie

In [None]:
a.name = 'Datos autobuses Almendralejo'
b = a
print(b.name )

In [None]:
a

El índice también puede tener su nombre

In [None]:
a.index.name = "El índice"
a

Recordemos también que tenemos muchos de los atributos que existían en Numpy.

In [None]:
print(a.shape, "\n", a.size)

### Valores temporales

A veces es útil tener índices que son intervalos temporales

In [None]:
import numpy as np
idia = pd.date_range('12/30/2022', periods=45)
print(idia)
serie = Series(np.random.randint(30,size=45),idia)
serie


Se puede cambiar la frecuencia:

    Alias 	Description
    B 	business day frequency
    C 	custom business day frequency
    D 	calendar day frequency
    W 	weekly frequency
    M 	month end frequency
    SM 	semi-month end frequency (15th and end of month)
    BM 	business month end frequency
    CBM 	custom business month end frequency
    MS 	month start frequency
    SMS 	semi-month start frequency (1st and 15th)
    BMS 	business month start frequency
    CBMS 	custom business month start frequency
    Q 	quarter end frequency
    BQ 	business quarter end frequency
    QS 	quarter start frequency
    BQS 	business quarter start frequency
    A, Y 	year end frequency
    BA, BY 	business year end frequency
    AS, YS 	year start frequency
    BAS, BYS 	business year start frequency
    BH 	business hour frequency
    H 	hourly frequency
    T, min 	minutely frequency
    S 	secondly frequency
    L, ms 	milliseconds
    U, us 	microseconds
    N 	nanoseconds

In [None]:
idia = pd.date_range('12/11/2019 16:00:00', periods=15, freq='T')
print(idia)
seriea = Series(np.random.randint(30,size=15),idia)
seriea

In [None]:
idib = pd.date_range('12/11/2019 16:00:00', periods=15, freq='2T')
print(idib)
serieb = Series(np.random.randint(30,size=15),idib)
serieb

In [None]:
seriea+serieb

In [None]:
seriea

In [None]:
serieb

In [None]:
seriec = seriea+serieb
seriec

### Estadísticas descriptivas

Series tiene además varias funciones para extraer información numérica como *mean*, *std*, *max*, *min* y muchas otras. Además de por eficiencia se deben utilizar por su buen tratamiento de los valores nulos:

In [None]:
sum(seriec)/len(seriec)

In [None]:
seriec.mean()