<a href="https://colab.research.google.com/github/RafaelCaballero/APD/blob/main/codigo/series.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a Python

## Pandas -Series

Vamos a ver las características principales de esta biblioteca
que "recubre" numpy con estructuras de alto nivel y herramientas que
failitan el tratamiento de datos. Representa una fila o una columna de un dataframe


### Índice
[Creación](#Creación)<br>
[Índices](#Índices)<br>
[Atributos](#Atributos)<br>
[Valores temporales](#Valores-temporales)<br>


### Creación

La forma más sencilla: a partir de arrays unidimensionales de cualquier tipo admitido por Numpy

In [None]:
import pandas as pd
from pandas import Series

serie = Series([1.0, 7., 5., 3.1]) # creación
serie

0    1.0
1    7.0
2    5.0
3    3.1
dtype: float64

Ya vemos algo interesante; salen 2 columnas, el valor que hemos puesto pero antes su posición. Es lo que vamos a llamar índice y se puede ver como un "nombre" de cada fila.

### Índices

Por tanto la columna de la izquierda contiene los índices. Un error muy común es creer que el índice es simplemente es la posición de cada elemento, como parece a primera vista; este es el valor por defecto pero puede ser cualquier otra cosa

In [None]:
print(serie[3]) # esto es un valor
print(serie[0:2]) # esto es una serie, e incluye el índice

3.1
0    1.0
1    7.0
dtype: float64


Pero son un identificador de fila, que puede tomar cualquier valor básico

In [None]:
serie = Series(["Bertoldo", "Peláez", "C/Jazmín", "999999"],
               ["nombre",    "apellido","calle",  "teléfono"]) # creación con ind.
serie

nombre      Bertoldo
apellido      Peláez
calle       C/Jazmín
teléfono      999999
dtype: object

Aquí el índice identifica de qué dato hablamos como si fuera un diccioanrio; este es un uso poco común, pero lo usamos para identificar el elemento

In [None]:
print(serie[3],serie['calle'])

999999 C/Jazmín


  print(serie[3],serie['calle'])


Veremos que da un warning y que esto es un poco confuso, estamos
usando la misma notación para dos cosas distintas: series[posicion] y series[indice]

Lo correcto es utilizar

- serie.loc[indice]
- serie.iloc[posicion]

In [None]:
print(serie.loc["nombre"]) # por valor de índice

'Bertoldo'

In [None]:
print(serie.iloc[0]) # por posición

Bertoldo


In [None]:
print(serie.loc['nombre':'calle'])

nombre      Bertoldo
apellido      Peláez
calle       C/Jazmín
dtype: object


In [None]:
print(serie.iloc[0:3])

nombre      Bertoldo
apellido      Peláez
calle       C/Jazmín
dtype: object


In [None]:
#                  valores          indices (opcional)
serie = Series([1.0, 7., 5., 3.1],[5,6,7,8]) # creación con ind.
print(serie.loc[7])

5.0

El índice no debe confundirse con una *clave única*, puede repetirse y en ese caso devuelve una serie

In [None]:
serie = Series([1.0, 7., 5., 3.1],["d","d","b","d"]) # creación con ind.
serie

d    1.0
d    7.0
b    5.0
d    3.1
dtype: float64

In [None]:
serie.loc['d']

d    1.0
d    7.0
d    3.1
dtype: float64

In [None]:
print(type(serie.loc['b']))
print(type(serie.loc['d']))


<class 'numpy.float64'>
<class 'pandas.core.series.Series'>


Por tanto una *Serie* tiene dos componentes: los valores y sus índice

In [None]:
print(serie.values, type(serie.values))
print(serie.index, type(serie.index))

[1.  7.  5.  3.1] <class 'numpy.ndarray'>
Index(['d', 'd', 'b', 'd'], dtype='object') <class 'pandas.core.indexes.base.Index'>


Ya que el tipo Series se basa en los arrays numpy podemos usar todo lo que vimos al hablar de esta bibliteca

*Ej.* Mostrar todos los elementos de `serie` mayores que 3

In [None]:
filtro = serie>3
serie[filtro]

d    7.0
b    5.0
d    3.1
dtype: float64

In [None]:
serie.loc[filtro] # equivalente

d    7.0
b    5.0
d    3.1
dtype: float64

Cambiar por 0 todos los valores de `serie` con índice 'd'

In [None]:
serie.loc['d']=0
serie

d    0.0
d    0.0
b    5.0
d    0.0
dtype: float64

En general casi todas las operaciones se refieren a los valores y no a los índices. Solo unas pocas, como `in` se refieren a los índices, lo que puede resultar confuso.

Para entenderlo podemos pensar en una Serie como un diccionario, con los índices las claves.

In [None]:
print(0 in serie, 0 in serie.values)
print('d' in serie)

False True
True


In [None]:
sdata = {'Madrid': 6507184, 'Barcelona': 5609350,
         'Valencia': 2547986, 'Sevilla': 1939887,
         'Alicante': 1838819, 'Málaga':1641121  }
ciudades = Series(sdata)
ciudades

Madrid       6507184
Barcelona    5609350
Valencia     2547986
Sevilla      1939887
Alicante     1838819
Málaga       1641121
dtype: int64

**Ej.** Nombres de ciudades con más de 2 millones de habitantes

In [None]:
filtro = ciudades>2000000
ciudades[filtro].index

Index(['Madrid', 'Barcelona', 'Valencia'], dtype='object')

Tiene que haber tantos índices como valores

In [None]:
# s2 = Series([4.4,5.5,5],['a','b'])  # dará error
# s2

ValueError: Length of values (3) does not match length of index (2)

In [None]:
#s2 = Series([4.4,5.5,5],index = ['d','b','c','a'])
#s2

ValueError: Length of values (3) does not match length of index (4)

Con los diccionarios se pueden hacer cosas un poco más extrañas, que provocan la aparición de valores missing

In [None]:
sdata = {'Madrid': 6507184, 'Barcelona': 5609350,
         'Valencia': 2547986, 'Sevilla': 1939887,
         'Alicante': 1838819, 'Málaga':1641121  }
ciudades2 = Series(sdata)
ciudades2

Madrid       6507184
Barcelona    5609350
Valencia     2547986
Sevilla      1939887
Alicante     1838819
Málaga       1641121
dtype: int64

In [None]:
# esto es raro; solo para jugar
sdata = {'Madrid': 6507184, 'Barcelona': 5609350,
         'Valencia': 2547986, 'Sevilla': 1939887,
         'Alicante': 1838819, 'Málaga':1641121  }
ciudades2 = Series(sdata, ['Málaga','Sevilla','Móstoles'])
ciudades2

Málaga      1641121.0
Sevilla     1939887.0
Móstoles          NaN
dtype: float64

Los predicados `isna` y `notna` convierten los valores nulos en True o False (respectivamente en False o True )

In [None]:
print("Nulos:")
print(ciudades2.isna())

print("="*100)
print("No Nulos:")
print(ciudades2.notna(),type(ciudades2.isna()))

Nulos:
Málaga      False
Sevilla     False
Móstoles     True
dtype: bool
No Nulos:
Málaga       True
Sevilla      True
Móstoles    False
dtype: bool <class 'pandas.core.series.Series'>


In [None]:
# contando el número de nulos
ciudades2.notna()

Málaga      False
Sevilla     False
Móstoles     True
dtype: bool

**Ej.** Crear un objeto tipo Series que sea una copia de  `ciudades2` pero con los valores missing puestos a 0

In [None]:
ciudades3 = ciudades2.copy()
ciudades3[ciudades2.isna()]=0
print(ciudades3,"\n",ciudades2)

Málaga      1641121.0
Sevilla     1939887.0
Móstoles          0.0
dtype: float64 
 Málaga      1641121.0
Sevilla     1939887.0
Móstoles          NaN
dtype: float64


Los índices se usan para *alinear* los dataframes/series

In [None]:
ciudades

Madrid       6507184
Barcelona    5609350
Valencia     2547986
Sevilla      1939887
Alicante     1838819
Málaga       1641121
dtype: int64

In [None]:
ciudades3

Málaga      1641121.0
Sevilla     1939887.0
Móstoles          0.0
dtype: float64

In [None]:
ciudades + ciudades3

Alicante           NaN
Barcelona          NaN
Madrid             NaN
Málaga       3282242.0
Móstoles           NaN
Sevilla      3879774.0
Valencia           NaN
dtype: float64

In [None]:
ciudades + ciudades2

**Ej.** ¿Qué resultado dará el siguiente código?

In [None]:
a = Series([0,10,20,30])
b = Series(range(4),range(3,-1,-1))


In [None]:
a

0     0
1    10
2    20
3    30
dtype: int64

In [None]:
b

3    0
2    1
1    2
0    3
dtype: int64

In [None]:
a+b

0     3
1    12
2    21
3    30
dtype: int64

**Ej.** ¿Qué podemos hacer con lo ya visto para sumar componente a componente por orden?

In [None]:
a.values+b.values

array([ 0, 11, 22, 33], dtype=int64)

Otra posibilidad es modificar los índices de `b`

In [None]:
b.index = range(4)
a+b

0     0
1    11
2    22
3    33
dtype: int64

O reset ambos índices, para que sean las posicionesy coincidan

In [None]:
a = a.reset_index(drop=True)
b = b.reset_index(drop=True)

In [None]:
a

0     0
1    10
2    20
3    30
dtype: int64

In [None]:
b

0    0
1    1
2    2
3    3
dtype: int64

In [None]:
a+b

0     0
1    11
2    22
3    33
dtype: int64

El tener los índices en orden poco habitual cuando son numéricos puede dar lugar a confusión

### Atributos

Además de los atributos *loc*, *iloc*, *index* y *values*, `Series` tiene otros atributos de interés.<br><br>

Los siguientes permiten comprobar si una serie es monótona, monótona creciente o monótona decreciente

In [None]:
a = Series(range(4))
a.is_monotonic, a.is_monotonic_decreasing, a.is_monotonic_increasing

(True, False, True)

In [None]:
a

0    0
1    1
2    2
3    3
dtype: int64

In [None]:
print(a.sum())

60


En ocasiones es interesante ponerle un nombre a una serie

In [None]:
a.name = 'Datos autobuses Almendralejo'
b = a
print(b.name )

Datos autobuses Almendralejo


In [None]:
a

0    0
1    1
2    2
3    3
Name: Datos autobuses Almendralejo, dtype: int64

El índice también puede tener su nombre

In [None]:
a.index.name = "El índice"
a

El índice
0    0
1    1
2    2
3    3
Name: Datos autobuses Almendralejo, dtype: int64

Recordemos también que tenemos muchos de los atributos que existían en Numpy.

In [None]:
print(a.shape, "\n", a.size)

(4,) 
 4


### Valores temporales

A veces es útil tener índices que son intervalos temporales

In [None]:
import numpy as np
idia = pd.date_range('12/30/2022', periods=45)
print(idia)
serie = Series(np.random.randint(30,size=45),idia)
serie


DatetimeIndex(['2022-12-30', '2022-12-31', '2023-01-01', '2023-01-02',
               '2023-01-03', '2023-01-04', '2023-01-05', '2023-01-06',
               '2023-01-07', '2023-01-08', '2023-01-09', '2023-01-10',
               '2023-01-11', '2023-01-12', '2023-01-13', '2023-01-14',
               '2023-01-15', '2023-01-16', '2023-01-17', '2023-01-18',
               '2023-01-19', '2023-01-20', '2023-01-21', '2023-01-22',
               '2023-01-23', '2023-01-24', '2023-01-25', '2023-01-26',
               '2023-01-27', '2023-01-28', '2023-01-29', '2023-01-30',
               '2023-01-31', '2023-02-01', '2023-02-02', '2023-02-03',
               '2023-02-04', '2023-02-05', '2023-02-06', '2023-02-07',
               '2023-02-08', '2023-02-09', '2023-02-10', '2023-02-11',
               '2023-02-12'],
              dtype='datetime64[ns]', freq='D')


2022-12-30    10
2022-12-31     4
2023-01-01     7
2023-01-02     0
2023-01-03    10
2023-01-04     0
2023-01-05    26
2023-01-06    14
2023-01-07     7
2023-01-08     4
2023-01-09     4
2023-01-10    17
2023-01-11     7
2023-01-12    25
2023-01-13    29
2023-01-14     5
2023-01-15    26
2023-01-16     9
2023-01-17    20
2023-01-18    26
2023-01-19    15
2023-01-20    11
2023-01-21    24
2023-01-22    27
2023-01-23    10
2023-01-24    21
2023-01-25    14
2023-01-26    21
2023-01-27     4
2023-01-28    28
2023-01-29    23
2023-01-30    26
2023-01-31    22
2023-02-01     2
2023-02-02     0
2023-02-03    16
2023-02-04     5
2023-02-05    29
2023-02-06     0
2023-02-07     6
2023-02-08    26
2023-02-09    21
2023-02-10     6
2023-02-11    14
2023-02-12    18
Freq: D, dtype: int32

Se puede cambiar la frecuencia:

    Alias 	Description
    B 	business day frequency
    C 	custom business day frequency
    D 	calendar day frequency
    W 	weekly frequency
    M 	month end frequency
    SM 	semi-month end frequency (15th and end of month)
    BM 	business month end frequency
    CBM 	custom business month end frequency
    MS 	month start frequency
    SMS 	semi-month start frequency (1st and 15th)
    BMS 	business month start frequency
    CBMS 	custom business month start frequency
    Q 	quarter end frequency
    BQ 	business quarter end frequency
    QS 	quarter start frequency
    BQS 	business quarter start frequency
    A, Y 	year end frequency
    BA, BY 	business year end frequency
    AS, YS 	year start frequency
    BAS, BYS 	business year start frequency
    BH 	business hour frequency
    H 	hourly frequency
    T, min 	minutely frequency
    S 	secondly frequency
    L, ms 	milliseconds
    U, us 	microseconds
    N 	nanoseconds

In [None]:
idia = pd.date_range('12/11/2019 16:00:00', periods=15, freq='T')
print(idia)
seriea = Series(np.random.randint(30,size=15),idia)
seriea

DatetimeIndex(['2019-12-11 16:00:00', '2019-12-11 16:01:00',
               '2019-12-11 16:02:00', '2019-12-11 16:03:00',
               '2019-12-11 16:04:00', '2019-12-11 16:05:00',
               '2019-12-11 16:06:00', '2019-12-11 16:07:00',
               '2019-12-11 16:08:00', '2019-12-11 16:09:00',
               '2019-12-11 16:10:00', '2019-12-11 16:11:00',
               '2019-12-11 16:12:00', '2019-12-11 16:13:00',
               '2019-12-11 16:14:00'],
              dtype='datetime64[ns]', freq='T')


2019-12-11 16:00:00    15
2019-12-11 16:01:00    18
2019-12-11 16:02:00    20
2019-12-11 16:03:00     0
2019-12-11 16:04:00     5
2019-12-11 16:05:00    23
2019-12-11 16:06:00     1
2019-12-11 16:07:00    28
2019-12-11 16:08:00    11
2019-12-11 16:09:00    11
2019-12-11 16:10:00     3
2019-12-11 16:11:00    29
2019-12-11 16:12:00    12
2019-12-11 16:13:00    11
2019-12-11 16:14:00     8
Freq: T, dtype: int32

In [None]:
idib = pd.date_range('12/11/2019 16:00:00', periods=15, freq='2T')
print(idib)
serieb = Series(np.random.randint(30,size=15),idib)
serieb

DatetimeIndex(['2019-12-11 16:00:00', '2019-12-11 16:02:00',
               '2019-12-11 16:04:00', '2019-12-11 16:06:00',
               '2019-12-11 16:08:00', '2019-12-11 16:10:00',
               '2019-12-11 16:12:00', '2019-12-11 16:14:00',
               '2019-12-11 16:16:00', '2019-12-11 16:18:00',
               '2019-12-11 16:20:00', '2019-12-11 16:22:00',
               '2019-12-11 16:24:00', '2019-12-11 16:26:00',
               '2019-12-11 16:28:00'],
              dtype='datetime64[ns]', freq='2T')


2019-12-11 16:00:00    15
2019-12-11 16:02:00    20
2019-12-11 16:04:00    22
2019-12-11 16:06:00    18
2019-12-11 16:08:00    23
2019-12-11 16:10:00     5
2019-12-11 16:12:00    14
2019-12-11 16:14:00    29
2019-12-11 16:16:00     2
2019-12-11 16:18:00    25
2019-12-11 16:20:00     0
2019-12-11 16:22:00    23
2019-12-11 16:24:00    19
2019-12-11 16:26:00     6
2019-12-11 16:28:00    12
Freq: 2T, dtype: int64

In [None]:
seriea+serieb

2019-12-11 16:00:00    37.0
2019-12-11 16:01:00     NaN
2019-12-11 16:02:00    21.0
2019-12-11 16:03:00     NaN
2019-12-11 16:04:00    51.0
2019-12-11 16:05:00     NaN
2019-12-11 16:06:00    28.0
2019-12-11 16:07:00     NaN
2019-12-11 16:08:00    31.0
2019-12-11 16:09:00     NaN
2019-12-11 16:10:00    13.0
2019-12-11 16:11:00     NaN
2019-12-11 16:12:00    22.0
2019-12-11 16:13:00     NaN
2019-12-11 16:14:00    46.0
2019-12-11 16:16:00     NaN
2019-12-11 16:18:00     NaN
2019-12-11 16:20:00     NaN
2019-12-11 16:22:00     NaN
2019-12-11 16:24:00     NaN
2019-12-11 16:26:00     NaN
2019-12-11 16:28:00     NaN
dtype: float64

In [None]:
seriea

2019-12-11 16:00:00    22
2019-12-11 16:01:00    21
2019-12-11 16:02:00     1
2019-12-11 16:03:00     1
2019-12-11 16:04:00    29
2019-12-11 16:05:00     9
2019-12-11 16:06:00    10
2019-12-11 16:07:00     4
2019-12-11 16:08:00     8
2019-12-11 16:09:00    25
2019-12-11 16:10:00     8
2019-12-11 16:11:00     5
2019-12-11 16:12:00     8
2019-12-11 16:13:00     8
2019-12-11 16:14:00    17
Freq: T, dtype: int64

In [None]:
serieb

2019-12-11 16:00:00    15
2019-12-11 16:02:00    20
2019-12-11 16:04:00    22
2019-12-11 16:06:00    18
2019-12-11 16:08:00    23
2019-12-11 16:10:00     5
2019-12-11 16:12:00    14
2019-12-11 16:14:00    29
2019-12-11 16:16:00     2
2019-12-11 16:18:00    25
2019-12-11 16:20:00     0
2019-12-11 16:22:00    23
2019-12-11 16:24:00    19
2019-12-11 16:26:00     6
2019-12-11 16:28:00    12
Freq: 2T, dtype: int64

In [None]:
seriec = seriea+serieb
seriec

2019-12-11 16:00:00    37.0
2019-12-11 16:01:00     NaN
2019-12-11 16:02:00    21.0
2019-12-11 16:03:00     NaN
2019-12-11 16:04:00    51.0
2019-12-11 16:05:00     NaN
2019-12-11 16:06:00    28.0
2019-12-11 16:07:00     NaN
2019-12-11 16:08:00    31.0
2019-12-11 16:09:00     NaN
2019-12-11 16:10:00    13.0
2019-12-11 16:11:00     NaN
2019-12-11 16:12:00    22.0
2019-12-11 16:13:00     NaN
2019-12-11 16:14:00    46.0
2019-12-11 16:16:00     NaN
2019-12-11 16:18:00     NaN
2019-12-11 16:20:00     NaN
2019-12-11 16:22:00     NaN
2019-12-11 16:24:00     NaN
2019-12-11 16:26:00     NaN
2019-12-11 16:28:00     NaN
dtype: float64

### Estadísticas descriptivas

Series tiene además varias funciones para extraer información numérica como *mean*, *std*, *max*, *min* y muchas otras. Además de por eficiencia se deben utilizar por su buen tratamiento de los valores nulos:

In [None]:
sum(seriec)/len(seriec)

nan

In [None]:
seriec.mean()

31.125

Y muchas otras!!