<a href="https://colab.research.google.com/github/RafaelCaballero/APD/blob/main/codigo/series.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<table>
<tr>
<td><img src="https://raw.githubusercontent.com/RafaelCaballero/APD/refs/heads/main/img/logoAPD.png" width="150"></td>
<td><table><tr><td><h1>Pandas - Series</h1></td></tr>
           <tr><td><h3>Rafael Caballero Roldán</h3></td></tr></table></td>
<td><img src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTsPjCdm67xYS9AM7-dXQ46O23vaexAhnVJaQ&s" width="105"></td>
</tr>
</table>

Vamos a ver las características principales de esta biblioteca
que "recubre" numpy con estructuras de alto nivel y herramientas que
facilitan el tratamiento de datos. Representa una fila o una columna de un dataframe


### Índice
- [Creación](#creacion)
- [Índices](#indices)
- [Índices temporales](#indices-temporales)
- [Estadística descriptiva](#estadistica-descriptiva)<br>



<a id="creacion"></a>
### Creación

La forma más sencilla: a partir de arrays unidimensionales de cualquier tipo admitido por Numpy

In [None]:
import pandas as pd
from pandas import Series

serie = Series([1.0, 7., 5., 3.1]) # creación
serie

Ya vemos algo interesante; salen 2 columnas, el valor que hemos puesto pero antes su posición. Es lo que vamos a llamar índice y se puede ver como un "nombre" de cada fila.

In [None]:
print(serie[3]) # esto es un valor
print(serie[0:2]) # esto es una serie, e incluye el índice

<a id="indices"></a>
### Índices

La columna de la izquierda contiene el **índice**. Un error muy común es creer que el índice es simplemente es la posición de cada elemento, como parece a primera vista; este es el valor por defecto pero puede ser cualquier otra cosa, e incluso cambiar durante el transcurso del preprocesado:

In [None]:
serie_ordenada = serie.sort_values()
serie_ordenada

Vemos como en `serie_ordenada`los índices ya no son números consecutivos.

Los índices pueden verse como un **identificador de fila**, que puede tomar cualquier valor básico, no solo números:

In [None]:
serie = Series(data=["Bertoldo", "Peláez", "C/Jazmín", "999999"],
               index=["nombre",    "apellido","calle",  "teléfono"]) # creación con ind.
serie

Aquí el índice identifica de qué dato hablamos como si fuera un diccionario; este es un uso poco común, pero lo usamos para identificar el elemento

In [None]:
print(serie[3],serie['calle'])

Veremos que da un warning y que esto es un poco confuso, ya que estamos
usando la misma notación para dos cosas distintas: series[posicion] y series[indice]

Lo correcto es utilizar

- serie.loc[indice]: acceso por valores del índice (también admite por array de booleanos)
- serie.iloc[posicion]: acceso por posición como un array de Python (a[0], a[-1], a[3:5] o de numpy a[ [6,1] ])

In [None]:
print(serie.loc["nombre"]) # por valor de índice

In [None]:
print(serie.iloc[0]) # por posición

In [None]:
print(serie.loc['nombre':'calle'])

In [None]:
print(serie.iloc[0:3])

In [None]:
#                  valores          indices (opcional)
serie = Series([1.0, 7., 5., 3.1],[5,6,7,8]) # creación con ind.
print(serie.loc[7])

El índice no debe confundirse con una *clave única*, puede repetirse y en ese caso devuelve una serie

In [None]:
serie = Series([1.0, 7., 5., 3.1],["d","d","b","d"]) # creación con ind.
serie

In [None]:
serie.loc['d']

In [None]:
print(type(serie.loc['b']))
print(type(serie.loc['d']))


Por tanto una *Serie* tiene dos componentes: los valores (numpy) y sus índices

In [None]:
print(serie.values, type(serie.values))
print(serie.index, type(serie.index))

Ya que el tipo Series se basa en los arrays numpy podemos usar todo lo que vimos al hablar de esta bibliteca

*Ej.* Mostrar todos los elementos de `serie` mayores que 3

In [None]:
filtro = serie>3
serie[filtro]

In [None]:
serie.loc[filtro] # equivalente

Cambiar por 0 todos los valores de `serie` con índice 'd'

In [None]:
serie.loc['d']=0
serie

En general casi todas las operaciones se refieren a los valores y no a los índices. Solo unas pocas, como `in` se refieren a los índices, lo que puede resultar confuso.

Para entenderlo podemos pensar en una Serie como un diccionario, con los índices las claves.

In [None]:
print(0 in serie, 0 in serie.values)
print('d' in serie)

In [None]:
sdata = {'Madrid': 6507184, 'Barcelona': 5609350,
         'Valencia': 2547986, 'Sevilla': 1939887,
         'Alicante': 1838819, 'Málaga':1641121  }
ciudades = Series(sdata)
ciudades

**Ej.** Nombres de ciudades con más de 2 millones de habitantes

In [None]:
filtro = ciudades>2000000
ciudades[filtro].index

Tiene que haber tantos índices como valores

In [None]:
# s2 = Series([4.4,5.5,5],['a','b'])  # dará error
# s2

In [None]:
#s2 = Series([4.4,5.5,5],index = ['d','b','c','a'])
#s2

Con los diccionarios se pueden hacer cosas un poco más extrañas, que provocan la aparición de valores missing

In [None]:
sdata = {'Madrid': 6507184, 'Barcelona': 5609350,
         'Valencia': 2547986, 'Sevilla': 1939887,
         'Alicante': 1838819, 'Málaga':1641121  }
ciudades2 = Series(sdata)
ciudades2

In [None]:
# esto es raro; solo para jugar
sdata = {'Madrid': 6507184, 'Barcelona': 5609350,
         'Valencia': 2547986, 'Sevilla': 1939887,
         'Alicante': 1838819, 'Málaga':1641121  }
ciudades2 = Series(sdata, ['Málaga','Sevilla','Móstoles'])
ciudades2

Los predicados `isna` y `notna` convierten los valores nulos en True o False (respectivamente en False o True )

In [None]:
print("Nulos:")
print(ciudades2.isna())

print("="*100)
print("No Nulos:")
print(ciudades2.notna(),type(ciudades2.isna()))

In [None]:
# contando el número de nulos
ciudades2.notna()

**Ej.** Crear un objeto tipo Series que sea una copia de  `ciudades2` pero con los valores missing puestos a 0

In [None]:
ciudades3 = ciudades2.copy()
ciudades3[ciudades2.isna()]=0
print(ciudades3,"\n",ciudades2)

Los índices se usan para *alinear* los dataframes/series

In [None]:
ciudades

In [None]:
ciudades3

In [None]:
ciudades + ciudades3

In [None]:
ciudades + ciudades2

**Ej.** ¿Qué resultado dará el siguiente código?

In [None]:
a = Series([0,10,20,30])
b = Series(range(4),range(3,-1,-1))


In [None]:
a

In [None]:
b

In [None]:
a+b

**Ej.** ¿Qué podemos hacer con lo ya visto para sumar componente a componente por orden?

In [None]:
a.values+b.values

Otra posibilidad es modificar los índices de `b`

In [None]:
b.index = range(4)
a+b

O reset ambos índices, para que sean las posicionesy coincidan

In [None]:
a = a.reset_index(drop=True)
b = b.reset_index(drop=True)

In [None]:
a

In [None]:
b

In [None]:
a+b

El tener los índices en orden poco habitual cuando son numéricos puede dar lugar a confusión

<a id="indices-temporales"></a>
### Indices temporales

A veces es útil tener índices que son intervalos temporales

In [None]:
import pandas as pd
import numpy as np
idia = pd.date_range('02/02/2026', periods=45)
print(idia)
serie = Series(data = np.random.randint(30,size=45),index = idia)
serie


Se puede cambiar la frecuencia:

    Alias 	Description
    B 	business day frequency
    C 	custom business day frequency
    D 	calendar day frequency
    W 	weekly frequency
    M 	month end frequency
    SM 	semi-month end frequency (15th and end of month)
    BM 	business month end frequency
    CBM 	custom business month end frequency
    MS 	month start frequency
    SMS 	semi-month start frequency (1st and 15th)
    BMS 	business month start frequency
    CBMS 	custom business month start frequency
    Q 	quarter end frequency
    BQ 	business quarter end frequency
    QS 	quarter start frequency
    BQS 	business quarter start frequency
    A, Y 	year end frequency
    BA, BY 	business year end frequency
    AS, YS 	year start frequency
    BAS, BYS 	business year start frequency
    BH 	business hour frequency
    H 	hourly frequency
    T, min 	minutely frequency
    S 	secondly frequency
    L, ms 	milliseconds
    U, us 	microseconds
    N 	nanoseconds

In [None]:
import pandas as pd
from pandas import Series
import numpy as np
idia = pd.date_range('12/11/2019 16:00:00', periods=15, freq='T')
print(idia)
seriea = Series(np.random.randint(30,size=15),idia)
seriea

In [None]:
idib = pd.date_range('12/11/2019 16:00:00', periods=15, freq='2T')
print(idib)
serieb = Series(np.random.randint(30,size=15),idib)
serieb

In [None]:
seriea

In [None]:
serieb

In [None]:
seriec = seriea+serieb
seriec

<a id="estadistica-descriptiva"></a>
### Estadística descriptiva

Series tiene además varias funciones para extraer información numérica como *mean*, *std*, *max*, *min* y muchas otras, todas heradadas de numpy. Además de por eficiencia se deben utilizar por su buen tratamiento de los valores nulos:

In [None]:
sum(seriec)/len(seriec)

In [None]:
seriec.mean()

¡¡Y muchas otras!! Recordar que:

- Tiene todas las de numpy, excepto
- Siempre se refieren a los valores, aquí el índice no se usa

Algunas funciones nuevas



In [None]:
from pandas import Series
my_numbers = Series([10, 20, 30, 40,10,9])

print(f"my_numbers.idxmax(): {my_numbers.argmax()}") #índice del valor máximo
print(f"my_numbers.idxmin(): {my_numbers.argmin()}") #índice del valor mínimo
print(f"my_numbers.median(): {my_numbers.median()}") #mediana
print(f"my_numbers.quantile(): {my_numbers.quantile()}") #devuelve el cuantil (0.5 por defecto si no se especifica)
print(f"my_numbers.describe():\n{my_numbers.describe()}") #estadísticas resumen (varias)
print(f"my_numbers.value_counts():\n{my_numbers.value_counts()}") #tabula valores; `normalize=True` para proporciones