# Estructuras de datos en `pandas`: Series


Las series son un objeto unidimensional que contiene una secuencia de valores _del mismo tipo_ y un conjunto de etiquetas denominado *índice*: 

In [None]:
import numpy as np
import pandas as pd 

In [None]:
s = pd.Series([1,4,4,2])
print(s)
print(type(s))
print(s.dtype)

En este ejemplo, `s` es una serie que contiene elementos `int64`.

> Los tipos de datos son extensiones de aquellos que utiliza `numpy`.

> Notar que usando directamente la función `print` obtenemos una representación textual de la serie.

Se puede acceder a los valores de la serie con el método `.array`, y a los índices con el método `.index`:


In [None]:
s.array

El tipo `NumpyExtensionArray` es una clase que encapsula al tipo array de `numpy`, pero ha permitido agregarle flexibilidad para acomodar las características de datos más generales.

Por otra parte, los índices se obtienen como:

In [None]:
s.index 

Los índices son inmutables, en el mismo sentido que los caracteres de un string. Es decir, no se pueden cambiar ciertos índices, pero se puede _reasignar_ el índice de una serie completamente:

In [None]:
print(s.index[2])
s.index[2] = 5

In [None]:
nuevo_index = index=['a','b','c','d']
s.index = nuevo_index
print(s)

Se puede también construir una nueva serie indicando los índices específicamente en el constructor con el argumento `index=`:

In [None]:
s2 = pd.Series([1,4,4,2], index=['arquero','defensores','medios','delanteros'])
print(s2)

Existen otras maneras de crear series en `pandas`, como por ejemplo a partir de arreglos de `numpy`

In [None]:
rnd = pd.Series(np.random.randn(5))
print(rnd)

A partir de otras variables 

In [None]:
values = [1,2,3,4,5]
index = ['a','b','c','d','e']
s3 = pd.Series(values, index=index)
s3

o usando diccionarios:

In [None]:
d = { 1: "a", 2: "b", 3: "c", 4: "d", 5: "e" }
s4 = pd.Series(d,dtype='string')
print(s4)

Asimismo, se puede usar el argumento `dtype` (igual que en NumPy) para indicar el tipo de dato que se quiere utilizar al crear la serie. Pandas soporta los tipos de datos de NumPy, además de proveer sus propios tipos de datos (por ejemplo, `string`) propios

In [None]:
n = pd.Series([4,5,6], dtype='string')
print(n)
print(n[0]+n[1])

### Accediendo a los valores

Se puede acceder a los valores de una serie a través del índice como si fuera un array:

In [None]:
s = pd.Series([ 4, 8, 15, 16, 23, 42 ],index = ['a','b','c','d','e','f'])
print(s)

In [None]:
print(f"Tercer elemento: {s.array[2]}")
s.array[2] = 108
print(s.array)

print(f"Con un rango:\n{s[1:3]}")
print(f"Con los índices:\n{s[['a','c']]}")
print(f"Con una máscara:\n{s[s > 100]}")

In [None]:
print(f"Con una lista de índices:\n{s[[0,1]]}")

In [None]:
print(f"Con una lista de índices:\n{s.iloc[[0,3]]}") 
print(f"Con una lista de índices:\n{s[ s.index[[0,3]] ]}")

### Modificando valores

Para modificar un valor dentro de una serie de `pandas`, se accede al mismo con la etiqueta correspondiente:

In [None]:
v = pd.Series([1,2,3,4,5], index=['a','b','c','d','e'])
print(v)
v['b'] = 100
print(v)

En caso en que dicha etiqueta no exista dentro del índice de la serie, se agrega el valor:

In [None]:
v['f'] = 200
print(v)

Para eliminar valores, se utiliza el método `.drop`. Por defecto se genera una nueva serie con el valor eliminado, para poder eliminar el valor en la misma serie, es necesario usar el argumento opcional `inplace` como `True`.

In [None]:
w = v.drop('b')
print(v)
print(w)

In [None]:
v.drop('b', inplace=True)
print(v)

In [None]:
# Generando un nuevo objeto
print(v==w)
# Comparando objetos
print(f"v is w: {v is w}")
print(f"v equals w: {v.equals(w)}")

In [None]:
v.drop(['b'], inplace=True) # KeyError: "['b'] not found in axis"

#### Tipos de datos

Como último comentario, obsérvese que si uno pretende crear una serie con valores de distinto tipo, el tipo de la serie se promueve al tipo general `object`, sin embargo cada elemento es reconocido con su tipo particular:


In [None]:
s = pd.Series([1,'a','b','c'])
print(s)
for index,elem in s.items(): 
    print(f"Tipo de objeto del elemento {index}: {type(s[index])}")

In [None]:
print(f"Suma de enteros: {s[0] + 3}")
print(f"Suma de enteros: {s[1] + 3}") # Error

In [None]:
print(f"Concat de str  : {s[1] + 'd'}")
print(f"Concat de str  : {s[1] + 3}") # Error

Si bien entonces se pueden usar series con objetos con distintos tipos, se recomienda que el tipo de dato sea homogéneo.

### Valores que faltan

Es muy común al procesar datos que uno encuentre valores que no existen. La manera en que `pandas` representa estos datos faltantes es a través de `np.nan`, el tipo de dato de `numpy` que representa _not a number_, para aquellos tipos de datos heredados de `numpy`:

In [None]:
snan = pd.Series([1,4,np.nan,2])
print(snan)

> Notar que si bien los datos existentes son de tipo entero, al utilizar `np.nan` para representar un dato inexistente, el tipo de dato de la serie se promueve a `float64`.

De la misma forma, se puede usar `None` para representar el dato faltante:

In [None]:
snone = pd.Series([1,4,None,5])
print(snone)

En el caso de cadenas de caracteres, se puede usar `np.nan` o `None`. Si no se indica el tipo de dato a través de `dtype`, se promueve el tipo de dato de la serie a `object`, como sucede por defecto.

In [None]:
smixed_str = pd.Series(['a','b',np.nan,None,'d'])
smixed_str

Esto tiene el inconveniente evidente de que el elemento faltante no está representado unívocamente por un solo valor. Para solventar este problema, se puede crear la serie con el tipo `string`:

In [None]:
smixed_str2 = pd.Series(['a','b',np.nan,None,'d'],dtype='string')
print(smixed_str2)

En este caso, el singlete `NA` representa unívocamente el dato faltante. En cualquier caso, se cuenta con el método `.isna`, que retorna una serie de `boolean` donde los valores faltantes son verdaderos (`True`):

In [None]:
print(smixed_str.isna())
print(smixed_str2.isna())

> Atención, la cadena de caracteres vacía `''` *NO* se considera un dato inexistente. 

Puede ser útil en algunos casos poder filtrar los datos inexistentes. Para eso se utiliza el método `.dropna`, que crea una nueva serie sin dichos datos: 

In [None]:
print(smixed_str)
print(smixed_str.dropna())

### Operando con series

Las operaciones con series han sido diseñadas para que sean compatibles con NumPy, y sigan las convenciones de Python. He aquí algunos ejemplos:

In [None]:
ones = pd.Series(np.ones(8))*0.5
print(ones)

t = pd.Series(np.random.rand(8))
print(t)
print(t.mean())

In [None]:
shifted = t - ones 
print(shifted)
print(shifted.mean())
print(np.abs(shifted))

Además de poder interactuar con NumPy en forma transparente, existen algunos métodos útiles para trabajar con los datos de una serie:

In [None]:
data = {'Pedro':19, 'Oscar': 30, 'Carlos': 27, 'David': 26}
seru = pd.Series(data)
print("Person Series:\n")
print(seru)

# Perform operations on the Series
print("Edad promedio:", seru.mean())
print("Edad del más viejo :", seru.max())
print("El más viejo :", seru.idxmax())

In [None]:
temperaturas_ciudades = {
    "Buenos Aires": 17.6,
    "Córdoba": 18.0,
    "Rosario": 18.0,
    "Mendoza": 16.0,
    "Santa Fe": 21.3

}
temp = pd.Series(temperaturas_ciudades)
print(temp)

In [None]:
otras_ciudades = ['Buenos Aires', 'Córdoba', 'Rosario', 'Mendoza', 'Salta']
temp = pd.Series(temperaturas_ciudades, index=otras_ciudades)
print(temp)

In [None]:
temp_ciudades2 = {
    "Mendoza": 20.0,
    "Salta": 17.2,
    "Santa Fe": 18.6,
    "San Juan": 19.3
}
temp2 = pd.Series(temp_ciudades2)
temp2

In [None]:
print(temp)

In [None]:
print((temp + temp2)/2)

### Misceláneas

Algunas otras operaciones interesantes:

In [None]:
'Rosario' in temp2

In [None]:
temp2_dict = temp2.to_dict()
print(temp2_dict)
print(type(temp2_dict))

In [None]:
temp2_json = temp2.to_json() 
print(temp2_json)
print(type(temp2_json))

----

# Ejercicios 14(b)

2. Si no lo ha adivinado, los datos de la serie `seru` corresponden a las edades de los integrantes de la banda Serú Girán, al momento de conformarse, en el año 1978. Encuentre los años de nacimiento de cada uno de sus integrantes. 

2. Una de las funciones más usadas en redes neuronales es _softmax_, cuyo objetivo es convertir los resultados de las distintas etapas del procesamiento de una red en probabilidades. Los primeros pueden ser números reales de cualquier valor, mientras que las probabilidades deben estar acotadas al intervalo [0,1]. La función _softmax_ aplicada a un conjunto de valores $z_1,\cdots,z_n$ se calcula como

   $$
   \sigma(z_i) = \frac {e^{z_i}} { \sum_{i=1}^n e^{z_i}}
   $$

   - Cree una serie con 10 valores al azar entre 0 y 5
   - Obtenga la serie resultante de la aplicación de _softmax_ a la serie anterior

4. El siguiente es un diccionario que representa el consumo eléctrico mensual de ciertos artefactos eléctricos:

   ```python
   consumo_electrico = {
     "Artefacto": [
        "Heladera", "Lavarropa", "Microondas", "Aire Acondicionado", 
        "Televisor", "Computadora", "Lámpara LED", "Secador de Pelo", 
        "Horno Eléctrico", "Ventilador"
     ],
     "Consumo Promedio (kWh/mes)": [
        30, 10, 15, 120, 20, 12, 2, 3, 25, 8
     ]
   }
   ```

   - Obtenga los tres artefactos de mayor consumo.
   - Encuentre los artefactos que consumen más de 15 kWH/mes.
   - Calcule el consumo anual de cada artefacto, y el costo que implica suponiendo que el precio del kWH/mes es de $3145. 

4. Un problema de índices enteros. Supongamos que tenemos la serie
   ```python
   s = pd.Series(np.arange(3.0))
   ``` 
   es decir, 
   ```python
    0    0.0
    1    1.0
    2    2.0
    dtype: float64
   ```
   ¿Cuál es el resultado esperado de s[-1]? ¿Cuál es el real? Evalúe `s[-2:-1]` y también `s.iloc[-1]`. 
   Considere ahora la serie
   ```python
   s = pd.Series(np.arange(3.0), index=['a','b','c'])
   ``` 
   y evalúe nuevamente `s[-1]`. 
   ¿Qué conclusiones puede sacar? 

_____
