## Ejemplo 2: Series

### 1. Objetivos:
    - Entender qué son las `Series`
    - Aprender a crear `Series` de pandas
    - Aprender los métodos básicos de indexación de las `Series`
 
---
    
### 2. Desarrollo:

Cuando se inicia un nuevo cuaderno de trabajo (notebook) es necesario importar el o los módulos que se vayan a utilizar usando la forma (sintaxis):

    import nombre_módulo
    o
    import nombre_módulo as nombre_corto

ahora vamos a importar el módulo `pandas` con el nombre corto `pd`:

In [None]:
...

Las `Series` son secuencias ordenadas de unidimensionales que pueden contener diferentes tipos de valores. En esto se parecen a las `listas`. De hecho podemos crear `Series` usando `listas` de la forma:

    pd.Series(-lista-)
    
lo anterior regresa un valor de tipo Series, donde cada valor de la serie son creados a partir de cada valor de la lista.

Vamos a crear una serie a partir de la lista `[3, 7, 9, 8]` y la vamos a guardar en la variable `serie_1`:

In [None]:
...

serie_1

Una gran diferencia que tienen con las `listas` es que cada elemento en una `Serie` tiene un índice asociado que no necesariamente es una secuencia de enteros como en las `listas`. En este aspecto, nuestras `Series` se parecen a los `diccionarios`.

La columna de la izquierda es nuestro índice, la columna de la derecha son los datos almacenados y el texto en la parte inferior es el tipo de dato que en este caso es `int64` (el 64 se refiere a la cantidad de bits usados para representar a un entero, aunque Python en capáz de usar números gigantes, el límite es la capacidad del hardware)

Los tipos de datos más comunes que podemos encontrar son: 

1. `int64`: Equivalente a `int`
2. `float64`: Equivalente a `float`
3. `bool`: Equivalente a `bool`
4. `object`: Equivalente a `str`, o indica que hay una mezcla de tipos de datos numéricos y no-numéricos en la `Serie` (ojo con éste)

> **Importante**: Tener `Series` que contengan diversos tipos de datos es una **muy mala** práctica. Lo recomendable es siempre tener homogeneidad de tipos de dato en cada `Serie` que tengamos. De todas maneras, se encontrarán por ahí algunos conjuntos de datos que contienen `Series` con tipos de datos diversos. Es por eso que cuando nos topemos con un tipo de dato `obj` tenemos que ser cuidadosos y no asumir automáticamente que el tipo de dato incluido son `strings`.

Podemos crear `Series` con un índice personalizado, por ejemplo, en lugar de iniciar con 0, podemos iniciar con 1 como el mundo manda, para ello se usa la forma:

    pd.Series(-lista-, index=-lista de índices-)

Vamos a crear una Serie usando la lista `[4, 7, 9, 8]` y como índices la lista `[1, 2, 3, 4]` y el resultado lo guardamos en la variable `serie_2`:

In [None]:
...

serie_2

O podemos usar la función `range(a, b)` que nos permite crear series de números enteros iniciando en `a` y terminando en `b-1`, así que la misma `serie_2` se puede usar de la siguiente forma:

In [None]:
...

serie_2

Incluso podemos usar `strings` en el índice, por ejemplo vamos a crear una serie en con los números `[5, 8, 7, 2]` y con índices `["a", "b", "c", "d"]` y el resultado asignarlos a la variable `serie_3`:

In [None]:
...

serie_3

Debido a su similitud, podemos incluso crear `Series` usando `diccionarios` y para ello se usa la forma:

    pd.Series(-diccionario-)
    
aquí las llaves pasan a ser nuestro índice.

Vamos a usar el siguiente diccionario de edades para crear una nueva Serie y asignarla a la variable `series_4`:

In [None]:
datos = {
    "Juan": 45,
    "Pepe": 56,
    "Alfonsina": 12,
    "Jenny": 49,
    "Marco P.": 12
}

In [None]:
...

serie_4

Al igual que en las listas, podemos acceder a nuestros datos usando los corchetes cuadrados (`[indice]`) y colocando el índice entre ellos, por ejemplo para obtener el primer elemento de la `serie_1` usamos el índice `0`:

In [None]:
...

Para obtener el último, no es posible usar `-1` como el caso de listas, así que en su caso se pueden contar los números de elementos con la función `len()` y considerando que en la `serie_1` los índices van de `0` a `4` entonces a la longitud hay que restar uno quedando el índice como `len(serie_1) - 1`, así podemos obtener el último elemento:

In [None]:
...

Sin embargo, las series tienen su propia forma de acceder a los elementos, y es por medio de la propiedad `loc[-indice-]`, por ejemplo para obtener el último elemento de la `serie_2` sería:

In [None]:
...

Nota, que no ha sido necesario restar `1` ¿porqué?

También podemos usar también `strings`, vamos a obtener el primero elemento de la `serie_3`:

In [None]:
...

Y si queremos el último elemento de la `serie_4`:

In [None]:
...

Otra forma usando `serie_4.index` esto es un tipo `Index` de Pandas, pero es muy similar a una lista, así que podemos usar toda la potencia de Python:

In [None]:
serie_4.loc[...]

¿porqué se puede hacer lo anterior?

O para obtener la edad de `Pepe` usando la `serie_4` y `loc[]` sería:

In [None]:
...

Los índices en **Pandas** son super poderosos, ya que también podemos usar listas de índices o rángos de índices según nos convenga, la forma es la siguiente:

    serie.loc[-una lista de índices-]
    o
    serie.loc[-índice inicial-:-índice final-]
    
y no importa si los índices son numéricos o de cadena, por ejemeplo vamos a obtener los elementos `d` y `b` (en éste órden) de la `serie_3`:

In [None]:
serie_3.loc[ [...] ]

Y para indicar rangos, por ejemplo queremos obtener las edades desde el inicio hasta `Alfonsina` de la `serie_4`, para eso sólo indicamos el índice final `serie.loc[:-índice final]`:

In [None]:
serie_4.loc[ ... ]

Aquí una lista de las popsibles combinaciones y sus resultados:

- `serie.loc[a:b]`  todos los elementos desde el índice `a` hasta el índice `b` incluyendo ambos índices.
- `serie.loc[:b]`  todos los elementos desde el primer elemento de la serie hasta el índice `b`.
- `serie.loc[a:]`  todos los elementos desde el índice `a` hasta el último elemento de la serie.
    

¡Vayamos a nuestro Reto!

---
---
## Reto 2: Series

### 1. Objetivos:
    - Practicar la creación de `Series` y la indexación básica de éstas
 
### 2. Desarrollo:

#### a) Creación de `Series`

A continuación tenemos unas variables que contienen los nombres y los sueldos de los ejecutivos más importantes de nuestra ya conocida EyePoker Inc. Debajo, hay una variable `sueldos` que no ha sido asignada aún:

In [None]:
ejecutivo_1 = ['Marco P.', 15_000]
ejecutivo_2 = ['Jenny', 20_000]
ejecutivo_3 = ['Britney Baby', 32_000]
ejecutivo_4 = ['Pepe Guardabosques', 12_000]
ejecutivo_5 = ['Lombardo El Destructor', 13_500]

sueldos = ...
sueldos

Tu tarea es crear una `Serie` de `pandas` y asignarla a la variable `sueldos`. Los **datos** de la serie serán los sueldos de los ejecutivos y tienes que hacer uso de las variables de cada ejecutivo, e **índice** de la serie serán los nombres de los ejecutivos y también tiene que crear una lista haciendo uso de las variables.

> Si lo crees necesario crea una variable para los datos y otra para los índices

Realiza los ajustes necesarios de manera que el código que tenemos debajo funcione correctamente:

In [None]:
titulo = '== Sueldos de los principales ejecutivos de EyePoker Inc. =='
print_linea = lambda: print("-" * len(titulo))
f = lambda sueldo: f"{sueldo}" if type(sueldo) == str else f"${sueldo:.2f} MNX"
print_fila = lambda ejecutivo, sueldo: print(f"{ejecutivo:25} | {f(sueldo)}")

print(titulo)
print_linea()
print_fila("Ejecutivo", "Sueldo")
print_linea()
for i in sueldos.index:
    print_fila(i, sueldos.loc[i])
print_linea()

#### b) Indexación de `Series`

Tenemos una `Serie` que contiene los gastos mensuales totales (en MXN) de distintas divisiones de EyePoker Inc. Tú eres el Contador Oficial y tienes que obtener subconjuntos de datos que sirvan para agregar los gastos totales de diferentes combinaciones de divisiones.

Los datos son los siguientes:

In [None]:
import pandas as pd

gastos_mensuales = {
    'A': 15000,
    'B': 200000,
    'C': 3250000,
    'D': 120000,
    'E': 135000,
    'F': 55000,
    'G': 100000,
    'H': 25000
}

gastos_serie = pd.Series(gastos_mensuales)
gastos_serie

El índice es el nombre de la división y los valores son los gastos mensuales en MXN.

Indexando la serie `gastos_serie` extrae las combinaciones de divisiones que se indican debajo para poder hacer los cálculos necesarios. Modifica el código según sea necesario.

In [None]:
# Los gastos de la división 'D' y 'G'
gastos_D_G = gastos_serie

# Los gastos de la división 'A' y 'E'
gastos_A_E = gastos_serie

# Los gastos de la división 'B', 'F' y 'H'
gastos_B_F_H = gastos_serie

# Los gastos desde la primera división hasta la división 'E'
gastos_principio_a_E = gastos_serie

# Los gastos desde la división 'D' hasta la 'G'
gastos_D_a_G = gastos_serie

# Los gastos desde la división 'C' hasta el la última división
gastos_C_a_final = gastos_serie

Y a continuación la celda de validación ...

In [None]:
def formatear_precio(precio):
    return f"${precio} MXN"
    
def revisar_indexacion(esperada, recibida, nombre):
    es_correcta = 'Correcta' if esperada.equals(recibida) else 'Incorrecta'
    suma_esperada = formatear_precio(sum(esperada))
    suma_recibida = formatear_precio(sum(recibida))
    print(f"{nombre:30} | {es_correcta:15} | {suma_esperada:15} | {suma_recibida:15}")
    
def revisar_indexaciones(gastos_serie, gastos_D_G, gastos_A_E, gastos_B_F_H,
                         gastos_principio_a_E, gastos_D_a_G, gastos_C_a_final):
    datos = [[68, 71], [65, 69], [66, 70, 72], 69, 68, 71, 67]
    datos = [chr(x) if type(x) == int else [chr(y) for y in x] for x in datos]
    print(f'== Revisión de Indexaciones ==\n')
    print(f"{'Indexación':30} | {'Resultado':15} | {'Suma esperada ':15} | {'Suma recibida ':15}")
    print("-"*85)
    revisar_indexacion(gastos_serie.loc[datos[0]], gastos_D_G, 'División D y G')
    revisar_indexacion(gastos_serie.loc[datos[1]], gastos_A_E, 'División A y E')
    revisar_indexacion(gastos_serie.loc[datos[2]], gastos_B_F_H, 'División B, F y H')
    revisar_indexacion(gastos_serie.loc[:datos[3]], gastos_principio_a_E, 'Desde primera División a E')
    revisar_indexacion(gastos_serie.loc[datos[4]:datos[5]], gastos_D_a_G, 'División D y G')
    revisar_indexacion(gastos_serie.loc[datos[6]:], gastos_C_a_final, 'División C a última División')
    
revisar_indexaciones(gastos_serie, gastos_D_G, gastos_A_E, gastos_B_F_H,
                         gastos_principio_a_E, gastos_D_a_G, gastos_C_a_final)