## Ejemplo 2: Agregaciones

### 1. Objetivos:
    - Aprender cómo usar agregaciones para resumir o reducir un arreglo
 
### 2. Desarrollo:

Las agregaciones entonces aplican una función a todos los elementos del conjunto y regresan un único valor (talvéz como el sumar o adicionar o agregar todos los elementos fue de las primeras en implementarse heredó el nombre de **agregaciones** al resto de las funciones u operaciones de éste tipo).

`Pandas` tiene incluidas bastantes de éstas funciones, así que podemos llamarlas con tan sólo usar un método de nuestra `Serie`.

In [None]:
import pandas as pd

Usemos la siguiente serie como ejemplo:

In [None]:
import random

serie = pd.Series([random.randint(1, 1000) for x in range(100)])
serie.head(10)

En Python ya existe una función llamada `sum(-colección-)` que suma todos los elementos de cualquier colección de Python como una Lista o nuestra Serie:

In [None]:
...

Pero Pandas tiene su propia función optimizada de la forma `serie.sum()`:

In [None]:
...

Y también sus propias funciones `serie.min()` y `serie.max()` nos dan el valor mínimo y máximo respectivamente,  de nuestra serie:

In [None]:
...

In [None]:
...

También podemos obtener con `serie.count()` el conteo total de elementos en nuestra serie:

In [None]:
...

También podrías usan la función `len(-colección-)` de Python:

In [None]:
...

a estas alturas habrás observado que está la forma tradicional de Python para realizar ciertas tareas y la forma **Pandesca** de resolver esas mismas tareas, pero cual es mejor usar, entonces si a estas alturas aún dudas y sólo has escuchado que Pandas es sólo un **cuento urbano** vamos a calcular la eficiencia de obtener la suma de una colección de 1 millón de números usando listas y series para entonces comparar el resultado de `Python vs Pandas` ...

In [None]:
import time

l1 = range(1000000)  # versión de lista como un generador
l2 = list(range(1000000))  # versión de lista con todos sus elementos vivitos en memoria
s1 = pd.Series(l1)  # versión Serie construida a partir de un generador
s2 = pd.Series(l2)  # versión Serie construida a partir de una lista

Primero, obtendremos la suma usando generadores y la función `sum()` de Python y también calculamos el tiempo que se tarda en realizar la operación haciendo uso de la función `time.time()` que regresa la hora actual en milisegundos.

In [None]:
t1 = time.time()  # tiempo actual antes de iniciar el cálculo
...
t2 = time.time()  # tiempo actual después de realizar el cálculo

# Se obtiene la diferencia de tiempos y se convierte en segundos
print(f"{(t2 - t1) * 1000} seg")

Después, obtendremos la suma usando una lista con cada uno de sus elementos y la función `sum()` de Python:

In [None]:
t1 = time.time()  # tiempo actual antes de iniciar el cálculo
...
t2 = time.time()  # tiempo actual después de realizar el cálculo

# Se obtiene la diferencia de tiempos y se convierte en segundos
print(f"{(t2 - t1) * 1000} seg")

Sigue la suma usando una Serie obtenida a partir de un generador y la función `sum()` de Python (mezclando dos mundos):

In [None]:
t1 = time.time()  # tiempo actual antes de iniciar el cálculo
...
t2 = time.time()  # tiempo actual después de realizar el cálculo

# Se obtiene la diferencia de tiempos y se convierte en segundos
print(f"{(t2 - t1) * 1000} seg")

Sigue la suma usando una Serie obtenida a partir de una Lista y la función `sum()` de Python (mezclando dos mundos):

In [None]:
t1 = time.time()  # tiempo actual antes de iniciar el cálculo
...
t2 = time.time()  # tiempo actual después de realizar el cálculo

# Se obtiene la diferencia de tiempos y se convierte en segundos
print(f"{(t2 - t1) * 1000} seg")

Finalmente calculando la suma de ambas series, pero usando función `serie.sum()` de Pandas:

In [None]:
t1g = time.time()  # tiempo actual antes de iniciar el cálculo
...
t2g = time.time()  # tiempo actual después de realizar el cálculo

t1l = time.time()  # tiempo actual antes de iniciar el cálculo
...
t2l = time.time()  # tiempo actual después de realizar el cálculo

# Se obtiene la diferencia de tiempos y se convierte en segundos
print(f"{(t2g - t1g) * 1000} seg")
print(f"{(t2l - t1l) * 1000} seg")

Las conclusiones se cuentan solas, o sea, Pandas es bueno, pero puede realizar estas operaciones gracias a hace un uso muy fuerte del módulo **NumPy** que está fuertemente optimizado para realizar este tipo de operaciones, además de todos los demás módulos que acompañan a Pandas.

---
---

## Reto 2: Agregaciones

### 1. Objetivos:
    - Usar funciones vectorizadas y agregaciones para computar la desviación estándar de un conjunto de datos
 
### 2. Desarrollo:

#### a) Desviación Estándar

La desviación estándar es una medida que nos dice qué tan dispersos están los datos con respecto a la media. Es una de las medidas estadísticas más comunes e importantes. En este reto vamos a calcular la desviación estándar de un conjunto de datos usando funciones vectorizadas y agregaciones

Imagina que has realizado un censo en la H. Universidad de las Américas Unidas. Quieres saber qué tanta dispersión de edades hay en la universidad. Dada la naturaleza de la universidad, hay tanto alumnos extremadamente jóvenes (el más joven tiene 15 años) hasta alumnos bastante mayores (el alumno de más edad tiene 52 años). Para saber qué tan dispersas están las edades de los alumnos, vas a usar la desviación estándar.

El algoritmo para sacar la desviación estándar es el siguiente:

1. Saca el promedio de tu `Serie`. Esto se hace sumando todos tus datos y luego dividiéndolos entre la cantidad de datos (`n`)
2. Después toma tu `Serie` y réstale a cada elemento el promedio. De esta manera obtenemos una nueva `Serie` que contiene las diferencias entre cada dato y el promedio.
3. Después eleva tu `Serie` al cuadrado. Esto sirve para acentuar a los datos que están más alejados de tu promedio.
4. Ahora suma todos los elementos de tu `Serie` y divídelos entre la cantidad de datos de la `Serie` original menos 1 (`n - 1`).
5. Por último, saca la raíz cuadrada del valor obtenido: Ésta es tu desviación estándar.

La fórmula para calcular la desviación estándar es: `ds = √(Σ(x_i - x_med)²/(n - 1))`

Utiliza aritmética con `Series`, funciones vectorizadas y agregaciones para calcular esta estadística.

Asigna tu resultado final a la variable `std`.

In [None]:
import pandas as pd

In [None]:
edades = pd.Series([23, 24, 23, 34, 30, 17, 18, 24, 35, 28, 27,
    27, 34, 32, 29, 16, 16, 17, 19, 34, 45, 46, 43, 45, 43, 32,
    25, 29, 28, 38, 30, 37, 38, 24, 26, 25, 24, 19, 19, 18, 17,
    18, 21, 20, 23, 24, 25, 25, 26, 24, 23, 32, 24, 25, 24, 36,
    35, 36, 38, 39, 45, 46, 43, 48, 42, 41, 41, 26, 19, 19, 19,
    20, 39, 38, 43, 28, 27, 39, 43, 52, 50, 38, 15, 17, 23, 25,
    19, 32, 34, 35, 19, 19, 20, 26, 25, 43, 45, 46, 34, 33, 30,
    30, 34, 45, 50, 50, 47, 25, 34, 37, 38, 19, 19, 20, 25, 28,
    34, 32, 36, 39, 39, 28, 34, 33, 22, 25, 17, 17, 22, 24, 25,
    45, 46, 43, 34, 35, 32, 23])

In [None]:
## Realiza aquí tus cálculos
...

std = 

A continuación tu celda de validación ...

In [None]:
def comparar_std(edades, std):
    print(f'== Comparación Desviaciones Estándares ==\n')
    print(f'Esperada: {edades.std()}\nRecibida: {std}')
    print(f'Cálculo {"Correcto... Felicidades!" if edades.std() == std else "Incorrecto... Intenta de nuevo"}')
    
comparar_std(edades, std)