## Ejemplo 2: Agregaciones

### 1. Objetivos:
    - Aprender cómo usar agregaciones para resumir o reducir un arreglo
 
---
    
### 2. Desarrollo:

Las agregaciones entonces aplican una función a todo el arreglo entero y regresan un único valor que es la agregación o reducción del arreglo.

`pandas` ya tiene incluidas bastantes de éstas. Así que podemos llamarlas con tan sólo usar un método de nuestra `Serie`:

In [1]:
import pandas as pd

In [2]:
serie = pd.Series([1, 2, 3, 4, 5])

En Python ya existe una función llamada `sum(-colección-)` que suma todos los elementos de nuestra serie:

In [3]:
sum(serie)
# tú código

15

Pero Pandas tiene su propia función optimizada de la forma `mi_serie.sum()`:

In [4]:
serie.sum()
# tú código

15

`min()` y `max()` nos dan el valor mínimo y máximo, respectivamente, de nuestra serie:

In [6]:
# obtén el mínimo
serie.min()

1

In [7]:
# obtén el máximo
serie.max()

5

`count()` nos da el conteo total del número de elementos en nuestro arreglo:

In [8]:
# obtén el número de elementos
serie.count()

5

También podrías usan la función `len()` de Python:

In [9]:
# obtén el número de elementos
len(serie)

5

Por si a estas alturas aún dudas que usar las funciones u operaciones de Pandas es sólo un **cuento urbano** vamos a calcular la eficiencia de obtener la suma de una colección de 1 millón de números usando listas y series y entonces comparamos el resultado

In [2]:
import pandas as pd
import numpy as np
import time

l1 = list(range(1000000))
s1 = pd.Series(np.arange(1000000))

# Suma usando listas y sum() de Python
t1 = time.time()
sum(l1)
t2 = time.time()
print((t2 - t1) * 1000)

# Suma usando series y sum() de Python
t1 = time.time()
sum(s1)
t2 = time.time()
print((t2 - t1) * 1000)

# Suma usando series y sum() de Pandas
t1 = time.time()
s1.sum()
t2 = time.time()
print((t2 - t1) * 1000)

137.15386390686035
304.02517318725586
2.7649402618408203


---
---

## Reto 2: Agregaciones

### 1. Objetivos:
    - Usar funciones vectorizadas y agregaciones para computar la desviación estándar de un conjunto de datos
 
---
    
### 2. Desarrollo:

#### a) Desviación Estándar

La desviación estándar es una medida que nos dice qué tan dispersos están los datos con respecto a la media. Es una de las medidas estadísticas más comunes e importantes. En este reto vamos a calcular la desviación estándar de un conjunto de datos usando funciones vectorizadas y agregaciones

Imagina que has realizado un censo en la H. Universidad de las Américas Unidas. Quieres saber qué tanta dispersión de edades hay en la universidad. Dada la naturaleza de la universidad, hay tanto alumnos extremadamente jóvenes (el más joven tiene 15 años) hasta alumnos bastante mayores (el alumno de más edad tiene 52 años). Para saber qué tan dispersas están las edades de los alumnos, vas a usar la desviación estándar.

El algoritmo para sacar la desviación estándar es el siguiente:

1. Saca el promedio de tu `Serie`. Esto se hace sumando todos tus datos y luego dividiéndolos entre la cantidad de datos (`n`)
2. Después toma tu `Serie` y réstale a cada elemento el promedio. De esta manera obtenemos una nueva `Serie` que contiene las diferencias entre cada dato y el promedio.
3. Después eleva tu `Serie` al cuadrado. Esto sirve para acentuar a los datos que están más alejados de tu promedio.
4. Ahora suma todos los elementos de tu `Serie` y divídelos entre la cantidad de datos de la `Serie` original menos 1 (`n - 1`).
5. Por último, saca la raíz cuadrada del valor obtenido: Ésta es tu desviación estándar.

La fórmula para calcular la desviación estándar es: `ds = √(Σ(x_i - x_med)²/(n - 1))`

Utiliza aritmética con `Series`, funciones vectorizadas y agregaciones para calcular esta estadística.

Asigna tu resultado final a la variable `std`.

In [1]:
import pandas as pd
import numpy as np

In [22]:
edades = pd.Series([23, 24, 23, 34, 30, 17, 18, 24, 35, 28, 27,
    27, 34, 32, 29, 16, 16, 17, 19, 34, 45, 46, 43, 45, 43, 32,
    25, 29, 28, 38, 30, 37, 38, 24, 26, 25, 24, 19, 19, 18, 17,
    18, 21, 20, 23, 24, 25, 25, 26, 24, 23, 32, 24, 25, 24, 36,
    35, 36, 38, 39, 45, 46, 43, 48, 42, 41, 41, 26, 19, 19, 19,
    20, 39, 38, 43, 28, 27, 39, 43, 52, 50, 38, 15, 17, 23, 25,
    19, 32, 34, 35, 19, 19, 20, 26, 25, 43, 45, 46, 34, 33, 30,
    30, 34, 45, 50, 50, 47, 25, 34, 37, 38, 19, 19, 20, 25, 28,
    34, 32, 36, 39, 39, 28, 34, 33, 22, 25, 17, 17, 22, 24, 25,
    45, 46, 43, 34, 35, 32, 23])


In [19]:
## Realiza aquí tus cálculos
##
## ...
## ...
suma = edades.sum()
conteo = edades.count()
media = suma / conteo
dif_con_media = edades - media
var = np.power(dif_con_media,2)
v = np.sum(var)
c = conteo - 1
a = v / c
std = np.sqrt(a)
std

9.55678104254041

In [24]:
edades.std()

9.55678104254041