# Reto 3: Desviación estándar

## 1. Objetivos:
- Utilizar la desviación estándar para realizar un análisis de dispersión de nuestros datos
 
---
    
## 2. Desarrollo:

### a) Desviación estándar y distribución de los datos

Como ya vimos, la desviación estándar es la medida que nos da la "desviación típica" (o esperada) de nuestros datos a comparación del promedio. Eso quiere decir que normalmente vamos a esperar que una gran parte de nuestros datos se encuentren a 1 desviación estándar de distancia del promedio. Entre más nos alejamos, menos muestras deberíamos de encontrar.

Vamos a comprobar esto usando nuestro dataset de meteoritos que orbitan cerca de la Tierra. Tu Reto consiste en los siguientes pasos:

1. Crea un DataFrame con el dataset `near_earth_objects-jan_feb_1995-clean.csv`.
2. Obtén la cantidad total de datos en tu DataFrame.
3. Obtén la desviación estándar de la columna 'estimated_diameter.meters.estimated_diameter_max'. Los siguientes pasos realízalos todos utilizando esta columna.
4. Obtén el porcentaje de muestras que están a una distancia de 1 desviación estándar del promedio.
5. Obtén el porcentaje de muestras que están a una distancia de 2 desviaciones estándares del promedio (multiplicar * 2).
6. Obtén el porcentaje de muestras que están a una distancia de 3 desviaciones estándares del promedio (multiplicar * 3).
7. Compara los porcentajes obtenidos y comenta con tus compañeros y la experta tus hallazgos. ¿Qué significa esto? ¿La definición de desviación estándar tiene sentido? ¿Qué puedo inferir acerca de la dispersión de mis datos a partir de los valores obtenidos?

> Nota: Para obtener los porcentajes de los subconjuntos primero necesitas filtrar el DataFrame original para que sólo permanezcan las muestras que cumplan con los requisitos.

> Nota: Este Reto está diseñado para tener una dificultad media. No te frustres si al principio parece demasiado difícil. Comienza poco a poco, resolviendo el problema en pedazos pequeños, y si no tienes la menor idea de cómo proceder recuerda que la experta está ahí para ayudarte.

## Puntos 1 al 3

In [1]:
# Carga de bibliotecas
import numpy as np
import pandas as pd

In [4]:
# 1. Crear DataFrame
df_meteoritos = pd.read_csv("https://raw.githubusercontent.com/jaeem006/beduadp/master/Datasets/near_earth_objects-jan_feb_1995-clean.csv", index_col= 0)

In [5]:
# 2. Cantidad de datos en el DataFrame (filas)
num_filas = df_meteoritos.shape[0]
print(f"El DataFrame tiene {num_filas} filas")
df_meteoritos

El DataFrame tiene 333 filas


Unnamed: 0,id,name,is_potentially_hazardous_asteroid,estimated_diameter.meters.estimated_diameter_min,estimated_diameter.meters.estimated_diameter_max,close_approach_date,epoch_date_close_approach,orbiting_body,relative_velocity.kilometers_per_second,relative_velocity.kilometers_per_hour
0,2154652,154652 (2004 EP20),False,483.676488,1081.533507,1995-01-07,789467580000,Earth,16.142864,58114.308667
1,3153509,(2003 HM),True,96.506147,215.794305,1995-01-07,789491340000,Earth,12.351044,44463.757734
2,3516633,(2010 HA),False,44.111820,98.637028,1995-01-07,789446820000,Earth,6.220435,22393.567277
3,3837644,(2019 AY3),False,46.190746,103.285648,1995-01-07,789513900000,Earth,22.478615,80923.015021
4,3843493,(2019 PY),False,22.108281,49.435619,1995-01-07,789446700000,Earth,4.998691,17995.288355
...,...,...,...,...,...,...,...,...,...,...
328,2267136,267136 (2000 EF104),False,441.118200,986.370281,1995-02-21,793340220000,Earth,16.180392,58249.410194
329,3360486,(2006 WE4),False,441.118200,986.370281,1995-02-21,793381440000,Earth,15.106140,54382.104639
330,3656919,(2014 BG3),False,160.160338,358.129403,1995-02-21,793368480000,Earth,20.343173,73235.423517
331,3803762,(2018 GY4),False,421.264611,941.976306,1995-02-21,793371240000,Earth,29.732426,107036.733058


In [6]:
# 3. Obtén la desviación estándar de la columna 'estimated_diameter.meters.estimated_diameter_max'. 
#    Los siguientes pasos realízalos todos utilizando esta columna.

std_diametros = df_meteoritos['estimated_diameter.meters.estimated_diameter_max'].std()
# Tambien la media
media_diametros = df_meteoritos['estimated_diameter.meters.estimated_diameter_max'].mean()

print(f"La media aritmetica es {media_diametros}")
print(f"La desviacion estandar es {std_diametros}")

La media aritmetica es 410.08604223976545
La desviacion estandar es 614.6915918552232


## ¿Qué significa que un dato esté a 1, 2 o 3 desviaciones estándar?




Supongamos que contamos con una arreglo (lista, vector, columna, `pandas.Series` o lo que gustes). Vamos a llamar a este arreglo $\vec{\mathrm{x}}$, el cual esta conformado por $n$ número de elementos.

Entonces una vista de $\vec{\mathrm{x}}$ sería:


\begin{equation*}
\vec{\mathrm{x}} = \{x_1, x_2, x_3, \cdots , x_n\}
\end{equation*}

Este arreglo de elementos o conjunto de datos $\vec{\mathrm{x}}$, tiene un promedio $\mu$ y una desviación estándar $\sigma$. 


Ahora ¿cómo sabemos que tan dispersos están nuestros datos? ¿cuánta variabilidad hay de lo "típico (que tan alejados del promedio $\mu$ están)?

Es importante definir una métrica, algo con que medir que tan lejos están los datos del promedio. Nuestra _regla_ o con lo que vamos a medir será la desviación estándar $\sigma$. Es por eso que se dice que un dato se encuentra a 1$\sigma$, 2$\sigma$ o 3$\sigma$.

Tomemos en cuenta que los elementos de un conjunto de datos se pueden expresar como la media $\mu$ más o menos $a$ veces la desviación estándar $\sigma$

\begin{equation*}
x_i = \mu \, + \, a_i \sigma
\end{equation*}

Donde $x_i$ es un dato de nuestro conjunto $\vec{\mathrm{x}}$ y $a_i$ la podemos llamar nuestra distancia, es a cuántas desviaciones estándar $\sigma$ esta nuestro dato del promedio $\mu$. En algunas ocasiones $a_i$ será negativa, en ese caso, tomaremos el valor absoluto, ya que solo no importa el número, no tanto el signo que tenga y la representaremos como $\mathbf{a_i}$.



### ¿Y como podemos calcular $a_i$ en nuestro conjunto de datos?

Bueno, empecemos tomando la ecuación que se mostró anteriormente. Como es una ecuación, significa que lo que está de un lado es igual a lo que está del otro. Esto nos dice que si modificamos un lado, tenemos que hacer lo mismo del otro lado, sea sumar, restar, dividir o multiplicar, lo que hago de un lado, lo tengo que hacer del otro.

\begin{align*}
x_i &= \mu \, + \, a_i \sigma \\
x_i - \mu &= \mu \, + \, a_i \sigma - \mu \\
x_i - \mu &=  \, a_i \sigma \\
\frac{x_i - \mu}{\sigma} &=  \frac{a_i \sigma}{\sigma} \\
\frac{x_i - \mu}{\sigma} &=  a_i
\end{align*}

De la última ecuación, tomaremos solo el valor absoluto de los resultados para poder obtener $\mathbf{a_i}$.

\begin{equation*}
\mathbf{a_i} = \left| \frac{x_i - \mu}{\sigma} \right| =  \left| a_i \right|
\end{equation*}

Bueno, esta ecuación dice que para encontrar a cuántas desviaciones estándar se encuentra un dato del _dataset_ hay que encontrar la diferencia (o resta) entre el dato y el promedio, y después dividirlo entre la desviación estándar.


### Ejemplo con código

Vamos a ver un ejemplo con código. Para ello vamos a dar un promedio y desviación estándar, de esta manera usaremos pocos datos para poder ver bien lo que estamos haciendo

In [9]:
mu_ejemplo = 10   # Promedio
sigma_ejemplo = 3 # Desviación estándar

x = [7,9,12,15,11,10,12,6,4] # Conjunto de datos

In [10]:
# Crear funcion que calcule distancias en terminos de desviacion estandar
def distancia_en_desviacion_estandar(xi, promedio = mu_ejemplo, desviacion_estandar = sigma_ejemplo):
    diferencia_dato_promedio = xi - promedio
    ai = diferencia_dato_promedio / desviacion_estandar
    distancia_desviacion_estandar = abs(ai)
    return distancia_desviacion_estandar

In [11]:
print("Conjunto de datos")
print(x)
print(" ")
print("Número de desviaciones estándar entre los datos y el promedio")
print(list(map(distancia_en_desviacion_estandar, x)))

Conjunto de datos
[7, 9, 12, 15, 11, 10, 12, 6, 4]
 
Número de desviaciones estándar entre los datos y el promedio
[1.0, 0.3333333333333333, 0.6666666666666666, 1.6666666666666667, 0.3333333333333333, 0.0, 0.6666666666666666, 1.3333333333333333, 2.0]


## Resto de los puntos

Para poder encontrar los datos que se encuentran a 1, 2 y 3 desviaciones estándar, vamos a crear una columna que se llame `'numero_std_de_media'` que contenga las distancias entre el dato y el promedio en términos de desviaciones estándar.

No es necesario crear una función como la de la explicación. Podemos trabajar directamente con las columnas.

In [14]:
df_meteoritos['numero_std_de_media'] = abs((df_meteoritos['estimated_diameter.meters.estimated_diameter_max'] \
                                            - df_meteoritos['estimated_diameter.meters.estimated_diameter_max'].mean())\
                                           /df_meteoritos['estimated_diameter.meters.estimated_diameter_max'].std())

In [15]:
# 4. Obtén el porcentaje de muestras que están a una distancia de 1 desviación estándar del promedio.
mask_1 = df_meteoritos['numero_std_de_media'] <= 1
df_meteoritos[mask_1].shape[0] / num_filas

0.9039039039039038

In [16]:
# 5. Obtén el porcentaje de muestras que están a una distancia de 2 desviaciones estándares del promedio (multiplicar * 2).
mask_2 = df_meteoritos['numero_std_de_media'] <= 2
df_meteoritos[mask_2].shape[0] / num_filas

0.963963963963964

In [17]:
# 6. Obtén el porcentaje de muestras que están a una distancia de 3 desviaciones estándares del promedio (multiplicar * 3).
mask_3 = df_meteoritos['numero_std_de_media'] <= 3
df_meteoritos[mask_3].shape[0] / num_filas

0.978978978978979

In [None]:
# 7. Compara los porcentajes obtenidos y comenta con tus compañeros y la experta tus hallazgos. ¿Qué significa esto?
#    ¿La definición de desviación estándar tiene sentido? ¿Qué puedo inferir acerca de la dispersión de mis datos a partir 
#    de los valores obtenidos?