# Reto 3: Desviación estándar

## 1. Objetivos:
- Utilizar la desviación estándar para realizar un análisis de dispersión de nuestros datos
 
---
    
## 2. Desarrollo:

### a) Desviación estándar y distribución de los datos

Como ya vimos, la desviación estándar es la medida que nos da la "desviación típica" (o esperada) de nuestros datos a comparación del promedio. Eso quiere decir que normalmente vamos a esperar que una gran parte de nuestros datos se encuentren a 1 desviación estándar de distancia del promedio. Entre más nos alejamos, menos muestras deberíamos de encontrar.

Vamos a comprobar esto usando nuestro dataset de meteoritos que orbitan cerca de la Tierra. Tu Reto consiste en los siguientes pasos:

1. Crea un DataFrame con el dataset `near_earth_objects-jan_feb_1995-clean.csv`.
2. Obtén la cantidad total de datos en tu DataFrame.
3. Obtén la desviación estándar de la columna 'estimated_diameter.meters.estimated_diameter_max'. Los siguientes pasos realízalos todos utilizando esta columna.
4. Obtén el porcentaje de muestras que están a una distancia de 1 desviación estándar del promedio.
5. Obtén el porcentaje de muestras que están a una distancia de 2 desviaciones estándares del promedio (multiplicar * 2).
6. Obtén el porcentaje de muestras que están a una distancia de 3 desviaciones estándares del promedio (multiplicar * 3).
7. Compara los porcentajes obtenidos y comenta con tus compañeros y la experta tus hallazgos. ¿Qué significa esto? ¿La definición de desviación estándar tiene sentido? ¿Qué puedo inferir acerca de la dispersión de mis datos a partir de los valores obtenidos?

> Nota: Para obtener los porcentajes de los subconjuntos primero necesitas filtrar el DataFrame original para que sólo permanezcan las muestras que cumplan con los requisitos.

> Nota: Este Reto está diseñado para tener una dificultad media. No te frustres si al principio parece demasiado difícil. Comienza poco a poco, resolviendo el problema en pedazos pequeños, y si no tienes la menor idea de cómo proceder recuerda que la experta está ahí para ayudarte.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [21]:
df = pd.read_csv ('https://raw.githubusercontent.com/jaeem006/beduadp/master/Datasets/near_earth_objects-jan_feb_1995-clean.csv',index_col=0)
df
df.shape # --- Datos del data.frame (333, 10)

(333, 10)

In [22]:
estimated = df['estimated_diameter.meters.estimated_diameter_max']
long=len(estimated)
media=estimated.mean()
sd= estimated.std()


print(f'La DS es de:', sd)
print(f'La media es de:', media)
print(f'Longitud de filas:', long)  # --- Medidas de dispersión

La DS es de: 614.691591855223
La media es de: 410.0860422397653
Longitud de filas: 333


In [42]:
bottom =  estimated >= (media - sd) # Todos los que sean mayores a 1 std
top = estimated <= (media + sd) # Todos los que sean menores a 1 std
within_one_std = df[bottom & top] # Aplicamos los dos filtros,sólo nos quedan los cercanos al promedio
percentage_of_data_within_one_std = within_one_std.shape[0] * 100 / long # Sacamos el porcentaje de datos

In [45]:
bottom_2 = estimated >= (media - 2 * sd)
top_2 = estimated <= (media + 2 * sd)
within_two_std = df[bottom_2 & top_2]
percentage_of_data_within_two_std = within_two_std.shape[0] * 100 / long # A 2 STD 

In [48]:
bottom_3 = estimated >= (media - 3 * sd)
top_3 = estimated <= (media + 3 * sd)
within_three_std = df[bottom_3 & top_3]
percentage_of_data_within_three_std = within_three_std.shape[0] * 100 / long # A 3 STD