## Reto 3: Desviación estándar

### 1. Objetivos:
    - Utilizar la desviación estándar para realizar un análisis de dispersión de nuestros datos

---
    
### 2. Desarrollo:

#### a) Desviación estándar y distribución de los datos

Como ya vimos, la desviación estándar es la medida que nos da la "desviación típica" (o esperada) de nuestros datos a comparación del promedio. Eso quiere decir que normalmente vamos a esperar que una gran parte de nuestros datos se encuentren a 1 desviación estándar de distancia del promedio. Entre más nos alejamos, menos muestras deberíamos de encontrar.

Vamos a comprobar esto usando nuestro dataset de meteoritos que orbitan cerca de la Tierra. Tu Reto consiste en los siguientes pasos:

1. Crea un DataFrame con el dataset 'near_earth_objects-jan_feb_1995-clean.csv'.
2. Obtén la cantidad total de muestras en tu DataFrame.
3. Obtén la desviación estándar de la columna 'estimated_diameter.meters.estimated_diameter_max'. Los siguientes pasos realízalos todos utilizando esta columna.
4. Obtén el porcentaje de muestras que están a una distancia de 1 desviación estándar del promedio.
5. Obtén el porcentaje de muestras que están a una distancia de 2 desviaciones estándares del promedio.
6. Obtén el porcentaje de muestras que están a una distancia de 3 desviaciones estándares del promedio.
7. Compara los porcentajes obtenidos y comenta con tus compañeros y la experta tus hallazgos. ¿Qué significa esto? ¿La definición de desviación estándar tiene sentido? ¿Qué puedo inferir acerca de la dispersión de mis datos a partir de los valores obtenidos?

> Nota: Para obtener los porcentajes de los subconjuntos primero necesitas filtrar el DataFrame original para que sólo permanezcan las muestras que cumplan con los requisitos.

> Nota: Este Reto está diseñado para tener una dificultad media. No te frustres si al principio parece demasiado difícil. Comienza poco a poco, resolviendo el problema en pedazos pequeños, y si no tienes la menor idea de cómo proceder recuerda que la experta está ahí para ayudarte.

In [1]:
import pandas as pd

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
df = pd.read_csv('/content/drive/MyDrive/Datasets/near_earth_objects-jan_feb_1995-raw.csv')

In [37]:
columna = 'estimated_diameter.meters.estimated_diameter_max'

In [38]:
totales = df.shape[0]
totales

333

In [39]:
std = df[columna].std()
mean = df[columna].mean()
print(f'std: {std} mean:{mean}')

std: 614.6915918552232 mean:410.08604223976545


In [41]:
# creamos el filtro de n desviaciones estandard
def filter(number_of_std):
  min = df[columna] >= mean - number_of_std*std
  max = df[columna] <= mean + number_of_std*std
  return min & max

In [42]:
df[filter(1)].shape[0]

301

In [44]:
# obtenemos el porcentaje de datos de n desviaciones estandard
def getPorcentaje(number_of_std) :
  return df[filter(number_of_std)].shape[0] * 100 / totales

In [52]:
print(f'El porcentaje de datos a una desviacion estandar es {getPorcentaje(1)}%')

El porcentaje de datos a una desviacion estandar es 90.3903903903904 %


In [53]:
print(f'El porcentaje de datos a dos desviaciones estandar es {getPorcentaje(2)}%')

El porcentaje de datos a dos desviaciones estandar es 96.3963963963964%


In [54]:
print(f'El porcentaje de datos a tres desviaciones estandar es {getPorcentaje(3)}%')

El porcentaje de datos a tres desviaciones estandar es 97.89789789789789%


<details><summary>Solución</summary>

```python
import pandas as pd

df = pd.read_csv('../../Datasets/near_earth_objects-jan_feb_1995-clean.csv', index_col=0)
diameter_column = 'estimated_diameter.meters.estimated_diameter_max'
total_count = df.shape[0]
mean = df[diameter_column].mean()
std = df[diameter_column].std()

within_one_std_filter_bottom = df[diameter_column] >= (mean - std)
within_one_std_filter_top = df[diameter_column] <= (mean + std)
within_one_std = df[within_one_std_filter_bottom & within_one_std_filter_top]
percentage_of_data_within_one_std = within_one_std.shape[0] * 100 / total_count

within_two_std_filter_bottom = df[diameter_column] >= (mean - 2 * std)
within_two_std_filter_top = df[diameter_column] <= (mean + 2 * std)
within_two_std = df[within_two_std_filter_bottom & within_two_std_filter_top]
percentage_of_data_within_two_std = within_two_std.shape[0] * 100 / total_count

within_three_std_filter_bottom = df[diameter_column] >= (mean - 3 * std)
within_three_std_filter_top = df[diameter_column] <= (mean + 3 * std)
within_three_std = df[within_three_std_filter_bottom & within_three_std_filter_top]
percentage_of_data_within_three_std = within_three_std.shape[0] * 100 / total_count
```
    
</details>