## Reto 3: Desviación estándar

### 1. Objetivos:
    - Utilizar la desviación estándar para realizar un análisis de dispersión de nuestros datos

---
    
### 2. Desarrollo:

#### a) Desviación estándar y distribución de los datos

Como ya vimos, la desviación estándar es la medida que nos da la "desviación típica" (o esperada) de nuestros datos a comparación del promedio. Eso quiere decir que normalmente vamos a esperar que una gran parte de nuestros datos se encuentren a 1 desviación estándar de distancia del promedio. Entre más nos alejamos, menos muestras deberíamos de encontrar.

Vamos a comprobar esto usando nuestro dataset de meteoritos que orbitan cerca de la Tierra. Tu Reto consiste en los siguientes pasos:

1. Crea un DataFrame con el dataset 'near_earth_objects-jan_feb_1995-clean.csv'.
2. Obtén la cantidad total de muestras en tu DataFrame.
3. Obtén la desviación estándar de la columna 'estimated_diameter.meters.estimated_diameter_max'. Los siguientes pasos realízalos todos utilizando esta columna.
4. Obtén el porcentaje de muestras que están a una distancia de 1 desviación estándar del promedio.
5. Obtén el porcentaje de muestras que están a una distancia de 2 desviaciones estándares del promedio.
6. Obtén el porcentaje de muestras que están a una distancia de 3 desviaciones estándares del promedio.
7. Compara los porcentajes obtenidos y comenta con tus compañeros y la experta tus hallazgos. ¿Qué significa esto? ¿La definición de desviación estándar tiene sentido? ¿Qué puedo inferir acerca de la dispersión de mis datos a partir de los valores obtenidos?

> Nota: Para obtener los porcentajes de los subconjuntos primero necesitas filtrar el DataFrame original para que sólo permanezcan las muestras que cumplan con los requisitos.

> Nota: Este Reto está diseñado para tener una dificultad media. No te frustres si al principio parece demasiado difícil. Comienza poco a poco, resolviendo el problema en pedazos pequeños, y si no tienes la menor idea de cómo proceder recuerda que la experta está ahí para ayudarte.

In [3]:
import pandas as pd
import numpy as np

from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [15]:
df = pd.read_csv('/content/drive/MyDrive/DataScience/Remoto Datasets/Remoto near_earth_objects-jan_feb_1995-clean.csv')
obj = df[['estimated_diameter.meters.estimated_diameter_max']]

tot = len(obj)
stdev = obj.std()
mean = obj.mean()

std_1 = obj[abs(obj-mean)<=stdev].count()/tot
std_2 = obj[abs(obj-mean)<=2*stdev].count()/tot-std_1
std_3 = obj[abs(obj-mean)<=3*stdev].count()/tot-std_1-std_2

print('1 std: '+str(std_1))
print('2 std: '+str(std_2))
print('3 std: '+str(std_3))

1 std: estimated_diameter.meters.estimated_diameter_max    0.903904
dtype: float64
2 std: estimated_diameter.meters.estimated_diameter_max    0.06006
dtype: float64
3 std: estimated_diameter.meters.estimated_diameter_max    0.015015
dtype: float64


In [12]:
s = pd.DataFrame(np.array([[1,2,3,4,5],[6,7,8,9,10]]).T)
s.count()

0    5
1    5
dtype: int64

<details><summary>Solución</summary>

```python
import pandas as pd

df = pd.read_csv('../../Datasets/near_earth_objects-jan_feb_1995-clean.csv', index_col=0)
diameter_column = 'estimated_diameter.meters.estimated_diameter_max'
total_count = df.shape[0]
mean = df[diameter_column].mean()
std = df[diameter_column].std()

within_one_std_filter_bottom = df[diameter_column] >= (mean - std)
within_one_std_filter_top = df[diameter_column] <= (mean + std)
within_one_std = df[within_one_std_filter_bottom & within_one_std_filter_top]
percentage_of_data_within_one_std = within_one_std.shape[0] * 100 / total_count

within_two_std_filter_bottom = df[diameter_column] >= (mean - 2 * std)
within_two_std_filter_top = df[diameter_column] <= (mean + 2 * std)
within_two_std = df[within_two_std_filter_bottom & within_two_std_filter_top]
percentage_of_data_within_two_std = within_two_std.shape[0] * 100 / total_count

within_three_std_filter_bottom = df[diameter_column] >= (mean - 3 * std)
within_three_std_filter_top = df[diameter_column] <= (mean + 3 * std)
within_three_std = df[within_three_std_filter_bottom & within_three_std_filter_top]
percentage_of_data_within_three_std = within_three_std.shape[0] * 100 / total_count
```
    
</details>