## Reto 3: Desviación estándar

### 1. Objetivos:
    - Utilizar la desviación estándar para realizar un análisis de dispersión de nuestros datos
 
---
    
### 2. Desarrollo:

#### a) Desviación estándar y distribución de los datos

Como ya vimos, la desviación estándar es la medida que nos da la "desviación típica" (o esperada) de nuestros datos a comparación del promedio. Eso quiere decir que normalmente vamos a esperar que una gran parte de nuestros datos se encuentren a 1 desviación estándar de distancia del promedio. Entre más nos alejamos, menos muestras deberíamos de encontrar.

Vamos a comprobar esto usando nuestro dataset de meteoritos que orbitan cerca de la Tierra. Tu Reto consiste en los siguientes pasos:

1. Crea un DataFrame con el dataset 'near_earth_objects-jan_feb_1995-clean.csv'.
2. Obtén la cantidad total de muestras en tu DataFrame.
3. Obtén la desviación estándar de la columna 'estimated_diameter.meters.estimated_diameter_max'. Los siguientes pasos realízalos todos utilizando esta columna.
4. Obtén el porcentaje de muestras que están a una distancia de 1 desviación estándar del promedio.
5. Obtén el porcentaje de muestras que están a una distancia de 2 desviaciones estándares del promedio.
6. Obtén el porcentaje de muestras que están a una distancia de 3 desviaciones estándares del promedio.
7. Compara los porcentajes obtenidos y comenta con tus compañeros y la experta tus hallazgos. ¿Qué significa esto? ¿La definición de desviación estándar tiene sentido? ¿Qué puedo inferir acerca de la dispersión de mis datos a partir de los valores obtenidos?

> Nota: Para obtener los porcentajes de los subconjuntos primero necesitas filtrar el DataFrame original para que sólo permanezcan las muestras que cumplan con los requisitos.

> Nota: Este Reto está diseñado para tener una dificultad media. No te frustres si al principio parece demasiado difícil. Comienza poco a poco, resolviendo el problema en pedazos pequeños, y si no tienes la menor idea de cómo proceder recuerda que la experta está ahí para ayudarte.

In [1]:
import pandas as pd

In [3]:
df = pd.read_csv('../../Datasets/near_earth_objects-jan_feb_1995-clean.csv')

In [5]:
#2
df.shape[0]

333

In [7]:
#3
col = 'estimated_diameter.meters.estimated_diameter_max'
df[col].std()

614.6915918552232

In [40]:
#4
prom = df[col].mean()
des = df[col].std() 
#stdx1_max = df[col].mean() + df[col].std() 
std = []
for i in [1,2,3]:
    #np.insert(arr=std,obj=0,values=len(df[(df[col] > prom - i*des) & (df[col] < prom + i*des)]))
    std.append(len(df[(df[col] > (prom - i*des)) & (df[col] < (prom + i*des))]))

#df[df[col].isin([stdx1_min, stdx1_max])]

In [41]:
std_porcentaje = list(map(lambda i:f'{i/331*100:.2f}%',std))
std_porcentaje

['90.94%', '96.98%', '98.49%']

In [16]:
df[col]

0      1081.533507
1       215.794305
2        98.637028
3       103.285648
4        49.435619
          ...     
328     986.370281
329     986.370281
330     358.129403
331     941.976306
332      48.132673
Name: estimated_diameter.meters.estimated_diameter_max, Length: 333, dtype: float64

<details><summary>Solución</summary>

```python
import pandas as pd

df = pd.read_csv('../../Datasets/near_earth_objects-jan_feb_1995-clean.csv', index_col=0)
diameter_column = 'estimated_diameter.meters.estimated_diameter_max'
total_count = df.shape[0]
mean = df[diameter_column].mean()
std = df[diameter_column].std()

within_one_std_filter_bottom = df[diameter_column] >= (mean - std)
within_one_std_filter_top = df[diameter_column] <= (mean + std)
within_one_std = df[within_one_std_filter_bottom & within_one_std_filter_top]
percentage_of_data_within_one_std = within_one_std.shape[0] * 100 / total_count

within_two_std_filter_bottom = df[diameter_column] >= (mean - 2 * std)
within_two_std_filter_top = df[diameter_column] <= (mean + 2 * std)
within_two_std = df[within_two_std_filter_bottom & within_two_std_filter_top]
percentage_of_data_within_two_std = within_two_std.shape[0] * 100 / total_count

within_three_std_filter_bottom = df[diameter_column] >= (mean - 3 * std)
within_three_std_filter_top = df[diameter_column] <= (mean + 3 * std)
within_three_std = df[within_three_std_filter_bottom & within_three_std_filter_top]
percentage_of_data_within_three_std = within_three_std.shape[0] * 100 / total_count
```
    
</details>

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=f8149d1c-e6b1-497a-9109-f01641a8231a' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>