## Reto 3: Desviación estándar

### 1. Objetivos:
    - Utilizar la desviación estándar para realizar un análisis de dispersión de nuestros datos
 
---
    
### 2. Desarrollo:

#### a) Desviación estándar y distribución de los datos

Como ya vimos, la desviación estándar es la medida que nos da la "desviación típica" (o esperada) de nuestros datos a comparación del promedio. Eso quiere decir que normalmente vamos a esperar que una gran parte de nuestros datos se encuentren a 1 desviación estándar de distancia del promedio. Entre más nos alejamos, menos muestras deberíamos de encontrar.

Vamos a comprobar esto usando nuestro dataset de meteoritos que orbitan cerca de la Tierra. Tu Reto consiste en los siguientes pasos:

1. Crea un DataFrame con el dataset 'near_earth_objects-jan_feb_1995-clean.csv'.
2. Obtén la cantidad total de muestras en tu DataFrame.
3. Obtén la desviación estándar de la columna 'estimated_diameter.meters.estimated_diameter_max'. Los siguientes pasos realízalos todos utilizando esta columna.
4. Obtén el porcentaje de muestras que están a una distancia de 1 desviación estándar del promedio.
5. Obtén el porcentaje de muestras que están a una distancia de 2 desviaciones estándares del promedio.
6. Obtén el porcentaje de muestras que están a una distancia de 3 desviaciones estándares del promedio.
7. Compara los porcentajes obtenidos y comenta con tus compañeros y la experta tus hallazgos. ¿Qué significa esto? ¿La definición de desviación estándar tiene sentido? ¿Qué puedo inferir acerca de la dispersión de mis datos a partir de los valores obtenidos?

> Nota: Para obtener los porcentajes de los subconjuntos primero necesitas filtrar el DataFrame original para que sólo permanezcan las muestras que cumplan con los requisitos.

> Nota: Este Reto está diseñado para tener una dificultad media. No te frustres si al principio parece demasiado difícil. Comienza poco a poco, resolviendo el problema en pedazos pequeños, y si no tienes la menor idea de cómo proceder recuerda que la experta está ahí para ayudarte.

In [2]:
import pandas as pd

df_meteoritos = pd.read_csv("https://raw.githubusercontent.com/beduExpert/B2-Analisis-de-Datos-con-Python-2020-Santander/main/Datasets/near_earth_objects-jan_feb_1995-clean.csv")
df = df_meteoritos["estimated_diameter.meters.estimated_diameter_max"]
df.head()

0    1081.533507
1     215.794305
2      98.637028
3     103.285648
4      49.435619
Name: estimated_diameter.meters.estimated_diameter_max, dtype: float64

In [49]:
def is_between_std_times(series, times):
    std = series.std()
    mn = series.mean()
    if times < 1:
        raise ValueError("Invalid input given. Times parameter must be a positive integer value")
    elif times == 1:
        return (series >= mn - std) & (series <= mn + std)
    else:
        return (series >= mn - times * std) & (series <= mn - (times - 1) * std) | (series <= mn + times * std) & (series >= mn + (times - 1) * std)

In [53]:
tot = df.count()
mn = df.mean()
std = df.std()

counts = []
for i in range(3):
    filter = is_between_std_times(df, i + 1)
    counts.append(df.loc[filter].count())

for i in range(3):
    print(f"Los datos alejados {i+1} desviaciones estándar son el {round(counts[i]/tot, 4)*100}% del total de datos.")

Los datos alejados 1 desviaciones estándar son el 90.39% del total de datos.
Los datos alejados 2 desviaciones estándar son el 6.01% del total de datos.
Los datos alejados 3 desviaciones estándar son el 1.5% del total de datos.


<details><summary>Solución</summary>

```python
import pandas as pd

df = pd.read_csv('../../Datasets/near_earth_objects-jan_feb_1995-clean.csv', index_col=0)
diameter_column = 'estimated_diameter.meters.estimated_diameter_max'
total_count = df.shape[0]
mean = df[diameter_column].mean()
std = df[diameter_column].std()

within_one_std_filter_bottom = df[diameter_column] >= (mean - std)
within_one_std_filter_top = df[diameter_column] <= (mean + std)
within_one_std = df[within_one_std_filter_bottom & within_one_std_filter_top]
percentage_of_data_within_one_std = within_one_std.shape[0] * 100 / total_count

within_two_std_filter_bottom = df[diameter_column] >= (mean - 2 * std)
within_two_std_filter_top = df[diameter_column] <= (mean + 2 * std)
within_two_std = df[within_two_std_filter_bottom & within_two_std_filter_top]
percentage_of_data_within_two_std = within_two_std.shape[0] * 100 / total_count

within_three_std_filter_bottom = df[diameter_column] >= (mean - 3 * std)
within_three_std_filter_top = df[diameter_column] <= (mean + 3 * std)
within_three_std = df[within_three_std_filter_bottom & within_three_std_filter_top]
percentage_of_data_within_three_std = within_three_std.shape[0] * 100 / total_count
```
    
</details>