## Reto 3: Desviación estándar

### 1. Objetivos:
    - Utilizar la desviación estándar para realizar un análisis de dispersión de nuestros datos
 
---
    
### 2. Desarrollo:

#### a) Desviación estándar y distribución de los datos

Como ya vimos, la desviación estándar es la medida que nos da la "desviación típica" (o esperada) de nuestros datos a comparación del promedio. Eso quiere decir que normalmente vamos a esperar que una gran parte de nuestros datos se encuentren a 1 desviación estándar de distancia del promedio. Entre más nos alejamos, menos muestras deberíamos de encontrar.

Vamos a comprobar esto usando nuestro dataset de meteoritos que orbitan cerca de la Tierra. Tu Reto consiste en los siguientes pasos:

1. Crea un DataFrame con el dataset 'near_earth_objects-jan_feb_1995-clean.csv'.
2. Obtén la cantidad total de muestras en tu DataFrame.
3. Obtén la desviación estándar de la columna 'estimated_diameter.meters.estimated_diameter_max'. Los siguientes pasos realízalos todos utilizando esta columna.
4. Obtén el porcentaje de muestras que están a una distancia de 1 desviación estándar del promedio.
5. Obtén el porcentaje de muestras que están a una distancia de 2 desviaciones estándares del promedio.
6. Obtén el porcentaje de muestras que están a una distancia de 3 desviaciones estándares del promedio.
7. Compara los porcentajes obtenidos y comenta con tus compañeros y la experta tus hallazgos. ¿Qué significa esto? ¿La definición de desviación estándar tiene sentido? ¿Qué puedo inferir acerca de la dispersión de mis datos a partir de los valores obtenidos?

> Nota: Para obtener los porcentajes de los subconjuntos primero necesitas filtrar el DataFrame original para que sólo permanezcan las muestras que cumplan con los requisitos.

> Nota: Este Reto está diseñado para tener una dificultad media. No te frustres si al principio parece demasiado difícil. Comienza poco a poco, resolviendo el problema en pedazos pequeños, y si no tienes la menor idea de cómo proceder recuerda que la experta está ahí para ayudarte.

In [None]:
import pandas as pd
df=pd.read_csv("/content/drive/MyDrive/BEDU: DATA SCIENCE/FASE_3/Remoto Datasets/Remoto near_earth_objects-jan_feb_1995-clean.csv")

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 333 entries, 0 to 332
Data columns (total 11 columns):
 #   Column                                            Non-Null Count  Dtype  
---  ------                                            --------------  -----  
 0   Unnamed: 0                                        333 non-null    int64  
 1   id                                                333 non-null    int64  
 2   name                                              333 non-null    object 
 3   is_potentially_hazardous_asteroid                 333 non-null    bool   
 4   estimated_diameter.meters.estimated_diameter_min  333 non-null    float64
 5   estimated_diameter.meters.estimated_diameter_max  333 non-null    float64
 6   close_approach_date                               333 non-null    object 
 7   epoch_date_close_approach                         333 non-null    int64  
 8   orbiting_body                                     333 non-null    object 
 9   relative_velocity.kil

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
diam_max=df["estimated_diameter.meters.estimated_diameter_max"]

In [None]:
#media de los diametros de meteoritos
mean_diam = diam_max.mean()
#desviacion estandar de los diametros
std_diam = diam_max.std()
#rango de los valores para los diametros
diam_max.min(), diam_max.max()

(2.978790628, 6516.883821679)

Porcentaje de muestras que están a una distancia de 1, 2 o 3 desviaciones estándar del promedio.

In [None]:
c = 'estimated_diameter.meters.estimated_diameter_max'

mean = df[c].mean()
std = df[c].std()
col= df[c]
for i in range(1,4):
    rango_bajo = df[c] >= mean - (std * i)
    rango_alto = df[c] <= mean + (std * i)
    en_rango = df[rango_bajo & rango_alto]
    porcentaje = len(en_rango) * 100 / len(col)
    print(f"A {i} desviaciones: {porcentaje:.2f}%")

A 1 desviaciones: 90.39%
A 2 desviaciones: 96.40%
A 3 desviaciones: 97.90%


<details><summary>Solución</summary>

```python
import pandas as pd

df = pd.read_csv('../../Datasets/near_earth_objects-jan_feb_1995-clean.csv', index_col=0)
diameter_column = 'estimated_diameter.meters.estimated_diameter_max'
total_count = df.shape[0]
mean = df[diameter_column].mean()
std = df[diameter_column].std()

within_one_std_filter_bottom = df[diameter_column] >= (mean - std)
within_one_std_filter_top = df[diameter_column] <= (mean + std)
within_one_std = df[within_one_std_filter_bottom & within_one_std_filter_top]
percentage_of_data_within_one_std = within_one_std.shape[0] * 100 / total_count

within_two_std_filter_bottom = df[diameter_column] >= (mean - 2 * std)
within_two_std_filter_top = df[diameter_column] <= (mean + 2 * std)
within_two_std = df[within_two_std_filter_bottom & within_two_std_filter_top]
percentage_of_data_within_two_std = within_two_std.shape[0] * 100 / total_count

within_three_std_filter_bottom = df[diameter_column] >= (mean - 3 * std)
within_three_std_filter_top = df[diameter_column] <= (mean + 3 * std)
within_three_std = df[within_three_std_filter_bottom & within_three_std_filter_top]
percentage_of_data_within_three_std = within_three_std.shape[0] * 100 / total_count
```
    
</details>