In [7]:
import pandas as pd

# **Regla Empírica**
La regla empírica (también conocida como la regla 68-95-99.7), que establece que:
1. Aproximadamente el 68% de los datos caen dentro de una desviación estándar de la media.
2. Aproximadamente el 95% de los datos caen dentro de dos desviaciones estándar de la media.
3. Aproximadamente el 99.7% de los datos caen dentro de tres desviaciones estándar de la media.

Entonces, si tienes la media (μ) y la desviación estándar (σ), puedes calcular el rango de datos que caen dentro de cierto número de desviaciones estándar de la media. Por ejemplo, para calcular el porcentaje de datos dentro de una desviación estándar de la media, simplemente multiplicarías la desviación estándar por 2 (para incluir tanto el lado positivo como el negativo de la media), lo sumarías a la media y luego calcularías qué porcentaje de tus datos caen dentro de ese rango.

> Cabe destacar que esto se realiza con **atributos númericos**

Por ejemplo, si tu media es μ y tu desviación estándar es σ, el rango sería (𝜇−𝜎, 𝜇+𝜎). Luego, puedes calcular qué porcentaje de tus datos caen dentro de este rango.

Ejemplo:
Se toma una muestra de 16 números:

7, 9, 10, 12, 14, 15, 17, 18, 20, 21, 23, 25, 27, 28, 30, 32

In [11]:
Datos = {'columna1':[7,9,10,12, 14, 15, 17, 18, 20, 21, 23, 25, 27, 28, 30, 32]}

datos = pd.DataFrame(Datos)

datos['columna1'] = datos['columna1'].astype(int)

In [12]:
mediaDatos = datos['columna1'].mean()
print(f'La media de los datos es {mediaDatos}')

La media de los datos es 19.25


In [14]:
s_Datos = datos['columna1'].std()
print(f'La desviación estándar de los datos es {s_Datos}')

La desviación estándar de los datos es 7.79315939355364


Ahora, utilizando la regla empírica, podemos determinar el porcentaje de datos que caen dentro de $1$ desviación estándar de la media.
* $1$ hace referencia al factor unico que se multiplica la desviacion estandar para poder abarcar el máximo numero de datos en un conjunto de datos dado.

Dado que la desviacion estandar es &asymp; $7.79315939355364$, el rango sería:
* $(\overline{media} \pm s) = (\overline{media} - s,\overline{media} + s)$

* $(19.25\pm7.8) = (11.45, 27.05)$

Ahora, se cuenta los datos que estan en ese rango: $12, 14, 15, 17, 18, 20, 21, 23, 25, 27.$ ( $n = 10$ )

Teniendo en cuenta el número total de datos ($16 = nt$)

Entonces, el porcentaje de datos dentro de una (1) desviacion estandar con respecto a la media es:

* $percent = \frac{n}{nt} *100$
* $percent = \frac{10}{16} *100$
* $percent =62.5$%

$percent$ = Porcentaje de datos dentro del rango de la desviacion estandar con respecto a la media, contando ambos extremos.

Un resultado del 62.5% indica que el 62.5% de tus datos se encuentran dentro de una desviación estándar de la media. Este resultado es ligeramente menor que el 68% esperado según la regla empírica para una distribución normal.

## Consideraciones
En términos cualitativos, puedo sugerirte algunas pautas generales que puedes seguir para interpretar estos porcentajes:

• Alta concentración: Si un alto porcentaje de tus datos (por ejemplo, más del 90%) cae dentro de 1 desviación estándar de la media, esto sugiere que tus datos están bastante concentrados alrededor de la media y que no hay una gran dispersión.

• Concentración moderada: Si alrededor del 68-80% de tus datos caen dentro de 1 desviación estándar de la media, esto aún indica una concentración moderada de datos, pero puede haber algo de dispersión.

• Dispersión moderada: Si alrededor del 50-60% de tus datos caen dentro de 1 desviación estándar de la media, esto sugiere una dispersión moderada, donde los datos están más esparcidos en comparación con los casos anteriores.

• Alta dispersión: Si menos del 50% de tus datos caen dentro de 1 desviación estándar de la media, esto indica una alta dispersión de datos, lo que significa que los datos están muy extendidos y hay una gran variabilidad.

## **Aquí está el ejercício desde una entidad ⬇️**

In [1]:
import pandas as pd

In [2]:
ruta = r'04_DataLog.csv'
data = pd.read_csv(ruta)

data.head()

Unnamed: 0,Departamento,Código_Departamento,Programa,Código_Programa,Año_Asignación,Hogares,Valor_Asignado,Z_Score,Outlier,Valor_Asignado_Log
0,AMAZONAS,91,Bolsa Desastres Naturales,174,2008,37,336984900.0,1.39385,False,19.635549
1,AMAZONAS,91,Bolsa Desplazados,162,2009,3,18633750.0,-0.734333,False,16.740485
2,AMAZONAS,91,Bolsa Ordinaria,168,2003,1,5280000.0,-1.661339,False,15.479437
3,AMAZONAS,91,Bolsa Ordinaria,168,2003,2,12049000.0,-1.054834,False,16.304492
4,AMAZONAS,91,Habilitación de Titulos,180,2005,215,22790000.0,-0.586321,False,16.941832


In [3]:
dataMedia = data['Valor_Asignado_Log'].mean()
dataDesv = data ['Valor_Asignado_Log'].std()

print(f'La media de los datos es {dataMedia}')
print('\n    ⬇️\n')
print(f'La desviacón estándar de los datos es {dataDesv}')

La media de los datos es 17.729168005028484

    ⬇️

La desviacón estándar de los datos es 1.336779907330416


In [4]:
rangoMinimo = dataMedia - dataDesv
rangoMaximo =  dataMedia + dataDesv

print(f'El rango minimo de la data es de {rangoMinimo}')
print('\n    ⬇️\n')
print(f'El rango maximo de la data es de {rangoMaximo}')

El rango minimo de la data es de 16.392388097698067

    ⬇️

El rango maximo de la data es de 19.0659479123589


In [13]:
# Saber el numero de datos
dataRows = data['Valor_Asignado_Log'].value_counts()

data.shape

(78008, 10)

In [15]:
TotalDatos = 78008

TotalDatos

78008

In [7]:
# Compruebo el numero de registros en el atributo que me interesa
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 78008 entries, 0 to 78007
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Departamento         78008 non-null  object 
 1   Código_Departamento  78008 non-null  int64  
 2   Programa             78008 non-null  object 
 3   Código_Programa      78008 non-null  int64  
 4   Año_Asignación       78008 non-null  int64  
 5   Hogares              78008 non-null  int64  
 6   Valor_Asignado       78008 non-null  float64
 7   Z_Score              78008 non-null  float64
 8   Outlier              78008 non-null  bool   
 9   Valor_Asignado_Log   78008 non-null  float64
dtypes: bool(1), float64(3), int64(4), object(2)
memory usage: 5.4+ MB


In [8]:
# Hallar el numero de registros que entran en el rango minimo y maximo
registrosINrango = data[(data['Valor_Asignado_Log'] >= rangoMinimo) & (data['Valor_Asignado_Log'] <= rangoMaximo)].shape[0]

registrosINrango

56337

In [17]:
# Se evalua para ver si entra en la regla empirica
Porcentajeresultado = (registrosINrango / TotalDatos)*100

Porcentajeresultado

72.21951594708234