<a href="https://colab.research.google.com/github/jcjimenezb123/ProgramacionPython/blob/master/EstadisticaDescriptiva.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Estadística descriptiva

Una de las dos ramas principales de la estadística aplicada se conoce como estadística descriptiva, que simplemente describe alguna propiedad numérica de un conjunto de datos.

El módulo statistics contiene las métricas principales de la estadística descriptiva, se debe importar para poder usar sus funciones.

In [None]:
import statistics as st

##Media (promedio)

El tipo más familiar de estadística descriptiva y la medida más importante de tendencia central probablemente sería la media o el promedio. De una población media, μ , se encuentra sumando todos los datos, $x_i$ , y dividiendo por el número total, $N$.

$$
\mu=\frac{x_1+x_2+x_3+\cdots +x_n}{N}=\frac{1}{N}\sum_{i=1}^{N}x_i \cdots(1)
$$

También podemos calcular lo que se llama media muestral utilizando solo un subconjunto de la población que contiene n valores de los N posibles. La media muestral es muy similar a la Ecuación $(1)$

$$
\mu=\frac{x_1+x_2+x_3+\cdots +x_n}{n}=\frac{1}{n}\sum_{i=1}^{n}x_i \cdots(2)
$$
donde $n$ es el número de datos, $x_i$ , en la muestra.

Hacemos esta distinción porque la mayoría de las veces no tenemos acceso a toda la población de datos. Sin embargo, es posible que deseemos conocer alguna propiedad estadística de esos datos. Por ejemplo, digamos que deseamos conocer la dimensión máxima promedio de las partículas de arena en una playa. Para obtener la media de esa población, tendríamos que medir cada grano, una tarea imposible, por lo que debemos conformarnos con una media muestral . Creamos una muestra representativa de la playa eligiendo una fracción del número total de granos de ubicaciones aleatorias. Luego mediríamos la dimensión máxima de cada grano en esta pequeña muestra y promediaríamos esos datos para encontrar una media muestral, como una aproximación de la media poblacional.

Ejemplo: se tienen las siguientes estaturas de un grupo de alumnos 
$[1.70, 1.75, 1.83, 1.68, 1.91, 1.78, 1.70, 1.73]$, entonces la media muestral es

In [None]:
estaturas=[1.70, 1.75, 1.83, 1.68, 1.91, 1.78, 1.70, 1.73]
media=st.mean(estaturas)
media

1.76

##Promedio armónico

El promedio armónico es el recíproco del promedio aritmético de los recíprocos de los datos.

El promedio armónico se calcula de la siguiente manera

$$
h=\frac{n}{\frac{1}{x_1}+\frac{1}{x_2}+\frac{1}{x_3}+\cdots +\frac{1}{x_n}}=\frac{n}{\sum_{i=1}^{n}\frac{1}{x_i}}
$$

In [None]:
estaturas=[1.70, 1.75, 1.83, 1.68, 1.91, 1.78, 1.70, 1.73]
media=st.harmonic_mean(estaturas)
media

1.7570917372017392

##Mediana

Si tuviéramos que ordenar nuestros datos de menor a mayor, la mediana sería el valor en el medio de esa lista. Si hay un número par de puntos de datos y, por lo tanto, no hay un valor mediano único, el promedio de los dos valores más cercanos al medio se toma como la mediana.

Ejemplo: se tienen las siguientes estaturas de un grupo de alumnos 
$[1.70, 1.75, 1.83, 1.68, 1.91, 1.78, 1.70, 1.73]$, entonces la media muestral es

In [None]:
estaturas=[1.70, 1.75, 1.83, 1.68, 1.91, 1.78, 1.70, 1.73]
mediana=st.median(estaturas)
mediana

1.74

Si el número de datos es impar, retornará el valor medio. Si el número de datos es par, retornará el valor más alto de los dos de en medio.


In [None]:
mediana=st.median_high(estaturas)
mediana

1.75

Si el número de datos es impar, retornará el valor medio. Si el número de datos es par, retornará el valor más bajo de los dos de en medio.

In [None]:
mediana=st.median_low(estaturas)
mediana

1.73

In [None]:
estaturas.sort()
print(estaturas)

[1.68, 1.7, 1.7, 1.73, 1.75, 1.78, 1.83, 1.91]


##Moda

La moda se define como el valor que ocurre con mayor frecuencia en un conjunto de datos. Como tal, a menudo hay ocasiones en las que el modo es más de un número. Por ejemplo, si nuestros datos son [4, 5, 5, 1, 3, 3, 5, 2, 3], entonces los datos serían bimodales , con modas de 5 y 3. Cuando los datos están en un continuo no hay moda a menos que redondeemos los datos con cierta precisión.

In [None]:
estaturas=[1.70, 1.75, 1.83, 1.68, 1.91, 1.78, 1.70, 1.73]
moda=st.mode(estaturas)
moda

1.7

##Desviación estándar

La desviación estándar nos da una idea de cuán ampliamente se separan nuestros datos de su media. Junto con la varianza, esta propiedad estadística se encuentra entre las más familiares y útiles dentro de la categoría de medidas de dispersión. La desviación estándar se define como la raíz cuadrada de la distancia al cuadrado promedio de cada dato de la media. Como tal, la desviación estándar de la población se define como:

$$
\sigma=\sqrt{\frac{(x_1-\mu)^2+(x_2-\mu)^2+(x_3-\mu)^2+\cdots+(x_N-\mu)^2}{N}}=\sqrt{\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2}
$$

Al igual que con la media, también podemos encontrar una desviación estándar muestral. Aquí, se debe tener cuidado, ya que la terminología se vuelve algo confusa. La siguiente ecuación es para lo que llamamos la desviación estándar de la muestra :

$$
s_n=\sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2}
$$

la desviación estándar de la muestra es

$$
s=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2}
$$

La diferencia entre las dos ecuaciones está en lo que se llama la corrección de Bessel, usando $n -1$ en lugar de $n$ en la ecuación anterior. Esta corrección se usa con mayor frecuencia al calcular las desviaciones estándar, para corregir el hecho de que $s$ es un estimador sesgado y tiende a subestimar σ . Por supuesto, a medida que $n$ se vuelve grande, $s$ se acercará a $s_n$ , pero, a medida que $n$ se acerque a $N$, $s_n$ se convierte en el estimador más preciso de σ.

In [None]:
estaturas=[1.70, 1.75, 1.83, 1.68, 1.91, 1.78, 1.70, 1.73]
desv=st.stdev(estaturas)
desv

0.07782764841072136

##Varianza

La varianza es simplemente la desviación estándar al cuadrado, que es la distancia al cuadrado promedio de cada dato de la media. Por tanto, la varianza de la población es la Ecuación $\sigma$ al cuadrado y la varianza muestral es la Ecuación $s$ al cuadrado.

In [None]:
desv**2

0.006057142857142859

In [None]:
estaturas=[1.70, 1.75, 1.83, 1.68, 1.91, 1.78, 1.70, 1.73]
var=st.variance(estaturas)
var

0.006057142857142859