In [57]:
import numpy as np
import pandas as pd
from statistics import mode

# Medidas de centralizacion

Son las que dan un valor representativo a todas las observaciones. Las más importantes son:

     - media aritmetica
     - mediana: valor central en la lista ordenada de observaciones.
     - moda: es el valor de maxima frecuencia(absoluta o relativa)

    

### Media

In [42]:
edad = [45,50,19,60,15,20,33,12,20,80,20]

In [43]:
media = np.mean(edad)
print(f'La media de las edades es de: {media}')

La media de las edades es de: 34.0


### Mediana

In [45]:
edad.sort()
print(edad)
mediana = np.median(edad)
print(f'La mediana de las edades es de: {mediana}')

[12, 15, 19, 20, 20, 20, 33, 45, 50, 60, 80]
La mediana de las edades es de: 20.0


### Moda

In [58]:
#moda = mode(edad).mode[0]
moda = mode(edad)
print(f'La moda de las edades es: {moda}')

La moda de las edades es: 20


### Media aritmetica ponderada

In [76]:
x = [32, 45, 67 , 43, 28, 17, 48, 95]
w = [1, 2, 2, 3, 3, 2, 2, 1]

#array_x = np.array(x)
#array_w = np.array(w)
#mean = np.sum(array_x*array_w)/np.sum(array_w)

mean = np.average(x, weights = w)
print(f'La media aritmetica ponderada es: {mean}')

La media aritmetica ponderada es: 43.375


### Media geometrica 

In [102]:
x = [32, 45, 67 , 43, 28, 17, 48, 95]
result = np.prod(np.array(x),dtype="int64")

geom_mean = np.power(result,1/len(x))
print(f'La media geometrica es: {geom_mean}')

La media geometrica es: 41.62073000388034


### Media armonica

In [109]:
x = [32, 45, 67 , 43, 28, 17, 48, 95]

arm_mean = len(x)/(np.sum(1/np.array(x)))
print(f'La media armonica es: {arm_mean}')

La media armonica es: 36.77300793662041


# Medidas de Posicion


## Cuantiles
Dada una proporcion $p$ E (0,1), el cuantil de orden $p$ de una variable cuantitativa. $Q_p$, es el valor mas pequeño tal que su frecuencia relativa acumulada es mayor o igual a $p$.

In [129]:
dado = np.random.randint(1,5,50)
dado.sort()
dado

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4,
       4, 4, 4, 4, 4, 4])

In [142]:
unique,count = np.unique(dado, return_counts = True)
abs_freq = count
acum_abs_freq = np.cumsum(abs_freq)
rel_freq = count/count.sum()
acum_rel_freq = np.cumsum(rel_freq)

In [143]:
freq_tab = pd.DataFrame({
                        "value": unique,   
                        "abs_freq": abs_freq,
                        "acum_abs_freq": acum_abs_freq,
                        "rel_freq": rel_freq,
                        "acum_rel_freq": acum_rel_freq,
                    })
freq_tab

Unnamed: 0,value,abs_freq,acum_abs_freq,rel_freq,acum_rel_freq
0,1,16,16,0.32,0.32
1,2,11,27,0.22,0.54
2,3,16,43,0.32,0.86
3,4,7,50,0.14,1.0


### Ejemplo
Fijandonos en la lista ordenada de puntuaciones del dado, el cuantil Q(0.3) seria el primer elemento de dicha lista tal que fuera mayor o igual que, como mínimo, el 30% de los datos. Si calculamos el 30% de 50, obtenemos que es 15. Esto nos dice que el cuantil que buscamos es el numero que se encuentra en la quinceava posicion de la lista ordenada.

In [149]:
dado[15]

1

## Cuartiles
Los cuartiles son cuantiles Q(0.25), Q(0.5), Q(0.75). Tambien llamados primer, segundo y tercer cuartil. El primer cuartil, será el menor valor que es mayor o igual a una cuarta parte de las observaciones. 

    - El cuantil Q(0.5) es la mediana
    - Los deciles son cuantiles Q(p) con p un multiplo de 0.1
    - Los percentiles son los cuantiles Q(p) con p un multiplo de 0.01

In [151]:
np.quantile(dado,0.3)

1.0

In [153]:
np.quantile(dado,0.5)

2.0

# Medidas de dispersion 

Las medidas de dispersion evaluan lo disperso que estan los datos. Algunas de las mas importantes son:

    - El rango o recorrido que es la diferencia entre el maximo y el minimo de las observaciones
    - El rango intercuartilico que es la diferencia entre el tercer y primer cuartil, Q(0.75) - Q(0.25)
    - La varianza, a la que se denota por s^2, es la media aritmetica de las diferencias al cuadrado entre los datos Xi y la media aritmetica de las observaciones x.
    - La desviacion tipica es la raiz cuadrada de la varianza.
    - La varianza muestral es la correccion de la varianza y en lugar de dividirlo entre "n" se divide entre "n-1"
    - La desviacion tipica muestral es la raiz cuadrada de la varianza muestral
        

In [158]:
data = [1,2,4,6,3,8,9,10,22,33,12]
data = np.array(data)

### Rango

In [161]:
rango = np.amax(data) - np.amin(data)
print(f'El rango o recorrido es: {rango}')

El rango o recorrido es: 32


### Rango intercuartilico 

In [162]:
q75, q25 = np.percentile(x, [75 ,25])
iqr = q75 - q25
print(f'El rango intercuartilico es: {iqr}')

El rango intercuartilico es: 21.75


### Varianza Poblacional

In [163]:
var = np.var(data)
print(f'La varianza es: {var}')

La varianza es: 84.36363636363636


### Desviacion Estandar Poblacional

In [164]:
std = np.std(data)
print(f'La desviacion estandar es: {std}')

La desviacion estandar es: 9.184967956592791


### Varianza Muestral

In [166]:
var = np.var(data, ddof = 1)
print(f'La varianza es: {var}')

La varianza es: 92.8


### Desviacion Estandar Muestral

In [168]:
std = np.std(data, ddof = 1)
print(f'La desviacion estandar es: {std}')

La desviacion estandar es: 9.633275663033837
