# Medidas basicas de la estadistica descriptiva

## Media aritmetica 

En matemáticas y estadística, la media aritmética, también llamada promedio o media, de un conjunto infinito de números es el valor característico de una serie de datos cuantitativos, objeto de estudio que parte del principio de la esperanza matemática o valor esperado, se obtiene a partir de la suma de todos sus valores dividida entre el número de sumando. Cuando el conjunto es una muestra aleatoria recibe el nombre de media muestral siendo uno de los principales estadísticos muestrales.

In [1]:
def media(valores):
    return sum(valores)/len(valores)

In [2]:
valores = (9, 123, 5, 4, 12, 45, 56, 76)
print('El promedio de ',valores,' es: ',media(valores))

El promedio de  (9, 123, 5, 4, 12, 45, 56, 76)  es:  41.25


In [5]:
#---------------------------------------------------------------------------------------------------------------------------------------------

## Mediana

Partiendo del latín encontramos la forma más directa de definir este concepto matemático que proviene de medianus, significando del medio. A pesar de que es una palabra ampliamente utilizada en el lenguaje, adquiere un significado matemático cuando nos referimos a la variable que se encuentra en la posición central.

Todos estos son puntos de vista o formas de observar los datos obtenidos a través de un estudio estadístico, pueden medirse y por esta razón son indispensables en cualquier estudio o proyecto.



In [7]:
from statistics import median
median([1, 3, 5])

3

## Moda

En estadística, la moda es el valor con mayor frecuencia en una de las distribuciones de datos. Esto va en forma de una columna cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Una distribución trimodal de los datos es en la que encontramos tres modas. En el caso de la distribución uniforme discreta, cuando todos los datos tienen la misma frecuencia, se puede definir las modas como indicado, pero estos valores no tienen utilidad. Por eso algunos matemáticos califican esta distribución como «sin moda».

In [14]:
df = pd.DataFrame({'A': [1, 2, 1, 2, 1, 2, 3]})
df.mode()

Unnamed: 0,A
0,1
1,2


## Percentiles

El percentil es una medida de posición usada en estadística que indica, una vez ordenados los datos de menor a mayor, el valor de la variable por debajo del cual se encuentra un porcentaje dado de observaciones en un grupo. Por ejemplo, el percentil 20.º es el valor bajo el cual se encuentran el 20 por ciento de las observaciones.

Se representan con la letra P. Para el percentil i-ésimo, donde la i toma valores del 1 al 99. El i% de la muestra son valores menores que él y el 100-i% restante son mayores.

In [18]:
import numpy as np
df = pd.DataFrame(np.array([[1, 1], [2, 10], [3, 100], [4, 100]]),
                  columns=['a', 'b'])
df.quantile(.1)

a    1.3
b    3.7
Name: 0.1, dtype: float64

In [19]:
df.quantile([.1, .5])

Unnamed: 0,a,b
0.1,1.3,3.7
0.5,2.5,55.0


# Medidas de dispersion

Medidas de dispersión. Parámetros estadísticos que indican como se alejan los datos respecto de la media aritmética. Sirven como indicador de la variabilidad de los datos. Las medidas de dispersión más utilizadas son el rango, la desviación estándar y la varianza.

## Varianza


La varianza es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media. Formalmente se calcula como la suma de las residuos al cuadrado divididos entre el total de observaciones.

In [26]:
def calc_mean(series):
    vals = series.values
    mean = sum(vals) / len(vals)
    return mean

def calc_variance(series):
    mean = calc_mean(series)
    variance = [ (x - mean) **2 for x in series]
    variance = sum(variance) / len(variance)
    return variance

## Desviacion tipica

En estadística, la desviación típica (también conocida como desviación estándar y representada de forma abreviada por la letra griega minúscula sigma σ o la letra latina s, así como por las siglas SD -de standard deviation- en algunos textos traducidos del inglés) es una medida que se usa para cuantificar la variación o dispersión de un conjunto de datos numéricos.

In [27]:
def calc_stdev(series):
    variance = calc_variance(series)
    return variance ** (1/2)

## Coeficiente de Variacion

En estadística, cuando se desea hacer referencia a la relación entre el tamaño de la media y la variabilidad de la variable, se utiliza el coeficiente de variación (suele representarse por las siglas "C.V.").

Su fórmula expresa la desviación estándar como porcentaje de la media aritmética, mostrando una interpretación relativa del grado de variabilidad, independiente de la escala de la variable, a diferencia de la desviación típica o estándar. Por otro lado presenta problemas ya que a diferencia de la desviación típica este coeficiente es fuertemente sensible ante cambios de origen en la variable. Por ello es importante que todos los valores sean positivos y su media dé, por tanto, un valor positivo. A mayor valor del coeficiente de variación mayor heterogeneidad de los valores de la variable; y a menor C.V., mayor homogeneidad en los valores de la variable. Por ejemplo, si el C.V es menor o igual al 80%, significa que la media aritmética es representativa del conjunto de datos, por ende el conjunto de datos es "Homogéneo". Por el contrario, si el C.V supera al 80%, el promedio no será representativo del conjunto de datos (por lo que resultará "Heterogéneo").

import pandas as pd
import scipy.stats as ss

df = pd.read_csv("notas.csv")

cv = df["nota"].std(ddof=0) / df["nota"].mean()
cv2 = ss.variation(df["nota"])
assert(cv == cv2)

# Momento de orden r respecto a la media

Los momentos potenciales o muestrales son valores que caracterizan a una muestra aleatoria. Los momentos muestrales aproximan a los momentos de la distribución, estos últimos tienen la propiedad de que dos distribuciones de probabilidad son iguales si tienen todos sus momentos iguales.

Los momentos de una muestra forman una sucesión de números, para cada número natural r se puede definir el momento r-ésimo.