# Conceptos estadisticos en Machine Learning

## La Media

La medio de un conjunto de datos consiste en el valor promedio de los mismos. Para calcularla media, simplemente tenemos que realizar la suma de los valores de todos los datos y dividirla entre la cantidad de datos del conjunto.

La libreria NumPy presenta una funcion para determinar el valor promedio de una muestra de datos, la cueal recibe el nombre de `mean()`. En el siguiente enjemplo, vamos a calcular el valor medio correspondiente a las velocidades registradas de 13 coches.

In [7]:
import numpy as np

speed = [99, 86, 87, 88, 111, 86, 103, 87, 94, 78, 77, 85, 86]

x = np.mean(speed)

print("La media de la velocidad es:", x)

La media de la velocidad es: 89.76923076923077


## La Mediana

La mediana de un conjunto de datos consiste en el valor que se encuentra en el centro de dicho conjunto. Para determinar la mediana, debemos ordenar los datos en orden ascendente o descendente y tomar el dato que se encuentra en el punto medio del conjunto.

La libreria NumPy presenta una funcion para estimar la mediana de una muestra de datos, la cual es la funcion `median()`.

In [8]:
x = np.median(speed)

print("La media de la velocidad es:", x)

La media de la velocidad es: 87.0


Para el caso de que una muestra de datos sea de numero par, la mediana se calculara realizando el valor promedio de los dos datos posicionados en el mitad del conjunto.

In [9]:
speed = [99, 86, 87, 88, 86, 103, 87, 94, 78, 77, 85, 86]

x = np.median(speed)

print("La mediana es:", x)

La mediana es: 86.5


## La Moda

La moda de un conjunto de datos consiste en el valor que mas veces aparece en el conjunto.

En la libreria SciPy, se puede calcular la moda de un conjunto mediante la funcion `mode()`.

In [12]:
from scipy import stats

speed = [99, 86, 87, 88, 111, 86, 103, 87, 94, 78, 77, 85, 86]

x = stats.mode(speed)

print("La moda es:", x)


La moda es: ModeResult(mode=np.int64(86), count=np.int64(3))


## La Desviacion Estandar

La desviacion estandar de un conjunto de datos es un valor que cuantifica como es la dispersion de los datos respecto a la media del conjunto. Si la desviacion estandar es baja, eso significa que los datos de la muestra se acercan considerablemente al valor medio. Por el contrario, si la desviacion estandar es alta, significa que los datos de la muestra se alejan bastante del valor medio.

La libreria NumPy presenta una funcion que se encarga de determinar la desviacion estandar de un conjunto de datos, la cual recibe el nombre de `std()`.

In [17]:
speed = [86, 87, 88, 86, 87, 85, 86]

x = np.std(speed)

print("La desviacion estandar es: ", x, "km/h")

La desviacion estandar es:  0.9035079029052513 km/h


In [18]:
speed = [32, 111, 138, 28, 59, 77, 97]

x = np.std(speed)

print("La desviacion estandar es:", x, "km/h")

La desviacion estandar es: 37.84501153334721 km/h


## La Varianza

La varianza de un conjunto de datos representa como de dispersos se encuentran dichos datos respecto al valor promedio de ellos.

Para determinar la varianza de una muestra, debemos realizar el valor promedio de la diferencia de los valores con respecto al valor promedio. Por suerte, la libreria NumPy presenta una funcion llamada `var()`, que nos permite calcular la varianza de un conjunto de datos.

In [22]:
speed = [32, 111, 138, 28, 59, 77, 97]

x = np.var(speed)

print("La varianza es:", x)

La varianza es: 1432.2448979591834


## Los Percentiles

El percentil es un conjunto estadisticos para describir el valor que se encuntra por encima de un cierto porcentaje de una muestra de datos. La libreria NumPy presenta una funcion para poder estimar cualquier percentil de un conjunto de datos, la cual recibe el nombre de `percentile()`.

In [24]:
ages = [5, 31, 43, 48, 50, 41, 7, 11, 15, 39, 80, 82, 32, 2, 8, 6, 25, 36, 27, 61, 31]

x = np.percentile(ages, 75)

print("El 75% de las personsa se encuentran por debajo de", x, "años")

El 75% de las personsa se encuentran por debajo de 43.0 años


In [25]:
ages = [5, 31, 43, 48, 50, 41, 7, 11, 15, 39, 80, 82, 32, 2, 8, 6, 25, 36, 27, 61, 31]

x = np.percentile(ages, 90)

print("El 90% de las personsa se encuentran por debajo de", x, "años")


El 90% de las personsa se encuentran por debajo de 61.0 años
