# Estimates Of Location
*Medidas de posición*

In [1]:
import numpy as np
import pandas as pd

In [2]:
datos = [10, 12, 9, 23, 16, 14]

## Mean
*Media*

In [3]:
def mean(datos):
    suma = 0
    
    for i in datos:
        suma = suma+i
    
    return (suma/len(datos))

In [4]:
mean(datos)

14.0

## Trimmed mean
*Media recordata*

In [5]:
def trimmed_mean(datos,p):
    datos.sort()
    suma = 0
    for i in datos[p:-p]:
        suma = suma+i
    return (suma/(len(datos)-2*p))

In [6]:
trimmed_mean(datos,2)

13.0

## Weighted mean
*Media ponderada*

In [7]:
def weighted_mean(x,y):
    X= np.array(x)
    W = np.array(w)
    return np.sum(X*W)/np.sum(W)


In [8]:
# coeficientes
x = [1,2,3,4]
# pesos
w = [2,10,5,4]

weighted_mean(x,w)

2.5238095238095237

## Cálculo con funciones
*Cuando trabajamos con más datos, el definir funciones de acuerdo a las fórmulas queda atrás, pues ya existen librerías que nos ahorran tiempo y trabajo.*


*Ya aprendimos a implementar funciones para encontrar los estadísticos, según su fórmula. Ahora apliquemos a un DataFrame*

In [9]:
data = pd.read_csv("./Data/state.csv")
data.head()

Unnamed: 0,State,Population,Murder.Rate,Abbreviation
0,Alabama,4779736,5.7,AL
1,Alaska,710231,5.6,AK
2,Arizona,6392017,4.7,AZ
3,Arkansas,2915918,5.6,AR
4,California,37253956,4.4,CA


Compute the mean, trimmed mean, and median for Population.

In [10]:
mediana = np.median(data['Population'])
mediana

4436369.5

In [11]:
# Otra forma de escribirlo
media = data['Population'].mean()
media

6162876.3

In [12]:
# Para trim_mean necesitamos una nueva libreria
from scipy.stats import trim_mean

#calculate 10% trimmed mean
recortada = trim_mean(data['Population'], 0.1)
recortada

4783697.125

*Si quisieramos ver el promedio de asesinatos `Murder.Rate`*

In [13]:
data['Murder.Rate'].mean()

4.066

In [14]:
#pip install wquantiles

In [15]:
import wquantiles
wquantiles.median(data['Murder.Rate'], weights=data['Population'])

4.4

## Cuantiles

In [16]:
# El método .quantile() devuelve por defecto la mediana
data['Population'].quantile()

4436369.5

In [17]:
# Podemos sacar los cuantiles que especifiquemos
data['Population'].quantile([.10, .25, .50, .75, .90])

0.10      889558.60
0.25     1833004.25
0.50     4436369.50
0.75     6680312.25
0.90    12715204.30
Name: Population, dtype: float64

#  Estimates Of Variability
*Medidas de desviación*

## Variance
*Varianza*

Si lo hicieramos con una función

In [18]:
def variance(data_arr):
    mean = data_arr.mean()

    variance = np.sum((data_arr-mean)**2)/(data_arr.size-1)

    return variance

variance(data['Population'])

46898327373394.445

In [19]:
data['Population'].var()

46898327373394.445

Obtenemos el mismo resultado

## Standard deviation
*Desviación estándar*

Veamos la forma de hacerlo con la fórmula

In [20]:
def standard_deviation(data_arr):
    std_dev = variance(data_arr)**0.5

    return std_dev

standard_deviation(data['Population'])

6848235.347401142

In [21]:
data['Population'].std()

6848235.347401142

## Mean absolute deviation
*Media de los valores absolutos*

In [22]:
# Mean absolute deviation
mean_absolute_deviation = np.sum(np.abs(data['Population']-data['Population'].mean())) / data.Population.size

mean_absolute_deviation

4450933.356000001

## Mean deviation
*Desviación media*

In [23]:
data['Population'].mad()

4450933.356000001

## Percentile
*Percentil*

El valor tal que P por ciento de los valores toman este valor o menos y (100–P) por ciento toman este valor o más.

En Numpy, tenemos cinco enfoques para calcular los percentiles, uno de los más usados es que usa la interpolación lineal. También, podemos hacerlo con Pandas

In [24]:
# Nos indica que el 25% de los estados tendra una poblacion de al menos 6680212.25
data['Population'].quantile(0.75)

6680312.25

Interpretación: el 10% de los estados tienen una población de 12715204.3

In [25]:
data['Population'].quantile(0.90)

12715204.3

## Cuantiles y el IQR

*InterQuantile Range* : un IQR bajo nos diría que los datos no son tan dispersos y eso quizás no estaría tan apegado a la realidad.

Para visualizarlo, podemos usar un **boxplot** o diagrama de caja, este nos permite ver la distribución de los datos. Otra alternativa es usar la tabla de frecuencia.