# Medidas de tendencia central

Es importante que no todas las medidas de tendencia son aplicables a los dos tipos de variables, numéricas y categóricas, y que también algunas de ellas son más susceptibles a los valores extremos (outliers)

Medidas de tendencia

- Media o promedio geométrico y aritmético
- Mediana
- Moda
- Error típico o desviación estándar

Criterios de aplicación

-Según el tipo de variables y susceptibilidad a valores extremos.


In [3]:
# Numpy es clave en el desarrollo de funciones numéricas.
import numpy as np
import pandas as pd
import scipy
import scipy.stats

In [4]:
#Usamos Pandas para traer el data frame con el que vamos a trabajar.
df = pd.read_csv('bicicletas-compartidas.csv')
df.columns

Index(['fecha', 'bicis-compartidas', 'temp-obs', 'sens-temp', 'hum', 'viento',
       'codigo-clima', 'festivo', 'findesemana', 'cuartil-ano'],
      dtype='object')

In [10]:
# Definimos la variable "y" que vamos a analizar, variable objetivo. Que será bicicletas compartidas
y = df['bicis-compartidas'].values
y
#Limpiamos el areeglo de ceros, que son valores que no van a permitir hacer calculos dentro de numpy
y = np.where(y == 0, 1, y) #Cuando es 0, se reemplaza por "1" de lo contrario conserve "Y"


#### Mediciones Básicas

In [11]:
#Minimo valor del df
np.min(y)

1

In [12]:
#Máximo valor del df
np.max(y)

7860

In [None]:
# promedio: sum(yi)/n

In [13]:
#Promedio
np.mean(y)

1143.1016997817849

In [None]:
np.sum(y)/len(y)

#### Media geométrica :

“Frecuentemente se usa una media geométrica cuando se comparan diferentes aspectos, cuyos rendimientos tienen unidades de medida en diferentes rangos numéricos. Por ejemplo, la media geométrica puede dar un valor serio para comparar dos empresas que tienen una calificación entre 0 a 5 por su sostenibilidad ambiental, y una calificación entre 0 a 100 por su viabilidad financiera. Si se usara la media aritmética en lugar de la media geométrica, la viabilidad financiera tendría mayor peso porque su rango numérico es mayor. Es decir, un pequeño cambio porcentual en la calificación financiera (por ejemplo, pasar de 80 a 90) haría una diferencia mucho mayor en la media aritmética que un gran cambio porcentual en la sostenibilidad ambiental (por ejemplo, pasar de 2 a 5). El uso de la media geométrica normaliza los valores de rango diferente, lo que significa que un cambio de porcentaje dado en cualquiera de las propiedades tiene el mismo efecto en la media geométrica. Entonces, un cambio del 20% en la sostenibilidad ambiental de 4 a 4.8 tiene el mismo efecto en la media geométrica que un cambio del 20% en la viabilidad financiera de 60 a 72” En otras palabras Media geométrica permite comparar la variabilidad en dos grupos, teniendo en cuenta el intervalo en el que se desarrollan.

In [14]:
# Calculamos la media geométrica (media armónica)
scipy.stats.mstats.hmean(y)

241.65180305136826

In [15]:
#El valor que divide el conjunto de datos en dos mitades. Es el famoso percentil 50.
np.median(y)

844.0

In [None]:
# En numpy la moda no viene declarada, por lo que hay que calcularla.
#moda = valor de y con la maxima frecuencia
# Inicializamos como un valor nulo con numpy Nan, nan quiere decir que es un valor nulo.
moda =np.nan

# Empezamos a contar valores y frecuencias, para hacer esto podemos hacerlo con "unique". 
# La función unique() nos permite encontrar los valores únicos de un array 
valores, conteo_valores = np.unique(y, return_counts = True)

# Con argmax encontramos la posición de mayor valor. Retorna índices del máximo valor a lo largo del eje.
pos = np.argmax(conteo_valores)
moda = valores[pos]

In [None]:
moda

In [None]:
# Medidas de dispersión Desviación estándar.
# Que tanto se alejan los valores "yi" de su promedio
np.std(y)

Revisiones

In [None]:
# Añadimos un valor extremo para saber qué tanto cambian estos valores
y_alterado = y.copy()
y_alterado[ y_alterado == max(y_alterado)] = 10000000

In [None]:
# Queremos ver e cambio en la media cuando encontramos un valor extremo. o Outliers.
print( np.mean(y) )
print( np.mean(y_alterado) )

In [None]:
# La media de y_alterada muestra las desviaciones.
print( np.median(y))

In [None]:
print( np.median(y_alterado))