# ESTIMADOS DE LOCACIÓN Y VARIABILIDAD

## Objetivo

- Utilizar Google Colab en conjunción con Google Drive y Github.
- Identificar qué tipos de datos estructurados existen.
- Identificar los estimados de locación y en qué momento son útiles.
- Identificar valores típicos y atípicos.
- Realizar cálculos estadísticos robustos.
- Identificar los estimados de variabilidad y en qué momento son útiles.
- Identificar los estadísticos de orden.

# Desarrollo

---

## Introducción 


¡Bienvenido al módulo de Data Analysis con Python! Este módulo está enfocado en dos áreas de la Ciencia de Datos:

- Análisis Estadístico
- Visualización de Datos
- Usando las técnicas que aprenderás en este módulo serás capaz de extraer información útil de un conjunto de datos y presentarla de maneras comprensibles y atractivas.

Todos los conjuntos de datos que usaremos en este módulo habrán sido limpiados con anterioridad, para que podamos concentrarnos en los conocimientos nuevos que vamos a adquirir.

El __Procesamiento__ de Datos, que fue el tema del módulo anterior, estará siempre presente a cada paso del proceso, puesto que no hay una separación absoluta entre **Procesamiento, Exploración, Análisis y Visualización**. De todas maneras, se ha hecho un gran esfuerzo por eliminar la necesidad de Procesamiento lo más posible.

# Estimados de Localización y Varabilidad

El módulo anterior estuvo enfocado en aprender a procesar nuestros datasets para dejarlos limpios y ordenados. La razón por la que aprendimos eso fue para poder procesar nuestros datasets de manera que estén listos para extraer información útil de ellos. En este módulo aprendemos qué información podemos extraer de nuestros datasets, por qué queremos extraerla, cómo nos puede ser útil y cómo usar Python para este objetivo.

Lo primero que aprenderemos son estimados de locación y variabilidad. Pero para entender la razón por la que son útiles, primero necesitamos echar un vistazo a los tipos de datos estructurados con los que podemos toparnos.

## Datos Estructurados

Hay básicamente dos tipos de datos estructurados con los que podemos toparnos:

- Numéricos
- Categóricos

Estos a su vez se subdividen en los siguientes:

- Numéricos 
    a) Discretos: Datos que sólo pueden tomar el valor de un número entero, como conteos o edades de personas. 
    b) Continuos: Datos que pueden tomar cualquier valor dentro de un intervalo.
- Categóricos: Datos que sólo pueden tomar un conjunto específico de valores que representan un conjunto de posibles categorías. 
    a) Binarios: Datos categóricos que sólo tienen dos categorías posibles.
    b) Ordinales: Datos categóricos que tienen un orden explícito, como rankings de películas que van del 1 al 10.

Los estimados que vamos a aprender hoy se utilizan para analizar datos numéricos. Y ahora veremos su utilidad.

### ¿Por qué queremos estimados de locación y variabilidad?

Los datos numéricos pueden tener una gran cantidad de variabilidad. Dentro de una sola Serie caben muchos valores posibles: es importante tener una idea general de cuál es nuestro valor "típico" y qué tan lejos o cerca se encuentran los demás valores. Los estimados de locación nos dan este valor "típico", que podemos pensar como el valor que mejor describe a nuestro conjunto de datos. Los estimados de variabilidad (o dispersión) miden qué tan dispersos se encuentran los demás datos de ese valor central.


Este valor típico puede obtenerse utilizando los datos de toda la población (es decir, la totalidad de elementos sobre los que se está haciendo el análisis) o de una muestra de la población (un subconjunto de los elementos que se toma previamente para realizar el análisis). Si quieres entender mejor la diferencia entre población y muestra, puedes dar click [aquí](https://www.diferenciador.com/poblacion-y-muestra/#:~:text=Poblaci%C3%B3n%20se%20refiere%20al%20universo,poblaci%C3%B3n%20para%20realizar%20un%20estudio.&text=Selecci%C3%B3n%20de%20una%20parte%20de,a%20ser%20sujeto%20de%20estudio.).

#### Estimados de locación

Hay muchas maneras de obtener nuestro valor "típico", pero vamos a aprender solamente las 3 más comunes.

**Promedio (mean)** 

El promedio (mean en inglés) se obtiene sumando todos los datos y luego dividiéndolos entre la cantidad de datos que tenemos. Este estimado toma en cuenta todos los datos de nuestro conjunto. Por ejemplo, si tenemos los valores 3, 7, 1, 4, primero los sumaremos para obtener 15 y después los dividiríamos entre 4 (la cantidad de valores que tenemos) para obtener 3.75. Este valor, 3.75 es nuestro valor típico que mejor describe nuestro conjunto.


**Mediana (median)**

La mediana se obtiene ordenando de menor a mayor nuestros valores y luego obteniendo el valor que está justo a la mitad de la secuencia. Por ejemplo, si tenemos 3, 7, 1, 4, 5, primero tendríamos que ordenarlos: 1, 3, 4, 5, 7 y después obtener el valor que está justo en medio: 4. 4 sería nuestro valor típico.
En el caso de que la cantidad de valores sea par, se toma el promedio de los valores que están en medio. Por ejemplo, si tenemos 3, 7, 1, 4, primero los ordenamos: 1, 3, 4, 7. Y después sacamos el promedio entre 3 y 4 para obtener 3.5 como valor típico.

Si eres observador, te habrás percatado de que utilizando el mismo conjunto de datos (3, 7, 1, 4) obtuvimos valores típicos distintos utilizando el promedio y la mediana. ¿Cuál es el criterio entonces para elegir la una o la otra?

**Valores atípicos**

Así como hay valores típicos que sirven para describir nuestro dataset usando un solo valor, también existen valores que son radicalmente distintos al valor típico. Estos valores se encuentran tan alejados del valor típico que pueden pensarse como anomalías en nuestro conjunto de datos.

Piensa por ejemplo en los ingresos económicos mensuales del pueblo mexicano. Si hacemos un conjunto de datos de todos los ingresos mensuales y obtenemos un valor típico, encontraríamos que hay algunos valores en nuestro conjunto que difieren por una gran cantidad del valor típico. Por ejemplo, los ingresos mensuales de Carlos Slim, uno de los humanos más ricos del planeta, definitivamente no son representativos de lo que sucede "en general".

Hay veces que tomar en cuenta estos valores atípicos tiene sentido, pero muchas otras veces es importante lidiar con ellos para obtener un estimado de locación que realmente sea representativo de la población.

Ya que el promedio toma en cuenta todos los datos de nuestro conjunto, es muy sensible a los valores atípicos y fácilmente puede sesgarse si hay algún valor demasiado grande o demasiado pequeño. La mediana, en cambio, es mucho más robusta, puesto que los valores atípicos extremos no afectan demasiado su desempeño.

Se le llama robusto a un estimado estadístico que no es tan sensible a la presencia de valores atípicos.

Podemos simplificar diciendo que el promedio es preferible cuando no tenemos tantos valores atípicos y la mediana es preferible cuando tenemos valores atípicos que podrían afectar nuestro análisis.


**Media Truncada**

La media truncada es un estimado que nos sirve para volver más robusto nuestro promedio. Funciona de la siguiente forma:

- Primero ordenamos nuestros datos de menor a mayor.
- Después truncamos un porcentaje de nuestros datos al inicio y al final. Por ejemplo, si elegimos eliminar el 5% de los datos, eliminaríamos 2.5% de los datos al inicio de la secuencia y 2.5% al final.
- Con los datos restantes, obtenemos nuestro promedio usando el algoritmo original.

La media truncada, al eliminar cierto porcentaje de datos al inicio y al final de nuestra secuencia, intenta disminuir el impacto de los valores atípicos sobre nuestro estimado. Es común eliminar entre el 5% y el 25% de nuestros datos al calcular una media truncada. Obviamente si tenemos un dataset pequeño va a ser preferible tomar la mediana a la media truncada, ya que esta última implica la eliminación de algunas de nuestras muestras.

**Estimados de variabilidad**

Ya que tenemos nuestro estimado de locación (el valor "típico") de nuestro dataset, el siguiente paso es saber qué tan lejanos o cercanos a este valor típico se encuentran los demás datos. Para esto utilizamos los estimados de variabilidad. Uno de los estimados más comunes es la desviación estándar.

1. Desviación estándar

La desviación estándar nos da la "desviación típica" de nuestros datos alrededor del valor típico. Es decir, qué tan dispersos podemos esperar que estén nuestros datos alrededor de nuestro estimado de locación.

Para obtener la desviación estándar, se obtienen primero todas las diferencias entre cada valor y nuestro valor típico. Después se eleva cada valor al cuadrado, se suman todos estos valores, se dividen entre la cantidad de valores - 1, y finalmente se saca la raíz cuadrada del valor resultante.

Si quieres entender paso a paso el algoritmo para calcular la desviación estándar, puedes revisar este [link](https://es.khanacademy.org/math/probability/data-distributions-a1/summarizing-spread-distributions/a/calculating-standard-deviation-step-by-step).

Los valores que se encuentren dentro de 1 desviación estándar del promedio pueden ser considerados comunes y esperados. El único problema es que la desviación estándar también es bastante sensible a valores atípicos. Si tenemos muchos valores atípicos muy extremos, nuestro cálculo podría no ser muy representativo de la población.

Un estimado de variabilidad más robusto es la desviación absoluta de la mediana. No vamos a entrar en detalle, pero si quieres aprender cómo funciona, puedes leerlo


**Estadísticos de Orden**

Otra manera de estimar la dispersión de nuestros datos es analizando los datos ordenándolos de menor a mayor. Este tipo de análisis se llaman estadísticos de orden porque dependen de que nuestros datos estén ordenados de forma ascendente.

Veamos algunos de estos cálculos.


1. Rango

El rango es la diferencia entre el valor mínimo y el valor máximo de nuestro datos. El valor mínimo y el máximo nos pueden dar un buen indicador de la presencia de valores atípicos (sobre todo si los comparamos contra el estimado de locación). El rango es útil pero no es una estadística robusta, ya que si tenemos tan sólo 1 valor atípico demasiado extremo, nuestro rango cambia muy radicalmente.

Para hacer esta estadística más robusta, podemos aplicar la misma técnica que utilizamos en la media truncada y eliminar una porción de los datos al inicio y al final de nuestro conjunto.

2. Percentiles

En un conjunto de datos, el percentil P es un valor que indica que por lo menos P% de los valores en el conjunto tienen este valor o un valor menor; mientras que (100-P)% de los valores tienen este valor o un valor mayor. Por ejemplo, para obtener el percentil 80 primero ordenamos nuestro conjunto de manera ascendente y después elegimos un valor de manera que el 80% de los valores en nuestro conjunto sean iguales o menores a ese valor.

Digamos que tenemos este dataset: 1, 2, 3, 4, 5, 6, 7, 8, 9. El percentil 75 sería 7, ya que el 75% de los datos son menores a 8. El percentil 25 sería 3, mientras que el percentil 50 sería 5.

El percentil 0 es el valor mínimo (1), mientras que el percentil 100 sería el valor máximo (9). Por lo tanto el rango podría pensarse como la diferencia entre el percentil 100 y el percentil 0.

3. Rango intercuartílico

Otra estadística que es utilizada comúnmente es el rango intercuartílico, que está definido como la diferencia entre el percentil 75 y el percentil 50. Es decir, en nuestro dataset 1, 2, 3, 4, 5, 6, 7, 8, 9 el rango intercuartílico sería 7 - 3 = 4.

Sabiendo los percentiles y el rango intercuartílico, podemos darnos una idea bastante precisa de la dispersión de nuestros datos. Por ejemplo, si tenemos un conjunto de datos que cumpla con las siguientes características:

- El valor mínimo es 0
- El valor máximo es 100
- El percentil 25 es 15
- El percentil 75 es 40
- El rango intercuartílico es 25
- La mediana es 25

Podemos deducir viendo estos números que la mayoría de los datos están mucho más cercanos al valor mínimo que al valor máximo. Esto significa que hay un "sesgo" hacia los valores pequeños (pequeños en este contexto, claro) y que parece ser que hay valores muy grandes que están tan distantes de la mediana y de la mayoría de los valores que pueden ser considerados valores atípicos.

Desarrollaremos nuestra intuición acerca de estas estadísticas usando visualizaciones en la siguiente sesión, pero por lo pronto, en la sesión aprenderás a calcular todas estas medidas usando Python y pandas.