üîπ RESUMEN CONCISO

Las medidas de localizaci√≥n buscan resumir d√≥nde se concentra la mayor√≠a de los datos.

**1. Media (Mean)**

Promedio cl√°sico. Usa todos los valores. Es sensible a valores extremos (outliers).

**2. Media recortada (Trimmed Mean)**

Promedio despu√©s de eliminar un porcentaje de valores m√°s bajos y m√°s altos. Reduce el impacto de outliers.

**3. Mediana (Median)**

Valor central de los datos ordenados. Es robusta: casi no cambia si hay valores extremos.

**4. Media ponderada (Weighted Mean)**

Promedio donde cada dato tiene distinta importancia (peso). Se usa cuando unas observaciones representan m√°s que otras.

**5. Mediana ponderada (Weighted Median)**

Valor que divide los datos en dos partes con el mismo peso total. Es robusta y considera importancia relativa.

In [None]:
import pandas as pd
import numpy as np
from scipy.stats import trim_mean
import wquantiles

state = pd.read_csv("state.csv")

mean_population = state["Population"].mean() # mean
trimmed_population = trim_mean(state["Population"], 0.1) # elimina 10 de los estados menos y mas poblados
median_population = state["Population"].median() # mediana

mean_population, trimmed_population, median_population


(np.float64(6162876.3), np.float64(4783697.125), 4436369.5)

In [None]:
np.average(state['Murder.Rate'], weights=state['Population']) # media ponderado

wquantiles.median(state['Murder.Rate'], weights=state['Population']) # Mediana ponderada

np.float64(4.4)

Interpretaci√≥n

Aqu√≠ cada estado pesa seg√∫n su poblaci√≥n. As√≠ obtenemos una tasa representativa del pa√≠s, no de un ‚Äúestado promedio‚Äù.
En este dataset, media ponderada y mediana ponderada son muy parecidas ‚Üí no hay estados con tasas extremadamente raras que dominen el resultado.

In [14]:
import numpy as np
from scipy.stats import trim_mean

sueldos = np.array([1200, 1300, 1250, 1400, 1350, 50000])  # gerente extremo

np.mean(sueldos), trim_mean(sueldos, 0.1), np.median(sueldos)


(np.float64(9416.666666666666),
 np.float64(9416.666666666666),
 np.float64(1325.0))


## üîπ **Deviations (Desviaciones)**

**Qu√© es:**
La diferencia entre cada dato y el valor central (media o mediana).

$[\text{desviaci√≥n} = x_i - \text{centro}]$

**Qu√© significa:**

Indica cu√°nto se aleja cada observaci√≥n del valor t√≠pico.
Son la base de casi todas las medidas de variabilidad.

**Ejemplo:**
Si la media es 10 y un dato es 13 ‚Üí desviaci√≥n = +3.

---

## üîπ **Variance (Varianza)**

**Qu√© es:**
Promedio de las desviaciones **al cuadrado** respecto a la media.

$[s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1}]$

**Qu√© significa:**
Mide cu√°nta dispersi√≥n hay, pero en unidades al cuadrado.
Penaliza mucho valores extremos.

**Idea clave:**
Si la varianza es grande ‚Üí los datos est√°n muy dispersos.

---

## üîπ **Standard Deviation (Desviaci√≥n est√°ndar)**

**Qu√© es:**
Ra√≠z cuadrada de la varianza.

$[s = \sqrt{s^2}]$

**Qu√© significa:**
Es la distancia ‚Äút√≠pica‚Äù de los datos respecto a la media.
Est√° en las **mismas unidades** que los datos.

üìå Es la medida de variabilidad m√°s usada.

---

## üîπ **Mean Absolute Deviation (Desviaci√≥n Absoluta Media)**

**Qu√© es:**
Promedio de las distancias absolutas respecto a la media.

$[\frac{1}{n} \sum |x_i - \bar{x}|]$

**Qu√© significa:**
Mide cu√°nto se alejan los datos en promedio, sin usar cuadrados.
M√°s intuitiva que la varianza, pero menos usada en modelos estad√≠sticos.

---

## üîπ **Median Absolute Deviation (MAD)**

**Qu√© es:**
Mediana de las distancias absolutas respecto a la **mediana**.

$[MAD = \text{mediana}(|x_i - m|)]$

**Qu√© significa:**
Dispersi√≥n t√≠pica de los datos centrales.
Es **robusta**, casi no cambia si hay valores extremos.

Muy √∫til en datos con outliers.

---

## üîπ **Range (Rango)**

**Qu√© es:**
M√°ximo ‚àí M√≠nimo.

**Qu√© significa:**
Mide la amplitud total de los datos.
Pero depende solo de dos valores ‚Üí muy sensible a outliers.

---

## üîπ **Order Statistics (Estad√≠sticos de orden)**

**Qu√© es:**
Medidas que se calculan despu√©s de ordenar los datos.

**Qu√© significa:**
Incluyen mediana, percentiles, IQR, etc.
Se basan en la **posici√≥n** de los datos, no en su distancia al promedio.

---

## üîπ **Percentile (Percentil)**

**Qu√© es:**
Valor por debajo del cual cae un porcentaje de los datos.

**Qu√© significa:**

* P50 = mediana
* P25 = 25% de los datos est√°n por debajo
* P90 = 90% de los datos son menores

Ayuda a entender la distribuci√≥n sin asumir normalidad.

---

## üîπ **Interquartile Range (IQR)**

**Qu√© es:**
Diferencia entre el percentil 75 y el percentil 25.

$[IQR = P_{75} - P_{25}]$

**Qu√© significa:**
Mide la dispersi√≥n del 50% central de los datos.
Ignora valores extremos ‚Üí es robusto.

Muy usado en boxplots.

---

## üéØ Idea global

| Tipo                      | Qu√© mide realmente                      |
| ------------------------- | --------------------------------------- |
| Varianza / Desv. est√°ndar | Dispersi√≥n promedio respecto a la media |
| MAD / IQR                 | Dispersi√≥n t√≠pica ignorando extremos    |
| Rango                     | Amplitud total                          |
| Percentiles               | Posici√≥n relativa dentro de los datos   |

---




In [21]:
from statsmodels import robust

state["Population"].std()
state['Population'].quantile(0.75) - state['Population'].quantile(0.25)
robust.scale.mad(state['Population'])

np.float64(3849876.1459979336)