https://colab.research.google.com/drive/109RHzqMF2zmI3mFMiXsHFU1Z-Bme7Gtw?usp=sharing

# Análisis de Medidas Estadísticas con Python

**Introducción**

Este documento describe las medidas estadísticas implementadas en Python, abordando las **medidas de tendencia central**, **medidas de dispersión**, **medidas de localización** y **medidas de forma**. Se utilizarán bibliotecas como `numpy`, `scipy` y `pandas`.

---

In [33]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
import scipy
from scipy import stats

In [34]:
# Datos de ejemplo
Edad = [2, 4, 6, 8, 10, 4]
Genero = ['M', 'F', 'M', 'F', 'M', 'F']
Peso = [45, 35, 86, 57, 59, 43]

df = pd.DataFrame({'Edad': Edad, 'Genero': Genero, 'Peso': Peso})
df.head()

# Datos de ejemplo
data = [2, 4, 6, 8, 10, 4]


## Medidas de Tendencia Central
### Media

La **media** es el promedio aritmético de los datos.

**Fórmula**:
$$
\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i
$$

**Ejemplo en Python**:

In [35]:
# Calcular la media con numpy
media = np.mean(data)

print(f'La promedio del conjunto de datos es: {media}')

La promedio del conjunto de datos es: 5.666666666666667


In [36]:
# Con pandas
df['Edad'].mean()

5.666666666666667

In [37]:
# Con stats scipy
stats.tmean(df['Edad'])

5.666666666666667

### Mediana

La **mediana** es el valor central en un conjunto de datos ordenados.

**Fórmula**:

Si \(n\) es impar, la mediana es el valor medio. Si \(n\) es par, es el promedio de los dos valores centrales.

**Ejemplo en Python**:

In [38]:
# Calcular la mediana con numpy
mediana = np.median(data)

print(f'La mediana del conjunto de datos es: {mediana}')


La mediana del conjunto de datos es: 5.0


In [39]:
# Con pandas
df['Edad'].median()

5.0

In [40]:
# Con stats scipy
stats.scoreatpercentile(df['Edad'], 50)

5.0

### Moda
La **moda** es el valor que aparece con mayor frecuencia en un conjunto de datos.

**Ejemplo en Python**:


In [41]:
# Con pandas
df['Edad'].mode()

0    4
Name: Edad, dtype: int64

In [42]:
moda = stats.mode(data)
print(f'Moda: {moda.mode}')

Moda: 4


In [43]:
# Con numpy (Sólo funciona con int)
np.bincount(df['Edad']).argmax

<function ndarray.argmax>

## Medidas de Dispersión

### Varianza
La **varianza** mide la dispersión de los datos respecto a la media.

**Fórmula**:

$$
\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2
$$

$$
s^2 = \frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})^2
$$

**Ejemplo en Python**:

In [44]:
# Con numpy (Varianza poblacional (divisor 𝑁))
varianza = np.var(data)
print(f'Varianza: {varianza}')


Varianza: 7.222222222222222


In [45]:
# Con munpy ((Varianza muestral(Divisor N-1)))
np.var(df['Edad'], ddof=1)

8.666666666666668

In [46]:
# Con pandas (Varianza muestral(Divisor N-1))
df['Edad'].var()

8.666666666666668

### Desviación Estándar
La **desviación estándar** es la raíz cuadrada de la varianza.

**Fórmula**:

$$
\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2}
$$

**Ejemplo en Python**:


In [47]:
# Con numpy (std poblacional (divisor 𝑁))
sd = np.std(data)
print(f'Desviación Estándar: {sd}')


Desviación Estándar: 2.6874192494328497


In [48]:
# Con munpy ((std muestral(Divisor N-1)))
np.std(df['Edad'], ddof=1)

2.9439202887759492

In [49]:
# Con pandas (std muestral(Divisor N-1))
df['Edad'].std()

2.9439202887759492

### Rango
El **rango** es la diferencia entre el valor máximo y el mínimo.

**Fórmula**:

$$
Rango = x_{\text{max}} - x_{\text{min}}
$$

**Ejemplo en Python**:


In [50]:
# Calcular el rango
rango = np.ptp(data)
print(f'Rango: {rango}')


Rango: 8


## Medidas de Localización

### Percentiles
Los **percentiles** dividen los datos en 100 partes iguales.

**Fórmula**:
El percentil \(P_k\) es el valor debajo del cual cae el \(k\)% de los datos.

**Ejemplo en Python**:


In [51]:
# Calcular el percentil 25, 50 y 75 con numpy
percentil_25 = np.percentile(data, 25)
percentil_50 = np.percentile(data, 50)
percentil_75 = np.percentile(data, 75)
percentil_90 = np.percentile(data, 90)
print(f'Percentil 25: {percentil_25}, Percentil 50: {percentil_50}, Percentil 75: {percentil_75},  Percentil 90: {percentil_90}')


Percentil 25: 4.0, Percentil 50: 5.0, Percentil 75: 7.5,  Percentil 90: 9.0


In [52]:
# Con pandas
df['Edad'].quantile(0.5)

5.0

### Cuartiles
Los **cuartiles** dividen los datos en cuatro partes iguales.

**Ejemplo en Python**:

In [53]:
# Calcular los cuartiles con numpy
cuartiles = np.percentile(data, [25, 50, 75])
print(f'Cuartiles: {cuartiles}')

Cuartiles: [4.  5.  7.5]


In [54]:
# Con pandas
df['Edad'].quantile([0.25, 0.5, 0.75])

0.25    4.0
0.50    5.0
0.75    7.5
Name: Edad, dtype: float64

## Medidas de Forma

### Asimetría
La **asimetría** mide la falta de simetría en los datos.

**Fórmula**:

$$
Asimetría = \frac{1}{n} \sum_{i=1}^{n} \left( \frac{x_i - \mu}{\sigma} \right)^3
$$

**Ejemplo en Python**:

In [55]:
# Calcular la asimetría
asimetria = stats.skew(data)
print(f'Asimetría: {asimetria}')

Asimetría: 0.30531626975805126


### Curtosis
La **curtosis** mide la concentración de los datos en torno a la media.

**Fórmula**:

$$
Curtosis = \frac{1}{n} \sum_{i=1}^{n} \left( \frac{x_i - \mu}{\sigma} \right)^4 - 3
$$

**Ejemplo en Python**:

In [56]:
# Calcular la curtosis
k = stats.kurtosis(data)
print(f'Curtosis: {k}')

print("La media de la edad es", media, "cm y la mediana es",mediana,"cm." )

Curtosis: -1.151715976331361
La media de la edad es 5.666666666666667 cm y la mediana es 5.0 cm.


## Rango intercuartílico
Es una medida de dispersión que indica la amplitud del rango central de una distribución de datos. Representa la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1), abarcando el 50% central de los datos.

$$IQR = Q3 - Q1$$

### Uso del IQR para detectar valores atípicos
Los valores que se encuentran a más de 1.5 veces el IQR por debajo de Q1 o por encima de Q3 suelen considerarse valores atípicos (outliers):

$$Límite inferior=Q3-1.5×IQR$$
$$Límite superior=Q3+1.5×IQR$$

Cualquier valor fuera de estos límites podría considerarse un valor atípico y puede analizarse para determinar su impacto en los resultados.