# Medidas de Tendencia Central

Las medidas de tendencia central son estadísticas que nos permiten resumir un conjunto de datos con un solo valor. Las más comunes son la media, la mediana, la varianza y la desviación estándar. Aquí te explico cada una:

**Media (μ)**: Es la suma de todos los valores dividida por el número total de valores. Se calcula con la fórmula:

$$
\mu = \frac{\Sigma x}{N}
$$


donde Σx es la suma de todos los valores y N es el número total de valores.

**Mediana**: Es el valor que divide los datos en dos partes iguales, es decir, el 50% de los datos son menores que la mediana y el otro 50% son mayores. Para calcularla, se ordenan los datos de menor a mayor y se selecciona el valor del medio (o el promedio de los dos valores del medio si el número total de datos es par).

**Varianza (σ²)**: Es una medida de dispersión que indica cuánto varían los datos respecto a su media. Se calcula con la fórmula:

$$
\sigma^2 = \frac{\Sigma (x - \mu)^2}{N}
$$


donde x son los valores individuales, μ es la media y N es el número total de valores.

**Desviación estándar (σ)**: Es la raíz cuadrada de la varianza y proporciona una medida de dispersión que está en las mismas unidades que los datos. Se calcula con la fórmula:

$$
\sigma = \sqrt{\sigma^2}
$$


donde σ² es la varianza.

Para calcular estas medidas en Python puedes usar las funciones `numpy.mean()`, `numpy.median()`, `numpy.var()` y `numpy.std()`, respectivamente.


In [2]:
import random
random.seed(29) # Establecemos la semilla a 29, para que los resultados sean siempre los mismos.
edades = range(17, 66) # Creamos una lista con las edades de 17 a 65 años.
muestra = random.sample(edades, 30) # Seleccionamos 30 edades de la lista anterior.
print(muestra) # Mostramos la muestra.

[52, 21, 39, 55, 62, 35, 22, 49, 63, 42, 43, 18, 19, 23, 45, 31, 57, 59, 32, 27, 36, 34, 30, 40, 65, 50, 48, 24, 61, 37]


In [3]:
import numpy as np # Importamos numpy

print(f"Media: {np.mean(muestra):.2f}") # Mostramos la media de la muestra con dos decimales.
print(f"Mediana: {np.median(muestra)}") # Mostramos la mediana de la muestra.
print(f"Varianza: {np.var(muestra):.2f}") # Mostramos la varianza de la muestra con dos decimales.
print(f"Desviación estándar: {np.std(muestra):.2f}") # Mostramos la desviación estándar de la muestra con dos decimales.
print(f"Desviación estándar: {np.sqrt(np.var(muestra)):.2f}") # Mostramos la desviación estándar de la muestra con dos decimales. Esta es la forma de calcularla sin usar la función np.std.

Media: 40.63
Mediana: 39.5
Varianza: 200.83
Desviación estándar: 14.17
Desviación estándar: 14.17


In [8]:
from statistics import mean, median, median_grouped, pvariance # Importamos las funciones de la librería statistics.

# Media
print(f"Media: {mean(muestra):.2f}") # Mostramos la media de la muestra con dos decimales.

# Mediana
print(f"Mediana: {median(muestra)}") # Mostramos la mediana de la muestra.

# Mediana agrupada
print(f"Mediana agrupada: {median_grouped(muestra)}") # Mostramos la mediana agrupada de la muestra.

# Varianza
print(f"Varianza: {pvariance(muestra):.2f}") # Mostramos la varianza de la muestra con dos decimales.

Media: 40.63
Mediana: 39.5
Mediana agrupada: 39.5
Varianza: 200.83


# Medidas de posición

Las medidas de posición son estadísticas que nos permiten dividir un conjunto de datos en partes iguales. Las más comunes son los cuartiles, los deciles y los percentiles. Aquí te explico cada una:

**Cuartiles**: Son tres valores que dividen un conjunto de datos en cuatro partes iguales. Cada cuartil representa el 25% de los datos.

- **Primer cuartil (Q1)**: El 25% de los datos son menores o iguales a este valor.
- **Segundo cuartil (Q2)**: También conocido como la mediana, el 50% de los datos son menores o iguales a este valor.
- **Tercer cuartil (Q3)**: El 75% de los datos son menores o iguales a este valor.

Para calcular los cuartiles en Python puedes usar la función `numpy.percentile()` con los percentiles 25, 50 y 75 respectivamente.

**Deciles**: Son nueve valores que dividen un conjunto de datos en diez partes iguales. Cada decil representa el 10% de los datos.

**Percentiles**: Son cien valores que dividen un conjunto de datos en cien partes iguales. Cada percentil representa el 1% de los datos.

Para calcular los deciles y percentiles en Python también puedes usar la función `numpy.percentile()` con los percentiles correspondientes.


In [4]:
# Tercer cuartil
print(f"Tercer cuartil: {np.percentile(muestra, 75)}") # Mostramos el tercer cuartil de la muestra.

# Segundo cuartil
print(f"Segundo cuartil: {np.percentile(muestra, 50)}") # Mostramos el segundo cuartil de la muestra.

# Cuarto decil
print(f"Cuarto decil: {np.percentile(muestra, 40)}") # Mostramos el cuarto decil de la muestra.

# Decimoséptimo percentil
print(f"17mo percentil: {np.percentile(muestra, 17)}") # Mostramos el decimoséptimo percentil de la muestra.

Tercer cuartil: 51.5
Segundo cuartil: 39.5
Cuarto decil: 35.6
17mo percentil: 23.93


# Trabajando con dataset

## Importar la biblioteca pandas
Pandas es una biblioteca de Python que proporciona estructuras de datos y herramientas de análisis de datos. Para usarla, primero debes importarla:

```python
import pandas as pd
```
## Leer los datos
Pandas puede leer datos en muchos formatos, incluyendo CSV, Excel y SQL. Por ejemplo:

```python
pd.read_excel('rutal/al/archivo.xls')
```
## Explorar los datos
Puedes obtener una visión general de tus datos usando varias funciones de pandas:

**df.head()**: Muestra las primeras filas del DataFrame.

**df.info()**: Muestra un resumen conciso de tu DataFrame, incluyendo el número de entradas no nulas y los tipos de datos.

**df.describe()**: Muestra estadísticas descriptivas de las columnas numéricas.

## Manipular datos
Pandas proporciona muchas funciones para manipular tus datos:

**df.replace()**: Reemplaza los valores en una columna.

```python
df['columna'].replace({'valor_original': 'nuevo_valor'})
```

**df.astype()**: Cambia el tipo de datos de una columna.

```python
df['columna'].astype('tipo')
```
