# Medidas de Tendencia Central y Dispersión

## 1. Configuración Inicial
Importamos las librerías necesarias. Usaremos `scipy.stats` para cálculos más precisos de la moda si fuera necesario, aunque Pandas también lo permite.

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Configuración de gráficos
sns.set_theme(style="whitegrid")

# Función auxiliar para imprimir estadísticas de forma limpia
def mostrar_estadisticas(nombre_columna, serie):
    print(f"--- Estadísticas de: {nombre_columna} ---")
    print(f"Media (Promedio): {serie.mean():.2f}")
    print(f"Mediana:          {serie.median():.2f}")
    print(f"Moda:             {serie.mode()[0]}")
    print(f"Rango:            {serie.max() - serie.min():.2f}")
    print(f"Varianza:         {serie.var():.2f}")
    print(f"Desviación Std:   {serie.std():.2f}")
    print("-" * 30 + "\n")

## 2. Caso 1: Pasajeros del Titanic
Analizaremos la **Edad** (`age`) y la **Tarifa** (`fare`) pagada.
Estas variables nos dirán si los pasajeros eran mayoritariamente jóvenes o mayores, y qué tan desiguales eran los precios de los boletos.

In [None]:
# Cargar datos
df_titanic = sns.load_dataset('titanic')

# Selección de columnas numéricas (eliminando nulos para el cálculo)
edad = df_titanic['age'].dropna()
tarifa = df_titanic['fare'].dropna()

# 1. Cálculos Estadísticos
mostrar_estadisticas("Edad (Age)", edad)
mostrar_estadisticas("Tarifa (Fare)", tarifa)

# 2. Visualización
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

sns.histplot(edad, kde=True, ax=axes[0], color='skyblue')
axes[0].set_title('Distribución de Edades')
axes[0].axvline(edad.mean(), color='red', linestyle='--', label='Media')
axes[0].axvline(edad.median(), color='green', linestyle='-', label='Mediana')
axes[0].legend()

sns.boxplot(x=tarifa, ax=axes[1], color='lightgreen')
axes[1].set_title('Dispersión de Tarifas')

plt.tight_layout()
plt.show()

### Interpretación: Titanic
* **Edad:** La media (~29.7) y la mediana (~28) están muy cerca, lo que indica una distribución bastante simétrica. La desviación estándar (~14.5) nos dice que había una variedad moderada de edades (niños y ancianos).
* **Tarifa:** Aquí vemos una gran diferencia. La media (~32.2) es mucho mayor que la mediana (~14.45). Esto indica un **sesgo a la derecha** causado por unos pocos boletos extremadamente caros (outliers visibles en el boxplot), que "jalan" el promedio hacia arriba.

## 3. Caso 2: Flores Iris
El dataset Iris mide las dimensiones de los pétalos y sépalos de 3 especies de flores.
Analizaremos el **Largo del Sépalo** (`sepal_length`) y el **Largo del Pétalo** (`petal_length`).

In [None]:
# Cargar datos
df_iris = sns.load_dataset('iris')

sepal_l = df_iris['sepal_length']
petal_l = df_iris['petal_length']

# 1. Cálculos
mostrar_estadisticas("Largo Sépalo", sepal_l)
mostrar_estadisticas("Largo Pétalo", petal_l)

# 2. Visualización (Comparativa por Especie para dar contexto)
plt.figure(figsize=(10, 6))
sns.boxplot(data=df_iris, orient='h', palette="Set2")
plt.title('Dispersión de Medidas en Iris')
plt.show()

### Interpretación: Iris
* **Variabilidad:** La varianza del *Largo del Pétalo* (~3.11) es mucho mayor que la del *Largo del Sépalo* (~0.68).
* **¿Por qué?** Si miramos el boxplot, vemos que el largo del pétalo tiene un rango enorme (de 1 a 6.9). Esto se debe a que las diferentes especies de Iris tienen tamaños de pétalos radicalmente distintos, mientras que sus sépalos son más uniformes entre sí.

## 4. Caso 3: Propinas en Restaurante
Analizaremos la **Cuenta Total** (`total_bill`) y la **Propina** (`tip`).
¿Qué tan dispersas son las propinas? ¿Suelen agruparse alrededor de un valor común?

In [None]:
# Cargar datos
df_tips = sns.load_dataset('tips')

cuenta = df_tips['total_bill']
propina = df_tips['tip']

# 1. Cálculos
mostrar_estadisticas("Cuenta Total", cuenta)
mostrar_estadisticas("Propina", propina)

# 2. Visualización: Relación entre ambas
plt.figure(figsize=(8, 6))
sns.scatterplot(x=cuenta, y=propina, alpha=0.6, color='purple')
plt.title('Relación Cuenta vs Propina')
plt.xlabel('Cuenta Total ($)')
plt.ylabel('Propina ($)')

# Añadir líneas de promedio
plt.axvline(cuenta.mean(), color='red', linestyle='--', label=f'Media Cuenta: {cuenta.mean():.2f}')
plt.axhline(propina.mean(), color='blue', linestyle='--', label=f'Media Propina: {propina.mean():.2f}')
plt.legend()
plt.show()

### Interpretaciónes
* **Propinas:** La propina media es de ~$3.00, con una desviación estándar baja (~1.38). Esto sugiere que la gente es consistente con lo que deja.
* **Relación:** Aunque la cuenta varía bastante (Desv. Std ~8.9), la gráfica muestra que la propina crece proporcionalmente.
* **Moda:** Si revisamos la moda de la cuenta, veremos que ciertos valores "redondos" o comunes se repiten más, lo cual es típico en precios de menús.