# Análisis de Datos: Estadística Descriptiva en Python

La **estadística descriptiva** es el primer paso en cualquier análisis de datos. Consiste en un conjunto de medidas que resumen y describen las características principales de un dataset. Nos ayuda a responder preguntas como:

* ¿Cuál es el valor "típico" o central de mis datos? (Medidas de Tendencia Central)
* ¿Qué tan dispersos o variados son mis datos? (Medidas de Dispersión)

Para este ejercicio, usaremos la librería nativa `statistics` de Python.

## 1. Nuestro Conjunto de Datos

Imaginemos que tenemos los datos de ventas mensuales (en miles de USD) de una tienda durante un año.

In [22]:
import statistics
import csv


# Diccionario para guarda el dato de las ventas mensuales
ventas_mensuales = {}

# Variable para guardar el path del archivo a manipular
archivo_ventas = 'monthly_sales.csv'

# Abrir el archivo CSV
with open(archivo_ventas, mode='r') as file_CSV:
    lectura_archivo = csv.DictReader(file_CSV)
    for row in lectura_archivo:
        month = row['month']
        sales = int(row['sales'])
        ventas_mensuales[month] = sales

# Lista con las ventas mensuales
ventas_mensuales = list(ventas_mensuales.values())
print(ventas_mensuales)

[120, 130, 150, 170, 160, 180, 190, 200, 210, 190, 185, 210]


## 2. Medidas de Tendencia Central

Nos indican dónde se encuentra el "centro" de nuestros datos.

### Media (Promedio)
Es la suma de todos los valores dividida por el número de valores. Es sensible a valores extremos (outliers).

**Fórmula:**
$$ \text{Media} (\mu) = \frac{\sum_{i=1}^{n} x_i}{n} $$

In [23]:
# Calcular la media
media_ventas = statistics.mean(ventas_mensuales)
print(f"La media de ventas es: ${media_ventas:.2f} mil USD")

La media de ventas es: $174.58 mil USD


### Mediana
Es el valor que se encuentra justo en el medio del conjunto de datos **cuando está ordenado**. Es mucho más robusta a valores extremos que la media.

**Fórmula:** Si n es impar, es el valor central. Si n es par, es el promedio de los dos valores centrales.

In [25]:
# Calcular la mediana
mediana_ventas = statistics.median(ventas_mensuales)
print(f"La mediana de ventas es: ${mediana_ventas:.2f} mil USD")
print("Nota: Fíjate cómo la mediana (129.0) es muy diferente a la media (158.33).")

La mediana de ventas es: $182.50 mil USD
Nota: Fíjate cómo la mediana (129.0) es muy diferente a la media (158.33).


### Moda
Es el valor que aparece con mayor frecuencia en el conjunto de datos. Puede haber más de una moda o ninguna.

In [26]:
# Calcular la moda
try:
    moda_ventas = statistics.mode(ventas_mensuales)
    print(f"La moda de ventas es: ${moda_ventas} mil USD")
except statistics.StatisticsError:
    print("No se encontró una única moda en los datos.")

La moda de ventas es: $190 mil USD


## 3. Medidas de Dispersión

Nos indican qué tan "esparcidos" están los datos alrededor del centro.

### Varianza
Es el promedio de las diferencias al cuadrado entre cada valor y la media. Es difícil de interpretar porque sus unidades están al cuadrado.

**Fórmula:**
$$ \text{Varianza} (\sigma^2) = \frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n} $$

In [27]:
# Calcular la varianza poblacional
varianza_ventas = statistics.pvariance(ventas_mensuales)
print(f"La varianza de las ventas es: {varianza_ventas:.2f}")

La varianza de las ventas es: 797.74


### Desviación Estándar
Es la raíz cuadrada de la varianza. Es la medida de dispersión más común porque está en las **mismas unidades** que los datos originales, lo que la hace mucho más fácil de interpretar.

**Fórmula:**
$$ \text{Desviación Estándar} (\sigma) = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n}} $$

In [28]:
# Calcular la desviación estándar poblacional
desviacion_estandar_ventas = statistics.pstdev(ventas_mensuales)
print(f"La desviación estándar de las ventas es: ${desviacion_estandar_ventas:.2f} mil USD")

La desviación estándar de las ventas es: $28.24 mil USD


## 4. Medidas de Posición y Rango

Nos dan una idea de los límites de nuestros datos.

In [29]:
# Mínimo y Máximo
valor_minimo = min(ventas_mensuales)
valor_maximo = max(ventas_mensuales)

print(f"La venta mínima fue de: ${valor_minimo} mil USD")
print(f"La venta máxima fue de: ${valor_maximo} mil USD")

# Rango
rango_ventas = valor_maximo - valor_minimo
print(f"El rango de las ventas es de: ${rango_ventas} mil USD")

La venta mínima fue de: $120 mil USD
La venta máxima fue de: $210 mil USD
El rango de las ventas es de: $90 mil USD
