# Principios Estadísticos Fundamentales para la Ciencia de Datos

Este módulo está diseñado para guiar a los principiantes a través de los pilares estadísticos que sustentan la ciencia de datos, partiendo desde conceptos extremadamente básicos hasta ideas más avanzadas. El objetivo es ofrecer una visión clara y orientada a la aplicación práctica, evitando la complejidad innecesaria del formalismo matemático para priorizar la intuición y la interpretación. A lo largo de estas páginas, exploraremos cómo la estadística descriptiva nos permite conocer nuestros datos, cómo la inferencia estadística nos permite generalizar hallazgos, y cómo la teoría de la probabilidad y las distribuciones de probabilidad son herramientas indispensables para modelar incertidumbre y construir predicciones robustas.

## Conociendo Tus Datos: La Estadística Descriptiva

Antes de poder realizar análisis complejos o construir modelos sofisticados, un científico de datos debe comenzar por comprender y describir las características de los datos con los que trabaja. Esta tarea inicial es abordada por la **estadística descriptiva**, una rama de la estadística enfocada en la recopilación, organización, resumen y presentación de datos numéricos para identificar sus rasgos principales. Su propósito fundamental es simplificar grandes volúmenes de información en un conjunto de métricas y representaciones gráficas manejables que revelen patrones, tendencias y anomalías. En el contexto de la ciencia de datos, este primer paso es crucial porque un modelo entrenado sobre datos mal comprendidos producirá resultados erróneos, independientemente de su complejidad. La estadística descriptiva no busca hacer inferencias sobre una población más grande; simplemente describe los datos disponibles.

## Medidas de Tendencia Central
El núcleo de la estadística descriptiva reside en dos tipos de medidas: las de **tendencia central** y las de **dispersión**. Las medidas de tendencia central buscan identificar un valor "típico" o central alrededor del cual se agrupan los datos. Las tres más importantes son la media, la mediana y la moda.

### Media
**Media** Es el promedio aritmético, calculado sumando todos los valores y dividiendo por la cantidad total de ellos. Por ejemplo, si las calificaciones de un estudiante son 85, 90, 78 y 92, la media es (85+90+78+92)/4 = 86.25. La media actúa como un punto de equilibrio o centro de gravedad del conjunto de datos.

### Mediana
**Mediana** Es el valor que se encuentra en el centro de un conjunto de datos ordenados de menor a mayor. Si el número de datos es par, la mediana es el promedio de los dos valores centrales. Por ejemplo, en la lista [1, 3, 3, 6, 7, 8, 9], la mediana es 6. En la lista [1, 2, 3, 4, 5, 6, 7, 8], la mediana es (4+5)/2 = 4.5. Una característica clave de la mediana es su resistencia al sesgo causado por valores atípicos o extremos, lo que la hace preferible en distribuciones asimétricas.

### Moda
**Moda** Es el valor que aparece con mayor frecuencia en un conjunto de datos. Puede haber más de una moda si varios valores tienen la misma frecuencia máxima, o ninguna moda si todos los valores son únicos. Es especialmente útil para datos categóricos nominales.

| Característica | Media | Mediana | Moda |
| :--- | :--- | :--- | :--- |
| **Definición** | Promedio aritmético | Valor central en datos ordenados | Valor más frecuente |
| **Sensibilidad a Outliers** | Alta | Baja (Resistente) | No aplica (categórico) |
| **Aplicación** | Cuantitativa continua/skewness | Cuantitativa/skewed data | Cualitativa/categórica |
| **Ejemplo** | (2+4+6+8)/4 = 5 | Lista impar: [1,3,5] → 3; <br>Par: [1,2,3,4] → 2.5 | [1,1,2,2,2,3] → Moda = 2 |


## Medidas de Dispersión
Las medidas de dispersión, por otro lado, cuantifican la variabilidad o esparcimiento de los datos alrededor de la medida de tendencia central. Son igualmente cruciales porque describen la consistencia de los datos.

### Rango
**Rango:** Es la diferencia entre el valor máximo y el mínimo del conjunto de datos. Es fácil de calcular pero muy sensible a los valores atípicos.

### Varianza
**Varianza ($\sigma^2$):** Mide el promedio de las diferencias al cuadrado de cada dato respecto a la media. Al elevar al cuadrado las diferencias, se asegura que los valores positivos y negativos no se cancelen, y se da más peso a las observaciones más alejadas de la media. Sin embargo, sus unidades son las de los datos originales al cuadrado, lo que puede dificultar su interpretación directa.

### Desviación Estándar
**Desviación Estándar ($\sigma$):** Es la raíz cuadrada de la varianza. Es la medida de dispersión más utilizada porque vuelve a las unidades a las originales de los datos, facilitando su interpretación. Una desviación estándar baja indica que los datos están agrupados cerca de la media, mientras que una alta indica que los datos están más dispersos.

## Herramientas gráficas
Además de estas medidas, la estadística descriptiva utiliza diversas herramientas gráficas. Los **histogramas** son diagramas de barras que muestran la frecuencia de datos dentro de intervalos consecutivos, revelando la forma o distribución de los datos. Los **diagramas de caja (box plots)** visualizan la distribución de los datos a través de su cinco números resumen: mínimo, primer cuartil (Q1), mediana, tercer cuartil (Q3) y máximo, destacando eficazmente los valores atípicos. Otras medidas de posición incluyen los **cuartiles** (dividen los datos en cuatro partes iguales) y los **percentiles** (dividen los datos en cien partes iguales), que son útiles para evaluar el rendimiento relativo de una observación dentro de un grupo. En resumen, la estadística descriptiva es el proceso de limpieza, exploración y resumen inicial que prepara el camino para todas las fases posteriores del análisis de datos.

### Histogramas
Un histograma es una representación gráfica que organiza un conjunto de datos numéricos en intervalos (o "bins") y muestra la frecuencia de datos dentro de cada intervalo mediante barras. A diferencia de un gráfico de barras tradicional, que se utiliza para datos categóricos, un histograma es ideal para datos continuos y ayuda a visualizar la distribución de los datos.

### Diagramas de Caja (Box Plots)
Un diagrama de caja, o box plot, es una herramienta gráfica que resume la distribución de un conjunto de datos a través de sus cinco números resumen: 
- mínimo, 
- primer cuartil (Q1), 
- mediana, 
- tercer cuartil (Q3) y 
- máximo. 

El box plot muestra la mediana como una línea dentro de la caja, que representa el rango intercuartílico (IQR, por sus siglas en inglés), que es la distancia entre Q1 y Q3. Los "bigotes" se extienden desde la caja hasta los valores mínimo y máximo, excluyendo los valores atípicos, que se representan como puntos individuales fuera de los bigotes.