# 📊 Estadísticas Básicas para Machine Learning: Los Cimientos de los Datos

---

## 🎯 Objetivo de este Notebook

Este notebook te introducirá a los **conceptos estadísticos básicos** que son fundamentales para entender y trabajar con datos en Machine Learning. Veremos cómo describir conjuntos de datos numéricos y cómo visualizar sus características principales.

Al finalizar este notebook, serás capaz de:
* Entender y calcular medidas de tendencia central (media, mediana, moda).
* Entender y calcular medidas de dispersión (rango, varianza, desviación estándar).
* Generar datos aleatorios en Python y aplicarles estos conceptos.
* Crear histogramas y diagramas de caja para visualizar la distribución de los datos.

---

## 1. Medidas de Tendencia Central: ¿Dónde está el Centro de mis Datos?

Las medidas de tendencia central nos dicen dónde se agrupan los valores de un conjunto de datos.

### a) Media (Promedio)
La **media** es la suma de todos los valores dividida por el número total de valores. Es la medida más común, pero sensible a valores extremos (outliers).

$$ \text{Media} (\bar{x}) = \frac{\sum_{i=1}^{n} x_i}{n} $$

### b) Mediana
La **mediana** es el valor central de un conjunto de datos cuando estos están ordenados de menor a mayor. Si hay un número par de datos, es el promedio de los dos valores centrales. Es robusta frente a los outliers.

---

### c) Moda
La **moda** es el valor que aparece con mayor frecuencia en un conjunto de datos. Un conjunto de datos puede tener una moda, varias modas (bimodal, multimodal) o ninguna moda.

### Ejercicio 1 (Basado en Ejercicio 3 del Módulo 1.2): Calcular Media, Mediana y Moda con Python

Vamos a crear una lista de números (simulando calificaciones de estudiantes) y calcularemos sus medidas de tendencia central usando `NumPy` y `SciPy` (librerías fundamentales para cálculo numérico y científico en Python).

In [None]:
import numpy as np
from scipy import stats

# Lista de calificaciones de estudiantes
calificaciones = [6, 7, 8, 5, 9, 7, 6, 10, 4, 7]

print(f"Calificaciones: {calificaciones}")

# Calcular la Media
media = np.mean(calificaciones)
print(f"Media: {media:.2f}")

# Calcular la Mediana
mediana = np.median(calificaciones)
print(f"Mediana: {mediana}")

# Calcular la Moda
# stats.mode devuelve la moda y su conteo. Usamos .mode[0] para obtener solo el valor de la moda.
moda = stats.mode(calificaciones, keepdims=True)[0][0] 
print(f"Moda: {moda}")

print("\n--- Tu Turno: Cambia las calificaciones y vuelve a ejecutar ---")
tus_numeros = [1, 2, 2, 3, 4, 4, 4, 5, 6] # ¡Prueba con tus propios números!
print(f"Tus números: {tus_numeros}")
print(f"Media de tus números: {np.mean(tus_numeros):.2f}")
print(f"Mediana de tus números: {np.median(tus_numeros)}")
print(f"Moda de tus números: {stats.mode(tus_numeros, keepdims=True)[0][0]}")

---

## 2. Medidas de Dispersión: ¿Qué Tan Dispersos Están mis Datos?

Las medidas de dispersión nos dicen cuánto se extienden o varían los valores en un conjunto de datos.

### a) Rango
El **rango** es la diferencia entre el valor máximo y el valor mínimo en el conjunto de datos. Es una medida sencilla pero sensible a outliers.

### b) Varianza
La **varianza** mide la dispersión promedio de cada valor respecto a la media. Cuanto mayor es la varianza, más dispersos están los datos. Se calcula como la media de las diferencias al cuadrado con la media.

$$ \text{Varianza} (\sigma^2) = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n} $$

### c) Desviación Estándar
La **desviación estándar** es la raíz cuadrada de la varianza. Es más fácil de interpretar que la varianza porque está en las mismas unidades que los datos originales. Nos dice, en promedio, cuánto se desvían los valores de la media.

$$ \text{Desviación Estándar} (\sigma) = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n}} $$

### Ejercicio 2 (Basado en Ejercicio 5 del Módulo 1.3): Generar Datos Aleatorios y Calcular Medidas de Dispersión

Usaremos `NumPy` para generar un conjunto de datos aleatorios y luego calcularemos sus medidas de dispersión.

In [None]:
import numpy as np

# Generar 100 números aleatorios distribuidos normalmente (simulando, por ejemplo, alturas de personas)
# np.random.normal(media, desviacion_estandar, cantidad_de_numeros)
np.random.seed(42) # Para que los resultados sean reproducibles
alturas = np.random.normal(loc=170, scale=10, size=100) # Media 170cm, Desv. Est. 10cm

print("Primeras 5 alturas generadas:")
print(alturas[:5])

# Calcular el Rango
rango = np.max(alturas) - np.min(alturas)
print(f"\nRango: {rango:.2f}")

# Calcular la Varianza
varianza = np.var(alturas)
print(f"Varianza: {varianza:.2f}")

# Calcular la Desviación Estándar
desviacion_estandar = np.std(alturas)
print(f"Desviación Estándar: {desviacion_estandar:.2f}")

print("\n--- Tu Turno: Genera otro conjunto de datos con diferente media y desviación estándar ---")
np.random.seed(100) # Otra semilla para otros resultados
pesos = np.random.normal(loc=70, scale=5, size=50) # Media 70kg, Desv. Est. 5kg, 50 números

print("Primeros 5 pesos generados:")
print(pesos[:5])
print(f"Rango de pesos: {np.max(pesos) - np.min(pesos):.2f}")
print(f"Varianza de pesos: {np.var(pesos):.2f}")
print(f"Desviación Estándar de pesos: {np.std(pesos):.2f}")

---

## 3. Distribución Normal y Representación Gráfica

La **Distribución Normal** (también conocida como campana de Gauss) es una de las distribuciones de probabilidad más importantes y comunes en estadística. Muchas variables naturales (como la altura o el peso de una población) tienden a seguir esta distribución. Es simétrica alrededor de su media.

Las visualizaciones son clave para entender la distribución de nuestros datos.

### Ejercicio 3 (Basado en Ejercicio 6 del Módulo 1.3): Crear Histogramas y Diagramas de Caja

Usaremos la librería `Matplotlib` y `Seaborn` para crear gráficos que nos permitan visualizar la distribución de los datos.

* Un **histograma** muestra la frecuencia con la que aparecen los valores en diferentes rangos (o 'bins'). Nos da una idea de la forma de la distribución.
* Un **diagrama de caja (boxplot)** muestra la distribución de los datos a través de sus cuartiles, mediana y posibles valores atípicos (outliers). Es excelente para comparar distribuciones entre grupos.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Generar datos de ejemplo para visualizar (edades de una población)
np.random.seed(42)
edades = np.random.normal(loc=35, scale=10, size=500) # Media 35, Desv. Est. 10
# Asegurarnos de que las edades sean números enteros y positivas
edades = np.round(edades[edades > 0])

print("Primeras 5 edades generadas:")
print(edades[:5])

# --- Visualización: Histograma ---
plt.figure(figsize=(10, 5))
sns.histplot(edades, bins=20, kde=True) # kde=True añade una estimación de la densidad
plt.title('Histograma de Edades')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.grid(axis='y', alpha=0.75)
plt.show()

print("\n--- Tu Turno: Crea un histograma para tus propios datos ---")
# Genera 200 puntos de datos aleatorios con una media de 50 y desviación estándar de 15
np.random.seed(123)
mis_puntos = np.random.normal(loc=50, scale=15, size=200)

plt.figure(figsize=(8, 4))
sns.histplot(mis_puntos, bins=15, color='orange', kde=True)
plt.title('Histograma de Mis Puntos')
plt.xlabel('Valor')
plt.ylabel('Frecuencia')
plt.show()

# --- Visualización: Diagrama de Caja (Boxplot) ---
print("\n--- Diagrama de Caja de Edades ---")
plt.figure(figsize=(8, 4))
sns.boxplot(x=edades)
plt.title('Diagrama de Caja de Edades')
plt.xlabel('Edad')
plt.show()

print("\n--- Tu Turno: Crea un diagrama de caja para tus propios datos ---")
plt.figure(figsize=(8, 4))
sns.boxplot(x=mis_puntos, color='lightgreen')
plt.title('Diagrama de Caja de Mis Puntos')
plt.xlabel('Valor')
plt.show()


### ✨ Reflexión:

Las estadísticas básicas y las visualizaciones son las primeras herramientas que usamos para **entender nuestros datos**. Antes de aplicar cualquier algoritmo de Machine Learning, es vital saber qué información contienen y cómo se distribuye.

---

## ⏭️ ¿Qué sigue?

¡Excelente trabajo! Has cubierto los fundamentos de las estadísticas descriptivas. Esto te servirá para cualquier análisis de datos.

Ahora puedes:

1.  Revisar los otros notebooks de la Fase 1.
2.  Si aún no lo has hecho, completa los ejercicios prácticos adicionales en **`Anexos_Fase1/Ejercicios_Iniciales.ipynb`**.
3.  Consulta la **`Anexos_Fase1/Actividades_Investigacion_Fase1.md`** para las tareas de investigación.
4.  Si necesitas instalar un entorno local, revisa **`Anexos_Fase1/Guia_Anaconda_Jupyter.md`**.

¡Estás construyendo una base muy sólida para tu viaje en Machine Learning!